标签:大模型

Claude团队用Qwen测试全新训练方法

多维度实验数据充分验证了该范式的实际效能与数据优势。在价值观导向测试中,研究人员为模型输入完全相同的偏好数据,仅因训练阶段植入的规范导向不同,模型...

豆包要收费了:三档订阅最贵500元/月,保留免费基础版

在市场竞争层面,尽管近期涌现出多款性能强劲的开源技术,豆包在应用端依然保持绝对领先。四月其日活跃用户环比增长百分之二十一,正式跨越一点四亿大关。月...

Anthropic启动500亿美元IPO前融资,估值剑指9000亿美元

Anthropic正式启动新一轮约五百亿美元私募融资方案,要求投资者于五月中旬前完成提交,目标估值剑指九千亿美元。部分早期资本预期押注后续公开募股,公司因而...

腾讯混元最新开源:440M翻译模型手机离线就能用,翻译质量超谷歌

随着跨境办公与本地化阅读的日益频繁,传统依赖云端接口的翻译工具在弱网、断网及高隐私要求场景中表现出明显的体验断层。腾讯混元团队针对智能手机的内存瓶...

有人只用API就猜出了GPT、Claude、Gemini的参数量?社区吵翻了

研究人员提出「不可压缩知识探针」评测框架,尝试仅通过黑盒接口调用,逆向估算大语言模型的参数规模。该方法基于核心假设,即模型的逻辑推理能力可通过训练...

MiniCPM-o 4.5 技术报告发布:全双工全模态 API 开放,RTX5070 即可实时运行

面壁智能联合清华大学开源九亿参数模型,成功构建业界首个支持端到端全双工全模态交互的智能系统。该系统突破传统轮次对话的时序割裂,依托首创的Omni-Flow流...

一个小众模型突然火了,可能代表新的范式。

近年大模型密集发布,虽在性能参数上持续优化,但底层架构的范式演进仍是技术发展的核心。行业已历经三大关键里程碑:通过内部思维链实现深度计算的推理范式...

确认!DeepSeek多模态AI已经开测

视觉能力的落地建设直接依托核心研发团队的专项攻关。多模态研究组负责人主导了整体架构设计与跨模态对齐方案,其前期统筹的统一多模态框架及基于稀疏专家的...

测完腾讯混元新模型,发现很多人没看懂它的思路

在工程化验证环节,底层运算性能与外部调用框架的紧密耦合直接决定最终交付质量。采用中等参数体量配合自动化工具台进行多轮任务测试,能够在算力成本与执行...

OpenAI登陆Bedrock,AI云战争的铁索终于断了

微软与OpenAI正式终结长达七年的独家云绑定关系,协议转为非独家授权与收益分成模式。微软保留新模型在Azure的优先部署权及核心IP授权至2032年,分成延续至20...
1 11 12 13 14 15 94