硅谷豪赌算力烧到停电,中国团队反向出击!这一刀,直接砍碎Scaling Law

AIGC动态11小时前发布 AIera
50 0 0
硅谷豪赌算力烧到停电,中国团队反向出击!这一刀,直接砍碎Scaling Law

 

文章摘要


【关 键 词】 AI模型算力优化算法创新多模态任务高效推理

硅谷的算力竞争已从GPU数量转向电力资源的争夺,OpenAI和马斯克的xAI等巨头正投入万亿级资金建设超大规模算力集群。然而,Anthropic的研究揭示了一个关键问题:模型规模和算力增加未必带来智能提升,反而可能导致资源浪费和幻觉加剧。在这一背景下,Yuan 3.0 Flash的推出标志着AI发展路径的重要转变——通过算法创新而非单纯堆砌算力来实现智能突破

该模型采用40B参数的MoE架构,实际激活参数仅3.7B,却展现出超越数百亿参数模型的性能。其核心突破在于解决了大模型普遍存在的”过度反思”问题——即模型在获得正确答案后仍持续无效推理的现象。研究显示,在数学任务中,超过70%的token消耗发生在正确答案产生后的冗余验证阶段。Yuan 3.0 Flash通过RIRM(反思抑制奖励机制)和RAPO(反思感知自适应策略优化)两项创新技术,将推理token数量降低约75%,同时提升准确率。

在架构设计上,模型采用MoE机制实现精准参数激活,视觉编码器通过自适应分割处理高分辨率图像,语言主干网络采用LFA(局部过滤注意力)降低计算开销。测试显示其上下文长度达128K,在”大海捞针”测试中实现100%准确召回多模态任务表现尤为突出:RAG检索增强生成准确率64.47%,Docmatix多模态检索65.10%,均显著优于GPT-5.1的46.10%。

RIRM机制通过强化学习框架,教导模型识别”首次正确答案”节点,并对后续缺乏新证据的重复验证施加负奖励。在MATH-500数学基准上,该技术使反思阶段token占比从71.6%降至28.4%,总token减少47%的同时准确率从83.20%提升至89.47%。RAPO则从训练框架层面进行系统优化,通过动态采样、高熵token更新等策略,使训练效率提升52.91%,并保持大型MoE模型的稳定收敛。

YuanLab.ai团队的技术积累为这一突破奠定基础,从2021年发布2457亿参数的源1.0,到2024年推出MoE架构的源2.0-M32,再到如今的Yuan 3.0 Flash,展现了从参数竞赛向效率优化的重要转型。这一发展路径预示着AI领域的新趋势:智能的边界正从”思考深度”转向”决策时机”,模型开始具备隐式的成本-收益分析能力,能够自主调节计算资源的使用。

这一转变具有深刻的产业意义。当AI从追求”更大”转向追求”更准”,标志着技术开始从实验室走向实际生产环境。对于企业应用而言,降低无效token消耗意味着直接的成本节约,而保持或提升准确率则确保业务价值不受影响。Yuan 3.0 Flash所代表的”高效智能”范式,可能引领行业重新思考AGI的发展路径——不是通过无限堆砌算力,而是通过优化算法效率和决策质量来实现智能突破。

原文和模型


【原文链接】 阅读原文 [ 3243字 | 13分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...