标签:参数效率
预训练就学会思考!字节、北大等用14亿参数,撬动百亿模型推理能力
Ouro模型通过循环语言模型(LoopLM)的全新范式,在预训练阶段就内化了推理能力,仅用14亿参数就实现了百亿级模型的性能。这一突破性技术由字节、加州大学等...
字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」,Bengio组参与
现代大型语言模型(LLM)通常依赖显式的文本生成过程(如思维链)进行推理训练,但这种方法未能充分利用预训练数据的潜力。为解决这一问题,字节Seed团队联合...
我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型,结果出人意料
2025年上半年,AI开源领域的竞争聚焦于效率提升、多模态能力和智能体开发三大方向。参数规模不再是唯一追求,如何通过架构创新和训练方法优化实现“小模型强性...
中科院、百度提出新架构:突破参数限制,实现高效推理
针对大模型参数规模扩大与性能提升不匹配的挑战,中国科学院信息工程研究所联合百度与北京师范大学AI学院提出了Inner Thinking Transformer架构(ITT)。该架...
清华微软最新力作:用物理学革新Transformer注意力,「大海捞针」精度暴涨30%!
微软研究院和清华大学的研究人员提出了一种名为Differential Transformer(DIFF Transformer)的新模型架构,旨在改进Transformer模型中的注意力机制。该架构...
MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限
谷歌DeepMind的研究科学家Xu Owen He最近提出了一种名为PEER(参数高效专家检索)的新技术,该技术能够将混合专家(MoE)模型的专家数量扩展到百万级别,同时...





