标签:参数优化

10B超越Gemini-2.5-Pro!阶跃星辰端侧多模态天花板开源

阶跃星辰多模态智能团队最新开源的STEP3-VL-10B模型以100亿参数规模实现了超越千亿参数模型的性能突破。该模型在数学推理、视觉感知及复杂指令遵循等任务中,...

BOSS直聘3B超越Qwen3-32B,更多训练数据刷新小模型极限

一款仅有30亿参数的小模型在数学和推理能力上超越了320亿参数的大模型,这一突破性成果由BOSS直聘Nanbeige大语言模型实验室通过其开源的Nanbeige4-3B模型实现...

Nature重磅!清华团队揭秘大模型新规律:告别参数内卷,智能密度每3.5个月翻一番

清华大学与面壁智能团队在《自然-机器智能》发表的研究揭示了大语言模型进化的核心规律——致密律(Densing Law),标志着AI发展从参数堆砌转向效率革命。研究...

Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调

LoRA(低秩适配)作为一种参数高效微调方法,在特定条件下能够与全参数微调(FullFT)达到相近性能。 Thinking Machines的最新研究通过监督微调和强化学习实...

360AI推出DiT架构下”省钱版”ControlNet, 参数量骤减85%性能达到SOTA!

360人工智能研究院提出新型可控生成框架RelaCtrl,通过优化控制信号集成方式和引入轻量化模块设计,有效解决了现有Diffusion Transformer方法存在的参数冗余...

阿里开源版Sora上线即屠榜,4070就能跑,免费商用

阿里巴巴近期开源了一款名为Wan 2.1的视频生成模型,拥有14B参数量,凭借其卓越的性能在VBench上超越了Sora和Gen-3等竞争对手。该模型在处理复杂运动细节方面...

突破算力限制!Meta开源“记忆层”,重塑Transformer架构大模型

Meta公司近期发布了一项名为“记忆层”的创新研究,旨在解决预训练大模型中因参数增加而导致算力需求指数级增长的问题。记忆层通过高效查询机制,避免了遍历整...

把训练成本打下来99%!吊打GPT又“征服”OpenAI创始成员,DeepSeek“国产之光”实至名归?

中国AI初创公司DeepSeek发布了其最新人工智能模型DeepSeek-V3的首个版本,并宣布开源。该模型能够处理多种基于文本的工作负载和任务,包括编码、翻译和撰写论...

Ai2开源OLMo 2:数据集、训练方法、权重大放送

AI研究机构Ai2最近开源了一款名为OLMo 2的大模型,这是一款全面开放的人工智能模型,不仅提供模型权重,还包括工具、数据集和训练配方等开发所需内容。OLMo 2...

多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源

最近,多模态大模型(LMM)在视觉-语言任务上取得了显著的进展,尤其是在视觉场景下的应用。然而,将LMM应用于计算机视觉任务,特别是图像分割方面,仍面临挑...
1 2