大模型
LLM,VLM,模型
DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍
DeepSeek V3/R1等大模型在开源社区广泛应用的背景下,如何通过后训练技术实现低成本、高质量的私有模型定制成为行业焦点。Colossal-AI推出的开源大模型后训练...
Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力
OpenAI推出并开源了全新基准测试SWE-Lancer,旨在通过真实软件工程任务评估大模型的编码能力。该基准包含来自自由职业平台Upwork的1,488个任务,总价值达100...
发论文亲自上?创业十多年,DeepSeek梁文锋的“技术男”属性从没改变
DeepSeek团队近日发布新论文,提出名为Native Sparse Attention(NSA)的新型注意力机制。该机制通过动态分层稀疏策略,结合粗粒度标记压缩与细粒度标记选择...
最大参数 300 亿!阶跃星辰与吉利联合开源两款多模态大模型
阶跃星辰与吉利汽车集团联合宣布,将Step系列多模态大模型向全球开发者开源。此次开源包含参数量达300亿的Step-Video-T2V视频生成模型,以及产品级开源语音交...
DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此
Colossal-AI团队近期推出开源大模型后训练工具箱,为开发者提供低成本构建私有模型的解决方案。该工具箱支持对DeepSeek-V3/R1-671B等大模型进行全流程优化,...
Elon Musk用20万个GPU打造Grok 3,目标是100万GPU
伊隆·马斯克与xAI团队近日发布新一代AI聊天机器人Grok 3,宣称其具备“地球上最聪明AI”的能力。该模型在复杂物理、高等数学及编程任务中展现出显著优势,独立...
杨植麟和梁文锋,论文撞车了
在马斯克发布Grok3的同一天,DeepSeek与月之暗面分别发布论文,针对Transformer架构的核心注意力机制提出创新方案。DeepSeek的原生稀疏注意力(NSA)通过语义...
OpenAI CTO的新创业公司,我没理解要干嘛。
Mira Murati与多位OpenAI前高管共同创立的人工智能初创公司Thinking Machines Lab,正致力于开发增强人类与机器协作能力的多模态AI系统。该公司的核心目标是...
OpenAI前CTO 官宣新公司,Lilian Weng联创,阵容最豪华的AI创企出现了
前 OpenAI 首席技术官 Mira Murati 联合多位行业顶尖人才创立了 AI 公司 Thinking Machines Lab,团队成员包括前 OpenAI 安全研究副总裁 Lilian Weng、OpenAI...
测试「天下最聪明」的 Grok3:它真的是模型边际效应的终点吗?
马斯克与xAI团队发布的Grok3模型在基准测试中宣称超越主流AI系统,但其实际表现引发广泛质疑。在基础数学与物理问题测试中,Grok3未能正确回答'9.11与9.9大小...





