标签:架构创新
Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!
Transformer架构的发明者之一Llion Jones近期发出警示,认为当前AI领域可能正陷入与RNN时代相似的困境。尽管Transformer推动了AI革命,但它并非通向通用人工...
DeepSeek-V4蓄势待发!梁文锋署名论文或开启第二个DeepSeek时刻
DeepSeek与北京大学联合发布的最新研究论文,展示了下一代模型DeepSeek-V4的架构基础。该模型预计将于2024年2月发布,具备强大的编程能力,可能超越当前市场...
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”
DeepSeek在2026年初发布了一篇关于mHC(流形约束超连接)的论文,这项研究对Transformer架构中最基础的残差连接(Residual Connection)进行了重要改进。残差...
独家丨MiniMax 高级研究总监钟怡然已于半年前离职
钟怡然博士作为MiniMax前高级研究总监,其学术与产业界成就备受瞩目。他毕业于澳大利亚国立大学,师从李宏东教授与Richard Hartley院士,累计发表40余篇顶级...
DeepDiver-V2来了,华为最新开源原生多智能体系统,“团战”深度研究效果惊人
华为发布的DeepDiver-V2原生多智能体系统采用“团队作战”模式,在复杂知识问答和深度研究报告生成方面表现出色,且已开源。性能优于同规格竞品:在BrowseComp-...
冲上热搜!美团大模型,靠「快」火了
随着 AI 普及,模型厂商开始关注在保证准确性的前提下,如何以最少算力解决问题并快速给出回应,相关开源模型也逐渐增多。美团新开源的 LongCat - Flash - Ch...
语音界Sora!微软刚开源新模型,一次生成90分钟语音、3200倍压缩率
微软研究院于今日凌晨开源创新音频模型VibeVoice - 1.5B,该模型在语音合成领域取得多项重大突破。它可一次性连续合成90分钟超长逼真语音,最多支持4名发言人...
手机实现GPT级智能,比MoE更极致的稀疏技术:省内存效果不减|对话面壁&清华肖朝军
在大模型竞争日益激烈的背景下,算力与效率的平衡成为决定胜负的关键因素。端侧部署作为大模型落地的最后一公里,长期以来面临算力瓶颈的挑战。面壁智能与清...
腾讯推出快思考模型:API 成本只有 deepseek 不到一半
腾讯混元团队近期推出自研快思考模型Turbo S,该模型通过架构创新实现首字时延降低44%,部署成本较前代模型下降数倍,定价仅为0.8元/百万tokens输入费用。该...





