标签:模型架构
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
从生物进化与AI技术发展的惊人相似性出发,Daniel Povey揭示了技术迭代的底层逻辑。 AI领域的进步如同自然界进化过程,表现为长期停滞与爆发式跃迁交替的非线...
1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?
研究发现,不同神经网络在训练过程中会收敛到共享的低维子空间,表明存在一种先验的数学结构,架构对学习结果的影响可能比数据更大。约翰斯・霍普金斯大学的...
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
Physical Intelligence团队发布的π_0.6和清华大学星动纪元的iRe-VLA研究,标志着视觉-语言-动作模型(VLA)与在线强化学习(RL)结合的重大突破。VLA+online ...
谷歌祭出Transformer杀手,8年首次大突破!掌门人划出AGI死线
谷歌DeepMind CEO Hassabis预测,2030年前将实现具备或超越人类能力的通用人工智能(AGI)。他认为,当前AI系统虽已取得显著进展,但仍需1-2个类似Transforme...
Transformers来到了v5时代:从工具包到真理之源,AI时代的操作系统内核的极简进化论
Transformers v5的发布标志着AI基础设施演进的重要里程碑。该版本通过模块化重构、统一量化标准和端云生态整合,将碎片化的开发流程收敛为工业标准,日均安装...
Google又发布了一篇可能改变AI未来的论文,这次它教AI拥有了记忆。
Google Research近期发表的论文《Nested Learning: The Illusion of Deep Learning Architectures》提出了一种突破性框架,旨在解决当前大模型存在的“顺行性...
大模型开发者必读!拆解世界级AI模型的诞生,Hugging Face把4年模型训练经验写成了一本开源指南
Hugging Face发布的《The Smol Training Playbook》手册,由12位顶尖工程师团队撰写,系统总结了构建世界级大语言模型的核心方法论。手册开篇便颠覆性地指出...
HuggingFace发布超200页「实战指南」,从决策到落地「手把手」教你训练大模型
HuggingFace近期发布了一篇超过200页的技术博客,系统性地分享了训练先进大语言模型(LLM)的端到端经验。博客的核心价值在于揭示了LLM开发过程中「混乱的现...
新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!
火山引擎近期对豆包语音大模型进行了重大升级,推出了豆包语音合成模型2.0和豆包声音复刻模型2.0。此次升级的核心目标是让AI语音从“像人”走向“懂人”,通过深...
阿里DeepSeek时刻!开源新架构模型:推理快10倍、成本暴降90%
今天凌晨2点,阿里巴巴开源新架构模型Qwen3-Next-80B-A3B,引发广泛关注。Qwen3-Next是混合专家模型,总参数800亿,仅激活30亿,训练成本较Qwen3 - 32B暴降90...



