标签:模型架构
LLM近期重大架构进化一览:从Gemma 4到DeepSeek V4
随着大模型上下文窗口不断扩展,KV缓存膨胀与注意力计算成本飙升已成为制约长序列推理的核心瓶颈。近期多款主流开源模型的架构演进表明,降低长上下文推理的...
挑战扩散自回归统治!字节提出视觉生成第三种路线,让模型像人类一样边画边改
字节商业化技术团队近期提出全新视觉生成架构生成精炼网络,为图像与视频自动化创作开辟出独立于主流扩散模型与自回归模型的第三种技术路线。该架构创新性采...
OpenAI前CTO做的新模型,在硅谷刷屏了。
为调和即时响应与复杂计算的底层冲突,该架构拆分出前台交互层与后台推理层,前者维持低延迟在线感知,后者专注长周期任务规划。两组模型共享动态上下文记忆...
ICLR最佳论文:Transformer天生简洁
研究借助高维度平铺难题构建推演模型,证实参数仅呈多项式级别的网络能够精准表征复杂度呈双重指数级的空间约束关系。注意力机制在此承担起全局校验职责,依...
GPT-Image-2 :随意做出可作为“证据”的图片,强到让人恐慌
4 月 21 日,OpenAI 正式发布 GPT-Image-2,其在 Image Arena 排行榜上以显著优势位居第一,实现了全榜领先的清洁横扫。该模型面向所有 ChatGPT 用户,核心参...
Ilya警告、LeCun冷嘲、奥特曼沉默:Scaling Law时代还能走多远?
智能的本质与转化机制正成为当前AI领域的核心议题。过去十年间,大模型技术通过将电力能源转化为可复用的智能,实现了显著进步,但这一转化效率的瓶颈已逐渐...
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
从生物进化与AI技术发展的惊人相似性出发,Daniel Povey揭示了技术迭代的底层逻辑。 AI领域的进步如同自然界进化过程,表现为长期停滞与爆发式跃迁交替的非线...
1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?
研究发现,不同神经网络在训练过程中会收敛到共享的低维子空间,表明存在一种先验的数学结构,架构对学习结果的影响可能比数据更大。约翰斯・霍普金斯大学的...
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
Physical Intelligence团队发布的π_0.6和清华大学星动纪元的iRe-VLA研究,标志着视觉-语言-动作模型(VLA)与在线强化学习(RL)结合的重大突破。VLA+online ...
谷歌祭出Transformer杀手,8年首次大突破!掌门人划出AGI死线
谷歌DeepMind CEO Hassabis预测,2030年前将实现具备或超越人类能力的通用人工智能(AGI)。他认为,当前AI系统虽已取得显著进展,但仍需1-2个类似Transforme...




