Transformer亲爹痛斥：当前AI陷死胡同，微调纯属浪费时间！

382 0 0

文章摘要

【关键词】 Transformer、AGI、架构创新、生物启发、局部优化

Transformer架构的发明者之一Llion Jones近期发出警示，认为当前AI领域可能正陷入与RNN时代相似的困境。尽管Transformer推动了AI革命，但它并非通向通用人工智能（AGI）的终极解决方案。作为Sakana AI创始人，Jones已大幅减少对Transformer的研究投入，指出该领域已过度拥挤，大量研究仅聚焦于架构微调而非根本性突破。

历史经验显示技术迭代存在”架构彩票”现象。Transformer取代RNN并非因其绝对优越性，而是性能差距达到临界点后的必然结果。当前情况与RNN末期惊人相似：研究者们不断调整归一化层位置或训练方式，却罕有颠覆性创新。Jones将这种现象比喻为”重力井效应”——Transformer的成功形成强大惯性，使任何新架构都难以获得足够发展空间，除非其优势呈碾压态势。

现有大语言模型表现出明显的”锯齿状智能”特征。模型在某些任务展现惊人能力的同时，却会犯下低级错误，反映出当前架构存在根本性缺陷。Jones批评业界将Transformer当作”万用工具”，通过外挂模块强行扩展功能，而非重新思考知识表示与计算方式。这种修补式发展可能掩盖了更本质的问题。

为突破困局，Jones团队转向生物启发的新架构研究。连续思维机（CTM）模拟神经元同步振荡机制，在神经动态表示基础上构建全新计算范式。该设计放弃完全生物学可行性，但保留了大脑信息处理的核心特征。值得注意的是，这类探索性研究因缺乏竞争压力，反而能进行更严谨的实验验证。

这一反思引发对AI发展路径的深层拷问。当Scaling成为行业共识时，多数资源集中于同一方向，可能造成创新生态的单一化危机。DeepMind首席科学家Ilya Sutskever同样指出，单纯扩大现有架构规模难以实现AGI。历史经验表明，范式转移往往发生在主流研究轨道之外，但识别突破方向的时机却充满不确定性。

Jones的警示揭示了一个残酷现实：在技术范式转换前，所有渐进式改进都可能被证明是徒劳的，但这类探索又是突破必经之路。这种两难处境恰似RNN时代末期——只有当新架构真正出现时，人们才能清晰判断先前工作的价值。当前AI领域亟需更多元的研究方向，以避免陷入集体性的局部最优陷阱。