Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!

AIGC动态2小时前发布 AIera
54 0 0
Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!

 

文章摘要


【关 键 词】 TransformerAGI架构创新生物启发局部优化

Transformer架构的发明者之一Llion Jones近期发出警示,认为当前AI领域可能正陷入与RNN时代相似的困境。尽管Transformer推动了AI革命,但它并非通向通用人工智能(AGI)的终极解决方案。作为Sakana AI创始人,Jones已大幅减少对Transformer的研究投入,指出该领域已过度拥挤,大量研究仅聚焦于架构微调而非根本性突破。

历史经验显示技术迭代存在”架构彩票”现象。Transformer取代RNN并非因其绝对优越性,而是性能差距达到临界点后的必然结果。当前情况与RNN末期惊人相似:研究者们不断调整归一化层位置或训练方式,却罕有颠覆性创新。Jones将这种现象比喻为”重力井效应”——Transformer的成功形成强大惯性,使任何新架构都难以获得足够发展空间,除非其优势呈碾压态势。

现有大语言模型表现出明显的”锯齿状智能”特征。模型在某些任务展现惊人能力的同时,却会犯下低级错误,反映出当前架构存在根本性缺陷。Jones批评业界将Transformer当作”万用工具”,通过外挂模块强行扩展功能,而非重新思考知识表示与计算方式。这种修补式发展可能掩盖了更本质的问题。

为突破困局,Jones团队转向生物启发的新架构研究。连续思维机(CTM)模拟神经元同步振荡机制,在神经动态表示基础上构建全新计算范式。该设计放弃完全生物学可行性,但保留了大脑信息处理的核心特征。值得注意的是,这类探索性研究因缺乏竞争压力,反而能进行更严谨的实验验证。

这一反思引发对AI发展路径的深层拷问。当Scaling成为行业共识时,多数资源集中于同一方向,可能造成创新生态的单一化危机。DeepMind首席科学家Ilya Sutskever同样指出,单纯扩大现有架构规模难以实现AGI。历史经验表明,范式转移往往发生在主流研究轨道之外,但识别突破方向的时机却充满不确定性。

Jones的警示揭示了一个残酷现实:在技术范式转换前,所有渐进式改进都可能被证明是徒劳的,但这类探索又是突破必经之路。这种两难处境恰似RNN时代末期——只有当新架构真正出现时,人们才能清晰判断先前工作的价值。当前AI领域亟需更多元的研究方向,以避免陷入集体性的局部最优陷阱。

原文和模型


【原文链接】 阅读原文 [ 1964字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...