标签:Transformer

Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!

Transformer架构的发明者之一Llion Jones近期发出警示,认为当前AI领域可能正陷入与RNN时代相似的困境。尽管Transformer推动了AI革命,但它并非通向通用人工...

DeepSeek开源大模型记忆模块!梁文锋署名新论文,下一代稀疏模型提前剧透

DeepSeek团队最新研究通过引入条件记忆机制,为Transformer架构补足了原生缺乏的知识查找功能。该研究提出名为Engram的创新模块,其核心思想是将传统N-gram方...

有300亿美元也未必“再造GPT-4”?NUS尤洋最新长文:拆穿AI增长瓶颈的真相

当前AI领域正面临智能增长的瓶颈,核心问题在于现有技术范式难以有效消化持续增长的算力。新加坡国立大学尤洋教授指出,过去十年AI的本质是将电力通过计算转...

大模型的第一性原理:(一)统计物理篇

2022年底至2025年间,大模型技术经历了从ChatGPT到Gemini 3的快速迭代,引发了对通用人工智能(AGI)的广泛讨论。白铂博士及其团队通过论文《Forget BIT, It ...

华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升

华为诺亚方舟实验室提出了一种名为Nexus的高阶注意力机制,旨在解决传统Transformer架构在复杂逻辑推理任务中的局限性。传统自注意力机制通过线性变换生成Que...

最具争议性研究:大模型中间层输出可 100% 反推原始输入

一项来自意大利罗马第一大学GLADIA Research Lab的研究表明,主流Transformer语言模型在信息处理过程中几乎不会丢失任何输入内容,从数学意义上看具有可逆性...

Mamba 架构上顶会ICLR 2026,AI大脑核心Transformer的王座还能坐稳吗?

Transformer架构在AI大模型领域占据主导地位,但其计算复杂度和能源需求随着序列长度呈二次方增长,引发了关于其可持续性的讨论。为解决这一问题,Mamba系列...

让模型直接“画”出蛋白质折叠,苹果推出SimpleFold通用预测模型,对标AlphaFold2

蛋白质的功能很大程度上由其精确的三维空间结构决定,而预测蛋白质如何从氨基酸链折叠成立体形态一直是生物学领域的核心难题。从1972年诺贝尔奖得主Christian...

Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了

KAIST、Mila和谷歌DeepMind团队近期发布了一种名为Mixture-of-Recursions(MoR)的全新大型语言模型(LLM)架构,该架构被认为有潜力成为Transformer的替代者...

基于能量的Transformer横空出世!全面超越主流模型35%

弗吉尼亚大学团队提出了一种名为EBT(Energy-Based Transformers)的新架构,通过基于能量的机制,首次在跨模态以及数据、参数、计算量和模型深度等多个维度...
1 2 3 10