标签:Transformer

大模型的第一性原理:(一)统计物理篇

2022年底至2025年间,大模型技术经历了从ChatGPT到Gemini 3的快速迭代,引发了对通用人工智能(AGI)的广泛讨论。白铂博士及其团队通过论文《Forget BIT, It ...

华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升

华为诺亚方舟实验室提出了一种名为Nexus的高阶注意力机制,旨在解决传统Transformer架构在复杂逻辑推理任务中的局限性。传统自注意力机制通过线性变换生成Que...

最具争议性研究:大模型中间层输出可 100% 反推原始输入

一项来自意大利罗马第一大学GLADIA Research Lab的研究表明,主流Transformer语言模型在信息处理过程中几乎不会丢失任何输入内容,从数学意义上看具有可逆性...

Mamba 架构上顶会ICLR 2026,AI大脑核心Transformer的王座还能坐稳吗?

Transformer架构在AI大模型领域占据主导地位,但其计算复杂度和能源需求随着序列长度呈二次方增长,引发了关于其可持续性的讨论。为解决这一问题,Mamba系列...

让模型直接“画”出蛋白质折叠,苹果推出SimpleFold通用预测模型,对标AlphaFold2

蛋白质的功能很大程度上由其精确的三维空间结构决定,而预测蛋白质如何从氨基酸链折叠成立体形态一直是生物学领域的核心难题。从1972年诺贝尔奖得主Christian...

Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了

KAIST、Mila和谷歌DeepMind团队近期发布了一种名为Mixture-of-Recursions(MoR)的全新大型语言模型(LLM)架构,该架构被认为有潜力成为Transformer的替代者...

基于能量的Transformer横空出世!全面超越主流模型35%

弗吉尼亚大学团队提出了一种名为EBT(Energy-Based Transformers)的新架构,通过基于能量的机制,首次在跨模态以及数据、参数、计算量和模型深度等多个维度...

新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%

人类思维通常分为系统1(快速思维)和系统2(慢速思维),后者在处理复杂任务时尤为重要。然而,当前的大语言模型在系统2思维任务上表现不足,尤其是在需要多...

田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索

田渊栋团队的最新研究揭示了AI模型在处理复杂任务时,通过连续思维链的并行搜索机制,能够显著提升推理效率。传统的大语言模型(LLM)通常采用离散思维链进行...

微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好

随着大语言模型(LLM)的快速发展,扩展Transformer架构已成为推动人工智能领域进步的关键途径。然而,LLM参数规模的指数级增长带来了高昂的训练成本和推理效...
1 2 3 10