标签:Transformer

Mamba 架构上顶会ICLR 2026,AI大脑核心Transformer的王座还能坐稳吗?

Transformer架构在AI大模型领域占据主导地位,但其计算复杂度和能源需求随着序列长度呈二次方增长,引发了关于其可持续性的讨论。为解决这一问题,Mamba系列...

让模型直接“画”出蛋白质折叠,苹果推出SimpleFold通用预测模型,对标AlphaFold2

蛋白质的功能很大程度上由其精确的三维空间结构决定,而预测蛋白质如何从氨基酸链折叠成立体形态一直是生物学领域的核心难题。从1972年诺贝尔奖得主Christian...

Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了

KAIST、Mila和谷歌DeepMind团队近期发布了一种名为Mixture-of-Recursions(MoR)的全新大型语言模型(LLM)架构,该架构被认为有潜力成为Transformer的替代者...

基于能量的Transformer横空出世!全面超越主流模型35%

弗吉尼亚大学团队提出了一种名为EBT(Energy-Based Transformers)的新架构,通过基于能量的机制,首次在跨模态以及数据、参数、计算量和模型深度等多个维度...

新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%

人类思维通常分为系统1(快速思维)和系统2(慢速思维),后者在处理复杂任务时尤为重要。然而,当前的大语言模型在系统2思维任务上表现不足,尤其是在需要多...

田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索

田渊栋团队的最新研究揭示了AI模型在处理复杂任务时,通过连续思维链的并行搜索机制,能够显著提升推理效率。传统的大语言模型(LLM)通常采用离散思维链进行...

微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好

随着大语言模型(LLM)的快速发展,扩展Transformer架构已成为推动人工智能领域进步的关键途径。然而,LLM参数规模的指数级增长带来了高昂的训练成本和推理效...

被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作

2015年发布的论文《End-To-End Memory Networks》虽然在当时被Transformer的光芒所掩盖,但它包含了当前大型语言模型的许多关键要素。这篇论文首次完全用注意...

OpenAI、谷歌等一线大模型科学家公开课,斯坦福CS 25春季上新!

斯坦福大学的CS25课程专注于Transformer架构,吸引了众多AI领域的顶尖研究者参与。这门课程的最新版本「CS25: Transformers United V5」邀请了Google DeepMin...

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

德州大学奥斯汀分校的研究团队通过结合Transformer和离线强化学习技术,成功训练出一个能够在宝可梦对战中表现出色的AI智能体。该智能体完全依赖于人类历史对...
1 2 3 10