大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

AIGC动态2年前 (2024)发布 AIera

4,480 0 0

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

文章摘要

【关键词】 测试时间训练、语言模型、序列建模、自监督学习、性能优化

斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和Meta的研究人员提出了一种名为测试时间训练层（Test-Time-Training layers，TTT）的全新架构，旨在替代传统的注意力机制，从而可能彻底改变语言模型方法。

TTT层的提出基于对现有序列模型的深入分析。

TTT层的核心思想是在测试时对隐藏状态进行训练，通过自监督学习更新隐藏状态的权重，实现对每个token的一次梯度下降。

实验结果表明，TTT层在性能上超越了Transformer和Mamba。

TTT层的提出不仅在理论上具有创新性，而且在实际应用中也展现出了巨大的潜力。

研究人员表示，TTT层的构想源于对现有RNN层在长上下文建模中遇到的困难的深入思考。

TTT层的设计包括两个简单的实例：TTT-Linear和TTT-MLP。

总的来说，TTT层的提出为解决长上下文建模中的难题提供了一种新的视角和方法。

原文和模型

【原文链接】 阅读原文 [ 8951字 | 36分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # 序列建模 # 性能优化 # 测试时间训练 # 自监督学习 # 语言模型

文章版权归作者所有，未经允许请勿转载。

DeepSeek一天能赚多少钱？官方突然揭秘V3/R1推理系统，成本全透明

机器之心

2,801

更高智商更快思考！蚂蚁开源最新万亿语言模型，多项复杂推理SOTA

量子位

761

开源模型越来越落后？Llama 3 说李总你真幽默

AI大模型实验室

2,613

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

新智元

5,481

OpenAI公布2015—2018年重要邮件，回应马斯克起诉

AIGC开放社区

3,050

ChatGPT真能记住你的话吗？DeepMind与开源大佬揭示LLM记忆之谜

新智元

4,340

暂无评论

暂无评论...

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

文章摘要

原文和模型

第一批正在被AIGC重置的行业有话说

新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

相关文章

暂无评论

热门网址

热门文章

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑， 一夜推翻Transformer

文章摘要

原文和模型

第一批正在被AIGC重置的行业有话说

新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

相关文章

暂无评论

Trac-AI IDE

星辰Agent

讯飞文书-办公助手

热门网址

热门文章

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer