Transformer本可以深谋远虑，但就是不做

AIGC动态2年前 (2024)发布 almosthuman2014

2,477 0 0

Transformer本可以深谋远虑，但就是不做

文章摘要

【关键词】 语言模型、预测、隐藏状态、数据整理、深谋远虑

这篇报道探讨了语言模型是否会规划未来token的问题。研究发现，虽然Transformer有能力预测未来token，但在实践中并不会这样做。人类在使用语言时会预测即将出现的语言输入，而现在的语言模型在说话时为每个token分配固定的计算量，不像人类那样预先性地思考。最近的研究表明，可以通过探查语言模型的隐藏状态来预测未来的token。科罗拉多大学博尔德分校和康奈尔大学的研究者发布了一篇论文，观察到在训练期间的梯度会为当前token位置的损失优化权重，也会为序列后面的token进行优化。他们提出了预缓存假设和面包屑假设，通过实验发现Transformer在某些情况下会学习预缓存。然而，在真实语言数据上，语言模型并不会显著准备未来的信息，而是计算对预测下一个token有用的特征。因此，Transformer是否能深谋远虑似乎是一个数据问题，未来可能通过合适的数据整理方法让语言模型具备人类一样预先思考的能力。

原文和模型

【原文链接】 阅读原文 [ 1276字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

OpenAI ChatGPT

ChatGPT是OpenAI公司开发的一种大型语言模型。它是一种基于Transformer架构的深度学习模型，可以对语言进行建模和生成。它可以处理问答、对话生成、文本生成等多种任务。

# AIGC动态 # 大模型 # 数据整理 # 深谋远虑 # 语言模型 # 隐藏状态 # 预测

© 版权声明

文章版权归作者所有，未经允许请勿转载。

“绘蛙”

相关文章

如何在 Java 中基于 LangChain 编写大语言模型应用

AI前线

2,795

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

机器之心

1,999

超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

AI科技评论

3,085

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

机器之心

2,565

从 0 到 1 了解大模型安全，看这篇就够了

admin

12,366

Llama3-8B秒杀700亿巨兽？北大博士生等全新「BoT」框架推理暴涨70倍，24点图形推理一步成神

新智元

3,909

“讯飞星辰”

暂无评论

暂无评论...