Meta开源多token预测，提升大模型推理效率

AIGC动态2年前 (2024)发布 AIGCOPEN

3,835 0 0

文章摘要

【关键词】 AIGC社区、多token预测、Transformer、推理效率、技术创新

AIGC开放社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，专注于AIGC领域的市场研究和开发者生态。

传统的大模型预训练方法使用下一个token预测的损失函数，虽然强大但存在局限性。

为此，研究人员提出了“多token预测”训练方法，要求模型在每个位置上同时预测接下来的n个Token，以提高推理效率而不增加预训练时间。

在推理阶段，使用单个下一Token预测的输出头进行自回归生成，其他输出头则用于加速推理效率。

多Token预测作为辅助训练任务，能提高模型在代码和自然语言文本方面的任务性能。

为解决可能导致GPU内存使用量增加的问题，研究人员开发了一种前向和后向传播顺序，通过减少内存中同时存储的梯度数量，降低内存使用量，提高训练效率。

研究人员在不同参数规模的模型上评估了该技术，结果显示130亿参数模型在HumanEval和MBPP上解决问题能力分别提高了12%和17%。

多token预测在推理效率上表现出色，尤其是大规模批处理，经过4 token训练的模型在推理时速度可提升3倍。

这一创新训练方法有望为大模型的发展和应用带来新的突破。

原文和模型

【原文链接】 阅读原文 [ 933字 | 4分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # AI大模型 # AIGC社区 # Transformer # 多token预测 # 技术创新 # 推理效率

文章版权归作者所有，未经允许请勿转载。

光靠流量，造不好中国车？

硅星人Pro

3,705

【 ICLR 2025 】Adam 有了 mini 版：内存减半，吞吐量可提升 50%

AI科技评论

2,017

零一万物在做什么？

Founder Park

5,331

终于拿到内测！豆包-PixelDance真是字节视频生成大杀器

机器之心

4,332

台上松弛的魏建军，却让长城找回战斗的感觉

硅星人Pro

4,157

中国版 Runway 新功能上线，图生视频动效更强

AI前线

3,866

暂无评论

暂无评论...

Meta开源多token预测，提升大模型推理效率

文章摘要

原文和模型

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

达摩院发布一站式AI视频创作平台"寻光"，打造全新AI工作流

相关文章

暂无评论

热门网址

热门文章

Meta开源多token预测，提升大模型推理效率

文章摘要

原文和模型

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

达摩院发布一站式AI视频创作平台"寻光"，打造全新AI工作流

相关文章

暂无评论

AstronClaw-安全养虾

LibTV-AI视频创作

讯飞AI大学堂

热门网址

热门文章