标签：位置嵌入

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

2015年发布的论文《End-To-End Memory Networks》虽然在当时被Transformer的光芒所掩盖，但它包含了当前大型语言模型的许多关键要素。这篇论文首次完全用注意...

AIGC动态

10个月前

200万上下文，超谷歌 Gemini 1.5！微软开源LongRoPE

文章主要介绍了微软研究推出的LongRoPE框架，该框架成功地将大语言模型的上下文扩展至200万，超过了谷歌Gemini 1.5的100万token上限。LongRoPE通过利用位置嵌...

AIGC动态

2年前 (2024)