Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA

AIGC动态1个月前发布 AIera
257 0 0
Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA

 

文章摘要


【关 键 词】 多模态模型ChameleonTransformer架构信息融合技术创新

Chameleon模型挑战了OpenAI的GPT-4o,成为首个敢于与之一较高下的新模型。Chameleon采用统一的Transformer架构,能够在单一神经网络中无缝处理文本和图像,通过将不同模态的信息转换为token,实现了模态间的早期融合。

Chameleon突破了传统模型使用特定编码器或解码器的限制,提高了跨模态信息融合的能力。模型经10万亿多模态token训练,340亿参数的Chameleon在纯文本任务中的性能与Gemini-Pro相当,并在视觉问答和图像标注基准上刷新了最新技术水平,接近GPT-4V的性能。

Chameleon的技术创新包括对模型架构的改进和训练技巧的运用,如QK归一化和Zloss等策略,以及将纯文本语言模型微调为多模态模型的方法。在分词化方面,Chameleon团队开发了一种新的图像分词器,将图像编码为离散的token,并与基于sentencepiece的文本分词器结合,共同训练了一个含有文本和图像token的BPE分词器。

这一系列创新使得Chameleon能够在多模态内容生成方面展现出文本和图像交错的能力,尽管模型目前主要支持图像和文本的生成,尚不具备GPT-4o中的语音处理能力。Meta的表态显示,他们致力于推动多模态基础模型的发展,并有可能进一步向开源社区靠拢,未来或许能见到类似GPT-4o的开源版本。

网易AI智能绘画

原文和模型


【原文链接】 阅读原文 [ 4072字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...