Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

AIGC动态2年前 (2024)发布 AIera

4,377 0 0

Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA

文章摘要

【关键词】 多模态模型、Chameleon、Transformer架构、信息融合、技术创新

Chameleon模型挑战了OpenAI的GPT-4o，成为首个敢于与之一较高下的新模型。Chameleon采用统一的Transformer架构，能够在单一神经网络中无缝处理文本和图像，通过将不同模态的信息转换为token，实现了模态间的早期融合。

Chameleon突破了传统模型使用特定编码器或解码器的限制，提高了跨模态信息融合的能力。模型经10万亿多模态token训练，340亿参数的Chameleon在纯文本任务中的性能与Gemini-Pro相当，并在视觉问答和图像标注基准上刷新了最新技术水平，接近GPT-4V的性能。

Chameleon的技术创新包括对模型架构的改进和训练技巧的运用，如QK归一化和Zloss等策略，以及将纯文本语言模型微调为多模态模型的方法。在分词化方面，Chameleon团队开发了一种新的图像分词器，将图像编码为离散的token，并与基于sentencepiece的文本分词器结合，共同训练了一个含有文本和图像token的BPE分词器。

这一系列创新使得Chameleon能够在多模态内容生成方面展现出文本和图像交错的能力，尽管模型目前主要支持图像和文本的生成，尚不具备GPT-4o中的语音处理能力。Meta的表态显示，他们致力于推动多模态基础模型的发展，并有可能进一步向开源社区靠拢，未来或许能见到类似GPT-4o的开源版本。