Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V

AIGC动态2个月前发布 Founder Park

342 0 0

Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V

文章摘要

【关键词】 多模态AI、模型对比、技术创新、性能评估、开源趋势

在多模态人工智能领域，GPT-4o 的问世开创了一个新纪元，被称为首个“原生”多模态模型，因其能无缝融合文本、视觉和音频。

区别于传统多模态模型采用的特定模态编码器或解码器，GPT-4o 利用单一神经网络处理所有模态。

Chameleon 采用了统一的 Transformer 架构，通过将图像“分词化”为离散的 token，实现了文本和图像的交织处理。

这一“混合模态”基座模型在预训练过程中，将不同模态的信息混合在一起，以提升模型跨模态信息处理能力。Meta 研究团队还提出了一系列架构创新和训练技术来解决优化稳定性和扩展性问题。

在实验评估中，Chameleon-34B 在多种基准测试中展现出了卓越性能，即使在纯文本任务生成中，也全面超越了 Llama 2，甚至在某些任务上接近或超过了参数规模更大的模型如 Mistral-7B/8x7B。

Chameleon 的发布被视为对 GPT-4o 的快速响应，尽管当前模型主要支持图像和文本，尚未包含 GPT-4o 的语音能力。

Meta 的举措被认为朝着让 GPT-4o 更接近开源社区的方向迈进一步。未来，开源版的 GPT-4o 或将不久面世，届时 Chameleon 可能会进一步推动多模态模型的发展。

原文和模型

【原文链接】 阅读原文 [ 3635字 | 15分钟 ]
【原文作者】 Founder Park
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

智谱AI

智谱AI是一家国内的AI大模型...

# AIGC动态 # GPT-GPTs # 图像生成 # 大模型 # 音频生成 # 多模态AI # 开源趋势 # 性能评估 # 技术创新 # 模型对比

文章版权归作者所有，未经允许请勿转载。

英伟达，开始慌了

admin

189

人形机器人带“飞”国产电机

admin

649

晶圆代工，战火蔓延

admin

227

腾讯、上海科大开源InstantMesh，图片直接生成3D模型

AIGC开放社区

465

真脱钩了？OpenAI突然对中国断供API，国产大模型无痛搬家服务立即上线｜钛媒体AGI

钛媒体AGI

264

AI视频理解天花板，全新MiniGPT4-Video刷爆SOTA！宝格丽宣传片配文一绝

新智元

461

暂无评论

暂无评论...

Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V

文章摘要

原文和模型

智能驾驶的「GPT 时刻」，怎么就被特斯拉搞出来了？

好莱坞巨星指控OpenAI，ChatGPT山寨她的声音

相关文章

暂无评论

热门网址

热门文章

Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V

文章摘要

原文和模型

智能驾驶的「GPT 时刻」，怎么就被特斯拉搞出来了？

好莱坞巨星指控OpenAI，ChatGPT山寨她的声音

相关文章

暂无评论

豆包-智能助手

讯飞星火大模型

Kimi-智能助手

公众号-AI说热点

热门网址

热门文章