美团盯上原生多模态！路子还很野：把图像语音都当成Token来预测

54 0 0

文章摘要

为实现连续信号的精确离散化，视觉模块采用了语义和对齐编码器配合八层残差向量量化，这种分级打包处理能让不同层级仅负责未被覆盖的特征冗余，最高支持像素空间二十倍以上的压缩与高精度还原。语音部分的离散则融合了并行与串行生成两种策略，依靠随机的时间轴对齐训练让模型自我适配速度与准确性需求。值得注意的是，通过对各类复杂文档及图表基准测试的分析结果来看，离散化带来的潜在信息损失并未限制细粒度理解的准确度。在涉及 OCR 识别、逻辑推演的多维评测中，该方案均达到了甚至超越了专用的单项强化模型。

关键发现进一步揭示，理解模块与生成模块之间并非零和博弈。当二者依托同一个 Token 序列进行时，两者能够形成自然的互补增强机制，从而避免了过去因任务分裂导致的能力瓶颈。同时，扩充多媒体维度后的模型依然在数学推理与纯文本理解指标上保持了行业领先的竞争力，证明了非干扰性的架构整合是可行的。

此次成果的开源举动不仅提供了可供复用的技术方案，更是在响应外界关于突破纯文本 LLM 局限性的学术争论。它实际上是将学术界提倡的统一多模态预训练理念带入了实际操作层面。一旦这种不分模态差异的基础结构被广泛应用，未来人工智能可能不再关注具体的输入类型，而是将其视为待解构的整体信息流，这或许是通向通用人工智能的一个高效且必要的新突破口。