苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

AIGC动态1年前 (2024)发布 AIGCOPEN

2,282 0 0

文章摘要

苹果和瑞士洛桑联邦理工学院的研究人员共同开发了4M-21，一个大规模多模态视觉模型，并于近日开源。该模型以其30亿参数量却能提供包括图像分类、目标检测、语义分割、实例分割、深度估计和表面法线估计等数十种功能的全面性而著称，类似于视觉模型界的“瑞士军刀”。

4M-21的关键技术是“离散tokens”转换技术，该技术将不同模态的数据转换为统一格式的tokens序列数据，简化了模型训练并为多模态学习和处理提供了基础。例如，图像数据通过基于Vision Transformer的变分量化自编码器进行标记化，而文本数据则通过WordPiece分词器编码为文本tokens。

在训练过程中，4M-21采用掩码建模方法，随机遮盖输入序列的部分tokens，然后基于剩余未遮盖的tokens预测被遮盖部分。这种方法不仅提升了模型的泛化能力，还提高了生成任务的准确性，使模型能够以迭代的方式预测缺失的tokens。

研究人员在多个测试平台上对4M-21进行了综合评测，结果显示其多模态处理能力可与当前最先进模型媲美。例如，在COCO数据集的语义和实例分割任务上，4M-21表现出色，准确识别和区分图像中的多个对象。在3DPW数据集上的3D人体姿态估计任务中，4M-21也取得了显著成绩，能够精确捕捉人体的姿态变化。

4M-21的开源地址为https://github.com/apple/ml-4m/，相关论文可在https://arxiv.org/abs/2406.09406查阅，同时Hugging Face上也有在线demo可供体验：https://huggingface.co/spaces/EPFL-VILAB/4M。这一模型的发布为AIGC领域的专业社区提供了新的研究和应用资源，有助于推动大语言模型（LLM）的发展和市场研究，同时也为AIGC开发者生态带来新的动力。