新的多模态盲测榜单来了，一眼望过去全是国产模型 | AI鲜测

AIGC动态1年前 (2024)发布 Si-Planet

2,257 0 0

文章摘要

【关键词】 人工智能、模型比较、GenAI-Arena、文生图、图片编辑

在人工智能领域，模型能力的比较一直是一个重要的研究方向。近期，滑铁卢大学的TIGER实验室推出的GenAI-Arena平台，为模型比较提供了一个新的场所。

在文生图模型榜单中，共汇集了11个模型，其中PlayGround V2.5、PlayGround V2和字节跳动的SDXLLightning模型位列前三。值得注意的是，字节跳动在榜单中独树一帜，而前十名中主要是PixArt和Stability AI的模型。

在图片编辑榜单中，目前共有9个模型，有趣的是，这一领域尚未有国产模型上榜，主要以国外大学主导的项目为主。

文生视频榜单则呈现出另一番景象，榜单前列几乎全是国产模型，包括上海人工智能实验室、腾讯、潞晨科技、阿里等企业的研究成果。

GenAI-Arena平台的使用方式与Chat Arena类似，可以进行盲测，也可以手动选择模型进行比较。如果用户不想自己构思Prompt，平台还提供了随机生成的选项。例如，一个有趣的Prompt可能是：“一头驴和一只章鱼正在玩游戏。驴子抓住绳子的一端，章鱼抓住另一端。驴子把绳子叼在嘴里。一只猫从绳子上跳过。”

在图像编辑板块，为了提高生成准确性，除了source prompt和target prompt，还需要instruct prompt来指导模型如何处理。例如，如果要让电视播放猫片，instruct prompt可以是“在电视上放猫的节目”。

目前，GenAI-Arena的榜单整体投票数量还在千级别，但已显示出模型之间的明显差异。随着未来更多模型的加入和更新，这一平台有望成为衡量AI模型能力的重要标杆，受到业界的持续关注。