46.5万次盲测封王！Grok视频模型屠榜Arena，谷歌最强对手来了

498 0 0

文章摘要

xAI旗下Grok图像转视频模型grok-image-video-720p以1404分的ELO评分登顶Image-to-Video Arena排行榜，在46.5万次盲测投票中力压包括谷歌Veo 3.1在内的竞品位居第一。马斯克亲自为该模型站台，称其每周迭代优化，xAI将Grok Imagine定位为当前最强悍的「视频+音频」生成模型。该模型可实现静态图动态化、文本生成视频、电影级镜头精细打磨等多种功能，X平台上网友用其制作的涵盖电影特效、动画、日常生活等场景的视频已迅速刷屏，有观点认为其不仅推动AI视频工具进化，更可能重构领域格局，甚至掀起生成式视频技术军备竞赛。

Grok Imagine是xAI打造的多模态视频-音频生成模型，最新版本1.0于2026年2月初发布，支持生成10秒长720p高清视频，在运动平滑度、原生音频质量、提示词遵循能力上实现跨越式升级，相比此前版本更聚焦视觉质量、多模态能力与成本、延迟的平衡，支持端到端创意工作流。其核心能力包括三大维度：一是业界领先的视频生成与指令遵循能力，可通过文本描述或静态图生成480p/720p、10-15秒的短视频，精准执行复杂指令；二是零门槛视频编辑能力，支持上传视频或URL后，通过指令修改场景、增减物体、控制动作等，编辑后保留原视频核心元素并带原生音频，适配电影剪辑、广告调整等场景；三是实现更快速度与更低成本的平衡，xAI针对延迟、并发量和成本进行极限优化，让模型兼具高性能与高性价比。

除盲测排行榜外，Grok Imagine在Artificial Analysis Image to Video Leaderboard也以1337 ELO分领先，评测涵盖质量、生成速度和价格维度，其API定价约4.20美元/分钟，低于谷歌Veo 3.1 Fast等竞品。第三方评测显示，该模型在原生音频、电影指令遵循上表现出色，低延时解决用户交互痛点，适合快速原型制作与创意短片创作，但存在视频质量偶尔抖动的问题。目前用户可通过grok.com/imagine官网、APP免费试用，或通过API集成使用Grok Imagine。