实测可灵O1，AI视频界的Banana也来了。

924 0 0

文章摘要

可灵O1的推出标志着AI视频领域进入多模态大一统时代。这款全新视频大模型整合了参考生视频、文生视频、首尾帧生视频等六大核心功能，首次实现通过自然语言指令完成视频内容的增删改查。其名称中的”O”源自拉丁语前缀”Omni”，暗示着全模态融合的技术野心，与GPT-4o的命名逻辑形成行业呼应。

视频编辑能力实现革命性突破。传统需要专业后期人员数小时完成的内容修改，现在通过自然语言指令即可实现：在《马达加斯加的企鹅》片段中为企鹅添加西装墨镜，或让《哆啦A梦》中的小夫从画面中彻底消失。模型支持3-10秒时长的自由生成，将影视级特效制作的门槛降至普通用户级别。测试显示，对综艺节目艺人画面处理等场景具有显著效率提升。

精细化修改展现多模态理解深度。用户可单独修改视频元素的特定属性，如将夏季场景转为雪景、变更服装颜色或替换特定物体（篮球变足球）。虽然存在运动幅度过大时偶现穿帮的情况，但对于短视频创作已具备实用价值。天气系统修改功能实现人物与场景的自动融合，展现出模型对物理世界的理解能力。

专业级工具实现平民化应用。自动绿幕抠像功能突破传统影视制作流程，无需前期拍摄准备即可将普通视频转为绿幕素材，史迪仔太空漂浮案例显示其分割精度已达商用标准。动作迁移技术则实现跨角色舞蹈动作复制，测试中疯狂动物城的尼克能完美复现原版舞蹈动作，为内容创作者提供全新二次创作路径。

风格化处理拓展艺术表达边界。模型支持将实拍视频转化为手绘动画、赛博朋克等风格，测试中空地场景被成功转换为像素艺术风格，蒙克《呐喊》风格的移植创造出独特视觉张力。镜头延展功能可基于现有画面生成连贯镜头，如将普通车辆镜头扩展为具有速度感的追焦画面。

作为AI视频领域的首个全功能模型，可灵O1虽在多主体识别和画质稳定性方面仍有提升空间，但其技术架构预示着行业演进方向。开发者通过2万积分的内测验证了模型在短视频、影视特效、广告制作等场景的实用价值。该模型的推出，使得自然语言交互成为视频创作的新范式，其技术路线可能成为未来智能视频生成系统的奠基之作。