首个实时世界模型发布：视频媒介的「交互」时代开始了

305 0 0

文章摘要

PixVerse R1的发布标志着AI视频生成技术进入实时交互时代。这一由爱诗科技研发的世界模型首次实现1080P分辨率下的即时响应级生成，彻底改变了传统AI视频创作中”输入-等待-输出”的异步模式。用户通过自然语言指令即可实时操控画面演变，视频从静态结果转变为可干预的动态过程，这种被命名为”Playable Reality”（可玩现实）的新形态模糊了视频与游戏的界限。

技术突破源于三大核心架构：Omni原生多模态基础模型实现了语义与视觉的深度融合，自回归流式生成机制确保画面切换的连贯性，瞬时响应引擎则将延迟压缩至人类难以感知的程度。与Sora等基于DiT架构的模型相比，R1通过”无限可视化流”的范式替代传统固定片段生成，使数字世界能够随交互持续演化。尽管在长时间物理模拟精度上仍需优化，其实时性优势已展现出变革潜力。

这种技术演进将重构多个领域。在娱乐产业，NPC反应可突破预设脚本实现动态响应，电影叙事能根据观众选择实时分支；在商业场景，直播电商可生成个性化产品展示。爱诗科技CEO王长虎将其定义为”正在发生的现在”的媒体形态，预测未来创作与消费的边界将完全消融，用户既是观众也是即时创作者。

目前PixVerse R1采用内测邀请制，其技术路线揭示出AI视频发展的关键方向：当生成速度超越人类感知阈值时，技术本身将隐于无形，数字世界才能真正成为想象力的延伸场域。这种从工具到生态的转变，或将成为继文字生成、图像生成之后，AIGC领域的下一个爆发点。