千呼万唤的可灵网页版来了！基础模型重磅升级，新功能“炸场”WAIC

AIGC动态2年前 (2024)发布 QbitAI

3,836 0 0

文章摘要

在世界人工智能大会上，快手公司展示了其最新的人工智能视频生成技术——可灵，并发布了该技术的一系列更新。可灵是全球首个用户可用的真实影像级视频生成大模型，自发布一个月以来，已有超过50万人申请使用，实际开放给超30万用户，生成了超过700万条短视频。这一技术不仅在国内受到广泛关注，也吸引了国际社会的注意，Stability AI的前CEO Emad Mostaque评价中国在这一领域已经遥遥领先。

快手并不满足于当前成就，他们推出了可灵Web端，提供了更高清画质的视频生成，同时增加了首尾帧控制和镜头控制功能，并将文生视频的时长开放到了10秒。此外，快手还开源了可图，这是一个文生图模型，能够生成高质量的图片，并且具有强大的语义跟随能力和广泛的应用场景。

可灵生成的视频质量高，符合物理规律，能够准确刻画大幅度运动。例如，可灵能够生成一只在公路上高速奔跑的老虎，画面连贯，动作协调，甚至能够展现奔跑过程中躯干部分的抖动。此外，可灵还具有强大的泛化能力，即使是在训练过程中很少见的素材，如水墨画，也能生成惟妙惟肖的运动效果。

在CVPR会议上，可灵新增了图生视频和视频续写两项功能。图生视频功能能够根据一张静态图片生成动态视频，而视频续写功能则可以不断延长已生成的视频，每次延长5秒，最长可达三分钟。

快手高级副总裁盖坤宣布，可灵再次迎来重磅更新，包括基础模型的升级，画质提升，以及新功能的增加。新版本可灵能够一次性生成10秒的视频，并且新增了首尾帧控制和镜头控制功能。这些更新进一步提升了可灵在运动生成、物理规律、视频画质、指令响应等方面的能力。

快手视觉生成与互动中心负责人万鹏飞深入剖析了可灵的技术方案，包括模型设计、数据保障、计算效率和能力拓展等方面。预计视频生成模型将为游戏、动画、泛视频行业带来新机遇，并有望作为世界模拟器，为具身智能提供互动仿真环境。

除了模型的升级和功能更新，快手还发布了可灵Web版本，方便用户在PC上创作和管理作品。Web界面整合了可图的图片生成功能，实现了可图与可灵的深度联动。可图在内部盲测和第三方测试中均取得了优异的成绩，展现了其高质量的图像生成能力和对中文的理解。

可图的上线和开源，将进一步推动图像生成技术的发展和应用。通过可灵和可图的结合，用户可以更加便捷地创作出高质量的视频和图片，满足多样化的创意需求。快手在人工智能领域的创新和开放，将为整个行业带来更多的可能性和机遇。