超越Sora极限，120秒超长AI视频模型诞生！

AIGC动态2年前 (2024)发布 AIera

3,858 0 0

文章摘要

【关键词】 视频生成、条件注意力、外观保持、一致性、动态效果

UT奥斯丁等机构提出了一种名为StreamingT2V的技术，可以让AI视频的长度扩展至近乎无限，同时保持一致性和良好的动作幅度。

这项技术的核心构架包括三个部分：条件注意力模块（CAM）用于确保视频连贯性，外观保持模块用于防止遗忘开头场景，以及随机混合技术用于保持一致性。

StreamingT2V的特点是不限定于特定的文生视频模型，随着基础模型性能的提升，生成的视频效果也会不断提升。

该技术展示了不同帧数的视频效果，从1200帧的2分钟视频到80帧的8秒视频，都展现出良好的动态效果和一致性。

StreamingT2V的工作流程分为初始化阶段、Streaming T2V阶段和Streaming Refinement阶段，通过条件注意力模块和外观保持模块增强视频生成质量。

条件注意力模块利用特征提取器和特征注入器，而外观保存模块则通过固定锚帧信息保持长期记忆。

此外，自动回归视频增强阶段利用高分辨率文本-视频模型对生成的视频块进行增强。

在评估方面，研究人员采用了一些指标来评估方法的时间一致性、文本对齐和每帧质量。

整体而言，StreamingT2V技术展示了生成高度一致且长度可扩展的视频的潜力，为文生视频技术带来了新的发展方向。

原文和模型

【原文链接】 阅读原文 [ 1996字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

OpenAI ChatGPT

ChatGPT是OpenAI公司开发的一种大型语言模型。它是一种基于Transformer架构的深度学习模型，可以对语言进行建模和生成。它可以处理问答、对话生成、文本生成等多种任务。

# AIGC动态 # AI大模型 # 视频生成 # gpt-3.5-turbo-0125 # OpenAI # 一致性 # 动态效果 # 外观保持 # 新智元 # 条件注意力 # 视频生成

文章版权归作者所有，未经允许请勿转载。

OpenAI 年底炸圈开幕：首发 o1 正式版 + 200 美元 Pro 会员

极客公园

1,787

XZ恶意代码潜伏三年，差点引发核末日？后门投毒黑客身份成谜

新智元

4,048

苹果”弃车从AI”：十年迷途知返，犹未晚矣丨智涌深度

admin

3,558

Sora天才辍学生归来！OpenAI组建3人神秘小队，豪赌超级人工智能

新智元

1,200

阿里地毯式“买断”大模型赛道

admin

3,611

黄仁勋，预言之神？

admin

3,148

暂无评论

暂无评论...

超越Sora极限，120秒超长AI视频模型诞生！

文章摘要

原文和模型

马斯克脑机接口再造奇迹：瘫痪小伙意念玩赛车击败正常人，打破光标控制记录，产生271页宝贵数据

独家：阿里云是如何布局 AI 大模型生态的？｜钛媒体AGI

相关文章

暂无评论

热门网址

热门文章

超越Sora极限，120秒超长AI视频模型诞生！

文章摘要

原文和模型

马斯克脑机接口再造奇迹：瘫痪小伙意念玩赛车击败正常人，打破光标控制记录，产生271页宝贵数据

独家：阿里云是如何布局 AI 大模型生态的？｜钛媒体AGI

相关文章

暂无评论

AstronClaw-安全养虾

LibTV-AI视频创作

讯飞AI大学堂

热门网址

热门文章