音频生成

音频,audio

百万人围观的「萌娃教训小狗」视频火了,结果都是AI生成的|附教程

萌娃与宠物互动的AI生成视频近期在社交平台掀起热潮,这些15秒以内的短视频通过温馨场景精准触达用户情感需求。视频内容包含小孩训斥狗狗、亲昵互动等生活化...

在拉斯维加斯,我看到了体育的未来

拉斯维加斯re:Invent大会新增的体育论坛(Sports Forum)标志着科技与体育的深度融合。与传统技术展区的硬核风格不同,该区域以互动体验设施为载体,背后却隐...

PixVerse V5.5 的震撼,做 AI 视频的人都知道这次更新的可贵之处

PixVerse V5.5模型的发布标志着国内AI视频生成技术迈入新阶段。作为首个具备Sora2级分镜能力的本土模型,其多镜头配置与音频原生直出的特性显著降低了专业级...

多人会话视频生成新突破:香港科技大学,浙江大学用单人数据实现多人交互视频生成

AnyTalker框架通过创新的音频-人脸交叉注意力机制(AFCA)和两阶段训练策略,实现了高质量、可扩展的多人对话视频生成。该技术由香港科技大学、浙江大学等机...

五年,终于等来Transformers v5

Hugging Face发布了Transformers v5的首个候选版本v5.0.0rc0,标志着这一全球最流行的AI基础设施库正式跨越了从v4到v5长达五年的技术周期。自2020年11月v4版...

MV导演诞生!上海巨人网络用让AI听懂音乐并掌镜拍摄MV

上海巨人网络AI实验室提出的YingVideo-MV框架通过创新的级联架构,将音乐语义分析、导演级镜头规划与时间感知视频生成相结合,显著提升了音乐视频生成的质量...

ChatGPT三岁生日,谷歌却为它准备了「葬礼」

ChatGPT的诞生与三年技术演进彻底重塑了全球科技格局。2022年12月OpenAI低调发布的研究预览版,如今已发展为数字世界的核心基础设施。从最初纯文本交互到多模...

夸克AI眼镜,把千问大模型「戴」在眼前

AI眼镜正成为科技巨头争夺的下一代入口设备,重构人机交互方式。夸克AI眼镜的发布打破了智能眼镜行业多年的沉寂,通过突破硬件'不可能三角'(续航、性能、舒...

谷歌重回铁王座!Gemini 3吊打GPT-5,奥特曼发信承认技不如人

谷歌近期在人工智能领域的突破性进展标志着其从追赶者到领导者的转变。Gemini 3.0 Pro和Nano Banana Pro的发布不仅展示了生成式AI技术的重大飞跃,更在20项基...

中国AI Agent产业化参考范本:斑马口语攻克的四大技术难关

2025年AI产业的关键转折点在于从通用探索转向垂直场景的深度落地。以斑马推出的「斑马口语」为例,这款针对6-12岁儿童的AI外教一对一产品,突破了技术瓶颈,...
1 9 10 11 12 13 61