音频生成

音频,audio

YC F25 Demo Day:83个AI项目完整盘点

2025年标志着生成式AI从概念验证阶段迈向规模化落地的关键转折点。在Y Combinator(YC)最新一期F25 Demo Day中,AI公司占比高达53%(83家/156家),较2021年...

VLA、世界模型与一副AI眼镜:理想在押注怎样的未来?

理想汽车正式推出AI眼镜Livis,标志着其从汽车制造商向人工智能终端公司的战略拓展。这款售价1699元起的穿戴设备并非简单的智能配饰,而是被定位为'穿戴机器...

百万人围观的「萌娃教训小狗」视频火了,结果都是AI生成的|附教程

萌娃与宠物互动的AI生成视频近期在社交平台掀起热潮,这些15秒以内的短视频通过温馨场景精准触达用户情感需求。视频内容包含小孩训斥狗狗、亲昵互动等生活化...

在拉斯维加斯,我看到了体育的未来

拉斯维加斯re:Invent大会新增的体育论坛(Sports Forum)标志着科技与体育的深度融合。与传统技术展区的硬核风格不同,该区域以互动体验设施为载体,背后却隐...

PixVerse V5.5 的震撼,做 AI 视频的人都知道这次更新的可贵之处

PixVerse V5.5模型的发布标志着国内AI视频生成技术迈入新阶段。作为首个具备Sora2级分镜能力的本土模型,其多镜头配置与音频原生直出的特性显著降低了专业级...

多人会话视频生成新突破:香港科技大学,浙江大学用单人数据实现多人交互视频生成

AnyTalker框架通过创新的音频-人脸交叉注意力机制(AFCA)和两阶段训练策略,实现了高质量、可扩展的多人对话视频生成。该技术由香港科技大学、浙江大学等机...

五年,终于等来Transformers v5

Hugging Face发布了Transformers v5的首个候选版本v5.0.0rc0,标志着这一全球最流行的AI基础设施库正式跨越了从v4到v5长达五年的技术周期。自2020年11月v4版...

MV导演诞生!上海巨人网络用让AI听懂音乐并掌镜拍摄MV

上海巨人网络AI实验室提出的YingVideo-MV框架通过创新的级联架构,将音乐语义分析、导演级镜头规划与时间感知视频生成相结合,显著提升了音乐视频生成的质量...

ChatGPT三岁生日,谷歌却为它准备了「葬礼」

ChatGPT的诞生与三年技术演进彻底重塑了全球科技格局。2022年12月OpenAI低调发布的研究预览版,如今已发展为数字世界的核心基础设施。从最初纯文本交互到多模...

夸克AI眼镜,把千问大模型「戴」在眼前

AI眼镜正成为科技巨头争夺的下一代入口设备,重构人机交互方式。夸克AI眼镜的发布打破了智能眼镜行业多年的沉寂,通过突破硬件'不可能三角'(续航、性能、舒...
1 7 8 9 10 11 60