音频生成

音频,audio

五年,终于等来Transformers v5

Hugging Face发布了Transformers v5的首个候选版本v5.0.0rc0,标志着这一全球最流行的AI基础设施库正式跨越了从v4到v5长达五年的技术周期。自2020年11月v4版...

MV导演诞生!上海巨人网络用让AI听懂音乐并掌镜拍摄MV

上海巨人网络AI实验室提出的YingVideo-MV框架通过创新的级联架构,将音乐语义分析、导演级镜头规划与时间感知视频生成相结合,显著提升了音乐视频生成的质量...

ChatGPT三岁生日,谷歌却为它准备了「葬礼」

ChatGPT的诞生与三年技术演进彻底重塑了全球科技格局。2022年12月OpenAI低调发布的研究预览版,如今已发展为数字世界的核心基础设施。从最初纯文本交互到多模...

夸克AI眼镜,把千问大模型「戴」在眼前

AI眼镜正成为科技巨头争夺的下一代入口设备,重构人机交互方式。夸克AI眼镜的发布打破了智能眼镜行业多年的沉寂,通过突破硬件'不可能三角'(续航、性能、舒...

谷歌重回铁王座!Gemini 3吊打GPT-5,奥特曼发信承认技不如人

谷歌近期在人工智能领域的突破性进展标志着其从追赶者到领导者的转变。Gemini 3.0 Pro和Nano Banana Pro的发布不仅展示了生成式AI技术的重大飞跃,更在20项基...

中国AI Agent产业化参考范本:斑马口语攻克的四大技术难关

2025年AI产业的关键转折点在于从通用探索转向垂直场景的深度落地。以斑马推出的「斑马口语」为例,这款针对6-12岁儿童的AI外教一对一产品,突破了技术瓶颈,...

对话Memories.ai:“人的记忆本质上是视觉,AI也该如此”

Memories.ai公司由前Meta研究员Shawn Shen和Ben Zhou创立,专注于开发大型视觉记忆模型(LVMM)。其核心技术创新在于将原始视频转换为设备上的结构化内存,通...

识别1600+种人类语言,支持少样本扩展到5400+种语言,Meta自动语音识别模型开源

Meta AI发布的Omnilingual ASR技术标志着自动语音识别领域的重大突破。该系统首次实现对1600多种语言的转录能力,其中500多种语言是历史上首次被AI系统记录。...

APP 上线 40 天后,Sora 核心团队分享了他们对于 AI 社交的关键思考

Sora APP在短短5天内实现了100万次下载,速度甚至超过了ChatGPT的早期表现。更引人注目的是,其近200万周活跃用户中,70%参与了内容创作,这一数据远超传统互...

邱锡鹏团队新作:让机器人学会「察言观色」

复旦大学、上海创智学院及新加坡国立大学研究团队近期发布的RoboOmni框架,突破了传统视觉-语言-动作(VLA)模型的局限,通过全模态整合实现了机器人对隐含意...
1 2 3 51