音频生成

让龙虾看懂屏幕！谷歌多模态新成果，文本图像视频音频进同一空间

谷歌发布了首款原生多模态嵌入模型 Gemini Embedding 2。该模型的核心突破在于将文本、图像、视频、音频及文档等多种数据类型映射至同一个统一的嵌入空间。不...

AIGC动态

1周前

开发者耗时两小时，完成了一款AI作文处理应用的开发，该应用可接收孩子作文图片，输出针对性写作反馈，生成作文音频文件，并自动将内容保存到Notion，本次开...

AI-Agent

2周前

近期中国AIGC领域大模型表现突出，Seedance 2.0凭借卓越性能跻身全球顶尖视频模型行列，昆仑天工SkyReelsV4同步发布，成为视频生成赛道的核心力量。截至2月25...

AIGC动态

2周前

在AI视频赛道权威评测平台Artificial Analysis的最新带音频文生视频榜单上，昆仑天工的SkyReels-V4以1090的ELO评分位列全球第二，仅落后第一名3分，Google Ve...

AIGC动态

2周前

xAI旗下Grok图像转视频模型grok-image-video-720p以1404分的ELO评分登顶Image-to-Video Arena排行榜，在46.5万次盲测投票中力压包括谷歌Veo 3.1在内的竞品位...

AIGC动态

3周前

字节跳动推出的多模态AI视频生成模型Seedance 2.0引发全球热议，其突破性技术被认为将彻底改变影视内容生产模式。该模型支持文本、图像、视频和音频四模态输...

AIGC动态

1个月前

Runway作为人工智能视频生成领域的初创企业，近期完成了3.15亿美元的E轮融资，估值达到约53亿美元。此次融资由General Atlantic领投，NVIDIA、Adobe Ventures...

AIGC动态

1个月前

Grok Imagine 1.0正式上线，作为xAI推出的最新视频音频生成模型，其能力覆盖文生视频、图生视频，单次生成时长达10秒，分辨率达720P，并显著提升了音频表现。...

AIGC动态

1个月前

2025年至2026年初，科技领域呈现出加速融合与深度变革的态势。智能眼镜从功能性设备升级为具备端侧算力和助手级交互的“AI-first”产品，形态更轻量化但功能更...

AIGC动态

2个月前

昆仑万维开源的SkyReels-V3通过统一的多模态上下文学习框架，在单一模型中实现了参考图像生成视频、视频持续扩展以及音频驱动的虚拟数字人三大核心功能。该模...

AIGC动态

2个月前