音频生成

阶跃发布端侧全家桶，1加N架构100毫秒本地调用

阶跃发布了Step Edge系列端侧多模态模型，采用“1加N”架构，旨在实现实时响应、数据隐私保护和推理成本优化。该系列由一个文本视觉基础模型和音频、GUI、图像...

AIGC动态

3天前

国产公司云上曲率推出的ViiTorVoice语音大模型在权威评测中登顶综合排名第一。该模型英文词错率为1.32，中文词错率降至0.99，成为全球首个中文词错率突破1.0...

AIGC动态

2周前

OpenAI在近期的AI Engineer World Fair上推出了出乎市场意料的首款硬件产品，并非外界猜测由前苹果设计师Jony Ive主导的AI耳机，而是一款名为Codex Micro的宏...

AIGC动态

2周前

随着人工智能技术的快速普及，其在大型体育赛事中的应用日益广泛，但同时也催生了大量虚假内容。在近期的世界杯期间，各类由人工智能生成的虚假影像在社交平...

AIGC动态

3周前

伴随基础模型的升级，豆包专业版推出了全新的办公模式。底座模型智能体能力的提升，使得该办公模式能够出色执行复杂的通用办公任务，实现了从底层模型到上层...

AI-Agent

3周前

Google近期发布了名为Gemini 3.5 Live Translate的最新语音对语音翻译模型，标志着实时同声传译技术的重大突破。该模型打破了传统翻译设备“等待说完再翻译”的...

AIGC动态

1个月前

当前AI视频生成领域在长视频制作上面临角色一致性差、生成速度慢及修改成本高等瓶颈，限制了其规模化商业应用。针对这些行业痛点，京东团队开源了长音视频生...

AI-Agent

1个月前

当前AI视频生成技术在处理分钟级长视频时，常面临角色形象改变、声音不一致以及修改成本高昂等瓶颈，难以真正融入专业内容生产工作流。针对这一行业痛点，京...

AIGC动态

1个月前

谷歌近期发布了Gemma 4家族的新成员Gemma 4 12B模型，该模型将先进的多模态智能推理、视觉与音频处理能力整合，并专为笔记本电脑等本地设备运行而优化。在性...

AIGC动态

1个月前

英伟达最新发布了面向物理智能的全模态世界模型Cosmos 3，该模型采用统一的混合Transformer架构，能够同时处理和生成语言、图像、视频、音频与动作序列五种模...

AIGC动态

1个月前