音频生成

音频,audio

a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道

近年来,人工智能技术在生成逼真图片、视频和声音方面取得了显著进展,逐渐通过了视觉和听觉的图灵测试。然而,2025年最令人期待的突破之一将是AI数字人(AI ...

原生多模态大模型也能强化学习,思维链长达几万字,商汤日日新V6来了

商汤推出的「日日新 SenseNova V6」大模型在多模态推理与交互能力上展现了行业领先水平。该模型通过多模态长思维链训练、全局记忆、强化学习等技术突破,显著...

AI看柯南2分钟揪真凶,商汤600B多模态MoE推理封神!交互记忆全线升级

商汤科技最新发布的第六代大模型SenseNova V6,标志着多模态大模型技术的重大突破。该模型不仅在文本、图像和视频的原生融合上实现了全面升级,还展现了强大...

终究是 Google 和 Anthropic,扛下了连接一切 Agent 的所有

Google Cloud Next '25大会上,Google展示了其在AI领域的雄心壮志,尤其是在面对亚马逊AWS和微软Azure的激烈竞争时,Google Cloud决心不再仅仅追随,而是通过...

AI Agent大变天!谷歌开源A2A,一夜改变智能体交互

谷歌在Google Cloud Next 25大会上发布了首个标准智能体交互协议——Agent2Agent Protocol(简称A2A),并宣布开源。A2A旨在打破系统孤岛,提升智能体的跨平台...

阿里开源R1-Omni,多模态情感识别

阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni,该模型首次将强化学习与可验证奖励(RLVR)应用于多模态大模型,显著提升了情感识别任务中的...

击败 Manus?前百度 AI 高管创业1年多,放弃500 万用户搜索产品,转推“最强 Agent ”,自述 9 个月研发历程

总部位于美国加州帕洛阿尔托的初创公司 MainFunc 近日发布了 Genspark Super Agent,这是一款能够自主思考、计划、行动并使用工具来处理复杂任务的 AI 代理系...

语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%

百度最近为文小言接入了基于Cross-Attention的端到端语音语言大模型,实现了更自然、有情感的实时语音对话功能。这个全新的技术方案在用户体验上带来了显著提...

图灵奖得主预言中国成AI工业翘楚!海淀硬核AI先锋盛会,涌现更多未来成果

2025年中关村论坛人工智能主题日在北京海淀区隆重举行,标志着中国在全球人工智能领域的重要地位。此次论坛以「积淀·涌现」为主题,汇聚了全球顶尖的AI专家、...

「AIGC第一股」出门问问交上完美答卷:营收破2.2亿,同比增长88.5%

在生成式AI领域,出门问问作为“AIGC第一股”,凭借其2024年度财报的亮眼表现引发了业内广泛关注。财报显示,公司2023年总收入达3.9亿元,同比增长6%,其中AIGC...
1 2 3 4 40