音频生成
音频,audio
具身龙虾,上车理想
理想汽车推出了名为 StreamingClaw 的全新一代 Agent 框架,该方案深度集成了流式视频理解与具身智能的技术能力。此框架的核心创新点在于在保持与旧版通用标...
当 AI 视频创作进入「下半场」
随着Seedance 2.0等技术的迭代,AI视频创作门槛被大幅降低,相关内容迎来了规模激增。三月下旬结束的B站首届AI视频大赛共汇集了超过八千三百件参赛案例,站内...
阿里3天3王炸!全模态、精准控图和智能体编程SOTA,但没开源
阿里巴巴在近三天的时间跨度里密集发布三款战略级人工智能模型,确立了在大模型技术与行业应用中的前沿地位。此次亮相的核心产品涵盖通义千问全域版本、万相...
美团LongCat-Next:把图像、声音、文字都变成Token,然后呢?
LongCat-Next 是美团发布的一项多模态大模型里程碑式成果,其核心在于首次在纯离散框架下实现了与专用连续模型相当的细粒度视觉理解能力。该模型基于 LongCat...
中国第一,全球第三!Token日耗120万亿,直逼谷歌OpenAI
当前,中国AI产业正经历从技术验证到规模落地的关键转折。火山引擎通过豆包大模型2.0与OpenClaw生态协同,构建了面向企业级应用的Agent智能体体系,其中“龙虾...
独家丨前Nothing AI负责人许奇离职创业,要做硬件版输入法
许奇——原Nothing AI负责人、曾任职一加软件产品经理——已离职创业,成立新公司「随心所语」,聚焦AI语音硬件赛道。该企业计划推出硬件版输入法产品,首轮融资...
6小时,200美元,0人类代码:Anthropic把AI编程推过了临界点
Anthropic在最新实验中验证了AI从“生成内容”向“完整项目交付”的跃迁能力。面对“开发一套复古游戏编辑器”的模糊需求,传统单智能体模式仅20分钟产出一个功能不...
京东卷出新高度!硬刚「复杂指令」长时长、自由态数字人直播终于丝滑了
京东在2026年GTC大会上正式迈入AI智能体应用的新阶段,其核心突破在于解决了长期困扰行业的数字人“躯壳”问题——即如何让AI智能体实现高表现力、长时长、自由态...
实测拿215项SOTA的Qwen3.5-Omni:摄像头一开,AI给我现场讲论文、撸代码
Qwen3.5-Omni作为通义实验室最新推出的多模态大模型,实现了从输入到输出的全流程原生全模态支持,能够无缝处理文本、图片、音频及音视频混合输入,并生成带...
开源音视频同步SOTA基座:极简的单流架构,2秒出片
daVinci-MagiHuman是由上海创智学院(SII)生成式人工智能研究实验室(GAIR)与Sand.ai联合发布的开源音视频生成基础模型,旨在解决当前开源生态中生成质量、...





