标签:实时交互
中国AI Agent产业化参考范本:斑马口语攻克的四大技术难关
2025年AI产业的关键转折点在于从通用探索转向垂直场景的深度落地。以斑马推出的「斑马口语」为例,这款针对6-12岁儿童的AI外教一对一产品,突破了技术瓶颈,...
OpenAI引爆新赛道:AI不再卖技术,而是卖「活人感」!
一段小女孩与AI玩具告别的视频引发了广泛关注,揭示了对话式AI如何深度融入人类情感世界。这一场景不仅触动了公众情感,更凸显了实时交互技术的革命性潜力。...
美团开源全模态,比肩顶级闭源模型,开源新SOTA
美团LongCat团队发布了5600亿参数的开源全模态模型LongCat-Flash-Omni,该模型能够实现毫秒级的实时音频-视觉交互。其核心是一个端到端的全模态架构,能够接...
三星国行 Bixby 更新“语聊视界”,我们的生活离《Her》更近了一步?
三星 Galaxy S25 系列国行版本的 Bixby 语音助手于 3 月 26 日正式推出了“语聊视界”功能,这一功能基于多模态大模型,旨在提供超拟人的实时语音和视频聊天体...
面壁、智谱,卷上新赛道
OpenAI去年推出的“4o”模型具备实时语音交互能力,被视为模型“长出了耳朵和嘴巴”。去年12月,该模型增加了视频通话和屏幕共享功能,相当于“长出了眼睛”,使得...
Gemini 2.0发布了,可惜的是关注的人很少
谷歌近日宣布推出其人工智能大模型系列的最新作品——Gemini 2.0,其中Gemini 2.0 Flash实验版本率先亮相。这款模型能够生成文本、图像和语音,并处理多种格式...
WebRTC创建者加入了OpenAI,他如何思考语音AI的未来?
WebRTC的联合创始人Justin Uberti,同时也是Fixie.ai的联合创始人兼CTO,宣布加入OpenAI领导实时AI项目。Uberti在Google时期参与创建并领导了WebRTC项目,并...
工作坊报名|使用 TEN Framework 与 Azure,探索你的多模态交互新场景
GPT-4o Realtime API的发布标志着语音AI领域的新突破,带来了实时音频交互、自然语音生成、多语言能力和快速响应时间等创新特性。这些技术进步为全球企业在客...
在RTE2024,窥见实时AGI的未来
AI技术的进步正在改变人机交互的方式,特别是在实时交互(RTE)领域。OpenAI的GPT-4o模型通过Realtime API为开发者提供了低延迟、自然流畅的对话能力,使得智...
谷歌展示首个大模型实时游戏模拟引擎,重塑游戏开发流程
谷歌研究人员利用开源扩散模型Stable Diffusion 1.4开发了实时游戏模拟引擎GameNGen,该引擎能在单个TPU上以超过20帧每秒的速度交互式模拟经典射击游戏《DOOM...
1
2




