智谱重磅三箭齐发:从看懂世界到操作手机,千亿模型上云、手机智能体入袋、语音输入重构

AIGC动态2个月前发布 AIGCOPEN
279 0 0
智谱重磅三箭齐发:从看懂世界到操作手机,千亿模型上云、手机智能体入袋、语音输入重构

 

文章摘要


【关 键 词】 AI模型多模态开源工具调用语音识别


AutoGLM是首个具备真机操作能力的AI智能体,实现了让AI像人一样操作手机完成任务的愿景。经过32个月的探索,团队构建了Phone Use能力框架,模型学会了将自然语言拆解为稳定的操作步骤,并能应对网络波动、弹窗广告等真实世界的干扰。AutoGLM 2.0引入了移动端强化学习等算法,在数千个虚拟设备中进行训练,确保了操作的安全性和可审计性。智谱选择将其开源,希望手机操作能力成为行业的公共底座,开发者可以基于此构建自己的系统,同时保持数据和隐私的控制权。

GLM-ASR系列语音识别模型实现了低延迟与高隐私保护的平衡。基于该模型能力,智谱AI输入法上线桌面端,不仅实现语音转文字,还能在输入框内直接调用模型进行翻译、扩写、润色等操作。输入法支持千人千面的人设切换,并针对开发者提供了实用的语感编程功能,通过语音快速输入代码逻辑或编写脚本。此外,优化了耳语捕捉能力,轻声说话也能精准识别,避免了公共场所语音输入的尴尬。云端模型已开放调用,端侧模型权重及推理代码已在社区开源。

原文和模型


【原文链接】 阅读原文 [ 2477字 | 10分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...