文章摘要
AutoGLM是首个具备真机操作能力的AI智能体,实现了让AI像人一样操作手机完成任务的愿景。经过32个月的探索,团队构建了Phone Use能力框架,模型学会了将自然语言拆解为稳定的操作步骤,并能应对网络波动、弹窗广告等真实世界的干扰。AutoGLM 2.0引入了移动端强化学习等算法,在数千个虚拟设备中进行训练,确保了操作的安全性和可审计性。智谱选择将其开源,希望手机操作能力成为行业的公共底座,开发者可以基于此构建自己的系统,同时保持数据和隐私的控制权。
GLM-ASR系列语音识别模型实现了低延迟与高隐私保护的平衡。基于该模型能力,智谱AI输入法上线桌面端,不仅实现语音转文字,还能在输入框内直接调用模型进行翻译、扩写、润色等操作。输入法支持千人千面的人设切换,并针对开发者提供了实用的语感编程功能,通过语音快速输入代码逻辑或编写脚本。此外,优化了耳语捕捉能力,轻声说话也能精准识别,避免了公共场所语音输入的尴尬。云端模型已开放调用,端侧模型权重及推理代码已在社区开源。
原文和模型
【原文链接】 阅读原文 [ 2477字 | 10分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



