基于文本AI的终结?Agent协作可直接「复制思维」,Token效率暴涨
文章摘要
【关 键 词】 AI技术、多智能体系统、潜在空间协作、大语言模型、性能优化
在Agentic AI时代,多智能体系统(MAS)的发展使得AI从独立运作转向协同合作。传统MAS依赖自然语言进行智能体间的交流,虽然可解释但效率低下且信息易丢失。近期研究开始探索让模型直接在潜在空间(隐藏层表示)中思考和交换信息,以提升协作效率。普林斯顿大学等机构的研究者提出LatentMAS框架,将智能体协作从传统的文本空间转移到潜在空间,实现了更高效的多步推理和无损信息传递。
LatentMAS的核心创新在于智能体直接交换隐藏层表示与KV-cache工作记忆,而非通过文本交流。这种方法大幅减少了token使用量,同时提升了推理复杂度和生成稳定性。框架支持任意HuggingFace模型,并可选择性地兼容vLLM后端,展现出较强的通用性。实验结果表明,LatentMAS在数学与科学推理、常识理解和代码生成等任务中,准确率最高提升14.6%,token使用量减少70.8%-83.7%,推理速度加快4-4.3倍。
潜在协作的优势在于其高效性和语义丰富性。智能体通过共享潜在工作记忆,避免了文本中转的信息稀释,实现了近乎“心灵感应”式的协作。例如,智能体A的KV缓存可直接注入智能体B的注意力机制中,使后者无需解码文本即可加载前者的推理过程。这种设计不仅减少了80%以上的token消耗,还无需额外训练即可实现嵌入空间对齐。
实验验证了LatentMAS在性能和效率上的显著提升。在九个基准任务中,LatentMAS的准确率均优于单模型和基于文本的MAS基线。同时,潜在推理的步骤远少于文本解码步骤,例如在AIME等高强度推理任务中,仅需不到50个潜在步骤即可达到或超越文本MAS的表现。此外,潜在思维的嵌入分布比文本响应更广,表明其具有更高的多样性和表达能力。
LatentMAS的潜在步骤数量对性能有直接影响。随着潜在步骤增加,下游任务的性能普遍提升,说明额外的潜在思维能够增强协作表达能力。这一发现为未来优化潜在协作框架提供了重要参考。总体而言,LatentMAS不仅提升了多智能体系统的推理质量和效率,还为AI协作开辟了新的研究方向。
原文和模型
【原文链接】 阅读原文 [ 2526字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★




