腾讯AI Lab绝唱：30B模型击败万亿旗舰，靠的是让AI学会「预习」

386 0 0

文章摘要

大模型智能体正经历从被动执行指令向具备自主演化能力的系统性转变。针对当前多轮推理场景高度依赖人工奖励机制、预设流程僵化且导致计算资源过度消耗的现状，技术团队研发出一套原生自演进架构。该框架在部署阶段彻底剥离外部奖励信号与人工标注轨迹，转而通过赋予系统环境访问权限，使其自主提取核心信息并生成标准化世界知识文件。面对无标准训练数据的工程困境，研究以下游任务执行准确率作为质量锚点筛选最优知识表征，并借助两阶段训练策略持续强化模型的信息压缩与环境探索能力。

实验数据证实该方法在效能跃升与资源管控上取得实质性突破。引入环境知识库后系统平均任务准确率大幅提升近二十个百分点，较小参数量级模型在多项网页任务基准中实现跨量级反超，综合性能已超越万亿参数旗舰系统。知识资产展现出高度通用特性，未经专项调优的异构模型直接加载该经验缓存后均获得性能增益，表明优质的信息组织架构能够有效对冲参数量级差距。在运行效能层面，该路径使交互推理步数缩减约百分之十七，依托缓存复用机制将线上额外负荷压制在极低区间，从根本上规避了多轮迭代带来的令牌消耗膨胀风险。

此项研究验证了计算架构在无明确任务指引条件下，独立完成环境感知、信息沉淀与策略内化的可行性。该技术方案为对接海量、动态且碎片化的服务生态提供了底层支撑，允许平台在新服务上线初期即完成知识预演与分发。伴随自主探索与经验共享机制的持续迭代，智能交互系统将以更低的部署代价实现更复杂的环境适配，驱动人工智能向脱离人工强干预的高阶自适应形态演进。