标签:轨迹重构

长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛

针对训练图形用户界面智能体时在线强化学习交互成本高易崩溃、离线强化学习时序短视且误差累积的困境,相关研究提出了一种半在线强化学习框架。该框架旨在保...