标签:在线学习

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

Physical Intelligence团队发布的π_0.6和清华大学星动纪元的iRe-VLA研究,标志着视觉-语言-动作模型(VLA)与在线强化学习(RL)结合的重大突破。VLA+online ...

刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?

DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整(SPCT)的新方法,旨在提升通用奖励模型(GRM)在推理阶段的可扩展性。该方法通过结合拒绝式微...

微软:两个AI相互纠错,数学再涨5分

加州大学和微软研究院的研究者们提出了一种名为Flow-DPO的新方法,旨在提升大型语言模型(LLM)在数学问题解答中的推理能力。该方法通过在线学习流(Flow)和...