标签：在线学习

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

Physical Intelligence团队发布的π_0.6和清华大学星动纪元的iRe-VLA研究，标志着视觉-语言-动作模型（VLA）与在线强化学习（RL）结合的重大突破。VLA+online ...

AIGC动态

3个月前

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整（SPCT）的新方法，旨在提升通用奖励模型（GRM）在推理阶段的可扩展性。该方法通过结合拒绝式微...

AIGC动态

11个月前

微软：两个AI相互纠错，数学再涨5分

加州大学和微软研究院的研究者们提出了一种名为Flow-DPO的新方法，旨在提升大型语言模型（LLM）在数学问题解答中的推理能力。该方法通过在线学习流（Flow）和...

AIGC动态

1年前 (2024)