标签:强化学习
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
月之暗面联合清华大学提出的全新加速引擎Seer,通过创新技术显著提升大语言模型(LLM)的强化学习训练效率。该系统针对传统RL训练中生成阶段(rollout phase...
国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源
上海人工智能实验室团队推出的开源模型家族P1,成为首个在国际物理奥林匹克竞赛(IPhO 2025)理论考试中达到金牌线的开源模型。P1-235B-A22B在IPhO 2025中取...
北大、字节、中科院自动化研究所等提出图像并行生成新范式
当前多模态AI领域存在一个反直觉现象:让模型在生成图像前进行文本推理,反而会降低生成结果的语义保真度。这一发现源于主流自回归架构的固有缺陷——上游推理...
强化学习 AI 系统的设计实现及未来发展
强化学习作为推动大语言模型智能化的核心手段,其复杂程度体现在算法理论与工程实践的双重挑战中。阿里巴巴算法专家曹宇在AICon 2025的分享中,系统梳理了RLH...
上交博士最新思考:仅用两个问题讲清强化学习
强化学习(RL)作为人工智能的核心研究方向,致力于解决智能体在缺乏现成答案时如何通过环境交互自主优化行为的问题。尽管存在数百种算法,从早期的Q-learnin...
3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化
阿里巴巴ROLL团队联合多所高校推出的「3A」协同优化框架,为强化学习在大语言模型(RL4LLM)中的应用带来了高效、精细与可解释的新范式。该框架由Async架构、...
聚焦手机AI“超级入口”,中兴Nebula小模型让手机秒变“小秘”?
随着移动智能技术的快速发展,手机端AI“超级入口”成为行业竞争的新焦点。GUI Agent(图形用户界面智能体)凭借重塑流量分发格局的潜力,催生了千亿级市场机遇...
灵巧智能具身智能科学家陆逸文博士:物理一致的开源人手操作数据集
2025中国具身智能机器人大会(EAIRCon 2025)将于11月19日在深圳湾万丽酒店举办,这是智一科技在大湾区首次举办的机器人主题会议。大会以“具身启智 机器觉醒”...
L4大方向有了:理想自动驾驶团队,在全球AI顶会上揭幕新范式
人工智能技术正经历从依赖人类生成数据向体验式学习的范式转变,这一趋势在自动驾驶领域尤为明显。OpenAI前研究员姚顺雨提出AI已进入“下半场”,强调需要开发...
4倍速吊打Cursor新模型!英伟达数千GB200堆出的SWE-1.5,圆了Devin的梦!实测被曝性能“滑铁卢”?
Cognition公司近日推出高速AI编码模型SWE-1.5,该模型专为软件工程任务设计,现已在Windsurf代码编辑器中开放使用。通过与推理服务提供商Cerebras合作,SWE-1...





