标签:强化学习

前Meta大神创业,用强化学习打造PokeeResearch-7B模型,刷新AI深度研究SOTA

Pokee AI近期发表的论文《借助基于AI反馈的强化学习和稳健推理框架实现高效深度研究》展示了其70亿参数模型PokeeResearch-7B的突破性表现。该模型通过创新的...

Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law

在大型语言模型(LLM)领域,强化学习(RL)的算力扩展正成为关键研究范式,但其扩展规律尚未明确。Meta等机构的研究者通过40万GPU小时的实验,提出了可预测R...

Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来

Google DeepMind与全球商业聚变能源公司CFS宣布合作,共同利用人工智能加速核聚变能源的开发。这一合作标志着AI技术正式进入核聚变科研的核心领域,旨在推动...

波士顿动力狗gogo回来了!“五条腿”协同发力

波士顿动力人工智能研究所的最新研究展示了机器狗Spot在动态全身操作任务中的突破性表现。Spot仅用3.7秒就能搬起重达15公斤的轮胎,相当于其自身重量的一半,...

蚂蚁开源万亿参数思考模型 Ring-1T,综合能力逼近 GPT-5、数学能力对标 IMO 银牌

蚂蚁集团正式推出万亿参数思考模型Ring-1T并全面开源,该模型在9月30日预览版基础上扩展了大规模可验证奖励强化学习(RLVR)训练,提升自然语言推理能力,并...

0人工参与实现梯度更新!MIT新框架让AI自动生成微调数据,权重自主升级

MIT提出的SEAL(Self-Adapting LLMs)框架标志着大模型技术迈入自主进化新阶段。该框架通过内外双循环机制,首次在权重层面实现了模型自我驱动的更新能力,摆...

蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌

蚂蚁集团近期密集开源多款大模型,其中万亿级思考模型Ring-1T的发布尤为引人注目。该模型在多项高难度基准测试中展现出与闭源巨头正面对话的实力,成为开源体...

登顶!快手发布开源编程模型,720亿参数,创下编程能力新纪录

快手在AI领域的突破性进展集中体现在其最新发布的KAT-Dev-72B-Exp代码大模型上。这款专为软件工程设计的720亿参数模型,在SWE-Bench Verified测试中以74.6%的...

北航团队提出新的离线分层扩散框架:基于结构信息原理,实现稳定离线策略学习|NeurIPS 2025

北航彭浩团队的研究提出了一个名为SIHD的新型框架,旨在解决离线强化学习中分层扩散模型的局限性。该框架通过分析离线轨迹中的结构信息,自适应地构建多尺度...

听说,大家都在梭后训练?最佳指南来了

在大模型时代,Scaling Law曾被视为AI领域的黄金准则,但随着模型规模扩展到百亿、千亿级,其边际效益开始递减。业界逐渐将重心从预训练转向后训练阶段,这一...
1 2 3 21