标签:强化学习
ICML 2026前瞻:投稿翻倍背后,机器学习正在换挡
第43届国际机器学习大会首次在韩国首尔举行,主题为机器学习在真实场景中的落地。本次大会接收论文6352篇,投稿量实现翻倍增长,接受率维持在26.6%,传递出会...
登顶权威榜单!无界动力发布全球首个「长时序双向物理因果链」隐空间世界模型 MWA™
物理AI面临泛化能力质疑,无界动力发布全球首个“长时序双向物理因果链”隐空间世界模型MWA™具身通用大脑。该模型采用“双向动力学”架构,创新时序Chunk级逆向动...
Dwarkesh Patel:下一代AI,可能是干活干出来的
硅谷科技播客主持人Dwarkesh Patel深入探讨了AI下一代训练范式的演进方向。当前前沿AI实验室主要押注可验证奖励强化学习,该范式在代码、数学等具备可重复验...
长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛
针对训练图形用户界面智能体时在线强化学习交互成本高易崩溃、离线强化学习时序短视且误差累积的困境,相关研究提出了一种半在线强化学习框架。该框架旨在保...
造完芯片火箭后,姚颂创业造机器人,融资近亿美元
由深鉴科技与东方空间创始人姚颂、正大集团及清华大学学者于超联合发起的具身智能创企正行创新宣布完成近亿美元天使轮系列融资。本轮融资由正大集团、华勤技...
GAIR Paper 103|上海交大联合腾讯提出 Token 级别幻觉优化,实现大模型幻觉精准消除
大语言模型在医疗、金融等高风险场景部署时面临严重的幻觉问题。先导实验揭示,幻觉在词元层面极其稀疏,但在回答层面却非常普遍。传统的响应级强化学习方法...
小模型推理极限在哪里?微博开源3B小模型,比肩顶级闭源
微博新开源的30亿参数模型VibeThinker-3B在数学竞赛和编程实战中展现出卓越性能,将小模型在特定能力维度的表现推向极限。该模型在AIME26数学竞赛中取得94.3...
最近听过最过瘾的推荐系统和 LLM 技术分享。
互联网核心的搜索、推荐和广告系统正全面进入大模型时代,经历着底层基础设施的重构。传统推荐系统依赖历史行为与统计相关性,面临模块独立、难以端到端优化...
堆了一仓库GPU,却生产不出专业智能?九章云极用AI工厂给出解答
当前人工智能已从实验室走向生产线,但通用大模型在真实业务场景中面临会回答却不会执行的困境。智能竞争的核心矛盾已从追求技术卓越性彻底迁移至追求生产力...
腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操
腾讯联合多个团队发布了面向真实世界机器人操作任务的端到端具身智能模型HyVLA-0.5。该模型基于自研的高精度指套式数据采集软硬件,构建了超过一万小时的人类...


