标签:算法优化
强化学习 AI 系统的设计实现及未来发展
强化学习作为推动大语言模型智能化的核心手段,其复杂程度体现在算法理论与工程实践的双重挑战中。阿里巴巴算法专家曹宇在AICon 2025的分享中,系统梳理了RLH...
3A大作!阿里ROLL团队从基建->算法->机理,推动RL4LLM全栈协同优化
阿里巴巴ROLL团队联合多所高校推出的「3A」协同优化框架,为强化学习在大语言模型(RL4LLM)中的应用带来了高效、精细与可解释的新范式。该框架由Async架构、...
AI已经开始自己设计算法,并且超越顶尖人类专家,人类还能做什么?
AI已经开始自主设计算法,其性能超越人类专家设计的方案,这一现象正在多个领域得到验证。谷歌DeepMind团队的研究表明,基于元学习策略的AI在强化学习规则发...
小红书RecSys 2025最佳论文提名背后:破解视频时长预测难题
小红书推荐算法团队在推荐系统顶会RecSys 2025上凭借论文《Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaus...
蚂蚁开源万亿参数思考模型 Ring-1T,综合能力逼近 GPT-5、数学能力对标 IMO 银牌
蚂蚁集团正式推出万亿参数思考模型Ring-1T并全面开源,该模型在9月30日预览版基础上扩展了大规模可验证奖励强化学习(RLVR)训练,提升自然语言推理能力,并...
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令
加州大学伯克利分校的研究团队开发了一种名为AssistanceZero的新算法,旨在通过Assistance Games框架改进AI助手的训练方式。这一方法的核心在于AI助手与用户...
HuggingFace上的热门开源模型,一半都来自中国了
在最新的HuggingFace热门模型榜单中,中国模型的占比超过了50%,包括QwQ-32B、HunyuanVideo-12V、DeepSeekR1等知名模型。这一现象不仅体现了中国在开源模型领...
发论文亲自上?创业十多年,DeepSeek梁文锋的“技术男”属性从没改变
DeepSeek团队近日发布新论文,提出名为Native Sparse Attention(NSA)的新型注意力机制。该机制通过动态分层稀疏策略,结合粗粒度标记压缩与细粒度标记选择...
数据即将耗尽?大型 AI 公司中没有人会感到恐慌
人工智能(AI)的发展在过去十年中取得了爆炸性的进展,这主要归功于神经网络规模的扩大和对大量数据的训练。然而,随着对数据的需求不断增长,AI研究人员正...
流式深度学习终于奏效了!强化学习之父Richard Sutton力荐
阿尔伯塔大学等机构的研究者提出了一种名为stream-x的深度强化学习算法,旨在解决流式深度强化学习中的样本效率问题,即流式障碍。流式障碍是指流式深度强化...
1
2




