标签:强化学习

狂揽1.3亿美金!AlphaGo大神组队Gemini大牛,用RL打造超级智能,英伟达抢投

由DeepMind资深研究员Ioannis Antonoglou和Gemini核心贡献者Misha Laskin联合创立的Reflection AI,近日宣布完成1.3亿美元融资,估值达到5.55亿美元。这家初...

强化学习成帮凶,对抗攻击LLM有了新方法

威斯康星大学麦迪逊分校的研究团队最近发现,强化学习可以被用于实施黑盒逃避攻击,即通过生成对抗样本来欺骗机器学习模型。这一发现揭示了强化学习在攻击AI...

阿里千问QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑

阿里最新发布的QwQ-32B推理模型,凭借320亿参数的表现,成功追平了当前公认的最强开源模型DeepSeek-R1(6710亿参数),并在多项基准测试中超越了o1-mini模型...

阿里开源QwQ-32B,性能比肩R1。这是一次压倒性的创新。

阿里巴巴最新发布的推理模型QwQ-32B,以其320亿参数的规模,展现了与6710亿参数的DeepSeek-R1相媲美的性能。这一突破意味着,在更小的设备上运行更强大的推理...

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

由UCLA等机构组成的研究团队在全球首次实现了在20亿参数的非监督微调模型上进行多模态推理的突破,这一成果被称为DeepSeek-R1的「啊哈时刻」。研究团队在未经...

超越人类!DeepMind强化学习新突破:AI在「我的世界」中封神!

DeepMind研究团队通过改进基于Transformer世界模型的强化学习技术,在Craftax-classic游戏中实现了AI智能体对人类的超越。该智能体仅需100万步环境交互即可获...

DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码

总结来说,需要确认标签是否符合字数限制,并且摘要是否全面且符合格式要求。如果有错误,需要进行修正。

OpenAI Deep Research专访:Agent 的未来是端到端、强化学习微调

OpenAI Deep Research 和 Grok Deep Search 展示了人工智能在复杂任务处理上的重大突破。推理模型经过强化学习端到端训练后,处理复杂任务的能力有了质的飞跃...

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

2025年1月20日发布的Kimi k1.5因实现多模态推理性能引发关注,但一个月后技术博主Yue Wu公开质疑其核心算法SPPO借鉴了自己2024年5月提出的研究成果。这场争议...

国外权威认证!DeepSeek超150万模型,成最受欢迎开源大模型

Huggingface平台最新数据显示,中国开源大模型DeepSeek-R1以超过1万点赞量和1000万次下载量,成为该平台有史以来最受欢迎的开源模型。这一成绩仅用数周时间便...
1 3 4 5 6 7 15