标签:强化学习
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
著名AI研究者Sebastian Raschka基于DeepSeek技术报告,系统阐述了增强大语言模型推理能力的四大核心方法。_推理模型被定义为擅长处理需要多步骤中间推导的复...
拾象科技李广密:对 DeepSeek 和智能下半场的几条判断
DeepSeek R1的出现标志着AI行业的新范式转变,其开源模式和低成本特性使其超越了Meta Llama,尽管与OpenAI、Anthropic和Google等第一梯队企业相比仍有差距。D...
o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜
近期,AIME 2025 I数学竞赛中大语言模型的表现引发了广泛关注。 一些顶尖模型如o3-mini和DeepSeek-R1分别取得了78%和65%的高分,而部分较小的蒸馏模型也意外...
第四届终身学习智能体会议(CoLLAs)主题征稿中
CoLLAs 2025将关注持续学习领域的核心问题,推动人工智能系统在其生命周期中不断适应和进化。会议探讨的关键主题包括终身学习的理论研究、持续学习范式(如增...
Deepseek R1可能找到了超越人类的办法
本文围绕AI发展历程,从AlphaGo到ChatGPT,再到DeepSeek R1,阐述了AI底层原理的突破及其对AGI/ASI的重要性。1. AlphaGo突破人类上限:1997年深蓝击败国际象...
DeepSeek用的GRPO占用大量内存?有人给出了些破解方法
群组相对策略优化(GRPO)作为一种在线学习算法,通过使用训练过程中由模型自身生成的数据进行迭代改进,已因其高效性和易用性成为大型语言模型强化学习中的...
Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现
近期,斯坦福大学教授李飞飞及其团队推出了S1模型,随后李飞飞的学生、OpenAI早期成员及前特斯拉AI总监发布了一段3小时长视频,详细介绍了AI大模型的进化历程...
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈
艾伦人工智能研究所(Ai2)推出了基于强化学习的新一代开源模型Tülu 3 405B,该模型在多项关键基准测试中超越了DeepSeek v3和GPT-4o。Tülu 3 405B在标准的基...
OpenAI 推 Deep Research:复刻Google、“致敬”DeepSeek,啥也不管了就是追
OpenAI最近推出了一款名为Deep Research的AI研究助手,旨在自动化复杂的在线多步骤研究任务。这款工具是ChatGPT内嵌的增强工具,能够快速搜索、分析并整合来...
为什么说DeepSeek的R1-Zero比R1更值得关注?
DeepSeek发布的R1-Zero和R1两个模型在ARC-AGI-1上的得分与OpenAI的o1系统低计算量版本相当,显示出纯LLM scaling的局限性。R1-Zero特别值得关注,因为它完全...