标签:AI研究
世界首个!李飞飞团队推出物理推理基准,大模型统统不及格?
斯坦福大学与中国科学技术大学的研究团队开发了首个定量评估视觉语言模型(VLMs)物理理解能力的基准测试QuantiPhy。该测试包含超过3355个视频-文本问答对,...
谷歌年度重磅揭秘智能体系统的缩放定律与协作陷阱
谷歌AI研究团队与麻省理工学院联合发表的论文对多智能体协作系统进行了深入剖析,通过180项对照实验揭示了盲目增加智能体数量可能导致的性能下降问题。研究发...
跟不上、读不完?上万篇顶会论文,这个工具一键分析
RDR的创新性在于将系统化自动化与专家知识分析相结合,弥补了传统人工综述耗时费力与现有自动化方法缺乏领域深度的双重缺陷。研究团队设计了包含数据准备、内...
前Meta大神创业,用强化学习打造PokeeResearch-7B模型,刷新AI深度研究SOTA
Pokee AI近期发表的论文《借助基于AI反馈的强化学习和稳健推理框架实现高效深度研究》展示了其70亿参数模型PokeeResearch-7B的突破性表现。该模型通过创新的...
Codeforces难题不够刷?谢赛宁等造了个AI出题机,能生成原创编程题
Rich Sutton和爱因斯坦等学者强调了提出问题在科学进步中的核心作用,这一观点为评估大型语言模型(LLM)的创新能力提供了理论框架。随着LLM向通用人工智能(...
Lilian Weng最新对话:首谈离开OpenAI创业,以及AI研究的现实扭曲场
Lilian Weng在硅谷华源Hysta2025年年会的炉边对谈中,分享了她从数学竞赛到AI研究的职业历程、OpenAI的工作经验以及创办Thinking Machines的思考。她强调“坚...
另一位Yao Shunyu也跳槽了:与Anthropic价值观有根本分歧
姚顺宇从物理学领域转向AI研究,并加入谷歌DeepMind担任高级研究科学家。这位清华大学物理系校友、本科特等奖学金获得者曾在Anthropic工作一年,参与Claude 3...
劝人退学、庆幸没读博浪费5年,26岁DeepMind“传奇人物”:大厂内部分散,AI研究很低效
Neel Nanda的职业生涯展现了在快速发展的AI领域中如何抓住机遇并产生影响力。他强调了“在正确的时间出现在正确的地方”以及“善于为自己创造机会”的重要性。尽...
重磅!陈天桥创立的AI公司MiroMind打造出全球顶尖预测型大模型,性能领先行业基准
陈天桥打造的MiroMind成为全球顶尖预测大模型,在多个方面展现出强大实力。在全球首个动态实时LLM智能体未来预测基准FutureX中,MiroMind连续第二周蝉联冠军...
谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏
凌晨三点的AI实验室里,博士生们为提升模型准确率0.3%而通宵调参的场景,折射出当前学术圈的深层困境。谢赛宁在CVPR 2025的演讲中犀利指出,AI研究正面临从'...





