GPT-GPTs
GPT,GPTs,Prompt
Claude时代终结?LMArena实测DeepSeek R1编程得分超Opus 4,但月暗称其新模型更胜一筹
在当今以闭源模型为主导的AI技术领域,开源项目DeepSeek的最新版本DeepSeek-R1(0528)在多个关键领域超越了Claude Opus 4和GPT-4.1等顶级商业模型,成为开发...
Kimi超过DeepSeek的新模型被指“套壳”Qwen?到底怎么回事儿
月之暗面近期发布了开源代码模型Kimi-Dev-72B,该模型在软件工程任务基准测试SWE-bench Verified上取得了60.4%的成绩,创下开源模型新纪录,超越了包括DeepSe...
Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!
Sakana AI与AtCoder合作构建了ALE-Bench,这是一个专注于NP难题的编程基准测试,旨在评估AI在复杂优化任务中的表现。NP难题,如物流路径选择、人员排班等,因...
让大模型做高考题,结论没那么简单
随着高考结束,许多学生开始使用大模型来解答高考试题,结果显示大模型在这类任务上已经表现得非常熟练。这一现象引发了对未来高考防作弊难度的担忧,尤其是...
我感受到了程序员的新红利。
火山引擎Force大会展示了豆包大模型1.6的突破性进展,其深度思考能力通过多轮搜索推理机制达到全球一流水准。模型采用迭代式问题探索模式,与OpenAI最新技术...
仅凭一篇博客,他成功入职OpenAI!核心技术或用于GPT-5训练
Keller Jordan凭借一篇关于Muon优化器的博客成功加入OpenAI,这一事件引发了广泛关注。Muon优化器是一种为神经网络2D参数隐藏层设计的优化器,通过SGD-动量法...
98%医生点赞的AI队友,斯坦福实验揭秘:诊断准确率飙升10%!
斯坦福大学的研究揭示了AI在医疗诊断中的潜力,尤其是当AI从工具转变为协作队友时,医生的诊断准确率显著提升了10%。这项研究由70名美国执业医生参与,通过对...
全方位实测首个AI原生浏览器!618比价、写高考作文…网友:再见Chrome
Dia浏览器作为首个原生AI浏览器,由The Browser Company推出,标志着浏览器技术的一次重大革新。其最大亮点在于用户无需打开ChatGPT等外部AI工具,即可直接与...
火山引擎,「出击」Agent
2025年年中,大模型领域的竞争已进入下半场,Agent成为焦点。下一代基础模型的技术壁垒将竞争团队收敛至中美少数几家,创新门槛提高,底层技术的比拼声量降低...
OpenAI CPO:目前看,提示词仍然重要。
OpenAI 的首席产品官 Kevin Weil 在采访中详细探讨了 AI 产品的未来方向、用户行为变化以及 OpenAI 的技术发展策略。他首先介绍了 OpenAI 最新发布的一系列功...




