标签:数学竞赛

DeepSeek-V3.2正式版发布,将开源模型的能力推向极致

DeepSeek团队正式开源了DeepSeekV3.2的两个版本:标准版和Speciale版。标准版专注于日常任务与通用智能体场景,在推理能力与输出效率之间取得了平衡,其性能...

啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1

微博AI近日发布的自研开源大模型VibeThinker,以15亿参数的轻量级架构,在国际顶级数学竞赛基准测试中击败了参数量高达6710亿的DeepSeek R1模型,颠覆了行业...

成本不到8千美元!新浪微博1.5B小模型超越近万亿参数模型

新浪微博近期开源的VibeThinker-1.5B模型以15亿参数、不足8000美元的训练成本,在多项顶级数学竞赛基准上击败了参数量达6710亿的DeepSeek-R1等巨型模型。这一...

Qwen“半成品”推理模型刷下AIME满分,俘获大批国外开发者!实测碾压GPT-5 Thinking、还能写侦探小说

阿里最新发布的推理模型Qwen3-Max-Thinking引起广泛关注,该模型是Qwen3-Max-Preview的推理增强版本,目前仍处于训练阶段。尽管是中间检查点模型,但结合工具...

蚂蚁Ring-1T正式登场,万亿参数思考模型,数学能力对标IMO银牌

蚂蚁集团近期密集开源多款大模型,其中万亿级思考模型Ring-1T的发布尤为引人注目。该模型在多项高难度基准测试中展现出与闭源巨头正面对话的实力,成为开源体...

Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!

近期,OpenAI和谷歌DeepMind在多个领域展示了其AI模型的强大能力,尤其是在数学和编程竞赛中的表现引发了广泛关注。OpenAI宣布其新AI模型在国际数学奥林匹克...

DeepMind夺得IMO官方「唯一」金牌,却成为OpenAI大型社死现场

谷歌 DeepMind 宣布其新一代 Gemini 进阶版模型在国际数学奥林匹克竞赛(IMO)中达到了金牌得主水平,成功解决了六道超高难度试题中的五道,获得 35 分(满分...

OpenAI拿IMO金牌是火了,但惹怒大批人:抢发炒作,抢学生风头

在2025年国际数学奥林匹克竞赛(IMO)中,OpenAI的一款未公开实验性大语言模型宣布达到了金牌水平,得分35/42,跻身全球顶尖数学竞赛选手行列。然而,这一宣...

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜

近期,AIME 2025 I数学竞赛中大语言模型的表现引发了广泛关注。 一些顶尖模型如o3-mini和DeepSeek-R1分别取得了78%和65%的高分,而部分较小的蒸馏模型也意外...

2024的最后一天,由智谱AI新上线的o1为这一年划上句点。

智谱在2024年的最后一天发布了名为Zero的o1模型,这一智能体形式的模型在数学和编程能力上表现出色。Zero在AIME 2024和MATH500数学能力测试中超过了o1,尽管...
1 2 3