推理能力 | 学习AIGC

Claude Sonnet 5 上线一日差评刷屏：打不过千问和 Minimax，性价比全面翻车

Claude Sonnet 5 发布后在技术圈引发广泛争议并遭遇大量差评，起因是某 GitHub 个人私有题库在逻辑、数学及编程等硬核推理问题上，对其深度思考模式进行了专...

AIGC动态

2周前

超越Scaling！千分之一的数据，省几百倍算力的类脑模型来了

由清华学者创立的Sapient Intelligence团队推出了一款名为HRM-Text的语言模型，该模型通过类脑架构和训练目标的联合设计，大幅降低了预训练的算力门槛。HRM-T...

AIGC动态

4周前

新架构模型HRM-Text创新纪录！1B参数、1000美元，图灵奖得主都亲自下场了

Sapient Intelligence发布的约1B参数语言模型HRM-Text在MATH、GSM8K和ARC-Challenge等推理基准测试中取得了优异成绩。其训练成本仅约1500美元，且从零预训练...

AIGC动态

1个月前

四道题评测 Qwen3.7-Max：从空间推理到 3D 建模，它离 Agent 更近了吗？

阿里云通义千问团队在三个月内连续发布三款旗舰大模型，最新推出的Qwen3.7-Max在多项权威评测中表现卓越，位列全球第五、国产第一。该模型在推理和编程智能体...

AI-Agent

2个月前

顶级模型得分低于1%：ARC-AGI-3全新人机较量，揭开智能体真实水平

本文围绕ARC-AGI-3基准测试的发布及其在衡量通用人工智能真实能力方面的作用展开。当前大语言模型虽能在代码编写、考试应答等任务中表现出色，但其“智能”常源...

AIGC动态

3个月前

MiroMind新模型超越GPT-5.4，三位顶尖AI科学家加盟

MiroMind发布MiroThinker-v1.7模型家族，标志着其在长链条任务智能体领域的重大升级。该系列支持256K上下文窗口与单任务最高300次工具调用，显著提升多步骤推...

AIGC动态

4个月前

3B打32B？海外病毒式传播的小模型，竟然来自BOSS直聘

当前全球大模型行业陷入参数量军备竞赛，不论开源还是闭源阵营都在疯狂扩张模型参数规模，2026年初发布的开放权重模型中，已有多个万亿参数产品，小模型十分...

AI-Agent

4个月前

顶级模型Claude Sonnet 4.6与Gemini 3.1 Pro也来庆新春

春节期间，两款顶级闭源大语言模型Claude Sonnet 4.6与Gemini 3.1 Pro发布，同步展现出人工智能在电脑操作、复杂逻辑推理层面的全新进化。Claude Sonnet 4.6...

AIGC动态

5个月前

2026开年关键词：Self-Distillation，大模型真正走向「持续学习」

2026年初，大模型领域的研究焦点集中在自蒸馏（Self-Distillation）技术上，这一方法被视为解决持续学习瓶颈的关键突破。传统监督微调（SFT）在模型吸收新知...

AIGC动态

5个月前

DeepSeek-R1推理智能从哪儿来？谷歌新研究：模型内心多个角色吵翻了

过去两年，大模型的推理能力经历了显著跃迁，尤其在数学、逻辑和多步规划等复杂任务上，推理模型如OpenAI的o系列、DeepSeek-R1和QwQ-32B已稳定超越传统指令微...

AIGC动态

6个月前

标签：推理能力

Claude Sonnet 5 上线一日差评刷屏：打不过千问和 Minimax，性价比全面翻车

超越Scaling！千分之一的数据，省几百倍算力的类脑模型来了

新架构模型HRM-Text创新纪录！1B参数、1000美元，图灵奖得主都亲自下场了

四道题评测 Qwen3.7-Max：从空间推理到 3D 建模，它离 Agent 更近了吗？

顶级模型得分低于1%：ARC-AGI-3全新人机较量，揭开智能体真实水平

MiroMind新模型超越GPT-5.4，三位顶尖AI科学家加盟

3B打32B？海外病毒式传播的小模型，竟然来自BOSS直聘

顶级模型Claude Sonnet 4.6与Gemini 3.1 Pro也来庆新春

2026开年关键词：Self-Distillation，大模型真正走向「持续学习」

DeepSeek-R1推理智能从哪儿来？谷歌新研究：模型内心多个角色吵翻了

热门网址

标签：推理能力

AstronClaw

LibTV-AI视频创作

AI大学堂

热门网址