大模型

LLM,VLM,模型

o3-mini数学推理暴打DeepSeek-R1?AIME 2025初赛曝数据集污染大瓜

近期,AIME 2025 I数学竞赛中大语言模型的表现引发了广泛关注。 一些顶尖模型如o3-mini和DeepSeek-R1分别取得了78%和65%的高分,而部分较小的蒸馏模型也意外...

刘知远详解 DeepSeek 出圈背后的逻辑:自身算法的创新以及 OpenAI 的傲慢

在探讨人工智能(AI)如何赋能全人类,实现大模型和通用人工智能的普及时,高效性成为了一个核心议题。智能革命被认为将经历与信息革命相似的阶段,即提高能...

不断有人在问,这个中国模型到底有什么魔力?

低成本、高性能的AI模型开发方法正在全球范围内掀起新一轮技术热潮。通过李飞飞团队的研究以及上海交大团队的工作可以看出,利用Qwen作为基座模型,结合创新...

万万没想到,最先被AI取代的是内娱?

近年来,人工智能技术对娱乐产业的冲击引发广泛讨论。春节期间的AI机器人表演与文字生成工具的普及,使得公众对职业替代的焦虑达到新高度。DeepSeek等国产AI...

靠DeepSeek赚钱的“卖铲人”,浮夸至极

随着DeepSeek人工智能技术的爆火,围绕其衍生的商业模式迅速涌现。在淘宝、小红书、抖音等平台,以'年入百万'为噱头的盈利项目主要呈现三种形态:AI课程销售...

DeepSeek技术解析:如何冲击英伟达两大壁垒?

DeepSeek的V3模型通过557.6万美元的低成本训练实现了与OpenAI O1相近的性能,这一突破引发了对英伟达技术壁垒的重新审视。其核心创新在于基础模型能力的跃升...

Ilya的神秘公司SSI估值将达200亿美元,5个月翻四倍,却没有任何产品

近期,前OpenAI联合创始人Ilya Sutskever的创业公司Safe Superintelligence Inc.(简称SSI)因正在洽谈200亿美元估值的新一轮融资而引发广泛关注。尽管SSI目...

DeepSeek-R1、o1都低于10%,人类给AI的「最后考试」来了,贡献者名单长达两页

随着人工智能技术的快速发展,评估前沿大语言模型能力的需求变得愈加迫切。为此,Center for AI Safety 与 Scale AI 共同开发了一个名为 Humanity's Last Exa...

关于 DeepSeek 的几点深度思考(推荐收藏)

---DeepSeek的崛起标志着全球AI领域权力天平的倾斜,中国大模型技术进入战略反攻阶段。 自2022年ChatGPT发布以来,中国在大模型领域经历了从战略防御到相持的...

DeepSeek为什么采用与主流大模型不一样的MoE架构?一文搞懂什么是MoE模型

混合专家模型(MoE)通过选择性激活子模型的方式显著提升计算效率,与传统Transformer架构形成鲜明对比。MoE模型每次计算仅激活5.5%的总参数量,而Qwen、LLam...
1 318 319 320 321 322 789