训练成本 | 学习AIGC

成本不到8千美元！新浪微博1.5B小模型超越近万亿参数模型

新浪微博近期开源的VibeThinker-1.5B模型以15亿参数、不足8000美元的训练成本，在多项顶级数学竞赛基准上击败了参数量达6710亿的DeepSeek-R1等巨型模型。这一...

AIGC动态

3个月前

我们问了问“通宵答疑”的杨植麟：460万美金和Kimi的纯文本路线

月之暗面团队在Reddit举办的AMA活动中，由三位联合创始人杨植麟、周昕宇和吴育昕直接参与，回应了全球开发者对K2 Thinking模型的技术细节和行业发展的提问。...

AI-Agent

3个月前

Meta开源MobileLLM-R1模型，不到1B参数，用1/10的训练就超越了Qwen3

Meta AI 团队本周五正式发布了 MobileLLM-R1，这是 MobileLLM 的全新高效推理模型系列，引发了机器学习社区的讨论。MobileLLM-R1 包含基础模型 MobileLLM-R1 ...

AIGC动态

5个月前

端到端 VLA 并非唯一解：分层推理的具身基础模型 RoBridge 破解机器人「知行合一」难题

RoBridge是一种分层推理的具身基础模型，旨在解决机器人操作技术中的两大核心问题：高昂的训练成本和认知与执行的割裂。传统端到端视觉语言动作（VLA）模型虽...

AIGC动态

9个月前

斯坦福2025 AI Index报告来了：DeepSeek在全文中被提到45次

斯坦福大学发布的《2025 AI Index》报告全面梳理了人工智能领域的最新进展与挑战。报告指出，尽管人工智能技术在过去几年取得了显著突破，但同时也面临着技术...

AIGC动态

10个月前

网上关于DeepSeek的说法，哪些是错误的？

DeepSeek近期通过采用PTX编程优化了跨芯片通信能力，但这并不意味着它绕过了NVIDIA CUDA生态。PTX是CUDA编程模型的一部分，DeepSeek直接使用PTX编写程序，虽...

AIGC动态

1年前 (2025)

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

DeepSeek R1，一款由中国公司DeepSeek开发的先进大模型，因其开源和性能与OpenAI的o1相当而引发全球关注。该模型以其相对较低的训练预算、易用性和良好的用户...

AIGC动态

1年前 (2025)

GPT-5 研发一年半进度堪忧！每轮 5 亿美金训练成本打水漂，还得雇人从头“造数据”

GPT-5（代号Orion）项目自研发以来已超过18个月，但仍未有成品出现。《华尔街日报》报道指出，尽管Orion的性能优于OpenAI当前的模型，但其进步不足以证明继续...

AIGC动态

1年前 (2024)

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

OpenAI的GPT-5项目遭遇挑战，尽管已经完成了至少两轮训练，但每次都遇到了新问题，导致效果远不达预期。市场估算，GPT-5的单次训练成本高达5亿美元，而两次训...

AIGC动态

1年前 (2024)

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

2019年2月，OpenAI发布了具有15亿参数的GPT-2模型，该模型在文本生成方面表现出色，充分利用了预训练的Transformer架构，被认为是大型预言模型的始祖。现在在...

AIGC动态

2年前 (2024)

标签：训练成本

成本不到8千美元！新浪微博1.5B小模型超越近万亿参数模型

我们问了问“通宵答疑”的杨植麟：460万美金和Kimi的纯文本路线

Meta开源MobileLLM-R1模型，不到1B参数，用1/10的训练就超越了Qwen3

端到端 VLA 并非唯一解：分层推理的具身基础模型 RoBridge 破解机器人「知行合一」难题

斯坦福2025 AI Index报告来了：DeepSeek在全文中被提到45次

网上关于DeepSeek的说法，哪些是错误的？

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

GPT-5 研发一年半进度堪忧！每轮 5 亿美金训练成本打水漂，还得雇人从头“造数据”

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

热门网址

标签：训练成本

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址