标签:训练成本
成本不到8千美元!新浪微博1.5B小模型超越近万亿参数模型
新浪微博近期开源的VibeThinker-1.5B模型以15亿参数、不足8000美元的训练成本,在多项顶级数学竞赛基准上击败了参数量达6710亿的DeepSeek-R1等巨型模型。这一...
我们问了问“通宵答疑”的杨植麟:460万美金和Kimi的纯文本路线
月之暗面团队在Reddit举办的AMA活动中,由三位联合创始人杨植麟、周昕宇和吴育昕直接参与,回应了全球开发者对K2 Thinking模型的技术细节和行业发展的提问。...
Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3
Meta AI 团队本周五正式发布了 MobileLLM-R1,这是 MobileLLM 的全新高效推理模型系列,引发了机器学习社区的讨论。MobileLLM-R1 包含基础模型 MobileLLM-R1 ...
端到端 VLA 并非唯一解:分层推理的具身基础模型 RoBridge 破解机器人「知行合一」难题
RoBridge是一种分层推理的具身基础模型,旨在解决机器人操作技术中的两大核心问题:高昂的训练成本和认知与执行的割裂。传统端到端视觉语言动作(VLA)模型虽...
斯坦福2025 AI Index报告来了:DeepSeek在全文中被提到45次
斯坦福大学发布的《2025 AI Index》报告全面梳理了人工智能领域的最新进展与挑战。报告指出,尽管人工智能技术在过去几年取得了显著突破,但同时也面临着技术...
网上关于DeepSeek的说法,哪些是错误的?
DeepSeek近期通过采用PTX编程优化了跨芯片通信能力,但这并不意味着它绕过了NVIDIA CUDA生态。PTX是CUDA编程模型的一部分,DeepSeek直接使用PTX编写程序,虽...
自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言
DeepSeek R1,一款由中国公司DeepSeek开发的先进大模型,因其开源和性能与OpenAI的o1相当而引发全球关注。该模型以其相对较低的训练预算、易用性和良好的用户...
GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”
GPT-5(代号Orion)项目自研发以来已超过18个月,但仍未有成品出现。《华尔街日报》报道指出,尽管Orion的性能优于OpenAI当前的模型,但其进步不足以证明继续...
Ilya宣判后GPT-5被曝屡训屡败,一次训数月,数据要人工从头构建
OpenAI的GPT-5项目遭遇挑战,尽管已经完成了至少两轮训练,但每次都遇到了新问题,导致效果远不达预期。市场估算,GPT-5的单次训练成本高达5亿美元,而两次训...
五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活
2019年2月,OpenAI发布了具有15亿参数的GPT-2模型,该模型在文本生成方面表现出色,充分利用了预训练的Transformer架构,被认为是大型预言模型的始祖。现在在...
1
2



