4小时喜提专属 ChatGPT、卡帕西又整活!自曝Agent帮倒忙、手搓八千行代码,网友:跑完就当上机器学习工程师

AI-Agent8小时前发布 ai-front
45 0 0
4小时喜提专属 ChatGPT、卡帕西又整活!自曝Agent帮倒忙、手搓八千行代码,网友:跑完就当上机器学习工程师

 

文章摘要


【关 键 词】 AI开源大模型训练工具极简代码机器学习

特斯拉前AI总监、OpenAI创始成员Andrej Karpathy发布了名为nanochat的开源项目,这是一个极简的、从零构建的全流程训练/推理工具链,可用于搭建简易版ChatGPT复现模型。该项目在GitHub上迅速获得7.9k星标,引发广泛关注。nanochat的代码库仅包含一个文件,依赖项极少,但功能全面,涵盖了从分词器训练到模型推理的完整流程。

该项目的一个显著特点是其低成本高效率。仅需100美元和4小时训练,就能在类ChatGPT的网页界面上与训练的大语言模型对话。训练12小时后,模型性能便可超过GPT-2的CORE指标。若将成本提升至约1000美元(训练约41.6小时),模型的连贯性会显著提升,能够解决简单的数学题、代码任务,还能完成多项选择题测试。例如,一个深度为30的模型训练24小时后,在MMLU数据集上可取得40多分,在ARC-Easy数据集上可取得70多分,在GSM8K数据集上可取得20多分。

nanochat的技术实现也颇具特色。整个项目总共只有约8000行代码,完全由Karpathy手写完成。他尝试为该规模的模型确定一个可靠的基准架构,整体类似Llama模型,但结构上更简洁。优化器采用Muon+AdamW组合,很大程度上参考了modded-nanoGPT。Karpathy表示,这个代码仓库的代码风格和功能与常规代码偏差较大,导致AI辅助工具效果不佳

该项目在社交平台引发热烈讨论。许多网友认为这套极简的端到端训练/推理工具链将给机器学习学习者和科研人员带来深远影响。有人指出,这个代码仓库最大的受众是科研人员,因为它降低了将想法落地的门槛。甚至有人开玩笑说,跑完这个项目后要在简历上加上”机器学习工程师”头衔。

Karpathy表示,nanochat将成为LLM101n课程的核心项目,并有潜力发展成一个研究工具框架或基准测试工具。虽然目前这个项目尚未完成全面调优,也未进行性能优化,但它的整体框架已足够完善,可以发布到GitHub上,后续所有模块都能在社区中进一步改进。

原文和模型


【原文链接】 阅读原文 [ 1843字 | 8分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“讯飞星辰”

暂无评论

暂无评论...