新鲜出炉!斯坦福2025 CS336课程全公开:从零开始搓大模型

新鲜出炉!斯坦福2025 CS336课程全公开:从零开始搓大模型

 

文章摘要


【关 键 词】 语言模型深度学习斯坦福课程实践

斯坦福大学2025年春季的CS336课程「从头开始创造语言模型」现已全面发布,课程视频和材料均可在线获取。该课程由斯坦福大学计算机科学系助理教授Tatsunori Hashimoto和副教授Percy Liang共同讲授,两位讲师在机器学习和自然语言处理领域具有深厚的学术背景和丰富的研究经验。课程的目标是引导学生完成开发自己的语言模型的整个过程,从而帮助他们全面理解语言模型。课程借鉴了操作系统课程中从零开始创建完整操作系统的教学方法,涵盖了语言模型创建的各个环节,包括预训练的数据收集和清理、Transformer模型的构建、模型训练以及部署前的评估。

课程分为五个单元,分别是基础、系统、扩展、数据、对齐和推理强化学习。每个单元都包含多个课程,涵盖了从token化到并行化、Scaling Law、推理、评估、数据对齐等多个方面。课程非常注重实践操作,学生需要通过完成一系列作业来深入理解语言模型的开发过程。这些作业包括实现BPE分词器、Transformer架构、Adam优化器、在Triton中实现Flash Attention 2、分布式数据并行和优化器分片、使用IsoFLOP拟合Scaling Law、将Common Crawl HTML转换为文本并进行过滤和去重、实现监督微调和专家迭代等。这些作业不仅要求学生具备扎实的编程能力,还需要对深度学习和系统优化有深入的理解。

在考虑学习这门课程之前,学生需要具备一定的先决条件。熟练掌握Python、有深度学习和系统优化经验、掌握大学微积分、线性代数、基础概率与统计以及机器学习的基础知识是学习本课程的基本要求。此外,课程还为完成课程的学生赠送了纪念T恤,以表彰他们的努力和成就。

总的来说,CS336课程通过系统的教学内容和实践操作,帮助学生全面掌握语言模型的开发过程。课程不仅涵盖了理论知识,还通过实际作业让学生深入理解语言模型的各个技术细节,为他们在人工智能和自然语言处理领域的进一步发展奠定了坚实的基础。

原文和模型


【原文链接】 阅读原文 [ 1344字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...