第四阶段:深度学习与神经网络
斯坦福大学CS336课程,系统讲解如何从零开始构建大语言模型,涵盖数据处理、Transformer架构、模型训练、GPU优化、并行计算到RLHF对齐的完整流程
Stanford CS336: Language Modeling from Scratch | Spring 2025
课程概述
课程名称: CS336 - Language Modeling from Scratch
开课时间: 2025年春季学期
开课机构: Stanford Online
课程形式: 完整视频讲座系列(17个讲座)
发布时间: 2025年7月8日
课程简介
语言模型是现代自然语言处理(NLP)应用的基石,并开启了一个新的范式:拥有单一通用目的系统来处理各种下游任务。随着人工智能(AI)、机器学习(ML)和自然语言处理领域的不断发展,对语言模型的深入理解对科学家和工程师来说变得至关重要。
本课程旨在为学生提供对语言模型的全面理解,通过引导他们完成开发自己语言模型的整个过程。从头开始创建整个操作系统的思路中汲取灵感,本课程将带领学生走过语言模型创建的每一个方面,包括:
- 数据收集和清洗(用于预训练)
- Transformer 模型构建
- 模型训练
- 部署前的评估
课程信息
- 课程网站: https://stanford-cs336.github.io/
- 在线学习链接: https://online.stanford.edu/courses/cs336-language-modeling-scratch
- 讲座总数: 17个完整讲座
- 课程总时长: 约17小时
课程大纲
Lecture 1: Overview and Tokenization (1:18:59)
- 课程概览
- 分词技术介绍
- 观看次数: 25万+
Lecture 2: PyTorch, Resource Accounting (1:19:22)
- PyTorch 框架使用
- 资源核算
- 观看次数: 8.7万+
Lecture 3: Architectures, Hyperparameters (1:27:03)
- 模型架构设计
- 超参数调优
- 观看次数: 6.5万+
Lecture 4: Mixture of Experts (1:22:04)
- 专家混合模型
- 观看次数: 4.6万+
Lecture 5: GPUs (1:14:21)
- GPU 计算原理与应用
- 观看次数: 3.9万+
Lecture 6: Kernels, Triton (1:20:22)
- 内核优化
- Triton 框架
- 观看次数: 2.6万+
Lecture 7: Parallelism 1 (1:24:42)
- 并行计算技术(第一部分)
- 观看次数: 2.4万+
Lecture 8: Parallelism 2 (1:15:18)
- 并行计算技术(第二部分)
- 观看次数: 1.5万+
Lecture 9: Scaling Laws 1 (1:05:18)
- 扩展定律(第一部分)
- 观看次数: 1.8万+
Lecture 10: Inference (1:22:52)
- 推理优化
- 观看次数: 1.9万+
Lecture 11: Scaling Laws 2 (1:18:13)
- 扩展定律(第二部分)
- 观看次数: 1.3万+
Lecture 12: Evaluation (1:20:48)
- 模型评估方法
- 观看次数: 1.3万+
Lecture 13: Data 1 (1:19:06)
- 数据处理(第一部分)
- 观看次数: 1.4万+
Lecture 14: Data 2 (1:19:12)
- 数据处理(第二部分)
- 观看次数: 1.2万+
Lecture 15: Alignment - SFT/RLHF (1:14:51)
- 对齐技术
- 监督微调(SFT)
- 基于人类反馈的强化学习(RLHF)
- 观看次数: 1.9万+
Lecture 16: Alignment - RL 1 (1:20:32)
- 对齐 - 强化学习(第一部分)
- 观看次数: 1.9万+
Lecture 17: Alignment - RL 2 (1:16:09)
- 对齐 - 强化学习(第二部分)
- 观看次数: 1.6万+
课程特点
- 系统性强: 从数据准备到模型部署,覆盖语言模型开发的完整流程
- 实践导向: 强调动手实践,学生将构建自己的语言模型
- 深度技术: 涵盖 GPU 优化、并行计算、Triton 等高级主题
- 前沿内容: 包含最新的对齐技术(RLHF)和扩展定律研究
- 工程实践: 注重资源核算、性能优化等工程问题
适合人群
- 希望深入理解大语言模型工作原理的研究者
- 想要从零构建语言模型的工程师
- 对 NLP 和深度学习有一定基础的学生
- AI/ML 领域的科学家和从业者
先修要求
- 扎实的编程基础(Python)
- 深度学习基础知识
- 了解神经网络基本概念
- 熟悉基本的机器学习理论
学习资源
- 视频讲座: YouTube 完整播放列表
- 课程网站: 包含详细的课程材料和作业
- GitHub: https://stanford-cs336.github.io/
总结
这是一门极具价值的课程,适合想要真正理解和掌握语言模型技术的学习者。通过系统学习,学生将能够独立构建、训练和部署自己的语言模型,深入理解当前最前沿的 NLP 技术。