第四阶段：深度学习与神经网络

斯坦福大学CS336课程，系统讲解如何从零开始构建大语言模型，涵盖数据处理、Transformer架构、模型训练、GPU优化、并行计算到RLHF对齐的完整流程

LanguageModelTransformerStanfordYouTubeVideoFreeEnglish

Stanford CS336: Language Modeling from Scratch | Spring 2025

课程概述

课程名称: CS336 - Language Modeling from Scratch
开课时间: 2025年春季学期
开课机构: Stanford Online
课程形式: 完整视频讲座系列（17个讲座）
发布时间: 2025年7月8日

课程简介

语言模型是现代自然语言处理（NLP）应用的基石，并开启了一个新的范式：拥有单一通用目的系统来处理各种下游任务。随着人工智能（AI）、机器学习（ML）和自然语言处理领域的不断发展，对语言模型的深入理解对科学家和工程师来说变得至关重要。

本课程旨在为学生提供对语言模型的全面理解，通过引导他们完成开发自己语言模型的整个过程。从头开始创建整个操作系统的思路中汲取灵感，本课程将带领学生走过语言模型创建的每一个方面，包括：

数据收集和清洗（用于预训练）
Transformer 模型构建
模型训练
部署前的评估

课程信息

课程网站: https://stanford-cs336.github.io/
在线学习链接: https://online.stanford.edu/courses/cs336-language-modeling-scratch
讲座总数: 17个完整讲座
课程总时长: 约17小时

课程大纲

Lecture 1: Overview and Tokenization (1:18:59)

课程概览
分词技术介绍
观看次数: 25万+

Lecture 2: PyTorch, Resource Accounting (1:19:22)

PyTorch 框架使用
资源核算
观看次数: 8.7万+

Lecture 3: Architectures, Hyperparameters (1:27:03)

模型架构设计
超参数调优
观看次数: 6.5万+

Lecture 4: Mixture of Experts (1:22:04)

专家混合模型
观看次数: 4.6万+

Lecture 5: GPUs (1:14:21)

GPU 计算原理与应用
观看次数: 3.9万+

Lecture 6: Kernels, Triton (1:20:22)

内核优化
Triton 框架
观看次数: 2.6万+

Lecture 7: Parallelism 1 (1:24:42)

并行计算技术（第一部分）
观看次数: 2.4万+

Lecture 8: Parallelism 2 (1:15:18)

并行计算技术（第二部分）
观看次数: 1.5万+

Lecture 9: Scaling Laws 1 (1:05:18)

扩展定律（第一部分）
观看次数: 1.8万+

Lecture 10: Inference (1:22:52)

推理优化
观看次数: 1.9万+

Lecture 11: Scaling Laws 2 (1:18:13)

扩展定律（第二部分）
观看次数: 1.3万+

Lecture 12: Evaluation (1:20:48)

模型评估方法
观看次数: 1.3万+

Lecture 13: Data 1 (1:19:06)

数据处理（第一部分）
观看次数: 1.4万+

Lecture 14: Data 2 (1:19:12)

数据处理（第二部分）
观看次数: 1.2万+

Lecture 15: Alignment - SFT/RLHF (1:14:51)

对齐技术
监督微调（SFT）
基于人类反馈的强化学习（RLHF）
观看次数: 1.9万+

Lecture 16: Alignment - RL 1 (1:20:32)

对齐 - 强化学习（第一部分）
观看次数: 1.9万+

Lecture 17: Alignment - RL 2 (1:16:09)

对齐 - 强化学习（第二部分）
观看次数: 1.6万+

课程特点

系统性强: 从数据准备到模型部署，覆盖语言模型开发的完整流程
实践导向: 强调动手实践，学生将构建自己的语言模型
深度技术: 涵盖 GPU 优化、并行计算、Triton 等高级主题
前沿内容: 包含最新的对齐技术（RLHF）和扩展定律研究
工程实践: 注重资源核算、性能优化等工程问题

适合人群

希望深入理解大语言模型工作原理的研究者
想要从零构建语言模型的工程师
对 NLP 和深度学习有一定基础的学生
AI/ML 领域的科学家和从业者

先修要求

扎实的编程基础（Python）
深度学习基础知识
了解神经网络基本概念
熟悉基本的机器学习理论

学习资源

视频讲座: YouTube 完整播放列表
课程网站: 包含详细的课程材料和作业
GitHub: https://stanford-cs336.github.io/

总结

这是一门极具价值的课程，适合想要真正理解和掌握语言模型技术的学习者。通过系统学习，学生将能够独立构建、训练和部署自己的语言模型，深入理解当前最前沿的 NLP 技术。