第四阶段:深度学习与神经网络

斯坦福大学CS336课程,系统讲解如何从零开始构建大语言模型,涵盖数据处理、Transformer架构、模型训练、GPU优化、并行计算到RLHF对齐的完整流程

LanguageModelTransformerStanfordYouTubeVideoFreeEnglish

Stanford CS336: Language Modeling from Scratch | Spring 2025

课程概述

课程名称: CS336 - Language Modeling from Scratch
开课时间: 2025年春季学期
开课机构: Stanford Online
课程形式: 完整视频讲座系列(17个讲座)
发布时间: 2025年7月8日

课程简介

语言模型是现代自然语言处理(NLP)应用的基石,并开启了一个新的范式:拥有单一通用目的系统来处理各种下游任务。随着人工智能(AI)、机器学习(ML)和自然语言处理领域的不断发展,对语言模型的深入理解对科学家和工程师来说变得至关重要。

本课程旨在为学生提供对语言模型的全面理解,通过引导他们完成开发自己语言模型的整个过程。从头开始创建整个操作系统的思路中汲取灵感,本课程将带领学生走过语言模型创建的每一个方面,包括:

  • 数据收集和清洗(用于预训练)
  • Transformer 模型构建
  • 模型训练
  • 部署前的评估

课程信息

课程大纲

Lecture 1: Overview and Tokenization (1:18:59)

  • 课程概览
  • 分词技术介绍
  • 观看次数: 25万+

Lecture 2: PyTorch, Resource Accounting (1:19:22)

  • PyTorch 框架使用
  • 资源核算
  • 观看次数: 8.7万+

Lecture 3: Architectures, Hyperparameters (1:27:03)

  • 模型架构设计
  • 超参数调优
  • 观看次数: 6.5万+

Lecture 4: Mixture of Experts (1:22:04)

  • 专家混合模型
  • 观看次数: 4.6万+

Lecture 5: GPUs (1:14:21)

  • GPU 计算原理与应用
  • 观看次数: 3.9万+

Lecture 6: Kernels, Triton (1:20:22)

  • 内核优化
  • Triton 框架
  • 观看次数: 2.6万+

Lecture 7: Parallelism 1 (1:24:42)

  • 并行计算技术(第一部分)
  • 观看次数: 2.4万+

Lecture 8: Parallelism 2 (1:15:18)

  • 并行计算技术(第二部分)
  • 观看次数: 1.5万+

Lecture 9: Scaling Laws 1 (1:05:18)

  • 扩展定律(第一部分)
  • 观看次数: 1.8万+

Lecture 10: Inference (1:22:52)

  • 推理优化
  • 观看次数: 1.9万+

Lecture 11: Scaling Laws 2 (1:18:13)

  • 扩展定律(第二部分)
  • 观看次数: 1.3万+

Lecture 12: Evaluation (1:20:48)

  • 模型评估方法
  • 观看次数: 1.3万+

Lecture 13: Data 1 (1:19:06)

  • 数据处理(第一部分)
  • 观看次数: 1.4万+

Lecture 14: Data 2 (1:19:12)

  • 数据处理(第二部分)
  • 观看次数: 1.2万+

Lecture 15: Alignment - SFT/RLHF (1:14:51)

  • 对齐技术
  • 监督微调(SFT)
  • 基于人类反馈的强化学习(RLHF)
  • 观看次数: 1.9万+

Lecture 16: Alignment - RL 1 (1:20:32)

  • 对齐 - 强化学习(第一部分)
  • 观看次数: 1.9万+

Lecture 17: Alignment - RL 2 (1:16:09)

  • 对齐 - 强化学习(第二部分)
  • 观看次数: 1.6万+

课程特点

  1. 系统性强: 从数据准备到模型部署,覆盖语言模型开发的完整流程
  2. 实践导向: 强调动手实践,学生将构建自己的语言模型
  3. 深度技术: 涵盖 GPU 优化、并行计算、Triton 等高级主题
  4. 前沿内容: 包含最新的对齐技术(RLHF)和扩展定律研究
  5. 工程实践: 注重资源核算、性能优化等工程问题

适合人群

  • 希望深入理解大语言模型工作原理的研究者
  • 想要从零构建语言模型的工程师
  • 对 NLP 和深度学习有一定基础的学生
  • AI/ML 领域的科学家和从业者

先修要求

  • 扎实的编程基础(Python)
  • 深度学习基础知识
  • 了解神经网络基本概念
  • 熟悉基本的机器学习理论

学习资源

总结

这是一门极具价值的课程,适合想要真正理解和掌握语言模型技术的学习者。通过系统学习,学生将能够独立构建、训练和部署自己的语言模型,深入理解当前最前沿的 NLP 技术。