第四階段:深度學習與神經網路

史丹佛大學CS336課程,系統講解如何從零開始構建大語言模型,涵蓋數據處理、Transformer架構、模型訓練、GPU優化、並行計算到RLHF對齊的完整流程

LanguageModelTransformerStanfordYouTubeVideoFreeEnglish

Stanford CS336: Language Modeling from Scratch | Spring 2025

課程概述

課程名稱: CS336 - Language Modeling from Scratch
開課時間: 2025年春季學期
開課機構: Stanford Online
課程形式: 完整視訊講座系列(17個講座)
發佈時間: 2025年7月8日

課程簡介

語言模型是現代自然語言處理(NLP)應用的基石,並開啟了一個新的範式:擁有單一通用目的系統來處理各種下游任務。隨著人工智慧(AI)、機器學習(ML)和自然語言處理領域的不斷發展,對語言模型的深入理解對科學家和工程師來說變得至關重要。

本課程旨在為學生提供對語言模型的全面理解,透過引導他們完成開發自己語言模型的整個過程。從頭開始創建整個作業系統的思路中汲取靈感,本課程將帶領學生走過語言模型創建的每一個方面,包括:

  • 數據收集與清洗(用於預訓練)
  • Transformer 模型建構
  • 模型訓練
  • 部署前的評估

課程資訊

課程大綱

Lecture 1: Overview and Tokenization (1:18:59)

  • 課程概覽
  • 分詞技術介紹
  • 觀看次數: 25萬+

Lecture 2: PyTorch, Resource Accounting (1:19:22)

  • PyTorch 框架使用
  • 資源核算
  • 觀看次數: 8.7萬+

Lecture 3: Architectures, Hyperparameters (1:27:03)

  • 模型架構設計
  • 超參數調優
  • 觀看次數: 6.5萬+

Lecture 4: Mixture of Experts (1:22:04)

  • 專家混合模型
  • 觀看次數: 4.6萬+

Lecture 5: GPUs (1:14:21)

  • GPU 計算原理與應用
  • 觀看次數: 3.9萬+

Lecture 6: Kernels, Triton (1:20:22)

  • 核心優化
  • Triton 框架
  • 觀看次數: 2.6萬+

Lecture 7: Parallelism 1 (1:24:42)

  • 並行計算技術(第一部分)
  • 觀看次數: 2.4萬+

Lecture 8: Parallelism 2 (1:15:18)

  • 並行計算技術(第二部分)
  • 觀看次數: 1.5萬+

Lecture 9: Scaling Laws 1 (1:05:18)

  • 擴展定律(第一部分)
  • 觀看次數: 1.8萬+

Lecture 10: Inference (1:22:52)

  • 推論優化
  • 觀看次數: 1.9萬+

Lecture 11: Scaling Laws 2 (1:18:13)

  • 擴展定律(第二部分)
  • 觀看次數: 1.3萬+

Lecture 12: Evaluation (1:20:48)

  • 模型評估方法
  • 觀看次數: 1.3萬+

Lecture 13: Data 1 (1:19:06)

  • 數據處理(第一部分)
  • 觀看次數: 1.4萬+

Lecture 14: Data 2 (1:19:12)

  • 數據處理(第二部分)
  • 觀看次數: 1.2萬+

Lecture 15: Alignment - SFT/RLHF (1:14:51)

  • 對齊技術
  • 監督微調(SFT)
  • 基於人類回饋的強化學習(RLHF)
  • 觀看次數: 1.9萬+

Lecture 16: Alignment - RL 1 (1:20:32)

  • 對齊 - 強化學習(第一部分)
  • 觀看次數: 1.9萬+

Lecture 17: Alignment - RL 2 (1:16:09)

  • 對齊 - 強化學習(第二部分)
  • 觀看次數: 1.6萬+

課程特色

  1. 系統性強: 從數據準備到模型部署,覆蓋語言模型開發的完整流程
  2. 實踐導向: 強調動手實踐,學生將建構自己的語言模型
  3. 深度技術: 涵蓋 GPU 優化、並行計算、Triton 等進階主題
  4. 前沿內容: 包含最新的對齊技術(RLHF)和擴展定律研究
  5. 工程實踐: 注重資源核算、效能優化等工程問題

適合人群

  • 希望深入理解大型語言模型運作原理的研究人員
  • 想要從零開始建構語言模型的工程師
  • 對 NLP 和深度學習有一定基礎的學生
  • AI/ML 領域的科學家和從業人員

先修要求

  • 扎實的程式設計基礎(Python)
  • 深度學習基礎知識
  • 了解神經網路基本概念
  • 熟悉基本的機器學習理論

學習資源

總結

這是一門極具價值的課程,適合想要真正理解與掌握語言模型技術的學習者。透過系統學習,學生將能夠獨立建構、訓練和部署自己的語言模型,深入理解當前最前沿的 NLP 技術。