第四階段:深度學習與神經網路
史丹佛大學CS336課程,系統講解如何從零開始構建大語言模型,涵蓋數據處理、Transformer架構、模型訓練、GPU優化、並行計算到RLHF對齊的完整流程
Stanford CS336: Language Modeling from Scratch | Spring 2025
課程概述
課程名稱: CS336 - Language Modeling from Scratch
開課時間: 2025年春季學期
開課機構: Stanford Online
課程形式: 完整視訊講座系列(17個講座)
發佈時間: 2025年7月8日
課程簡介
語言模型是現代自然語言處理(NLP)應用的基石,並開啟了一個新的範式:擁有單一通用目的系統來處理各種下游任務。隨著人工智慧(AI)、機器學習(ML)和自然語言處理領域的不斷發展,對語言模型的深入理解對科學家和工程師來說變得至關重要。
本課程旨在為學生提供對語言模型的全面理解,透過引導他們完成開發自己語言模型的整個過程。從頭開始創建整個作業系統的思路中汲取靈感,本課程將帶領學生走過語言模型創建的每一個方面,包括:
- 數據收集與清洗(用於預訓練)
- Transformer 模型建構
- 模型訓練
- 部署前的評估
課程資訊
- 課程網站: https://stanford-cs336.github.io/
- 線上學習連結: https://online.stanford.edu/courses/cs336-language-modeling-scratch
- 講座總數: 17個完整講座
- 課程總時長: 約17小時
課程大綱
Lecture 1: Overview and Tokenization (1:18:59)
- 課程概覽
- 分詞技術介紹
- 觀看次數: 25萬+
Lecture 2: PyTorch, Resource Accounting (1:19:22)
- PyTorch 框架使用
- 資源核算
- 觀看次數: 8.7萬+
Lecture 3: Architectures, Hyperparameters (1:27:03)
- 模型架構設計
- 超參數調優
- 觀看次數: 6.5萬+
Lecture 4: Mixture of Experts (1:22:04)
- 專家混合模型
- 觀看次數: 4.6萬+
Lecture 5: GPUs (1:14:21)
- GPU 計算原理與應用
- 觀看次數: 3.9萬+
Lecture 6: Kernels, Triton (1:20:22)
- 核心優化
- Triton 框架
- 觀看次數: 2.6萬+
Lecture 7: Parallelism 1 (1:24:42)
- 並行計算技術(第一部分)
- 觀看次數: 2.4萬+
Lecture 8: Parallelism 2 (1:15:18)
- 並行計算技術(第二部分)
- 觀看次數: 1.5萬+
Lecture 9: Scaling Laws 1 (1:05:18)
- 擴展定律(第一部分)
- 觀看次數: 1.8萬+
Lecture 10: Inference (1:22:52)
- 推論優化
- 觀看次數: 1.9萬+
Lecture 11: Scaling Laws 2 (1:18:13)
- 擴展定律(第二部分)
- 觀看次數: 1.3萬+
Lecture 12: Evaluation (1:20:48)
- 模型評估方法
- 觀看次數: 1.3萬+
Lecture 13: Data 1 (1:19:06)
- 數據處理(第一部分)
- 觀看次數: 1.4萬+
Lecture 14: Data 2 (1:19:12)
- 數據處理(第二部分)
- 觀看次數: 1.2萬+
Lecture 15: Alignment - SFT/RLHF (1:14:51)
- 對齊技術
- 監督微調(SFT)
- 基於人類回饋的強化學習(RLHF)
- 觀看次數: 1.9萬+
Lecture 16: Alignment - RL 1 (1:20:32)
- 對齊 - 強化學習(第一部分)
- 觀看次數: 1.9萬+
Lecture 17: Alignment - RL 2 (1:16:09)
- 對齊 - 強化學習(第二部分)
- 觀看次數: 1.6萬+
課程特色
- 系統性強: 從數據準備到模型部署,覆蓋語言模型開發的完整流程
- 實踐導向: 強調動手實踐,學生將建構自己的語言模型
- 深度技術: 涵蓋 GPU 優化、並行計算、Triton 等進階主題
- 前沿內容: 包含最新的對齊技術(RLHF)和擴展定律研究
- 工程實踐: 注重資源核算、效能優化等工程問題
適合人群
- 希望深入理解大型語言模型運作原理的研究人員
- 想要從零開始建構語言模型的工程師
- 對 NLP 和深度學習有一定基礎的學生
- AI/ML 領域的科學家和從業人員
先修要求
- 扎實的程式設計基礎(Python)
- 深度學習基礎知識
- 了解神經網路基本概念
- 熟悉基本的機器學習理論
學習資源
- 視訊講座: YouTube 完整播放清單
- 課程網站: 包含詳細的課程材料與作業
- GitHub: https://stanford-cs336.github.io/
總結
這是一門極具價值的課程,適合想要真正理解與掌握語言模型技術的學習者。透過系統學習,學生將能夠獨立建構、訓練和部署自己的語言模型,深入理解當前最前沿的 NLP 技術。