第四階段：深度學習與神經網路

史丹佛大學CS336課程，系統講解如何從零開始構建大語言模型，涵蓋數據處理、Transformer架構、模型訓練、GPU優化、並行計算到RLHF對齊的完整流程

LanguageModelTransformerStanfordYouTubeVideoFreeEnglish

Stanford CS336: Language Modeling from Scratch | Spring 2025

課程概述

課程名稱: CS336 - Language Modeling from Scratch
開課時間: 2025年春季學期
開課機構: Stanford Online
課程形式: 完整視訊講座系列（17個講座）
發佈時間: 2025年7月8日

課程簡介

語言模型是現代自然語言處理（NLP）應用的基石，並開啟了一個新的範式：擁有單一通用目的系統來處理各種下游任務。隨著人工智慧（AI）、機器學習（ML）和自然語言處理領域的不斷發展，對語言模型的深入理解對科學家和工程師來說變得至關重要。

本課程旨在為學生提供對語言模型的全面理解，透過引導他們完成開發自己語言模型的整個過程。從頭開始創建整個作業系統的思路中汲取靈感，本課程將帶領學生走過語言模型創建的每一個方面，包括：

數據收集與清洗（用於預訓練）
Transformer 模型建構
模型訓練
部署前的評估

課程資訊

課程網站: https://stanford-cs336.github.io/
線上學習連結: https://online.stanford.edu/courses/cs336-language-modeling-scratch
講座總數: 17個完整講座
課程總時長: 約17小時

課程大綱

Lecture 1: Overview and Tokenization (1:18:59)

課程概覽
分詞技術介紹
觀看次數: 25萬+

Lecture 2: PyTorch, Resource Accounting (1:19:22)

PyTorch 框架使用
資源核算
觀看次數: 8.7萬+

Lecture 3: Architectures, Hyperparameters (1:27:03)

模型架構設計
超參數調優
觀看次數: 6.5萬+

Lecture 4: Mixture of Experts (1:22:04)

專家混合模型
觀看次數: 4.6萬+

Lecture 5: GPUs (1:14:21)

GPU 計算原理與應用
觀看次數: 3.9萬+

Lecture 6: Kernels, Triton (1:20:22)

核心優化
Triton 框架
觀看次數: 2.6萬+

Lecture 7: Parallelism 1 (1:24:42)

並行計算技術（第一部分）
觀看次數: 2.4萬+

Lecture 8: Parallelism 2 (1:15:18)

並行計算技術（第二部分）
觀看次數: 1.5萬+

Lecture 9: Scaling Laws 1 (1:05:18)

擴展定律（第一部分）
觀看次數: 1.8萬+

Lecture 10: Inference (1:22:52)

推論優化
觀看次數: 1.9萬+

Lecture 11: Scaling Laws 2 (1:18:13)

擴展定律（第二部分）
觀看次數: 1.3萬+

Lecture 12: Evaluation (1:20:48)

模型評估方法
觀看次數: 1.3萬+

Lecture 13: Data 1 (1:19:06)

數據處理（第一部分）
觀看次數: 1.4萬+

Lecture 14: Data 2 (1:19:12)

數據處理（第二部分）
觀看次數: 1.2萬+

Lecture 15: Alignment - SFT/RLHF (1:14:51)

對齊技術
監督微調（SFT）
基於人類回饋的強化學習（RLHF）
觀看次數: 1.9萬+

Lecture 16: Alignment - RL 1 (1:20:32)

對齊 - 強化學習（第一部分）
觀看次數: 1.9萬+

Lecture 17: Alignment - RL 2 (1:16:09)

對齊 - 強化學習（第二部分）
觀看次數: 1.6萬+

課程特色

系統性強: 從數據準備到模型部署，覆蓋語言模型開發的完整流程
實踐導向: 強調動手實踐，學生將建構自己的語言模型
深度技術: 涵蓋 GPU 優化、並行計算、Triton 等進階主題
前沿內容: 包含最新的對齊技術（RLHF）和擴展定律研究
工程實踐: 注重資源核算、效能優化等工程問題

適合人群

希望深入理解大型語言模型運作原理的研究人員
想要從零開始建構語言模型的工程師
對 NLP 和深度學習有一定基礎的學生
AI/ML 領域的科學家和從業人員

先修要求

扎實的程式設計基礎（Python）
深度學習基礎知識
了解神經網路基本概念
熟悉基本的機器學習理論

學習資源

視訊講座: YouTube 完整播放清單
課程網站: 包含詳細的課程材料與作業
GitHub: https://stanford-cs336.github.io/

總結

這是一門極具價值的課程，適合想要真正理解與掌握語言模型技術的學習者。透過系統學習，學生將能夠獨立建構、訓練和部署自己的語言模型，深入理解當前最前沿的 NLP 技術。