Phase 4: Deep Learning und neuronale Netze

Der Stanford CS336 Kurs erklärt systematisch, wie man ein großes Sprachmodell von Grund auf aufbaut. Er deckt den kompletten Prozess ab, von der Datenverarbeitung über die Transformer-Architektur, das Modelltraining, die GPU-Optimierung, parallele Berechnungen bis hin zur RLHF-Ausrichtung.

LanguageModelTransformerStanfordYouTubeVideoFreeEnglish

Stanford CS336: Sprachmodellierung von Grund auf | Frühjahr 2025

Kursübersicht

Kursname: CS336 - Sprachmodellierung von Grund auf
Startzeit: Frühjahrssemester 2025
Anbieter: Stanford Online
Kursformat: Komplette Videovorlesungsreihe (17 Vorlesungen)
Veröffentlichungsdatum: 8. Juli 2025

Kursbeschreibung

Sprachmodelle sind der Grundstein moderner Anwendungen der natürlichen Sprachverarbeitung (NLP) und haben ein neues Paradigma eröffnet: ein einziges, universelles System zur Bewältigung verschiedener nachgelagerter Aufgaben. Mit der kontinuierlichen Entwicklung der Bereiche Künstliche Intelligenz (KI), Maschinelles Lernen (ML) und NLP ist ein tiefgreifendes Verständnis von Sprachmodellen für Wissenschaftler und Ingenieure von entscheidender Bedeutung geworden.

Dieser Kurs zielt darauf ab, den Studierenden ein umfassendes Verständnis von Sprachmodellen zu vermitteln, indem er sie durch den gesamten Prozess der Entwicklung ihres eigenen Sprachmodells führt. Inspiriert von der Idee, ein komplettes Betriebssystem von Grund auf neu zu erstellen, wird dieser Kurs die Studierenden durch jeden Aspekt der Sprachmodellerstellung führen, einschließlich:

  • Datenerfassung und -bereinigung (für das Vortraining)
  • Transformer-Modell-Erstellung
  • Modelltraining
  • Evaluierung vor der Bereitstellung

Kursinformationen

Kursübersicht

Vorlesung 1: Übersicht und Tokenisierung (1:18:59)

  • Kursübersicht
  • Einführung in die Tokenisierung
  • Aufrufe: über 250.000

Vorlesung 2: PyTorch, Ressourcenbilanzierung (1:19:22)

  • Verwendung des PyTorch-Frameworks
  • Ressourcenbilanzierung
  • Aufrufe: über 87.000

Vorlesung 3: Architekturen, Hyperparameter (1:27:03)

  • Design von Modellarchitekturen
  • Hyperparameter-Optimierung
  • Aufrufe: über 65.000

Vorlesung 4: Mixture-of-Experts-Modelle (1:22:04)

  • Mixture-of-Experts-Modelle
  • Aufrufe: über 46.000

Vorlesung 5: GPUs (1:14:21)

  • Prinzipien und Anwendungen von GPU-Computing
  • Aufrufe: über 39.000

Vorlesung 6: Kernels, Triton (1:20:22)

  • Kernel-Optimierung
  • Triton-Framework
  • Aufrufe: über 26.000

Vorlesung 7: Parallelisierung 1 (1:24:42)

  • Techniken des Parallel Computing (Teil 1)
  • Aufrufe: über 24.000

Vorlesung 8: Parallelisierung 2 (1:15:18)

  • Techniken des Parallel Computing (Teil 2)
  • Aufrufe: über 15.000

Vorlesung 9: Skalierungsgesetze 1 (1:05:18)

  • Skalierungsgesetze (Teil 1)
  • Aufrufe: über 18.000

Vorlesung 10: Inferenz (1:22:52)

  • Inferenzoptimierung
  • Aufrufe: über 19.000

Vorlesung 11: Skalierungsgesetze 2 (1:18:13)

  • Skalierungsgesetze (Teil 2)
  • Aufrufe: über 13.000

Vorlesung 12: Evaluierung (1:20:48)

  • Methoden zur Modellevaluierung
  • Aufrufe: über 13.000

Vorlesung 13: Daten 1 (1:19:06)

  • Datenverarbeitung (Teil 1)
  • Aufrufe: über 14.000

Vorlesung 14: Daten 2 (1:19:12)

  • Datenverarbeitung (Teil 2)
  • Aufrufe: über 12.000

Vorlesung 15: Alignment - SFT/RLHF (1:14:51)

  • Alignment-Techniken
  • Supervised Fine-Tuning (SFT)
  • Reinforcement Learning from Human Feedback (RLHF)
  • Aufrufe: über 19.000

Vorlesung 16: Alignment - RL 1 (1:20:32)

  • Alignment - Reinforcement Learning (Teil 1)
  • Aufrufe: über 19.000

Vorlesung 17: Alignment - RL 2 (1:16:09)

  • Alignment - Reinforcement Learning (Teil 2)
  • Aufrufe: über 16.000

Kursmerkmale

  1. Systematisch: Deckt den gesamten Entwicklungsprozess von Sprachmodellen ab, von der Datenvorbereitung bis zur Modellbereitstellung.
  2. Praxisorientiert: Betont praktisches Arbeiten; Studierende werden ihr eigenes Sprachmodell erstellen.
  3. Tiefe technische Inhalte: Behandelt fortgeschrittene Themen wie GPU-Optimierung, Parallel Computing und Triton.
  4. Aktuelle Inhalte: Umfasst die neuesten Alignment-Techniken (RLHF) und Forschung zu Skalierungsgesetzen.
  5. Ingenieurpraktiken: Konzentriert sich auf technische Aspekte wie Ressourcenbilanzierung und Leistungsoptimierung.

Zielgruppe

  • Forscher, die ein tiefes Verständnis der Funktionsweise großer Sprachmodelle erlangen möchten.
  • Ingenieure, die Sprachmodelle von Grund auf neu erstellen möchten.
  • Studierende mit Grundkenntnissen in NLP und Deep Learning.
  • Wissenschaftler und Praktiker im Bereich KI/ML.

Voraussetzungen

  • Solide Programmierkenntnisse (Python)
  • Grundkenntnisse in Deep Learning
  • Verständnis grundlegender neuronaler Netzwerkkonzepte
  • Vertrautheit mit grundlegenden Machine-Learning-Theorien

Lernressourcen

Zusammenfassung

Dies ist ein äußerst wertvoller Kurs für Lernende, die die Technologie der Sprachmodelle wirklich verstehen und beherrschen möchten. Durch systematisches Lernen werden die Studierenden in der Lage sein, ihre eigenen Sprachmodelle unabhängig zu erstellen, zu trainieren und bereitzustellen und ein tiefes Verständnis der aktuellsten NLP-Technologien zu erlangen.