Phase 4: Deep Learning und neuronale Netze

Der Stanford CS336 Kurs erklärt systematisch, wie man ein großes Sprachmodell von Grund auf aufbaut. Er deckt den kompletten Prozess ab, von der Datenverarbeitung über die Transformer-Architektur, das Modelltraining, die GPU-Optimierung, parallele Berechnungen bis hin zur RLHF-Ausrichtung.

LanguageModelTransformerStanfordYouTubeVideoFreeEnglish

Stanford CS336: Sprachmodellierung von Grund auf | Frühjahr 2025

Kursübersicht

Kursname: CS336 - Sprachmodellierung von Grund auf
Startzeit: Frühjahrssemester 2025
Anbieter: Stanford Online
Kursformat: Komplette Videovorlesungsreihe (17 Vorlesungen)
Veröffentlichungsdatum: 8. Juli 2025

Kursbeschreibung

Sprachmodelle sind der Grundstein moderner Anwendungen der natürlichen Sprachverarbeitung (NLP) und haben ein neues Paradigma eröffnet: ein einziges, universelles System zur Bewältigung verschiedener nachgelagerter Aufgaben. Mit der kontinuierlichen Entwicklung der Bereiche Künstliche Intelligenz (KI), Maschinelles Lernen (ML) und NLP ist ein tiefgreifendes Verständnis von Sprachmodellen für Wissenschaftler und Ingenieure von entscheidender Bedeutung geworden.

Dieser Kurs zielt darauf ab, den Studierenden ein umfassendes Verständnis von Sprachmodellen zu vermitteln, indem er sie durch den gesamten Prozess der Entwicklung ihres eigenen Sprachmodells führt. Inspiriert von der Idee, ein komplettes Betriebssystem von Grund auf neu zu erstellen, wird dieser Kurs die Studierenden durch jeden Aspekt der Sprachmodellerstellung führen, einschließlich:

Datenerfassung und -bereinigung (für das Vortraining)
Transformer-Modell-Erstellung
Modelltraining
Evaluierung vor der Bereitstellung

Kursinformationen

Kurs-Website: https://stanford-cs336.github.io/
Online-Lernlink: https://online.stanford.edu/courses/cs336-language-modeling-scratch
Gesamtzahl der Vorlesungen: 17 vollständige Vorlesungen
Gesamtdauer des Kurses: ca. 17 Stunden

Kursübersicht

Vorlesung 1: Übersicht und Tokenisierung (1:18:59)

Kursübersicht
Einführung in die Tokenisierung
Aufrufe: über 250.000

Vorlesung 2: PyTorch, Ressourcenbilanzierung (1:19:22)

Verwendung des PyTorch-Frameworks
Ressourcenbilanzierung
Aufrufe: über 87.000

Vorlesung 3: Architekturen, Hyperparameter (1:27:03)

Design von Modellarchitekturen
Hyperparameter-Optimierung
Aufrufe: über 65.000

Vorlesung 4: Mixture-of-Experts-Modelle (1:22:04)

Mixture-of-Experts-Modelle
Aufrufe: über 46.000

Vorlesung 5: GPUs (1:14:21)

Prinzipien und Anwendungen von GPU-Computing
Aufrufe: über 39.000

Vorlesung 6: Kernels, Triton (1:20:22)

Kernel-Optimierung
Triton-Framework
Aufrufe: über 26.000

Vorlesung 7: Parallelisierung 1 (1:24:42)

Techniken des Parallel Computing (Teil 1)
Aufrufe: über 24.000

Vorlesung 8: Parallelisierung 2 (1:15:18)

Techniken des Parallel Computing (Teil 2)
Aufrufe: über 15.000

Vorlesung 9: Skalierungsgesetze 1 (1:05:18)

Skalierungsgesetze (Teil 1)
Aufrufe: über 18.000

Vorlesung 10: Inferenz (1:22:52)

Inferenzoptimierung
Aufrufe: über 19.000

Vorlesung 11: Skalierungsgesetze 2 (1:18:13)

Skalierungsgesetze (Teil 2)
Aufrufe: über 13.000

Vorlesung 12: Evaluierung (1:20:48)

Methoden zur Modellevaluierung
Aufrufe: über 13.000

Vorlesung 13: Daten 1 (1:19:06)

Datenverarbeitung (Teil 1)
Aufrufe: über 14.000

Vorlesung 14: Daten 2 (1:19:12)

Datenverarbeitung (Teil 2)
Aufrufe: über 12.000

Vorlesung 15: Alignment - SFT/RLHF (1:14:51)

Alignment-Techniken
Supervised Fine-Tuning (SFT)
Reinforcement Learning from Human Feedback (RLHF)
Aufrufe: über 19.000

Vorlesung 16: Alignment - RL 1 (1:20:32)

Alignment - Reinforcement Learning (Teil 1)
Aufrufe: über 19.000

Vorlesung 17: Alignment - RL 2 (1:16:09)

Alignment - Reinforcement Learning (Teil 2)
Aufrufe: über 16.000

Kursmerkmale

Systematisch: Deckt den gesamten Entwicklungsprozess von Sprachmodellen ab, von der Datenvorbereitung bis zur Modellbereitstellung.
Praxisorientiert: Betont praktisches Arbeiten; Studierende werden ihr eigenes Sprachmodell erstellen.
Tiefe technische Inhalte: Behandelt fortgeschrittene Themen wie GPU-Optimierung, Parallel Computing und Triton.
Aktuelle Inhalte: Umfasst die neuesten Alignment-Techniken (RLHF) und Forschung zu Skalierungsgesetzen.
Ingenieurpraktiken: Konzentriert sich auf technische Aspekte wie Ressourcenbilanzierung und Leistungsoptimierung.

Zielgruppe

Forscher, die ein tiefes Verständnis der Funktionsweise großer Sprachmodelle erlangen möchten.
Ingenieure, die Sprachmodelle von Grund auf neu erstellen möchten.
Studierende mit Grundkenntnissen in NLP und Deep Learning.
Wissenschaftler und Praktiker im Bereich KI/ML.

Voraussetzungen

Solide Programmierkenntnisse (Python)
Grundkenntnisse in Deep Learning
Verständnis grundlegender neuronaler Netzwerkkonzepte
Vertrautheit mit grundlegenden Machine-Learning-Theorien

Lernressourcen

Videovorlesungen: Komplette YouTube-Playlist
Kurs-Website: Enthält detaillierte Kursmaterialien und Aufgaben
GitHub: https://stanford-cs336.github.io/

Zusammenfassung

Dies ist ein äußerst wertvoller Kurs für Lernende, die die Technologie der Sprachmodelle wirklich verstehen und beherrschen möchten. Durch systematisches Lernen werden die Studierenden in der Lage sein, ihre eigenen Sprachmodelle unabhängig zu erstellen, zu trainieren und bereitzustellen und ein tiefes Verständnis der aktuellsten NLP-Technologien zu erlangen.