Quatrième étape : Apprentissage profond et réseaux de neurones

Le cours CS336 de l'université de Stanford explique systématiquement comment construire un grand modèle de langage à partir de zéro, couvrant l'ensemble du processus, du traitement des données à l'architecture Transformer, en passant par l'entraînement du modèle, l'optimisation GPU, le calcul parallèle et l'alignement RLHF.

LanguageModelTransformerStanfordYouTubeVideoFreeEnglish

Stanford CS336 : Modélisation linguistique à partir de zéro | Printemps 2025

Aperçu du cours

Nom du cours: CS336 - Modélisation linguistique à partir de zéro
Période: Semestre de printemps 2025
Institution: Stanford Online
Format du cours: Série complète de conférences vidéo (17 conférences)
Date de publication: 8 juillet 2025

Introduction au cours

Les modèles linguistiques sont la pierre angulaire des applications modernes de traitement du langage naturel (TLN) et ont inauguré un nouveau paradigme : celui d'un système unique à usage général pour gérer diverses tâches en aval. Avec l'évolution constante des domaines de l'intelligence artificielle (IA), de l'apprentissage automatique (AA) et du traitement du langage naturel, une compréhension approfondie des modèles linguistiques est devenue cruciale pour les scientifiques et les ingénieurs.

Ce cours vise à fournir aux étudiants une compréhension complète des modèles linguistiques, en les guidant à travers l'ensemble du processus de développement de leur propre modèle linguistique. S'inspirant de l'idée de créer un système d'exploitation entier à partir de zéro, ce cours accompagnera les étudiants à travers chaque aspect de la création d'un modèle linguistique, y compris :

Collecte et nettoyage des données (pour le pré-entraînement)
Construction du modèle Transformer
Entraînement du modèle
Évaluation avant le déploiement

Informations sur le cours

Site web du cours: https://stanford-cs336.github.io/
Lien d'apprentissage en ligne: https://online.stanford.edu/courses/cs336-language-modeling-scratch
Nombre total de conférences: 17 conférences complètes
Durée totale du cours: Environ 17 heures

Programme du cours

Lecture 1: Overview and Tokenization (1:18:59)

Aperçu du cours
Introduction à la tokenisation
Nombre de vues: 250 000+

Lecture 2: PyTorch, Resource Accounting (1:19:22)

Utilisation du framework PyTorch
Comptabilité des ressources
Nombre de vues: 87 000+

Lecture 3: Architectures, Hyperparameters (1:27:03)

Conception de l'architecture du modèle
Optimisation des hyperparamètres
Nombre de vues: 65 000+

Lecture 4: Mixture of Experts (1:22:04)

Modèles à mélange d'experts
Nombre de vues: 46 000+

Lecture 5: GPUs (1:14:21)

Principes et applications du calcul GPU
Nombre de vues: 39 000+

Lecture 6: Kernels, Triton (1:20:22)

Optimisation des noyaux (kernels)
Framework Triton
Nombre de vues: 26 000+

Lecture 7: Parallelism 1 (1:24:42)

Techniques de calcul parallèle (Partie 1)
Nombre de vues: 24 000+

Lecture 8: Parallelism 2 (1:15:18)

Techniques de calcul parallèle (Partie 2)
Nombre de vues: 15 000+

Lecture 9: Scaling Laws 1 (1:05:18)

Lois d'échelle (Partie 1)
Nombre de vues: 18 000+

Lecture 10: Inference (1:22:52)

Optimisation de l'inférence
Nombre de vues: 19 000+

Lecture 11: Scaling Laws 2 (1:18:13)

Lois d'échelle (Partie 2)
Nombre de vues: 13 000+

Lecture 12: Evaluation (1:20:48)

Méthodes d'évaluation des modèles
Nombre de vues: 13 000+

Lecture 13: Data 1 (1:19:06)

Traitement des données (Partie 1)
Nombre de vues: 14 000+

Lecture 14: Data 2 (1:19:12)

Traitement des données (Partie 2)
Nombre de vues: 12 000+

Lecture 15: Alignment - SFT/RLHF (1:14:51)

Techniques d'alignement
Fine-tuning supervisé (SFT)
Apprentissage par renforcement à partir de feedback humain (RLHF)
Nombre de vues: 19 000+

Lecture 16: Alignment - RL 1 (1:20:32)

Alignement - Apprentissage par renforcement (Partie 1)
Nombre de vues: 19 000+

Lecture 17: Alignment - RL 2 (1:16:09)

Alignement - Apprentissage par renforcement (Partie 2)
Nombre de vues: 16 000+

Caractéristiques du cours

Approche systématique: Couvre le processus complet de développement d'un modèle linguistique, de la préparation des données au déploiement du modèle.
Orienté pratique: Met l'accent sur la pratique concrète ; les étudiants construiront leur propre modèle linguistique.
Technologie avancée: Aborde des sujets avancés tels que l'optimisation GPU, le calcul parallèle et Triton.
Contenu de pointe: Inclut les dernières techniques d'alignement (RLHF) et la recherche sur les lois d'échelle.
Pratiques d'ingénierie: Se concentre sur les problèmes d'ingénierie tels que la comptabilité des ressources et l'optimisation des performances.

Public cible

Chercheurs souhaitant comprendre en profondeur le fonctionnement des grands modèles linguistiques.
Ingénieurs désireux de construire un modèle linguistique à partir de zéro.
Étudiants ayant des bases en TLN et en apprentissage profond.
Scientifiques et professionnels des domaines de l'IA/AA.

Prérequis

Solides bases en programmation (Python)
Connaissances fondamentales en apprentissage profond
Compréhension des concepts de base des réseaux neuronaux
Familiarité avec les théories fondamentales de l'apprentissage automatique

Ressources d'apprentissage

Conférences vidéo: Liste de lecture complète sur YouTube
Site web du cours: Contient des supports de cours détaillés et des devoirs
GitHub: https://stanford-cs336.github.io/

Résumé

Il s'agit d'un cours extrêmement précieux, idéal pour les apprenants qui souhaitent réellement comprendre et maîtriser les techniques de modélisation linguistique. Grâce à un apprentissage systématique, les étudiants seront capables de construire, d'entraîner et de déployer leurs propres modèles linguistiques de manière autonome, et d'acquérir une compréhension approfondie des technologies de TLN les plus avancées.