Cuarta etapa: Aprendizaje profundo y redes neuronales

Curso CS336 de la Universidad de Stanford que explica sistemáticamente cómo construir un modelo de lenguaje grande desde cero, cubriendo el procesamiento de datos, la arquitectura Transformer, el entrenamiento del modelo, la optimización de GPU, la computación paralela y el flujo completo de alineación RLHF.

LanguageModelTransformerStanfordYouTubeVideoFreeEnglish

Stanford CS336: Modelado de Lenguaje desde Cero | Primavera 2025

Resumen del Curso

Nombre del Curso: CS336 - Modelado de Lenguaje desde Cero
Fecha de Inicio: Semestre de Primavera de 2025
Institución: Stanford Online
Formato del Curso: Serie completa de videoconferencias (17 conferencias)
Fecha de Publicación: 8 de julio de 2025

Introducción al Curso

Los modelos de lenguaje son la piedra angular de las aplicaciones modernas de Procesamiento del Lenguaje Natural (PLN) y han inaugurado un nuevo paradigma: tener un único sistema de propósito general para abordar diversas tareas posteriores. A medida que los campos de la Inteligencia Artificial (IA), el Aprendizaje Automático (ML) y el Procesamiento del Lenguaje Natural continúan evolucionando, una comprensión profunda de los modelos de lenguaje se vuelve crucial para científicos e ingenieros.

Este curso tiene como objetivo proporcionar a los estudiantes una comprensión integral de los modelos de lenguaje, guiándolos a través de todo el proceso de desarrollo de su propio modelo de lenguaje. Inspirándose en la idea de crear un sistema operativo completo desde cero, este curso llevará a los estudiantes a través de cada aspecto de la creación de un modelo de lenguaje, incluyendo:

  • Recopilación y limpieza de datos (para preentrenamiento)
  • Construcción del modelo Transformer
  • Entrenamiento del modelo
  • Evaluación previa al despliegue

Información del Curso

Temario del Curso

Conferencia 1: Visión General y Tokenización (1:18:59)

  • Visión general del curso
  • Introducción a las técnicas de tokenización
  • Vistas: 250 mil+

Conferencia 2: PyTorch, Contabilidad de Recursos (1:19:22)

  • Uso del framework PyTorch
  • Contabilidad de recursos
  • Vistas: 87 mil+

Conferencia 3: Arquitecturas, Hiperparámetros (1:27:03)

  • Diseño de arquitecturas de modelos
  • Ajuste de hiperparámetros
  • Vistas: 65 mil+

Conferencia 4: Mezcla de Expertos (1:22:04)

  • Modelos de mezcla de expertos
  • Vistas: 46 mil+

Conferencia 5: GPUs (1:14:21)

  • Principios y aplicaciones de la computación GPU
  • Vistas: 39 mil+

Conferencia 6: Kernels, Triton (1:20:22)

  • Optimización de kernels
  • Framework Triton
  • Vistas: 26 mil+

Conferencia 7: Paralelismo 1 (1:24:42)

  • Técnicas de computación paralela (Parte 1)
  • Vistas: 24 mil+

Conferencia 8: Paralelismo 2 (1:15:18)

  • Técnicas de computación paralela (Parte 2)
  • Vistas: 15 mil+

Conferencia 9: Leyes de Escalamiento 1 (1:05:18)

  • Leyes de escalamiento (Parte 1)
  • Vistas: 18 mil+

Conferencia 10: Inferencia (1:22:52)

  • Optimización de inferencia
  • Vistas: 19 mil+

Conferencia 11: Leyes de Escalamiento 2 (1:18:13)

  • Leyes de escalamiento (Parte 2)
  • Vistas: 13 mil+

Conferencia 12: Evaluación (1:20:48)

  • Métodos de evaluación de modelos
  • Vistas: 13 mil+

Conferencia 13: Datos 1 (1:19:06)

  • Procesamiento de datos (Parte 1)
  • Vistas: 14 mil+

Conferencia 14: Datos 2 (1:19:12)

  • Procesamiento de datos (Parte 2)
  • Vistas: 12 mil+

Conferencia 15: Alineación - SFT/RLHF (1:14:51)

  • Técnicas de alineación
  • Ajuste Fino Supervisado (SFT)
  • Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF)
  • Vistas: 19 mil+

Conferencia 16: Alineación - RL 1 (1:20:32)

  • Alineación - Aprendizaje por Refuerzo (Parte 1)
  • Vistas: 19 mil+

Conferencia 17: Alineación - RL 2 (1:16:09)

  • Alineación - Aprendizaje por Refuerzo (Parte 2)
  • Vistas: 16 mil+

Características del Curso

  1. Altamente Sistemático: Cubre el proceso completo de desarrollo de modelos de lenguaje, desde la preparación de datos hasta el despliegue del modelo.
  2. Orientado a la Práctica: Enfatiza la práctica manual; los estudiantes construirán su propio modelo de lenguaje.
  3. Técnicamente Profundo: Cubre temas avanzados como optimización de GPU, computación paralela y Triton.
  4. Contenido de Vanguardia: Incluye las últimas técnicas de alineación (RLHF) e investigación sobre leyes de escalamiento.
  5. Práctica de Ingeniería: Se centra en problemas de ingeniería como la contabilidad de recursos y la optimización del rendimiento.

Audiencia Objetivo

  • Investigadores que deseen comprender en profundidad cómo funcionan los grandes modelos de lenguaje.
  • Ingenieros que quieran construir modelos de lenguaje desde cero.
  • Estudiantes con una base en PLN y aprendizaje profundo.
  • Científicos y profesionales en los campos de IA/ML.

Requisitos Previos

  • Sólida base de programación (Python).
  • Conocimientos básicos de aprendizaje profundo.
  • Comprensión de los conceptos fundamentales de las redes neuronales.
  • Familiaridad con la teoría básica del aprendizaje automático.

Recursos de Aprendizaje

  • Videoconferencias: Lista de reproducción completa en YouTube.
  • Sitio web del curso: Contiene materiales detallados del curso y tareas.
  • GitHub: https://stanford-cs336.github.io/

Resumen

Este es un curso de gran valor, adecuado para aquellos que realmente desean comprender y dominar las tecnologías de modelos de lenguaje. A través de un estudio sistemático, los estudiantes podrán construir, entrenar y desplegar de forma independiente sus propios modelos de lenguaje, obteniendo una comprensión profunda de las tecnologías de PLN más avanzadas de la actualidad.