Cuarta etapa: Aprendizaje profundo y redes neuronales

Recursos de aprendizaje visualizados de algoritmos de modelos grandes con más de 100 diagramas originales, que explican sistemáticamente LLM, aprendizaje por refuerzo, ajuste fino y técnicas de alineación.

ModeloGrandeAprendizajePorRefuerzoRLHFGitHubTextFreeChinese

LLM-RL-Visualized: Introducción Detallada a los Materiales de Aprendizaje de Algoritmos de Grandes Modelos

Resumen del Proyecto

LLM-RL-Visualized es un repositorio de recursos de aprendizaje de código abierto que contiene más de 100 diagramas originales de principios de grandes modelos de lenguaje (LLM) y aprendizaje por refuerzo (RL). Es un recurso educativo sistemático y visual para algoritmos de grandes modelos, que cubre un sistema de conocimiento completo desde conceptos básicos hasta aplicaciones avanzadas.

Estructura del Contenido Principal

Capítulo 1: Principios y Resumen Técnico de los Grandes Modelos

  • 1.1 Estructura de Grandes Modelos Ilustrada
    • Vista panorámica de la estructura de los Grandes Modelos de Lenguaje (LLM)
    • Capa de entrada: Tokenización, mapeo de Tokens y generación de vectores
    • Capa de salida: Logits, distribución de probabilidad y decodificación
    • Modelos de Lenguaje Multimodales (MLLM) y Modelos de Lenguaje Visuales (VLM)
  • 1.2 Vista Panorámica del Entrenamiento de Grandes Modelos
  • 1.3 Ley de Escalamiento (Las Cuatro Leyes de Escalabilidad del Rendimiento)

Capítulo 2: SFT (Ajuste Fino Supervisado)

  • 2.1 Ilustración de Diversas Técnicas de Ajuste Fino
    • Ajuste fino de parámetros completos, ajuste fino de parámetros parciales
    • LoRA (Ajuste Fino de Adaptación de Bajo Rango) — "Mover mil libras con cuatro onzas" (lograr mucho con poco esfuerzo)
    • Derivados de LoRA: QLoRA, AdaLoRA, PiSSA, etc.
    • Ajuste fino basado en prompts: Prefix-Tuning, Prompt Tuning, etc.
    • Adapter Tuning
    • Comparación y guía de selección de técnicas de ajuste fino
  • 2.2 Análisis Profundo del Principio de SFT
    • Datos SFT y formato ChatML
    • Cálculo de Logits y probabilidad de Token
    • Ilustración de Label y Loss en SFT
    • Probabilidades logarítmicas (LogProbs) y LogSoftmax
  • 2.3 Recopilación y Procesamiento de Instrucciones
  • 2.4 Guía Práctica de SFT

Capítulo 3: DPO (Optimización Directa de Preferencias)

  • 3.1 Idea Central de DPO
    • Modelo de recompensa implícito
    • Función de pérdida (Loss) y objetivo de optimización
  • 3.2 Construcción de Conjuntos de Datos de Preferencia
  • 3.3 Ilustración de la Implementación y Entrenamiento de DPO
  • 3.4 Experiencia Práctica con DPO
  • 3.5 DPO Avanzado

Capítulo 4: Técnicas de Optimización de Rendimiento sin Entrenamiento

  • 4.1 Ingeniería de Prompts
  • 4.2 CoT (Cadena de Pensamiento)
    • Ilustración del principio de CoT
    • Métodos derivados como ToT, GoT, XoT, etc.
  • 4.3 Control de Generación y Estrategias de Decodificación
    • Búsqueda codiciosa (Greedy Search), búsqueda por haz (Beam Search)
    • Ilustración de métodos de muestreo como Top-K, Top-P, etc.
  • 4.4 RAG (Generación Aumentada por Recuperación)
  • 4.5 Llamada a Funciones y Herramientas (Function Calling)

Capítulo 5: Fundamentos del Aprendizaje por Refuerzo

  • 5.1 Núcleo del Aprendizaje por Refuerzo
    • Arquitectura básica y conceptos clave del aprendizaje por refuerzo
    • Proceso de Decisión de Markov (MDP)
    • Exploración y explotación, estrategia ε-greedy
    • On-policy, Off-policy
  • 5.2 Función de Valor, Estimación de Recompensa
  • 5.3 Diferencia Temporal (TD)
  • 5.4 Algoritmos Basados en Valor
  • 5.5 Algoritmos de Gradiente de Política
  • 5.6 Aprendizaje por Refuerzo Multiagente (MARL)
  • 5.7 Aprendizaje por Imitación (IL)
  • 5.8 Extensiones Avanzadas del Aprendizaje por Refuerzo

Capítulo 6: Algoritmos de Optimización de Políticas

  • 6.1 Arquitectura Actor-Critic
  • 6.2 Función de Ventaja y A2C
  • 6.3 PPO y Algoritmos Relacionados
    • Evolución del algoritmo PPO
    • TRPO (Optimización de Política de Región de Confianza)
    • Muestreo por Importancia (Importance Sampling)
    • Explicación detallada de PPO-Clip
  • 6.4 Algoritmo GRPO
  • 6.5 Gradiente de Política Determinista (DPG)

Capítulo 7: RLHF y RLAIF

  • 7.1 Resumen de RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana)
    • Modelado del aprendizaje por refuerzo para modelos de lenguaje
    • Muestras de entrenamiento y flujo general de RLHF
  • 7.2 Fase Uno: Diseño y Entrenamiento del Modelo de Recompensa Ilustrado
    • Estructura del Modelo de Recompensa (Reward Model)
    • Entradas y puntuaciones de recompensa del Modelo de Recompensa
    • Análisis de la función de pérdida (Loss) del Modelo de Recompensa
  • 7.3 Fase Dos: Entrenamiento PPO con Múltiples Modelos Interconectados
    • Ilustración de los roles de los cuatro modelos
    • Restricción de política basada en la divergencia KL
    • Implementación central de RLHF basada en PPO
  • 7.4 Consejos Prácticos de RLHF
  • 7.5 Aprendizaje por Refuerzo Basado en Retroalimentación de IA

Capítulo 8: Optimización de la Capacidad de Razonamiento Lógico

  • 8.1 Visión General de las Técnicas Relacionadas con el Razonamiento Lógico
  • 8.2 Búsqueda y Optimización de Rutas de Razonamiento
    • MCTS (Búsqueda en Árbol Monte Carlo)
    • Búsqueda A*
    • Muestreo BoN y destilación
  • 8.3 Entrenamiento de Aprendizaje por Refuerzo

Capítulo 9: Práctica Integral y Optimización del Rendimiento

  • 9.1 Vista Panorámica de la Práctica
  • 9.2 Entrenamiento y Despliegue
  • 9.3 Entrenamiento y Despliegue Local de DeepSeek
  • 9.4 Evaluación del Rendimiento
  • 9.5 Mapa de Técnicas de Optimización del Rendimiento de Grandes Modelos

Características del Recurso

1. Enseñanza Visual

  • Más de 100 diagramas de arquitectura originales que explican sistemáticamente los grandes modelos y el aprendizaje por refuerzo
  • Rico en ilustraciones, cada concepto complejo se acompaña de un diagrama esquemático cuidadosamente diseñado
  • Proporciona gráficos vectoriales en formato SVG, que admiten zoom ilimitado

2. Combinación de Teoría y Práctica

  • No solo incluye diagramas de principios teóricos, sino también numerosas guías prácticas
  • Proporciona ejemplos de código completos e implementaciones en pseudocódigo
  • Cubre todo el proceso, desde la investigación hasta la implementación en ingeniería

3. Cobertura de Tecnologías de Vanguardia

  • Cubre las últimas tecnologías de grandes modelos: LLM, VLM, MLLM, etc.
  • Incluye algoritmos de entrenamiento de vanguardia: RLHF, DPO, GRPO, etc.
  • Se mantiene al día con el desarrollo de la industria y actualiza continuamente el contenido

4. Ruta de Aprendizaje Sistemática

  • Aprendizaje progresivo desde conceptos básicos hasta aplicaciones avanzadas
  • El contenido de cada capítulo está orgánicamente conectado, formando un sistema de conocimiento completo
  • Adecuado para las necesidades de estudiantes de diferentes niveles

Profundidad Técnica

Sección de Aprendizaje por Refuerzo

  • Detalla la historia del desarrollo del aprendizaje por refuerzo, desde sus orígenes en la década de 1950 hasta los últimos avances del modelo OpenAI o1 en 2024
  • Cubre algoritmos centrales: PPO, DQN, Actor-Critic, Gradiente de Política, etc.
  • Explica específicamente las aplicaciones del aprendizaje por refuerzo en grandes modelos

Técnicas de Ajuste Fino de Grandes Modelos

  • Explica en detalle la idea central y el principio de implementación de LoRA (Adaptación de Bajo Rango)
  • Compara y analiza métodos como el ajuste fino de parámetros completos, LoRA, Prefix-Tuning, etc.
  • Proporciona configuraciones de parámetros específicas y sugerencias prácticas

Técnicas de Alineación

  • Analiza en profundidad el proceso de entrenamiento de dos fases de RLHF: entrenamiento del modelo de recompensa y aprendizaje por refuerzo PPO
  • Explica en detalle cómo DPO simplifica el proceso de RLHF
  • Presenta métodos de alineación emergentes como RLAIF, CAI, etc.

Valor de Aprendizaje

Para Investigadores

  • Proporciona un marco teórico completo y los últimos avances en investigación
  • Incluye una rica bibliografía y lecturas adicionales
  • Adecuado para el estudio en profundidad de los principios de diversos algoritmos

Para Ingenieros

  • Proporciona guías de implementación prácticas y ejemplos de código
  • Incluye configuraciones de parámetros detalladas y sugerencias de optimización
  • Adecuado para una rápida puesta en marcha e implementación en ingeniería

Para Estudiantes

  • Diseño de una ruta de aprendizaje paso a paso
  • Método de enseñanza visual con ilustraciones y texto
  • Cobertura completa desde cero hasta aplicaciones avanzadas

Sugerencias de Uso

  1. Estudio Sistemático: Aprender en el orden de los capítulos para construir un sistema de conocimiento completo.
  2. Enfoque en Puntos Clave: Seleccionar capítulos específicos para un estudio profundo según las necesidades.
  3. Combinación con la Práctica: Combinar el estudio teórico con la práctica de código.
  4. Atención Continua: Seguir las actualizaciones del repositorio para mantenerse al día con los últimos avances tecnológicos.

Este recurso de aprendizaje ofrece a los estudiantes de grandes modelos y aprendizaje por refuerzo una plataforma de conocimiento sistemática, completa y práctica, siendo uno de los recursos de aprendizaje en chino de mayor calidad en este campo actualmente.