Cuarta etapa: Aprendizaje profundo y redes neuronales

Recursos de aprendizaje visualizados de algoritmos de modelos grandes con más de 100 diagramas originales, que explican sistemáticamente LLM, aprendizaje por refuerzo, ajuste fino y técnicas de alineación.

ModeloGrandeAprendizajePorRefuerzoRLHFGitHubTextFreeChinese

LLM-RL-Visualized: Introducción Detallada a los Materiales de Aprendizaje de Algoritmos de Grandes Modelos

Resumen del Proyecto

LLM-RL-Visualized es un repositorio de recursos de aprendizaje de código abierto que contiene más de 100 diagramas originales de principios de grandes modelos de lenguaje (LLM) y aprendizaje por refuerzo (RL). Es un recurso educativo sistemático y visual para algoritmos de grandes modelos, que cubre un sistema de conocimiento completo desde conceptos básicos hasta aplicaciones avanzadas.

Estructura del Contenido Principal

Capítulo 1: Principios y Resumen Técnico de los Grandes Modelos

1.1 Estructura de Grandes Modelos Ilustrada
- Vista panorámica de la estructura de los Grandes Modelos de Lenguaje (LLM)
- Capa de entrada: Tokenización, mapeo de Tokens y generación de vectores
- Capa de salida: Logits, distribución de probabilidad y decodificación
- Modelos de Lenguaje Multimodales (MLLM) y Modelos de Lenguaje Visuales (VLM)
1.2 Vista Panorámica del Entrenamiento de Grandes Modelos
1.3 Ley de Escalamiento (Las Cuatro Leyes de Escalabilidad del Rendimiento)

Capítulo 2: SFT (Ajuste Fino Supervisado)

2.1 Ilustración de Diversas Técnicas de Ajuste Fino
- Ajuste fino de parámetros completos, ajuste fino de parámetros parciales
- LoRA (Ajuste Fino de Adaptación de Bajo Rango) — "Mover mil libras con cuatro onzas" (lograr mucho con poco esfuerzo)
- Derivados de LoRA: QLoRA, AdaLoRA, PiSSA, etc.
- Ajuste fino basado en prompts: Prefix-Tuning, Prompt Tuning, etc.
- Adapter Tuning
- Comparación y guía de selección de técnicas de ajuste fino
2.2 Análisis Profundo del Principio de SFT
- Datos SFT y formato ChatML
- Cálculo de Logits y probabilidad de Token
- Ilustración de Label y Loss en SFT
- Probabilidades logarítmicas (LogProbs) y LogSoftmax
2.3 Recopilación y Procesamiento de Instrucciones
2.4 Guía Práctica de SFT

Capítulo 3: DPO (Optimización Directa de Preferencias)

3.1 Idea Central de DPO
- Modelo de recompensa implícito
- Función de pérdida (Loss) y objetivo de optimización
3.2 Construcción de Conjuntos de Datos de Preferencia
3.3 Ilustración de la Implementación y Entrenamiento de DPO
3.4 Experiencia Práctica con DPO
3.5 DPO Avanzado

Capítulo 4: Técnicas de Optimización de Rendimiento sin Entrenamiento

4.1 Ingeniería de Prompts
4.2 CoT (Cadena de Pensamiento)
- Ilustración del principio de CoT
- Métodos derivados como ToT, GoT, XoT, etc.
4.3 Control de Generación y Estrategias de Decodificación
- Búsqueda codiciosa (Greedy Search), búsqueda por haz (Beam Search)
- Ilustración de métodos de muestreo como Top-K, Top-P, etc.
4.4 RAG (Generación Aumentada por Recuperación)
4.5 Llamada a Funciones y Herramientas (Function Calling)

Capítulo 5: Fundamentos del Aprendizaje por Refuerzo

5.1 Núcleo del Aprendizaje por Refuerzo
- Arquitectura básica y conceptos clave del aprendizaje por refuerzo
- Proceso de Decisión de Markov (MDP)
- Exploración y explotación, estrategia ε-greedy
- On-policy, Off-policy
5.2 Función de Valor, Estimación de Recompensa
5.3 Diferencia Temporal (TD)
5.4 Algoritmos Basados en Valor
5.5 Algoritmos de Gradiente de Política
5.6 Aprendizaje por Refuerzo Multiagente (MARL)
5.7 Aprendizaje por Imitación (IL)
5.8 Extensiones Avanzadas del Aprendizaje por Refuerzo

Capítulo 6: Algoritmos de Optimización de Políticas

6.1 Arquitectura Actor-Critic
6.2 Función de Ventaja y A2C
6.3 PPO y Algoritmos Relacionados
- Evolución del algoritmo PPO
- TRPO (Optimización de Política de Región de Confianza)
- Muestreo por Importancia (Importance Sampling)
- Explicación detallada de PPO-Clip
6.4 Algoritmo GRPO
6.5 Gradiente de Política Determinista (DPG)

Capítulo 7: RLHF y RLAIF

7.1 Resumen de RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana)
- Modelado del aprendizaje por refuerzo para modelos de lenguaje
- Muestras de entrenamiento y flujo general de RLHF
7.2 Fase Uno: Diseño y Entrenamiento del Modelo de Recompensa Ilustrado
- Estructura del Modelo de Recompensa (Reward Model)
- Entradas y puntuaciones de recompensa del Modelo de Recompensa
- Análisis de la función de pérdida (Loss) del Modelo de Recompensa
7.3 Fase Dos: Entrenamiento PPO con Múltiples Modelos Interconectados
- Ilustración de los roles de los cuatro modelos
- Restricción de política basada en la divergencia KL
- Implementación central de RLHF basada en PPO
7.4 Consejos Prácticos de RLHF
7.5 Aprendizaje por Refuerzo Basado en Retroalimentación de IA

Capítulo 8: Optimización de la Capacidad de Razonamiento Lógico

8.1 Visión General de las Técnicas Relacionadas con el Razonamiento Lógico
8.2 Búsqueda y Optimización de Rutas de Razonamiento
- MCTS (Búsqueda en Árbol Monte Carlo)
- Búsqueda A*
- Muestreo BoN y destilación
8.3 Entrenamiento de Aprendizaje por Refuerzo

Capítulo 9: Práctica Integral y Optimización del Rendimiento

9.1 Vista Panorámica de la Práctica
9.2 Entrenamiento y Despliegue
9.3 Entrenamiento y Despliegue Local de DeepSeek
9.4 Evaluación del Rendimiento
9.5 Mapa de Técnicas de Optimización del Rendimiento de Grandes Modelos

Características del Recurso

1. Enseñanza Visual

Más de 100 diagramas de arquitectura originales que explican sistemáticamente los grandes modelos y el aprendizaje por refuerzo
Rico en ilustraciones, cada concepto complejo se acompaña de un diagrama esquemático cuidadosamente diseñado
Proporciona gráficos vectoriales en formato SVG, que admiten zoom ilimitado

2. Combinación de Teoría y Práctica

No solo incluye diagramas de principios teóricos, sino también numerosas guías prácticas
Proporciona ejemplos de código completos e implementaciones en pseudocódigo
Cubre todo el proceso, desde la investigación hasta la implementación en ingeniería

3. Cobertura de Tecnologías de Vanguardia

Cubre las últimas tecnologías de grandes modelos: LLM, VLM, MLLM, etc.
Incluye algoritmos de entrenamiento de vanguardia: RLHF, DPO, GRPO, etc.
Se mantiene al día con el desarrollo de la industria y actualiza continuamente el contenido

4. Ruta de Aprendizaje Sistemática

Aprendizaje progresivo desde conceptos básicos hasta aplicaciones avanzadas
El contenido de cada capítulo está orgánicamente conectado, formando un sistema de conocimiento completo
Adecuado para las necesidades de estudiantes de diferentes niveles

Profundidad Técnica

Sección de Aprendizaje por Refuerzo

Detalla la historia del desarrollo del aprendizaje por refuerzo, desde sus orígenes en la década de 1950 hasta los últimos avances del modelo OpenAI o1 en 2024
Cubre algoritmos centrales: PPO, DQN, Actor-Critic, Gradiente de Política, etc.
Explica específicamente las aplicaciones del aprendizaje por refuerzo en grandes modelos

Técnicas de Ajuste Fino de Grandes Modelos

Explica en detalle la idea central y el principio de implementación de LoRA (Adaptación de Bajo Rango)
Compara y analiza métodos como el ajuste fino de parámetros completos, LoRA, Prefix-Tuning, etc.
Proporciona configuraciones de parámetros específicas y sugerencias prácticas

Técnicas de Alineación

Analiza en profundidad el proceso de entrenamiento de dos fases de RLHF: entrenamiento del modelo de recompensa y aprendizaje por refuerzo PPO
Explica en detalle cómo DPO simplifica el proceso de RLHF
Presenta métodos de alineación emergentes como RLAIF, CAI, etc.

Valor de Aprendizaje

Para Investigadores

Proporciona un marco teórico completo y los últimos avances en investigación
Incluye una rica bibliografía y lecturas adicionales
Adecuado para el estudio en profundidad de los principios de diversos algoritmos

Para Ingenieros

Proporciona guías de implementación prácticas y ejemplos de código
Incluye configuraciones de parámetros detalladas y sugerencias de optimización
Adecuado para una rápida puesta en marcha e implementación en ingeniería

Para Estudiantes

Diseño de una ruta de aprendizaje paso a paso
Método de enseñanza visual con ilustraciones y texto
Cobertura completa desde cero hasta aplicaciones avanzadas

Sugerencias de Uso

Estudio Sistemático: Aprender en el orden de los capítulos para construir un sistema de conocimiento completo.
Enfoque en Puntos Clave: Seleccionar capítulos específicos para un estudio profundo según las necesidades.
Combinación con la Práctica: Combinar el estudio teórico con la práctica de código.
Atención Continua: Seguir las actualizaciones del repositorio para mantenerse al día con los últimos avances tecnológicos.

Este recurso de aprendizaje ofrece a los estudiantes de grandes modelos y aprendizaje por refuerzo una plataforma de conocimiento sistemática, completa y práctica, siendo uno de los recursos de aprendizaje en chino de mayor calidad en este campo actualmente.