Quarta Etapa: Aprendizado Profundo e Redes Neurais

Recursos de aprendizado visualizado de algoritmos de modelos grandes com mais de 100 ilustrações originais, explicando sistematicamente LLM, aprendizado por reforço, ajuste fino e técnicas de alinhamento

ModeloGrandeAprendizadoPorReforçoRLHFGitHubTextFreeChinese

LLM-RL-Visualized: Introdução Detalhada aos Materiais de Aprendizagem de Algoritmos de Grandes Modelos

Visão Geral do Projeto

LLM-RL-Visualized é um repositório de recursos de aprendizagem de código aberto que contém mais de 100 diagramas originais de princípios de Grandes Modelos de Linguagem (LLM) e Aprendizagem por Reforço (RL). É um recurso de ensino visualizado e sistemático para algoritmos de grandes modelos, cobrindo um sistema de conhecimento completo, desde conceitos básicos até aplicações avançadas.

Estrutura do Conteúdo Principal

Capítulo 1: Princípios e Visão Geral da Tecnologia de Grandes Modelos

1.1 Estrutura Ilustrada de Grandes Modelos
- Panorama Completo da Estrutura de Grandes Modelos de Linguagem (LLM)
- Camada de Entrada: Tokenização, Mapeamento de Tokens e Geração de Vetores
- Camada de Saída: Logits, Distribuição de Probabilidade e Decodificação
- Modelos de Linguagem Multimodais (MLLM) e Modelos de Linguagem Visual (VLM)
1.2 Panorama Completo do Treinamento de Grandes Modelos
1.3 Lei de Escala (As Quatro Leis de Expansão de Desempenho)

Capítulo 2: SFT (Ajuste Fino Supervisionado)

2.1 Diagramas de Várias Técnicas de Ajuste Fino
- Ajuste Fino de Parâmetros Completos, Ajuste Fino de Parâmetros Parciais
- LoRA (Ajuste Fino de Adaptação de Baixo Rank) — Alavancagem de Grande Impacto com Pouco Esforço
- Derivados de LoRA: QLoRA, AdaLoRA, PiSSA, etc.
- Ajuste Fino Baseado em Prompt: Prefix-Tuning, Prompt Tuning, etc.
- Adapter Tuning
- Comparação de Técnicas de Ajuste Fino e Guia de Seleção
2.2 Análise Aprofundada dos Princípios do SFT
- Dados SFT e Formatação ChatML
- Cálculo de Logits e Probabilidade de Tokens
- Diagrama de Labels e Loss do SFT
- Probabilidades Logarítmicas (LogProbs) e LogSoftmax
2.3 Coleta e Processamento de Instruções
2.4 Guia Prático de SFT

Capítulo 3: DPO (Otimização Direta por Preferência)

3.1 Ideia Central do DPO
- Modelo de Recompensa Implícito
- Loss e Objetivo de Otimização
3.2 Construção de Conjuntos de Dados de Preferência
3.3 Diagrama de Implementação e Treinamento do DPO
3.4 Experiência Prática com DPO
3.5 DPO Avançado

Capítulo 4: Técnicas de Otimização de Efeito Sem Treinamento

4.1 Engenharia de Prompts
4.2 CoT (Cadeia de Pensamento)
- Diagrama de Princípios do CoT
- Métodos Derivados: ToT, GoT, XoT, etc.
4.3 Controle de Geração e Estratégias de Decodificação
- Busca Gulosa, Busca por Feixe
- Diagramas de Métodos de Amostragem Top-K, Top-P, etc.
4.4 RAG (Geração Aumentada por Recuperação)
4.5 Chamada de Funções e Ferramentas (Function Calling)

Capítulo 5: Fundamentos da Aprendizagem por Reforço

5.1 Núcleo da Aprendizagem por Reforço
- Arquitetura Básica e Conceitos Centrais da Aprendizagem por Reforço
- Processo de Decisão de Markov (MDP)
- Exploração e Explotação, Estratégia ε-Guloso
- On-policy, Off-policy
5.2 Função de Valor, Estimativa de Recompensa
5.3 Diferença Temporal (TD)
5.4 Algoritmos Baseados em Valor
5.5 Algoritmos de Gradiente de Política
5.6 Aprendizagem por Reforço Multiagente (MARL)
5.7 Aprendizagem por Imitação (IL)
5.8 Expansões Avançadas da Aprendizagem por Reforço

Capítulo 6: Algoritmos de Otimização de Política

6.1 Arquitetura Actor-Critic
6.2 Função de Vantagem e A2C
6.3 PPO e Algoritmos Relacionados
- Evolução do Algoritmo PPO
- TRPO (Otimização de Política de Região de Confiança)
- Amostragem por Importância
- Detalhes do PPO-Clip
6.4 Algoritmo GRPO
6.5 Gradiente de Política Determinístico (DPG)

Capítulo 7: RLHF e RLAIF

7.1 Visão Geral do RLHF (Aprendizagem por Reforço com Feedback Humano)
- Modelagem de Aprendizagem por Reforço para Modelos de Linguagem
- Amostras de Treinamento e Fluxo Geral do RLHF
7.2 Fase Um: Diagrama de Design e Treinamento do Modelo de Recompensa
- Estrutura do Modelo de Recompensa (Reward Model)
- Entrada do Modelo de Recompensa e Pontuação de Recompensa
- Análise da Loss do Modelo de Recompensa
7.3 Fase Dois: Treinamento PPO com Múltiplos Modelos Colaborativos
- Diagrama de Papéis dos Quatro Modelos
- Restrição de Política Baseada na Divergência KL
- Implementação Central do RLHF Baseada em PPO
7.4 Dicas Práticas de RLHF
7.5 Aprendizagem por Reforço com Feedback de IA

Capítulo 8: Otimização da Capacidade de Raciocínio Lógico

8.1 Visão Geral das Tecnologias Relacionadas ao Raciocínio Lógico
8.2 Busca e Otimização de Caminhos de Raciocínio
- MCTS (Busca em Árvore Monte Carlo)
- Busca A*
- Amostragem e Destilação BoN
8.3 Treinamento de Aprendizagem por Reforço

Capítulo 9: Prática Integrada e Otimização de Desempenho

9.1 Panorama Completo da Prática
9.2 Treinamento e Implantação
9.3 Treinamento e Implantação Local do DeepSeek
9.4 Avaliação de Desempenho
9.5 Mapa Tecnológico de Otimização de Desempenho de Grandes Modelos

Características do Recurso

1. Ensino Visualizado

Mais de 100 diagramas de arquitetura originais, explicando sistematicamente grandes modelos e aprendizagem por reforço
Rico em ilustrações e texto, cada conceito complexo é acompanhado por diagramas cuidadosamente projetados
Fornece imagens vetoriais em formato SVG, suportando zoom ilimitado

2. Combinação de Teoria e Prática

Não apenas diagramas de princípios teóricos, mas também uma grande quantidade de guias práticos
Fornece exemplos de código completos e implementações em pseudocódigo
Abrange todo o fluxo, desde a pesquisa até a implementação em engenharia

3. Cobertura de Tecnologias de Ponta

Abrange as mais recentes tecnologias de grandes modelos: LLM, VLM, MLLM, etc.
Inclui algoritmos de treinamento de ponta: RLHF, DPO, GRPO, etc.
Acompanha de perto o desenvolvimento da indústria, com conteúdo em constante atualização

4. Caminho de Aprendizagem Sistemático

Aprendizagem progressiva, desde conceitos básicos até aplicações avançadas
O conteúdo de cada capítulo está organicamente conectado, formando um sistema de conhecimento completo
Adequado para as necessidades de aprendizes de diferentes níveis

Profundidade Técnica

Parte de Aprendizagem por Reforço

Detalha o histórico de desenvolvimento da aprendizagem por reforço, desde suas origens na década de 1950 até os últimos avanços do modelo OpenAI o1 em 2024
Abrange algoritmos centrais: PPO, DQN, Actor-Critic, Gradiente de Política, etc.
Explica especificamente as aplicações da aprendizagem por reforço em grandes modelos

Técnicas de Ajuste Fino de Grandes Modelos

Explica detalhadamente a ideia central e os princípios de implementação do LoRA (Adaptação de Baixo Rank)
Compara e analisa métodos como ajuste fino de parâmetros completos, LoRA, Prefix-Tuning, etc.
Fornece configurações de parâmetros específicas e sugestões práticas

Técnicas de Alinhamento

Analisa profundamente o processo de treinamento em duas fases do RLHF: treinamento do modelo de recompensa e aprendizagem por reforço PPO
Detalha como o DPO simplifica o processo RLHF
Apresenta métodos de alinhamento emergentes como RLAIF, CAI, etc.

Valor de Aprendizagem

Para Pesquisadores

Fornece uma estrutura teórica completa e os mais recentes avanços em pesquisa
Inclui ricas referências e leituras complementares
Adequado para pesquisa aprofundada sobre vários princípios de algoritmos

Para Engenheiros

Fornece guias de implementação práticos e exemplos de código
Inclui configurações de parâmetros detalhadas e sugestões de otimização
Adequado para iniciar rapidamente e implementar em projetos

Para Aprendizes

Design de caminho de aprendizagem passo a passo
Método de ensino visualizado, rico em ilustrações e texto
Cobertura completa, do zero ao avançado

Sugestões de Uso

Estudo Sistemático: Aprenda na ordem dos capítulos para construir um sistema de conhecimento completo.
Foco em Pontos Chave: Escolha capítulos específicos para estudo aprofundado, conforme sua necessidade.
Combinação Teoria-Prática: Combine o estudo teórico com a prática de código.
Acompanhamento Contínuo: Siga as atualizações do repositório para se manter atualizado com as últimas tecnologias.

Este recurso de aprendizagem oferece uma plataforma de conhecimento sistemática, abrangente e prática para estudantes de grandes modelos e aprendizagem por reforço, sendo um dos recursos de aprendizagem em chinês de maior qualidade atualmente neste campo.