Quarta Etapa: Aprendizado Profundo e Redes Neurais

Curso CS336 da Universidade de Stanford, que explica sistematicamente como construir um modelo de linguagem grande do zero, cobrindo o processamento de dados, a arquitetura Transformer, o treinamento do modelo, a otimização de GPU, a computação paralela e o alinhamento RLHF.

LanguageModelTransformerStanfordYouTubeVideoFreeEnglish

Stanford CS336: Modelagem de Linguagem do Zero | Primavera de 2025

Visão Geral do Curso

Nome do Curso: CS336 - Modelagem de Linguagem do Zero
Período: Semestre de Primavera de 2025
Instituição: Stanford Online
Formato do Curso: Série completa de palestras em vídeo (17 palestras)
Data de Lançamento: 8 de julho de 2025

Introdução ao Curso

Modelos de linguagem são a pedra angular das aplicações modernas de Processamento de Linguagem Natural (PLN) e inauguraram um novo paradigma: ter um único sistema de propósito geral para lidar com uma variedade de tarefas subsequentes. Com o avanço contínuo dos campos da Inteligência Artificial (IA), Aprendizado de Máquina (ML) e PLN, uma compreensão aprofundada dos modelos de linguagem tornou-se crucial para cientistas e engenheiros.

Este curso visa fornecer aos alunos uma compreensão abrangente dos modelos de linguagem, guiando-os através de todo o processo de desenvolvimento de seu próprio modelo de linguagem. Inspirado na ideia de criar um sistema operacional inteiro do zero, este curso levará os alunos por todos os aspectos da criação de um modelo de linguagem, incluindo:

  • Coleta e limpeza de dados (para pré-treinamento)
  • Construção do modelo Transformer
  • Treinamento do modelo
  • Avaliação pré-implantação

Informações do Curso

Ementa do Curso

Palestra 1: Visão Geral e Tokenização (1:18:59)

  • Visão geral do curso
  • Introdução à tecnologia de tokenização
  • Visualizações: 250 mil+

Palestra 2: PyTorch, Contabilidade de Recursos (1:19:22)

  • Uso do framework PyTorch
  • Contabilidade de recursos
  • Visualizações: 87 mil+

Palestra 3: Arquiteturas, Hiperparâmetros (1:27:03)

  • Projeto de arquitetura de modelo
  • Ajuste de hiperparâmetros
  • Visualizações: 65 mil+

Palestra 4: Mistura de Especialistas (1:22:04)

  • Modelo de mistura de especialistas
  • Visualizações: 46 mil+

Palestra 5: GPUs (1:14:21)

  • Princípios e aplicações da computação GPU
  • Visualizações: 39 mil+

Palestra 6: Kernels, Triton (1:20:22)

  • Otimização de kernels
  • Framework Triton
  • Visualizações: 26 mil+

Palestra 7: Paralelismo 1 (1:24:42)

  • Técnicas de computação paralela (Parte 1)
  • Visualizações: 24 mil+

Palestra 8: Paralelismo 2 (1:15:18)

  • Técnicas de computação paralela (Parte 2)
  • Visualizações: 15 mil+

Palestra 9: Leis de Escala 1 (1:05:18)

  • Leis de escala (Parte 1)
  • Visualizações: 18 mil+

Palestra 10: Inferência (1:22:52)

  • Otimização de inferência
  • Visualizações: 19 mil+

Palestra 11: Leis de Escala 2 (1:18:13)

  • Leis de escala (Parte 2)
  • Visualizações: 13 mil+

Palestra 12: Avaliação (1:20:48)

  • Métodos de avaliação de modelos
  • Visualizações: 13 mil+

Palestra 13: Dados 1 (1:19:06)

  • Processamento de dados (Parte 1)
  • Visualizações: 14 mil+

Palestra 14: Dados 2 (1:19:12)

  • Processamento de dados (Parte 2)
  • Visualizações: 12 mil+

Palestra 15: Alinhamento - SFT/RLHF (1:14:51)

  • Técnicas de alinhamento
  • Fine-tuning supervisionado (SFT)
  • Aprendizado por Reforço com Feedback Humano (RLHF)
  • Visualizações: 19 mil+

Palestra 16: Alinhamento - RL 1 (1:20:32)

  • Alinhamento - Aprendizado por Reforço (Parte 1)
  • Visualizações: 19 mil+

Palestra 17: Alinhamento - RL 2 (1:16:09)

  • Alinhamento - Aprendizado por Reforço (Parte 2)
  • Visualizações: 16 mil+

Características do Curso

  1. Abordagem Sistemática: Abrange o processo completo de desenvolvimento de modelos de linguagem, desde a preparação de dados até a implantação do modelo.
  2. Orientado à Prática: Enfatiza a prática, onde os alunos construirão seus próprios modelos de linguagem.
  3. Tecnologia Aprofundada: Cobre tópicos avançados como otimização de GPU, computação paralela e Triton.
  4. Conteúdo de Ponta: Inclui as mais recentes técnicas de alinhamento (RLHF) e pesquisas sobre leis de escala.
  5. Prática de Engenharia: Foca em questões de engenharia como contabilidade de recursos e otimização de desempenho.

Público-Alvo

  • Pesquisadores que desejam entender profundamente o funcionamento dos grandes modelos de linguagem.
  • Engenheiros que querem construir modelos de linguagem do zero.
  • Estudantes com alguma base em PLN e Deep Learning.
  • Cientistas e profissionais das áreas de IA/ML.

Pré-requisitos

  • Sólida base em programação (Python)
  • Conhecimento básico de Deep Learning
  • Compreensão dos conceitos básicos de redes neurais
  • Familiaridade com a teoria básica de Machine Learning

Recursos de Aprendizagem

Conclusão

Este é um curso de grande valor, ideal para quem deseja realmente entender e dominar as tecnologias de modelos de linguagem. Através de um estudo sistemático, os alunos serão capazes de construir, treinar e implantar seus próprios modelos de linguagem de forma independente, obtendo uma compreensão aprofundada das tecnologias de PLN mais avançadas atualmente.