Quarta Etapa: Aprendizado Profundo e Redes Neurais

Andrej Karpathy explica profundamente a tecnologia por trás dos grandes modelos de linguagem, abrangendo desde redes neurais básicas até a pilha completa de treinamento dos modelos GPT e Llama, incluindo técnicas avançadas como RLHF (Aprendizado por Reforço com Feedback Humano).

LLMDeepLearningNeuralNetworkYouTubeVideoFreeEnglish

Mergulho Profundo em LLMs como o ChatGPT – Apresentação do Curso

Visão Geral do Curso

Esta é uma palestra técnica aprofundada sobre Modelos de Linguagem de Grande Escala (Large Language Models, LLMs), voltada para o público geral, focando nos princípios tecnológicos por trás do ChatGPT e produtos relacionados. O curso abrange integralmente toda a pilha de treinamento envolvida no desenvolvimento de modelos, incluindo como compreender os "modelos mentais" ou "psicologia" dos modelos, bem como como utilizá-los da melhor forma em aplicações práticas.

Data de publicação: 6 de fevereiro de 2025
Visualizações: 3.899.830

Apresentação do Instrutor

Andrej Karpathy é um especialista com vasta experiência na área de IA:

  • Membro fundador da OpenAI (2015)
  • Diretor Sênior de Inteligência Artificial da Tesla (2017–2022)
  • Atualmente é fundador da Eureka Labs, onde está criando uma escola nativa de IA

Objetivo do instrutor: Elevar a compreensão pública das tecnologias mais recentes em IA, capacitando as pessoas a utilizar eficazmente as melhores e mais modernas ferramentas de IA em seu trabalho.

Mais informações:

Estrutura do Curso

Conceitos Básicos

00:00:00 Introdução

Apresentação do curso

00:01:00 Dados de pré-treinamento (internet)

Dados de pré-treinamento provenientes da internet

00:07:47 Tokenização

Técnicas de tokenização

00:14:27 Entrada/Saída de redes neurais

I/O (entrada/saída) de redes neurais

00:20:11 Internos das redes neurais

Estrutura interna das redes neurais

00:26:01 Inferência

Processo de inferência

Treinamento de Modelos

00:31:09 GPT-2: treinamento e inferência

GPT-2: treinamento e inferência

00:42:52 Inferência do modelo base Llama 3.1

Inferência do modelo base Llama 3.1

00:59:23 Do pré-treinamento ao pós-treinamento

Do pré-treinamento ao pós-treinamento

01:01:06 Dados de pós-treinamento (conversas)

Dados de pós-treinamento (dados de conversas)

Funcionalidades Avançadas

01:20:32 Alucinações, uso de ferramentas, conhecimento/memória de trabalho

Alucinações, utilização de ferramentas, conhecimento e memória de trabalho

01:41:46 Conhecimento de si mesmo

Autoconsciência

01:46:56 Modelos precisam de tokens para pensar

Modelos necessitam de tokens para raciocinar

02:01:11 Revisão da tokenização: dificuldades dos modelos com ortografia

Revisitando a tokenização: dificuldades dos modelos com a ortografia

02:04:53 Inteligência irregular

Inteligência irregular ("jagged intelligence")

Aprendizado por Reforço

02:07:28 Do ajuste fino supervisionado ao aprendizado por reforço

Do ajuste fino supervisionado ao aprendizado por reforço

02:14:42 Aprendizado por reforço

Aprendizado por reforço

02:27:47 DeepSeek-R1

Modelo DeepSeek-R1

02:42:07 AlphaGo

Caso do AlphaGo

02:48:26 Aprendizado por reforço com feedback humano (RLHF)

Aprendizado por reforço com feedback humano (Reinforcement Learning from Human Feedback – RLHF)

Conclusão

03:09:39 Prévia do que está por vir

Visão antecipada do futuro

03:15:15 Acompanhando os LLMs

Como acompanhar o desenvolvimento dos LLMs

03:18:34 Onde encontrar LLMs

Onde encontrar LLMs

03:21:46 Resumo final

Resumo abrangente

Características do Curso

  1. Abrangente e sistemático: Aborda toda a pilha tecnológica dos LLMs, desde o pré-processamento de dados até técnicas avançadas de aprendizado por reforço.
  2. Orientado à prática: Explica não apenas teorias, mas também como aplicar esses modelos na prática.
  3. Claro e acessível: Voltado ao público geral, sem perder profundidade técnica.
  4. Conteúdo de ponta: Inclui os modelos mais recentes, como Llama 3.1 e DeepSeek-R1.

Público-Alvo

  • Iniciantes em IA/aprendizado de máquina que desejam compreender sistematicamente a tecnologia dos LLMs
  • Desenvolvedores que querem entender profundamente os princípios subjacentes a produtos como o ChatGPT
  • Público geral interessado em tecnologia de IA
  • Profissionais que precisam aplicar LLMs em seu trabalho

Resultados Esperados

Ao concluir este curso, você será capaz de:

  • Compreender o funcionamento interno dos grandes modelos de linguagem
  • Dominar todo o fluxo de trabalho, do pré-processamento de dados até a implantação do modelo
  • Saber como utilizar LLMs eficazmente para resolver problemas reais
  • Reconhecer os limites e as restrições dos LLMs
  • Acompanhar e avaliar as tendências mais recentes no desenvolvimento de LLMs