4단계: 딥러닝 및 신경망

안드레이 카파시(Andrej Karpathy)가 대형 언어 모델(LLM) 기술을 심층적으로 설명합니다. 기본적인 신경망부터 GPT, Llama 모델에 이르기까지 완전한 학습 스택과 RLHF(인간 피드백 강화학습) 등 최신 기술을 모두 다룹니다.

LLM딥러닝신경망YouTubeVideoFreeEnglish

ChatGPT 같은 LLM 심층 분석 - 강의 소개

강의 개요

이 강의는 일반 청중을 대상으로 한 대형 언어 모델(Large Language Model, LLM) AI 기술에 대한 심층 강연으로, ChatGPT 및 관련 제품을 뒷받침하는 기술 원리를 주로 설명합니다. 강의는 모델 개발의 전체 훈련 스택을 포괄적으로 다루며, 모델의 "심리학적" 사고 방식을 이해하는 방법과 실제 응용에서 이를 최적으로 활용하는 방법을 포함합니다.

공개일: 2025년 2월 6일
조회수: 3,899,830회

강사 소개

Andrej Karpathy 는 AI 분야에서 풍부한 경험을 가진 전문가입니다:

  • OpenAI 창립 멤버 (2015년)
  • 테슬라 AI 수석 디렉터 (2017–2022년)
  • 현재 Eureka Labs 창업자로서 AI 네이티브 학교를 설립 중

강사 목표: 최신 AI 기술에 대한 대중의 인식과 이해도를 높이고, 사람들이 업무에서 최신·최고의 AI 기술을 효과적으로 활용할 수 있도록 역량을 부여하는 것.

추가 정보:

강의 목차

기초 개념 파트

00:00:00 introduction

강의 소개

00:01:00 pretraining data (internet)

사전 훈련 데이터(인터넷 데이터)

00:07:47 tokenization

토큰화 기술

00:14:27 neural network I/O

신경망 입력/출력

00:20:11 neural network internals

신경망 내부 구조

00:26:01 inference

추론 과정

모델 훈련 파트

00:31:09 GPT-2: training and inference

GPT-2: 훈련 및 추론

00:42:52 Llama 3.1 base model inference

Llama 3.1 기본 모델 추론

00:59:23 pretraining to post-training

사전 훈련부터 후속 훈련까지

01:01:06 post-training data (conversations)

후속 훈련 데이터(대화 데이터)

고급 기능 파트

01:20:32 hallucinations, tool use, knowledge/working memory

환각 현상, 도구 사용, 지식/작업 기억

01:41:46 knowledge of self

자기 인식

01:46:56 models need tokens to think

모델은 생각하기 위해 토큰이 필요함

02:01:11 tokenization revisited: models struggle with spelling

토큰화 재조명: 모델의 철자 어려움

02:04:53 jagged intelligence

불규칙적인 지능

강화 학습 파트

02:07:28 supervised finetuning to reinforcement learning

지도 미세 조정에서 강화 학습으로

02:14:42 reinforcement learning

강화 학습

02:27:47 DeepSeek-R1

DeepSeek-R1 모델

02:42:07 AlphaGo

AlphaGo 사례

02:48:26 reinforcement learning from human feedback (RLHF)

인간 피드백 기반 강화 학습(RLHF)

요약 파트

03:09:39 preview of things to come

향후 전망

03:15:15 keeping track of LLMs

LLM 동향 추적

03:18:34 where to find LLMs

LLM을 어디서 찾을 수 있는가

03:21:46 grand summary

종합 요약

강의 특징

  1. 포괄적이고 체계적: 데이터 전처리부터 고급 강화 학습까지 LLM의 전체 기술 스택을 다룸
  2. 실용 중심: 이론뿐 아니라 실제 모델 적용 방법도 포함
  3. 깊이와 쉬움의 균형: 일반 청중을 대상으로 하되 기술적 깊이는 유지
  4. 최신 콘텐츠: Llama 3.1, DeepSeek-R1 등 최신 모델 포함

적합 대상

  • LLM 기술을 체계적으로 이해하고자 하는 AI/머신러닝 입문자
  • ChatGPT 등의 제품이 작동하는 근본 원리를 깊이 있게 알고 싶은 개발자
  • AI 기술에 관심 있는 일반 청중
  • 업무에 LLM을 적용해야 하는 전문가

학습 성과

본 강의를 통해 다음과 같은 내용을 습득하게 됩니다:

  • 대형 언어 모델의 작동 원리 이해
  • 데이터 전처리부터 모델 배포까지의 전체 프로세스 숙지
  • LLM을 활용해 실제 문제를 해결하는 방법 파악
  • LLM의 능력 한계와 제약 사항 인식
  • 최신 LLM의 발전 동향을 추적하고 평가하는 능력 향상