4단계: 딥러닝 및 신경망
스탠포드 대학교 CS336 강좌는 대규모 언어 모델을 처음부터 구축하는 방법을 체계적으로 설명합니다. 데이터 처리, Transformer 아키텍처, 모델 훈련, GPU 최적화, 병렬 계산부터 RLHF 정렬까지 전체 프로세스를 다룹니다.
스탠포드 CS336: 언어 모델링 처음부터 배우기 | 2025년 봄 학기
강의 개요
강의명: CS336 - 언어 모델링 처음부터 배우기 개강 시기: 2025년 봄 학기 개설 기관: 스탠포드 온라인 강의 형식: 전체 비디오 강의 시리즈 (17개 강의) 공개일: 2025년 7월 8일
강의 소개
언어 모델은 현대 자연어 처리(NLP) 애플리케이션의 초석이며, 다양한 하위 작업을 처리하기 위한 단일 범용 시스템이라는 새로운 패러다임을 열었습니다. 인공지능(AI), 머신러닝(ML), 자연어 처리 분야가 지속적으로 발전함에 따라, 언어 모델에 대한 깊이 있는 이해는 과학자와 엔지니어에게 필수적이 되었습니다.
본 강의는 학생들이 자신만의 언어 모델을 개발하는 전체 과정을 안내함으로써 언어 모델에 대한 포괄적인 이해를 제공하는 것을 목표로 합니다. 운영 체제를 처음부터 만드는 아이디어에서 영감을 받아, 본 강의는 학생들이 언어 모델 생성의 모든 측면을 경험하게 할 것입니다. 다음을 포함합니다:
- 데이터 수집 및 정제 (사전 학습용)
- 트랜스포머 모델 구축
- 모델 훈련
- 배포 전 평가
강의 정보
- 강의 웹사이트: https://stanford-cs336.github.io/
- 온라인 학습 링크: https://online.stanford.edu/courses/cs336-language-modeling-scratch
- 총 강의 수: 17개 전체 강의
- 총 강의 시간: 약 17시간
강의 개요
강의 1: 개요 및 토큰화 (1:18:59)
- 강의 개요
- 토큰화 기술 소개
- 조회수: 25만회 이상
강의 2: PyTorch, 자원 회계 (1:19:22)
- PyTorch 프레임워크 사용
- 자원 회계
- 조회수: 8.7만회 이상
강의 3: 아키텍처, 하이퍼파라미터 (1:27:03)
- 모델 아키텍처 설계
- 하이퍼파라미터 튜닝
- 조회수: 6.5만회 이상
강의 4: 전문가 혼합 모델 (1:22:04)
- 전문가 혼합 모델
- 조회수: 4.6만회 이상
강의 5: GPU (1:14:21)
- GPU 컴퓨팅 원리 및 응용
- 조회수: 3.9만회 이상
강의 6: 커널, Triton (1:20:22)
- 커널 최적화
- Triton 프레임워크
- 조회수: 2.6만회 이상
강의 7: 병렬 처리 1 (1:24:42)
- 병렬 컴퓨팅 기술 (1부)
- 조회수: 2.4만회 이상
강의 8: 병렬 처리 2 (1:15:18)
- 병렬 컴퓨팅 기술 (2부)
- 조회수: 1.5만회 이상
강의 9: 스케일링 법칙 1 (1:05:18)
- 스케일링 법칙 (1부)
- 조회수: 1.8만회 이상
강의 10: 추론 (1:22:52)
- 추론 최적화
- 조회수: 1.9만회 이상
강의 11: 스케일링 법칙 2 (1:18:13)
- 스케일링 법칙 (2부)
- 조회수: 1.3만회 이상
강의 12: 평가 (1:20:48)
- 모델 평가 방법
- 조회수: 1.3만회 이상
강의 13: 데이터 1 (1:19:06)
- 데이터 처리 (1부)
- 조회수: 1.4만회 이상
강의 14: 데이터 2 (1:19:12)
- 데이터 처리 (2부)
- 조회수: 1.2만회 이상
강의 15: 정렬 - SFT/RLHF (1:14:51)
- 정렬 기술
- 지도 미세 조정 (SFT)
- 인간 피드백 기반 강화 학습 (RLHF)
- 조회수: 1.9만회 이상
강의 16: 정렬 - 강화 학습 1 (1:20:32)
- 정렬 - 강화 학습 (1부)
- 조회수: 1.9만회 이상
강의 17: 정렬 - 강화 학습 2 (1:16:09)
- 정렬 - 강화 학습 (2부)
- 조회수: 1.6만회 이상
강의 특징
- 체계적인 구성: 데이터 준비부터 모델 배포까지, 언어 모델 개발의 전체 프로세스 포함
- 실습 중심: 실습을 강조하며, 학생들은 자신만의 언어 모델을 구축하게 됩니다.
- 심층 기술: GPU 최적화, 병렬 컴퓨팅, Triton 등 고급 주제 다룸
- 최신 내용: 최신 정렬 기술 (RLHF) 및 스케일링 법칙 연구 포함
- 엔지니어링 실무: 자원 회계, 성능 최적화 등 엔지니어링 문제에 중점
수강 대상
- 대규모 언어 모델의 작동 원리를 깊이 이해하고자 하는 연구자
- 언어 모델을 처음부터 구축하고자 하는 엔지니어
- NLP 및 딥러닝에 대한 기본적인 지식이 있는 학생
- AI/ML 분야의 과학자 및 실무자
선수 요구 사항
- 탄탄한 프로그래밍 기초 (Python)
- 딥러닝 기초 지식
- 신경망의 기본 개념 이해
- 기본적인 머신러닝 이론 숙지
학습 자료
- 비디오 강의: YouTube 전체 재생 목록
- 강의 웹사이트: 상세한 강의 자료 및 과제 포함
- GitHub: https://stanford-cs336.github.io/
요약
이 강의는 언어 모델 기술을 진정으로 이해하고 마스터하고자 하는 학습자에게 매우 가치 있는 과정입니다. 체계적인 학습을 통해 학생들은 자신만의 언어 모델을 독립적으로 구축, 훈련 및 배포하고 현재 가장 최첨단 NLP 기술을 깊이 이해할 수 있을 것입니다.