5단계: AI 응용 시나리오 탐색
Hugging Face 공식 오디오 강좌로, Transformers를 사용하여 오디오 데이터를 처리하는 방법을 가르치며, 음성 인식, 오디오 분류, 텍스트 음성 변환 등 작업의 전체 학습 경로를 다룹니다.
Hugging Face 오디오 코스 상세 소개
코스 개요
Hugging Face 오디오 코스는 트랜스포머(Transformers)를 사용하여 오디오 데이터를 처리하는 데 중점을 둔 종합 코스입니다. 이 코스는 트랜스포머가 가장 강력하고 범용적인 딥러닝 아키텍처 중 하나로서 오디오 처리 분야에서 어떻게 최첨단 결과를 달성하는지 보여줍니다.
코스 목표
이 코스는 학습자에게 트랜스포머를 오디오 데이터에 적용하는 방법을 가르치며, 다양한 오디오 관련 작업을 다룹니다:
- 음성 인식 (Speech Recognition)
- 오디오 분류 (Audio Classification)
- 텍스트 음성 변환 (Text-to-Speech Generation)
- 실시간 음성 전사 (Real-time Speech Transcription)
코스 특징
🎯 실용성 강조
- 실시간 데모 기능을 제공하여 학습자가 모델의 음성 전사 능력을 직접 경험할 수 있습니다.
- 풍부한 실습 연습과 프로젝트를 포함합니다.
- 강력한 사전 학습 모델을 기반으로 개발됩니다.
📚 체계적인 학습
- 오디오 데이터 처리의 특수성에 대한 깊이 있는 이해
- 다양한 트랜스포머 아키텍처 학습
- 자신만의 오디오 트랜스포머 모델 훈련
🆓 완전 무료
- 100% 무료, 공개 및 오픈 소스
- 모든 학습 자료에 자유롭게 접근할 수 있습니다.
코스 팀
산치트 간디 (Sanchit Gandhi)
- Hugging Face 머신러닝 연구 엔지니어
- 자동 음성 인식 및 번역 전문
- 음성 모델을 더 빠르고, 가볍고, 사용하기 쉽게 만드는 데 전념
마티스 홀레만스 (Matthijs Hollemans)
- Hugging Face 머신러닝 엔지니어
- 오디오 신디사이저 관련 서적 저자
- 오디오 플러그인 개발자
마리아 칼루소바 (Maria Khalusova)
- Hugging Face 문서 및 코스 책임자
- 교육 콘텐츠 및 문서 제작 전문
- 복잡한 기술 개념을 단순화하는 데 능숙
바이바브 스리바스타브 (Vaibhav Srivastav)
- Hugging Face ML 개발자 옹호 엔지니어
- 저자원 텍스트 음성 변환 기술 연구
- 최첨단 음성 연구 보급에 전념
코스 구성
Unit 1: 오디오 데이터 기초
- 오디오 데이터 처리의 특수성 학습
- 오디오 처리 기술 및 데이터 준비
Unit 2: 오디오 애플리케이션 입문
- 오디오 애플리케이션 시나리오 이해
- 🤗 Transformers 파이프라인 사용법 학습
- 오디오 분류 및 음성 인식 작업 실습
Unit 3: 트랜스포머 아키텍처 탐색
- 오디오 트랜스포머 아키텍처에 대한 심층 이해
- 다양한 아키텍처의 차이점 및 적용 시나리오 학습
Unit 4: 음악 장르 분류기
- 자신만의 음악 장르 분류기 구축
- 프로젝트 개발 실습
Unit 5: 음성 인식 딥러닝
- 음성 인식 기술 심층 연구
- 회의 녹음 전사 모델 구축
Unit 6: 텍스트 음성 변환
- 텍스트에서 음성 생성 기술 학습
- TTS 시스템 구현
Unit 7: 실제 애플리케이션 개발
- 실제 오디오 애플리케이션 구축 학습
- 트랜스포머를 사용하여 완전한 솔루션 개발
학습 경로 및 인증
코스 유연성
- 자신의 속도에 맞춰 학습 가능
- 유닛 순서대로 학습하는 것을 권장
- 학습 효과를 확인하기 위한 퀴즈 제공
인증 옵션
수료증 (Certificate of completion)
- 요구 사항: 실습 연습의 80% 완료
우등 수료증 (Certificate of honors)
- 요구 사항: 실습 연습의 100% 완료
선수 과목
필수 배경 지식
- 딥러닝 기초 지식
- 트랜스포머에 대한 기본적인 이해
불필요한 배경 지식
- 오디오 데이터 처리 전문 지식 불필요
- 트랜스포머 지식 보충이 필요한 경우 NLP 코스 참고
출시 일정
유닛 | 출시일 |
---|---|
Unit 0, Unit 1, Unit 2 | 2023년 6월 14일 |
Unit 3, Unit 4 | 2023년 6월 21일 |
Unit 5 | 2023년 6월 28일 |
Unit 6 | 2023년 7월 5일 |
Unit 7, Unit 8 | 2023년 7월 12일 |
기술 스택
주요 도구
- 🤗 Transformers 라이브러리
- 🤗 Datasets
- 🤗 Tokenizers
- 🤗 Accelerate
- Hugging Face Hub
다루는 기술
- 사전 학습 모델 사용
- 오디오 데이터 전처리
- 모델 미세 조정 및 훈련
- 실시간 오디오 처리
- 오디오 특징 추출
학습 성과
이 코스를 완료하면 학습자는 다음을 갖추게 됩니다:
- 탄탄한 이론적 기반: 오디오 분야에서 트랜스포머의 적용 원리에 대한 깊이 있는 이해
- 실용 기술: 다양한 오디오 관련 작업을 처리할 수 있는 능력
- 프로젝트 경험: 분류기, 인식 시스템 등 여러 실제 프로젝트 완료
- 엔지니어링 능력: 오디오 처리 애플리케이션을 구축하고 배포할 수 있는 능력
오픈 소스 기여
이 코스는 완전히 오픈 소스이며 GitHub에 호스팅되어 있습니다. 커뮤니티의 기여와 번역을 환영합니다. 코스 자료는 GitHub 저장소에서 찾을 수 있습니다.
대상 독자
- 오디오 처리에 관심 있는 딥러닝 실무자
- 트랜스포머를 오디오 분야에 적용하고자 하는 연구원
- 오디오 관련 애플리케이션 구축이 필요한 개발자
- 음성 인식, 오디오 분류 등 기술에 관심 있는 학습자