第五階段:AI應用場景探索
Hugging Face官方音訊課程,教授如何使用Transformers處理音訊數據,涵蓋語音辨識、音訊分類、文本轉語音等任務的完整學習路徑
Hugging Face 音訊課程詳細介紹
課程概述
Hugging Face 音訊課程是一門專注於使用 Transformers 處理音訊資料的綜合性課程。該課程展示了 Transformers 作為最強大和通用的深度學習架構之一,如何在音訊處理領域取得最先進的成果。
課程目標
本課程將教授學習者如何將 Transformers 應用於音訊資料,涵蓋多種音訊相關任務:
- 語音辨識 (Speech Recognition)
- 音訊分類 (Audio Classification)
- 文字轉語音 (Text-to-Speech Generation)
- 即時語音轉錄 (Real-time Speech Transcription)
課程特色
🎯 實用性強
- 提供即時演示功能,學習者可以直接體驗模型的語音轉錄能力
- 包含大量實作練習和專案
- 基於強大的預訓練模型進行開發
📚 系統性學習
- 深入理解音訊資料處理的特殊性
- 學習不同的 Transformer 架構
- 訓練自己的音訊 Transformers 模型
🆓 完全免費
- 100% 免費、公開且開源
- 所有學習材料都可以自由存取
課程團隊
Sanchit Gandhi
- Hugging Face 機器學習研究工程師
- 專注於自動語音辨識和翻譯
- 致力於讓語音模型更快、更輕便、更易用
Matthijs Hollemans
- Hugging Face 機器學習工程師
- 音訊合成器相關書籍作者
- 音訊外掛程式開發者
Maria Khalusova
- Hugging Face 文件與課程負責人
- 專門建立教育內容和文件
- 擅長將複雜技術概念簡化
Vaibhav Srivastav
- Hugging Face 機器學習開發者倡導工程師
- 研究低資源文字轉語音技術
- 致力於普及最先進的語音研究
課程結構
Unit 1: 音訊資料基礎
- 學習音訊資料處理的特殊性
- 音訊處理技術和資料準備
Unit 2: 音訊應用入門
- 了解音訊應用場景
- 學習使用 🤗 Transformers pipelines
- 實作音訊分類和語音辨識任務
Unit 3: Transformer 架構探索
- 深入了解音訊 Transformer 架構
- 學習不同架構的區別和適用場景
Unit 4: 音樂流派分類器
- 建構自己的音樂流派分類器
- 實作專案開發
Unit 5: 語音辨識深度學習
- 深入研究語音辨識技術
- 建構會議錄音轉錄模型
Unit 6: 文字轉語音
- 學習從文字生成語音的技術
- 實現 TTS 系統
Unit 7: 實際應用開發
- 學習建構現實世界的音訊應用
- 使用 Transformers 開發完整解決方案
學習路徑和認證
課程彈性
- 可以按照自己的步調學習
- 建議按照單元順序進行學習
- 提供測驗來檢驗學習效果
認證選項
結業證書 (Certificate of completion)
- 要求:完成 80% 的實作練習
榮譽證書 (Certificate of honors)
- 要求:完成 100% 的實作練習
先決條件
必需背景
- 深度學習基礎知識
- 對 Transformers 的基本了解
不需要背景
- 不需要音訊資料處理專業知識
- 如需補充 Transformers 知識,可參考 NLP Course
發佈時間表
單元 | 發佈日期 |
---|---|
Unit 0, Unit 1, Unit 2 | 2023年6月14日 |
Unit 3, Unit 4 | 2023年6月21日 |
Unit 5 | 2023年6月28日 |
Unit 6 | 2023年7月5日 |
Unit 7, Unit 8 | 2023年7月12日 |
技術棧
主要工具
- 🤗 Transformers 函式庫
- 🤗 Datasets
- 🤗 Tokenizers
- 🤗 Accelerate
- Hugging Face Hub
涵蓋技術
- 預訓練模型的使用
- 音訊資料預處理
- 模型微調與訓練
- 即時音訊處理
- 音訊特徵提取
學習收穫
完成本課程後,學習者將具備:
- 紮實的理論基礎:深入理解 Transformers 在音訊領域的應用原理
- 實作技能:能夠處理各種音訊相關任務
- 專案經驗:完成多個實際專案,包括分類器、辨識系統等
- 工程能力:能夠建構和部署音訊處理應用
開源貢獻
該課程完全開源,託管於 GitHub 上,歡迎社群貢獻與翻譯。課程材料可以在 GitHub 儲存庫 中找到。
適用對象
- 對音訊處理感興趣的深度學習從業者
- 希望將 Transformers 應用到音訊領域的研究人員
- 需要建構音訊相關應用的開發者
- 對語音辨識、音訊分類等技術感興趣的學習者