Home
Login

第五階段:AI應用場景探索

Hugging Face官方音訊課程,教授如何使用Transformers處理音訊數據,涵蓋語音辨識、音訊分類、文本轉語音等任務的完整學習路徑

TransformersAudioProcessingHuggingFaceWebSiteTextFreeMulti-Language

Hugging Face 音訊課程詳細介紹

課程概述

Hugging Face 音訊課程是一門專注於使用 Transformers 處理音訊資料的綜合性課程。該課程展示了 Transformers 作為最強大和通用的深度學習架構之一,如何在音訊處理領域取得最先進的成果。

課程目標

本課程將教授學習者如何將 Transformers 應用於音訊資料,涵蓋多種音訊相關任務:

  • 語音辨識 (Speech Recognition)
  • 音訊分類 (Audio Classification)
  • 文字轉語音 (Text-to-Speech Generation)
  • 即時語音轉錄 (Real-time Speech Transcription)

課程特色

🎯 實用性強

  • 提供即時演示功能,學習者可以直接體驗模型的語音轉錄能力
  • 包含大量實作練習和專案
  • 基於強大的預訓練模型進行開發

📚 系統性學習

  • 深入理解音訊資料處理的特殊性
  • 學習不同的 Transformer 架構
  • 訓練自己的音訊 Transformers 模型

🆓 完全免費

  • 100% 免費、公開且開源
  • 所有學習材料都可以自由存取

課程團隊

Sanchit Gandhi

  • Hugging Face 機器學習研究工程師
  • 專注於自動語音辨識和翻譯
  • 致力於讓語音模型更快、更輕便、更易用

Matthijs Hollemans

  • Hugging Face 機器學習工程師
  • 音訊合成器相關書籍作者
  • 音訊外掛程式開發者

Maria Khalusova

  • Hugging Face 文件與課程負責人
  • 專門建立教育內容和文件
  • 擅長將複雜技術概念簡化

Vaibhav Srivastav

  • Hugging Face 機器學習開發者倡導工程師
  • 研究低資源文字轉語音技術
  • 致力於普及最先進的語音研究

課程結構

Unit 1: 音訊資料基礎

  • 學習音訊資料處理的特殊性
  • 音訊處理技術和資料準備

Unit 2: 音訊應用入門

  • 了解音訊應用場景
  • 學習使用 🤗 Transformers pipelines
  • 實作音訊分類和語音辨識任務

Unit 3: Transformer 架構探索

  • 深入了解音訊 Transformer 架構
  • 學習不同架構的區別和適用場景

Unit 4: 音樂流派分類器

  • 建構自己的音樂流派分類器
  • 實作專案開發

Unit 5: 語音辨識深度學習

  • 深入研究語音辨識技術
  • 建構會議錄音轉錄模型

Unit 6: 文字轉語音

  • 學習從文字生成語音的技術
  • 實現 TTS 系統

Unit 7: 實際應用開發

  • 學習建構現實世界的音訊應用
  • 使用 Transformers 開發完整解決方案

學習路徑和認證

課程彈性

  • 可以按照自己的步調學習
  • 建議按照單元順序進行學習
  • 提供測驗來檢驗學習效果

認證選項

結業證書 (Certificate of completion)

  • 要求:完成 80% 的實作練習

榮譽證書 (Certificate of honors)

  • 要求:完成 100% 的實作練習

先決條件

必需背景

  • 深度學習基礎知識
  • 對 Transformers 的基本了解

不需要背景

  • 不需要音訊資料處理專業知識
  • 如需補充 Transformers 知識,可參考 NLP Course

發佈時間表

單元 發佈日期
Unit 0, Unit 1, Unit 2 2023年6月14日
Unit 3, Unit 4 2023年6月21日
Unit 5 2023年6月28日
Unit 6 2023年7月5日
Unit 7, Unit 8 2023年7月12日

技術棧

主要工具

  • 🤗 Transformers 函式庫
  • 🤗 Datasets
  • 🤗 Tokenizers
  • 🤗 Accelerate
  • Hugging Face Hub

涵蓋技術

  • 預訓練模型的使用
  • 音訊資料預處理
  • 模型微調與訓練
  • 即時音訊處理
  • 音訊特徵提取

學習收穫

完成本課程後,學習者將具備:

  1. 紮實的理論基礎:深入理解 Transformers 在音訊領域的應用原理
  2. 實作技能:能夠處理各種音訊相關任務
  3. 專案經驗:完成多個實際專案,包括分類器、辨識系統等
  4. 工程能力:能夠建構和部署音訊處理應用

開源貢獻

該課程完全開源,託管於 GitHub 上,歡迎社群貢獻與翻譯。課程材料可以在 GitHub 儲存庫 中找到。

適用對象

  • 對音訊處理感興趣的深度學習從業者
  • 希望將 Transformers 應用到音訊領域的研究人員
  • 需要建構音訊相關應用的開發者
  • 對語音辨識、音訊分類等技術感興趣的學習者