Home
Login

Cinquième étape : Exploration des scénarios d'application de l'IA

Cours audio officiel de Hugging Face, enseignant comment utiliser Transformers pour traiter les données audio, couvrant un parcours d'apprentissage complet pour des tâches telles que la reconnaissance vocale, la classification audio et la synthèse vocale.

TransformersTraitementAudioHuggingFaceWebSiteTextFreeMulti-Language

Présentation détaillée du cours audio Hugging Face

Aperçu du cours

Le cours audio Hugging Face est un programme complet axé sur l'utilisation des Transformers pour le traitement des données audio. Il démontre comment les Transformers, l'une des architectures d'apprentissage profond les plus puissantes et polyvalentes, obtiennent des résultats de pointe dans le domaine du traitement audio.

Objectifs du cours

Ce cours enseignera aux apprenants comment appliquer les Transformers aux données audio, couvrant une variété de tâches liées à l'audio :

  • Reconnaissance vocale (Speech Recognition)
  • Classification audio (Audio Classification)
  • Synthèse vocale (Text-to-Speech Generation)
  • Transcription vocale en temps réel (Real-time Speech Transcription)

Caractéristiques du cours

🎯 Fortement axé sur la pratique

  • Offre des démonstrations en temps réel, permettant aux apprenants d'expérimenter directement les capacités de transcription vocale des modèles.
  • Comprend de nombreux exercices pratiques et projets.
  • Développé à partir de modèles pré-entraînés puissants.

📚 Apprentissage systématique

  • Comprendre en profondeur les spécificités du traitement des données audio.
  • Apprendre les différentes architectures de Transformer.
  • Entraîner ses propres modèles Transformers audio.

🆓 Entièrement gratuit

  • 100% gratuit, public et open source.
  • Tous les supports d'apprentissage sont librement accessibles.

L'équipe du cours

Sanchit Gandhi

  • Ingénieur de recherche en apprentissage automatique chez Hugging Face.
  • Spécialisé dans la reconnaissance vocale automatique et la traduction.
  • S'efforce de rendre les modèles vocaux plus rapides, plus légers et plus faciles à utiliser.

Matthijs Hollemans

  • Ingénieur en apprentissage automatique chez Hugging Face.
  • Auteur de livres sur les synthétiseurs audio.
  • Développeur de plugins audio.

Maria Khalusova

  • Responsable de la documentation et des cours chez Hugging Face.
  • Spécialisée dans la création de contenu éducatif et de documentation.
  • Experte dans la simplification des concepts techniques complexes.

Vaibhav Srivastav

  • Ingénieur de promotion des développeurs ML chez Hugging Face.
  • Recherche sur les technologies de synthèse vocale à faibles ressources.
  • S'engage à démocratiser la recherche vocale de pointe.

Structure du cours

Unité 1 : Fondamentaux des données audio

  • Apprendre les spécificités du traitement des données audio.
  • Techniques de traitement audio et préparation des données.

Unité 2 : Introduction aux applications audio

  • Comprendre les scénarios d'application audio.
  • Apprendre à utiliser les pipelines 🤗 Transformers.
  • Pratiquer les tâches de classification audio et de reconnaissance vocale.

Unité 3 : Exploration des architectures Transformer

  • Approfondir les architectures Transformer audio.
  • Apprendre les différences et les cas d'utilisation des différentes architectures.

Unité 4 : Classificateur de genres musicaux

  • Construire son propre classificateur de genres musicaux.
  • Développement de projets pratiques.

Unité 5 : Apprentissage profond pour la reconnaissance vocale

  • Approfondir les techniques de reconnaissance vocale.
  • Construire un modèle de transcription d'enregistrements de réunions.

Unité 6 : Synthèse vocale (Text-to-Speech)

  • Apprendre les techniques de génération de parole à partir de texte.
  • Implémenter un système TTS.

Unité 7 : Développement d'applications réelles

  • Apprendre à construire des applications audio du monde réel.
  • Développer des solutions complètes avec les Transformers.

Parcours d'apprentissage et certification

Flexibilité du cours

  • Possibilité d'apprendre à son propre rythme.
  • Il est recommandé de suivre les unités dans l'ordre.
  • Des quiz sont proposés pour évaluer l'apprentissage.

Options de certification

Certificat de réussite (Certificate of completion)

  • Exigence : Réussir 80% des exercices pratiques.

Certificat d'honneur (Certificate of honors)

  • Exigence : Réussir 100% des exercices pratiques.

Prérequis

Connaissances requises

  • Connaissances de base en apprentissage profond.
  • Compréhension de base des Transformers.

Connaissances non requises

  • Aucune expertise préalable en traitement des données audio n'est requise.
  • Pour compléter vos connaissances sur les Transformers, vous pouvez consulter le Cours NLP.

Calendrier de publication

Unité Date de publication
Unité 0, Unité 1, Unité 2 14 juin 2023
Unité 3, Unité 4 21 juin 2023
Unité 5 28 juin 2023
Unité 6 5 juillet 2023
Unité 7, Unité 8 12 juillet 2023

Pile technologique

Outils principaux

  • Bibliothèque 🤗 Transformers
  • 🤗 Datasets
  • 🤗 Tokenizers
  • 🤗 Accelerate
  • Hugging Face Hub

Technologies couvertes

  • Utilisation de modèles pré-entraînés.
  • Prétraitement des données audio.
  • Finetuning et entraînement de modèles.
  • Traitement audio en temps réel.
  • Extraction de caractéristiques audio.

Acquis d'apprentissage

À l'issue de ce cours, les apprenants auront acquis :

  1. De solides bases théoriques : une compréhension approfondie des principes d'application des Transformers dans le domaine audio.
  2. Des compétences pratiques : la capacité à gérer diverses tâches liées à l'audio.
  3. De l'expérience en projet : la réalisation de plusieurs projets concrets, y compris des classificateurs, des systèmes de reconnaissance, etc.
  4. Des capacités d'ingénierie : la capacité à construire et déployer des applications de traitement audio.

Contribution open source

Ce cours est entièrement open source, hébergé sur GitHub, et les contributions et traductions de la communauté sont les bienvenues. Les supports de cours sont disponibles dans le dépôt GitHub.

Public cible

  • Professionnels de l'apprentissage profond intéressés par le traitement audio.
  • Chercheurs souhaitant appliquer les Transformers au domaine audio.
  • Développeurs ayant besoin de construire des applications liées à l'audio.
  • Apprenants intéressés par des technologies telles que la reconnaissance vocale, la classification audio, etc.