Home
Login

Phase 5: Erkundung von KI-Anwendungsszenarien

Offizieller Hugging Face Audio-Kurs, der lehrt, wie man mit Transformers Audiodaten verarbeitet. Er umfasst einen vollständigen Lernpfad für Aufgaben wie Spracherkennung, Audioklassifizierung und Text-to-Speech.

TransformersAudioProcessingHuggingFaceWebSiteTextFreeMulti-Language

Detaillierte Beschreibung des Hugging Face Audio-Kurses

Kursübersicht

Der Hugging Face Audio-Kurs ist ein umfassender Kurs, der sich auf die Verarbeitung von Audiodaten mit Transformers konzentriert. Dieser Kurs zeigt, wie Transformers als eine der leistungsstärksten und vielseitigsten Deep-Learning-Architekturen modernste Ergebnisse im Bereich der Audioverarbeitung erzielen.

Kursziele

Dieser Kurs vermittelt den Lernenden, wie sie Transformers auf Audiodaten anwenden können, und deckt dabei eine Vielzahl von audiobezogenen Aufgaben ab:

  • Spracherkennung (Speech Recognition)
  • Audioklassifizierung (Audio Classification)
  • Text-zu-Sprache-Generierung (Text-to-Speech Generation)
  • Echtzeit-Sprachtranskription (Real-time Speech Transcription)

Kursmerkmale

🎯 Praxisorientiert

  • Bietet Echtzeit-Demo-Funktionen, mit denen Lernende die Sprachtranskriptionsfähigkeiten des Modells direkt erleben können.
  • Enthält zahlreiche praktische Übungen und Projekte.
  • Entwickelt auf Basis leistungsstarker vortrainierter Modelle.

📚 Systematisches Lernen

  • Vertieftes Verständnis der Besonderheiten der Audiodatenverarbeitung.
  • Erlernen verschiedener Transformer-Architekturen.
  • Trainieren eigener Audio-Transformer-Modelle.

🆓 Völlig Kostenlos

  • 100% kostenlos, öffentlich und Open Source.
  • Alle Lernmaterialien sind frei zugänglich.

Kursteam

Sanchit Gandhi

  • Machine Learning Forschungsingenieur bei Hugging Face.
  • Spezialisiert auf automatische Spracherkennung und Übersetzung.
  • Engagiert sich dafür, Sprachmodelle schneller, leichter und benutzerfreundlicher zu machen.

Matthijs Hollemans

  • Machine Learning Ingenieur bei Hugging Face.
  • Autor von Büchern über Audiosynthesizer.
  • Entwickler von Audio-Plugins.

Maria Khalusova

  • Leiterin für Dokumentation und Kurse bei Hugging Face.
  • Spezialisiert auf die Erstellung von Bildungsinhalten und Dokumentationen.
  • Begabt darin, komplexe technische Konzepte zu vereinfachen.

Vaibhav Srivastav

  • ML Developer Advocate Engineer bei Hugging Face.
  • Erforscht Text-zu-Sprache-Technologien für ressourcenarme Sprachen.
  • Engagiert sich für die Popularisierung modernster Sprachforschung.

Kursstruktur

Einheit 1: Grundlagen der Audiodaten

  • Erlernen der Besonderheiten der Audiodatenverarbeitung.
  • Audioprocessing-Techniken und Datenvorbereitung.

Einheit 2: Einführung in Audioanwendungen

  • Verständnis von Audioanwendungsszenarien.
  • Erlernen der Verwendung von 🤗 Transformers Pipelines.
  • Praktische Übungen zu Audioklassifizierung und Spracherkennung.

Einheit 3: Erkundung der Transformer-Architekturen

  • Vertieftes Verständnis der Audio-Transformer-Architekturen.
  • Erlernen der Unterschiede und Anwendungsbereiche verschiedener Architekturen.

Einheit 4: Musikgenre-Klassifikator

  • Erstellen eines eigenen Musikgenre-Klassifikators.
  • Praktische Projektentwicklung.

Einheit 5: Deep Learning für Spracherkennung

  • Vertiefte Erforschung der Spracherkennungstechnologien.
  • Erstellen eines Transkriptionsmodells für Konferenzaufnahmen.

Einheit 6: Text-zu-Sprache

  • Erlernen der Technologie zur Spracherzeugung aus Text.
  • Implementierung eines TTS-Systems.

Einheit 7: Entwicklung praktischer Anwendungen

  • Erlernen des Aufbaus realer Audioanwendungen.
  • Entwicklung kompletter Lösungen mit Transformers.

Lernpfad und Zertifizierung

Kursflexibilität

  • Lernen im eigenen Tempo möglich.
  • Es wird empfohlen, die Einheiten in der vorgegebenen Reihenfolge zu bearbeiten.
  • Quizze zur Überprüfung des Lernerfolgs werden angeboten.

Zertifizierungsoptionen

Abschlusszertifikat (Certificate of completion)

  • Voraussetzung: Abschluss von 80% der praktischen Übungen.

Ehrenzertifikat (Certificate of honors)

  • Voraussetzung: Abschluss von 100% der praktischen Übungen.

Voraussetzungen

Erforderliche Vorkenntnisse

  • Grundkenntnisse im Deep Learning.
  • Grundlegendes Verständnis von Transformers.

Nicht erforderliche Vorkenntnisse

  • Keine speziellen Kenntnisse in der Audiodatenverarbeitung erforderlich.
  • Für zusätzliche Kenntnisse über Transformers kann der NLP Course herangezogen werden.

Veröffentlichungsplan

Einheit Veröffentlichungsdatum
Unit 0, Unit 1, Unit 2 14. Juni 2023
Unit 3, Unit 4 21. Juni 2023
Unit 5 28. Juni 2023
Unit 6 5. Juli 2023
Unit 7, Unit 8 12. Juli 2023

Technologiestack

Hauptwerkzeuge

  • 🤗 Transformers-Bibliothek
  • 🤗 Datasets
  • 🤗 Tokenizers
  • 🤗 Accelerate
  • Hugging Face Hub

Abgedeckte Technologien

  • Verwendung vortrainierter Modelle.
  • Vorverarbeitung von Audiodaten.
  • Modell-Feinabstimmung und Training.
  • Echtzeit-Audioverarbeitung.
  • Audio-Feature-Extraktion.

Lernergebnisse

Nach Abschluss dieses Kurses werden die Lernenden über folgende Fähigkeiten verfügen:

  1. Fundierte theoretische Grundlagen: Ein tiefes Verständnis der Anwendungsprinzipien von Transformers im Audiobereich.
  2. Praktische Fähigkeiten: Die Fähigkeit, verschiedene audiobezogene Aufgaben zu bewältigen.
  3. Projekterfahrung: Abschluss mehrerer praktischer Projekte, einschließlich Klassifikatoren, Erkennungssystemen usw.
  4. Technische Kompetenz: Die Fähigkeit, Audioverarbeitungsanwendungen zu erstellen und bereitzustellen.

Open-Source-Beitrag

Dieser Kurs ist vollständig Open Source, wird auf GitHub gehostet und freut sich über Beiträge und Übersetzungen aus der Community. Die Kursmaterialien sind im GitHub-Repository zu finden.

Zielgruppe

  • Deep-Learning-Praktiker, die an Audioverarbeitung interessiert sind.
  • Forscher, die Transformers im Audiobereich anwenden möchten.
  • Entwickler, die audiobezogene Anwendungen erstellen müssen.
  • Lernende, die an Technologien wie Spracherkennung und Audioklassifizierung interessiert sind.