Phase 5: Erkundung von KI-Anwendungsszenarien
Offizieller Hugging Face Audio-Kurs, der lehrt, wie man mit Transformers Audiodaten verarbeitet. Er umfasst einen vollständigen Lernpfad für Aufgaben wie Spracherkennung, Audioklassifizierung und Text-to-Speech.
Detaillierte Beschreibung des Hugging Face Audio-Kurses
Kursübersicht
Der Hugging Face Audio-Kurs ist ein umfassender Kurs, der sich auf die Verarbeitung von Audiodaten mit Transformers konzentriert. Dieser Kurs zeigt, wie Transformers als eine der leistungsstärksten und vielseitigsten Deep-Learning-Architekturen modernste Ergebnisse im Bereich der Audioverarbeitung erzielen.
Kursziele
Dieser Kurs vermittelt den Lernenden, wie sie Transformers auf Audiodaten anwenden können, und deckt dabei eine Vielzahl von audiobezogenen Aufgaben ab:
- Spracherkennung (Speech Recognition)
- Audioklassifizierung (Audio Classification)
- Text-zu-Sprache-Generierung (Text-to-Speech Generation)
- Echtzeit-Sprachtranskription (Real-time Speech Transcription)
Kursmerkmale
🎯 Praxisorientiert
- Bietet Echtzeit-Demo-Funktionen, mit denen Lernende die Sprachtranskriptionsfähigkeiten des Modells direkt erleben können.
- Enthält zahlreiche praktische Übungen und Projekte.
- Entwickelt auf Basis leistungsstarker vortrainierter Modelle.
📚 Systematisches Lernen
- Vertieftes Verständnis der Besonderheiten der Audiodatenverarbeitung.
- Erlernen verschiedener Transformer-Architekturen.
- Trainieren eigener Audio-Transformer-Modelle.
🆓 Völlig Kostenlos
- 100% kostenlos, öffentlich und Open Source.
- Alle Lernmaterialien sind frei zugänglich.
Kursteam
Sanchit Gandhi
- Machine Learning Forschungsingenieur bei Hugging Face.
- Spezialisiert auf automatische Spracherkennung und Übersetzung.
- Engagiert sich dafür, Sprachmodelle schneller, leichter und benutzerfreundlicher zu machen.
Matthijs Hollemans
- Machine Learning Ingenieur bei Hugging Face.
- Autor von Büchern über Audiosynthesizer.
- Entwickler von Audio-Plugins.
Maria Khalusova
- Leiterin für Dokumentation und Kurse bei Hugging Face.
- Spezialisiert auf die Erstellung von Bildungsinhalten und Dokumentationen.
- Begabt darin, komplexe technische Konzepte zu vereinfachen.
Vaibhav Srivastav
- ML Developer Advocate Engineer bei Hugging Face.
- Erforscht Text-zu-Sprache-Technologien für ressourcenarme Sprachen.
- Engagiert sich für die Popularisierung modernster Sprachforschung.
Kursstruktur
Einheit 1: Grundlagen der Audiodaten
- Erlernen der Besonderheiten der Audiodatenverarbeitung.
- Audioprocessing-Techniken und Datenvorbereitung.
Einheit 2: Einführung in Audioanwendungen
- Verständnis von Audioanwendungsszenarien.
- Erlernen der Verwendung von 🤗 Transformers Pipelines.
- Praktische Übungen zu Audioklassifizierung und Spracherkennung.
Einheit 3: Erkundung der Transformer-Architekturen
- Vertieftes Verständnis der Audio-Transformer-Architekturen.
- Erlernen der Unterschiede und Anwendungsbereiche verschiedener Architekturen.
Einheit 4: Musikgenre-Klassifikator
- Erstellen eines eigenen Musikgenre-Klassifikators.
- Praktische Projektentwicklung.
Einheit 5: Deep Learning für Spracherkennung
- Vertiefte Erforschung der Spracherkennungstechnologien.
- Erstellen eines Transkriptionsmodells für Konferenzaufnahmen.
Einheit 6: Text-zu-Sprache
- Erlernen der Technologie zur Spracherzeugung aus Text.
- Implementierung eines TTS-Systems.
Einheit 7: Entwicklung praktischer Anwendungen
- Erlernen des Aufbaus realer Audioanwendungen.
- Entwicklung kompletter Lösungen mit Transformers.
Lernpfad und Zertifizierung
Kursflexibilität
- Lernen im eigenen Tempo möglich.
- Es wird empfohlen, die Einheiten in der vorgegebenen Reihenfolge zu bearbeiten.
- Quizze zur Überprüfung des Lernerfolgs werden angeboten.
Zertifizierungsoptionen
Abschlusszertifikat (Certificate of completion)
- Voraussetzung: Abschluss von 80% der praktischen Übungen.
Ehrenzertifikat (Certificate of honors)
- Voraussetzung: Abschluss von 100% der praktischen Übungen.
Voraussetzungen
Erforderliche Vorkenntnisse
- Grundkenntnisse im Deep Learning.
- Grundlegendes Verständnis von Transformers.
Nicht erforderliche Vorkenntnisse
- Keine speziellen Kenntnisse in der Audiodatenverarbeitung erforderlich.
- Für zusätzliche Kenntnisse über Transformers kann der NLP Course herangezogen werden.
Veröffentlichungsplan
Einheit | Veröffentlichungsdatum |
---|---|
Unit 0, Unit 1, Unit 2 | 14. Juni 2023 |
Unit 3, Unit 4 | 21. Juni 2023 |
Unit 5 | 28. Juni 2023 |
Unit 6 | 5. Juli 2023 |
Unit 7, Unit 8 | 12. Juli 2023 |
Technologiestack
Hauptwerkzeuge
- 🤗 Transformers-Bibliothek
- 🤗 Datasets
- 🤗 Tokenizers
- 🤗 Accelerate
- Hugging Face Hub
Abgedeckte Technologien
- Verwendung vortrainierter Modelle.
- Vorverarbeitung von Audiodaten.
- Modell-Feinabstimmung und Training.
- Echtzeit-Audioverarbeitung.
- Audio-Feature-Extraktion.
Lernergebnisse
Nach Abschluss dieses Kurses werden die Lernenden über folgende Fähigkeiten verfügen:
- Fundierte theoretische Grundlagen: Ein tiefes Verständnis der Anwendungsprinzipien von Transformers im Audiobereich.
- Praktische Fähigkeiten: Die Fähigkeit, verschiedene audiobezogene Aufgaben zu bewältigen.
- Projekterfahrung: Abschluss mehrerer praktischer Projekte, einschließlich Klassifikatoren, Erkennungssystemen usw.
- Technische Kompetenz: Die Fähigkeit, Audioverarbeitungsanwendungen zu erstellen und bereitzustellen.
Open-Source-Beitrag
Dieser Kurs ist vollständig Open Source, wird auf GitHub gehostet und freut sich über Beiträge und Übersetzungen aus der Community. Die Kursmaterialien sind im GitHub-Repository zu finden.
Zielgruppe
- Deep-Learning-Praktiker, die an Audioverarbeitung interessiert sind.
- Forscher, die Transformers im Audiobereich anwenden möchten.
- Entwickler, die audiobezogene Anwendungen erstellen müssen.
- Lernende, die an Technologien wie Spracherkennung und Audioklassifizierung interessiert sind.