Quinta etapa: Exploración de escenarios de aplicación de la IA
Curso oficial de audio de Hugging Face que enseña cómo usar Transformers para procesar datos de audio, cubriendo una ruta de aprendizaje completa para tareas como reconocimiento de voz, clasificación de audio y texto a voz.
Introducción Detallada al Curso de Audio de Hugging Face
Resumen del Curso
El Curso de Audio de Hugging Face es un programa integral centrado en el procesamiento de datos de audio utilizando Transformers. Este curso demuestra cómo los Transformers, una de las arquitecturas de aprendizaje profundo más potentes y versátiles, logran resultados de vanguardia en el campo del procesamiento de audio.
Objetivos del Curso
Este curso enseñará a los estudiantes cómo aplicar Transformers a datos de audio, cubriendo una variedad de tareas relacionadas con el audio:
- Reconocimiento de Voz (Speech Recognition)
- Clasificación de Audio (Audio Classification)
- Generación de Texto a Voz (Text-to-Speech Generation)
- Transcripción de Voz en Tiempo Real (Real-time Speech Transcription)
Características del Curso
🎯 Altamente Práctico
- Ofrece funciones de demostración en tiempo real, permitiendo a los estudiantes experimentar directamente la capacidad de transcripción de voz del modelo.
- Incluye una gran cantidad de ejercicios prácticos y proyectos.
- Desarrollado sobre la base de potentes modelos preentrenados.
📚 Aprendizaje Sistemático
- Comprensión profunda de las particularidades del procesamiento de datos de audio.
- Aprendizaje de diferentes arquitecturas Transformer.
- Entrenamiento de tus propios modelos Transformer de audio.
🆓 Completamente Gratuito
- 100% gratuito, público y de código abierto.
- Todos los materiales de aprendizaje son de libre acceso.
Equipo del Curso
Sanchit Gandhi
- Ingeniero de Investigación de Aprendizaje Automático en Hugging Face
- Especializado en reconocimiento y traducción automática de voz.
- Dedicado a hacer que los modelos de voz sean más rápidos, ligeros y fáciles de usar.
Matthijs Hollemans
- Ingeniero de Aprendizaje Automático en Hugging Face
- Autor de libros relacionados con sintetizadores de audio.
- Desarrollador de plugins de audio.
Maria Khalusova
- Líder de Documentación y Cursos en Hugging Face
- Especializada en la creación de contenido educativo y documentación.
- Experta en simplificar conceptos técnicos complejos.
Vaibhav Srivastav
- Ingeniero de Promoción de Desarrolladores de ML en Hugging Face
- Investiga tecnologías de texto a voz de bajos recursos.
- Dedicado a popularizar la investigación de voz de vanguardia.
Estructura del Curso
Unidad 1: Fundamentos de Datos de Audio
- Aprendizaje de las particularidades del procesamiento de datos de audio.
- Técnicas de procesamiento de audio y preparación de datos.
Unidad 2: Introducción a las Aplicaciones de Audio
- Comprensión de los escenarios de aplicación de audio.
- Aprendizaje del uso de los pipelines de 🤗 Transformers.
- Práctica de tareas de clasificación de audio y reconocimiento de voz.
Unidad 3: Exploración de Arquitecturas Transformer
- Comprensión profunda de las arquitecturas Transformer de audio.
- Aprendizaje de las diferencias y escenarios de aplicación de las distintas arquitecturas.
Unidad 4: Clasificador de Géneros Musicales
- Construcción de tu propio clasificador de géneros musicales.
- Desarrollo de proyectos prácticos.
Unidad 5: Aprendizaje Profundo para el Reconocimiento de Voz
- Investigación profunda de la tecnología de reconocimiento de voz.
- Construcción de un modelo de transcripción de grabaciones de reuniones.
Unidad 6: Texto a Voz
- Aprendizaje de la tecnología para generar voz a partir de texto.
- Implementación de sistemas TTS.
Unidad 7: Desarrollo de Aplicaciones Prácticas
- Aprendizaje de cómo construir aplicaciones de audio del mundo real.
- Desarrollo de soluciones completas utilizando Transformers.
Ruta de Aprendizaje y Certificación
Flexibilidad del Curso
- Puedes aprender a tu propio ritmo.
- Se recomienda seguir el orden de las unidades.
- Se proporcionan cuestionarios para evaluar el progreso del aprendizaje.
Opciones de Certificación
Certificado de finalización (Certificate of completion)
- Requisito: Completar el 80% de los ejercicios prácticos.
Certificado de honor (Certificate of honors)
- Requisito: Completar el 100% de los ejercicios prácticos.
Requisitos Previos
Antecedentes Requeridos
- Conocimientos fundamentales de aprendizaje profundo.
- Comprensión básica de los Transformers.
Antecedentes No Requeridos
- No se requiere experiencia especializada en procesamiento de datos de audio.
- Si necesitas complementar tus conocimientos sobre Transformers, puedes consultar el Curso de PNL.
Calendario de Lanzamiento
Unidad | Fecha de Lanzamiento |
---|---|
Unidad 0, Unidad 1, Unidad 2 | 14 de junio de 2023 |
Unidad 3, Unidad 4 | 21 de junio de 2023 |
Unidad 5 | 28 de junio de 2023 |
Unidad 6 | 5 de julio de 2023 |
Unidad 7, Unidad 8 | 12 de julio de 2023 |
Pila Tecnológica
Herramientas Principales
- Biblioteca 🤗 Transformers
- 🤗 Datasets
- 🤗 Tokenizers
- 🤗 Accelerate
- Hugging Face Hub
Tecnologías Cubiertas
- Uso de modelos preentrenados.
- Preprocesamiento de datos de audio.
- Ajuste fino y entrenamiento de modelos.
- Procesamiento de audio en tiempo real.
- Extracción de características de audio.
Resultados del Aprendizaje
Al completar este curso, los estudiantes adquirirán:
- Sólida base teórica: Una comprensión profunda de los principios de aplicación de los Transformers en el campo del audio.
- Habilidades prácticas: La capacidad de manejar diversas tareas relacionadas con el audio.
- Experiencia en proyectos: La finalización de múltiples proyectos prácticos, incluyendo clasificadores, sistemas de reconocimiento, etc.
- Capacidad de ingeniería: La habilidad para construir y desplegar aplicaciones de procesamiento de audio.
Contribución de Código Abierto
Este curso es completamente de código abierto, alojado en GitHub, y se agradecen las contribuciones y traducciones de la comunidad. Los materiales del curso se pueden encontrar en el repositorio de GitHub.
Audiencia Objetivo
- Profesionales del aprendizaje profundo interesados en el procesamiento de audio.
- Investigadores que deseen aplicar Transformers al campo del audio.
- Desarrolladores que necesiten construir aplicaciones relacionadas con el audio.
- Estudiantes interesados en tecnologías como el reconocimiento de voz y la clasificación de audio.