Quinta Etapa: Exploração de Cenários de Aplicação de IA
Curso oficial de áudio da Hugging Face, ensinando como usar Transformers para processar dados de áudio, cobrindo um caminho de aprendizado completo para tarefas como reconhecimento de fala, classificação de áudio e conversão de texto em fala.
Introdução Detalhada ao Curso de Áudio da Hugging Face
Visão Geral do Curso
O Curso de Áudio da Hugging Face é um curso abrangente focado no processamento de dados de áudio usando Transformers. Este curso demonstra como os Transformers, uma das arquiteturas de deep learning mais poderosas e versáteis, alcançam resultados de ponta no campo do processamento de áudio.
Objetivos do Curso
Este curso ensinará os alunos a aplicar Transformers a dados de áudio, cobrindo uma variedade de tarefas relacionadas ao áudio:
- Reconhecimento de Fala (Speech Recognition)
- Classificação de Áudio (Audio Classification)
- Geração de Texto para Fala (Text-to-Speech Generation)
- Transcrição de Fala em Tempo Real (Real-time Speech Transcription)
Destaques do Curso
🎯 Altamente Prático
- Oferece funcionalidade de demonstração em tempo real, permitindo que os alunos experimentem diretamente a capacidade de transcrição de fala do modelo.
- Inclui uma grande quantidade de exercícios práticos e projetos.
- Desenvolvido com base em modelos pré-treinados poderosos.
📚 Aprendizagem Sistemática
- Compreensão aprofundada das particularidades do processamento de dados de áudio.
- Estudo de diferentes arquiteturas Transformer.
- Treinamento de seus próprios modelos Transformer de áudio.
🆓 Totalmente Gratuito
- 100% gratuito, público e de código aberto.
- Todos os materiais de estudo são de livre acesso.
Equipe do Curso
Sanchit Gandhi
- Engenheiro de Pesquisa em Machine Learning na Hugging Face
- Focado em reconhecimento automático de fala e tradução
- Dedicado a tornar os modelos de fala mais rápidos, leves e fáceis de usar
Matthijs Hollemans
- Engenheiro de Machine Learning na Hugging Face
- Autor de livros relacionados a sintetizadores de áudio
- Desenvolvedor de plugins de áudio
Maria Khalusova
- Líder de Documentação e Cursos na Hugging Face
- Especializada na criação de conteúdo educacional e documentação
- Habilidosa em simplificar conceitos técnicos complexos
Vaibhav Srivastav
- Engenheiro de Defesa de Desenvolvedores de ML na Hugging Face
- Pesquisa tecnologia de texto para fala com poucos recursos
- Dedicado a popularizar a pesquisa de ponta em fala
Estrutura do Curso
Unidade 1: Fundamentos de Dados de Áudio
- Aprender as particularidades do processamento de dados de áudio
- Técnicas de processamento de áudio e preparação de dados
Unidade 2: Introdução a Aplicações de Áudio
- Compreender cenários de aplicação de áudio
- Aprender a usar os pipelines 🤗 Transformers
- Praticar tarefas de classificação de áudio e reconhecimento de fala
Unidade 3: Exploração da Arquitetura Transformer
- Aprofundar o conhecimento sobre as arquiteturas Transformer de áudio
- Aprender as diferenças e cenários de aplicação de diferentes arquiteturas
Unidade 4: Classificador de Gêneros Musicais
- Construir seu próprio classificador de gêneros musicais
- Praticar o desenvolvimento de projetos
Unidade 5: Deep Learning para Reconhecimento de Fala
- Aprofundar a pesquisa em tecnologia de reconhecimento de fala
- Construir um modelo de transcrição de gravações de reuniões
Unidade 6: Texto para Fala
- Aprender técnicas para gerar fala a partir de texto
- Implementar um sistema TTS
Unidade 7: Desenvolvimento de Aplicações Práticas
- Aprender a construir aplicações de áudio do mundo real
- Desenvolver soluções completas usando Transformers
Caminho de Aprendizagem e Certificação
Flexibilidade do Curso
- Pode-se aprender no próprio ritmo
- Sugere-se seguir a ordem das unidades
- Testes são fornecidos para verificar o progresso da aprendizagem
Opções de Certificação
Certificado de Conclusão (Certificate of completion)
- Requisito: Concluir 80% dos exercícios práticos
Certificado de Honra (Certificate of honors)
- Requisito: Concluir 100% dos exercícios práticos
Pré-requisitos
Conhecimentos Necessários
- Conhecimentos básicos de Deep Learning
- Compreensão fundamental de Transformers
Conhecimentos Não Necessários
- Não é necessário conhecimento especializado em processamento de dados de áudio
- Para complementar o conhecimento sobre Transformers, consulte o Curso de PNL
Cronograma de Lançamento
Unidade | Data de Lançamento |
---|---|
Unidade 0, Unidade 1, Unidade 2 | 14 de junho de 2023 |
Unidade 3, Unidade 4 | 21 de junho de 2023 |
Unidade 5 | 28 de junho de 2023 |
Unidade 6 | 5 de julho de 2023 |
Unidade 7, Unidade 8 | 12 de julho de 2023 |
Pilha Tecnológica
Ferramentas Principais
- Biblioteca 🤗 Transformers
- 🤗 Datasets
- 🤗 Tokenizers
- 🤗 Accelerate
- Hugging Face Hub
Tecnologias Abrangidas
- Uso de modelos pré-treinados
- Pré-processamento de dados de áudio
- Ajuste fino e treinamento de modelos
- Processamento de áudio em tempo real
- Extração de características de áudio
Resultados de Aprendizagem
Ao concluir este curso, os alunos terão:
- Base Teórica Sólida: Compreensão aprofundada dos princípios de aplicação dos Transformers no domínio do áudio.
- Habilidades Práticas: Capacidade de lidar com várias tarefas relacionadas ao áudio.
- Experiência em Projetos: Conclusão de múltiplos projetos práticos, incluindo classificadores, sistemas de reconhecimento, etc.
- Capacidade de Engenharia: Habilidade para construir e implantar aplicações de processamento de áudio.
Contribuição de Código Aberto
Este curso é totalmente de código aberto, hospedado no GitHub, e contribuições e traduções da comunidade são bem-vindas. Os materiais do curso podem ser encontrados no repositório do GitHub.
Público-Alvo
- Profissionais de deep learning interessados em processamento de áudio
- Pesquisadores que desejam aplicar Transformers no domínio do áudio
- Desenvolvedores que precisam construir aplicações relacionadas a áudio
- Alunos interessados em tecnologias como reconhecimento de fala e classificação de áudio