Quinta Etapa: Exploração de Cenários de Aplicação de IA

Curso oficial de áudio da Hugging Face, ensinando como usar Transformers para processar dados de áudio, cobrindo um caminho de aprendizado completo para tarefas como reconhecimento de fala, classificação de áudio e conversão de texto em fala.

TransformersAudioProcessingHuggingFaceWebSiteTextFreeMulti-Language

Introdução Detalhada ao Curso de Áudio da Hugging Face

Visão Geral do Curso

O Curso de Áudio da Hugging Face é um curso abrangente focado no processamento de dados de áudio usando Transformers. Este curso demonstra como os Transformers, uma das arquiteturas de deep learning mais poderosas e versáteis, alcançam resultados de ponta no campo do processamento de áudio.

Objetivos do Curso

Este curso ensinará os alunos a aplicar Transformers a dados de áudio, cobrindo uma variedade de tarefas relacionadas ao áudio:

Reconhecimento de Fala (Speech Recognition)
Classificação de Áudio (Audio Classification)
Geração de Texto para Fala (Text-to-Speech Generation)
Transcrição de Fala em Tempo Real (Real-time Speech Transcription)

Destaques do Curso

🎯 Altamente Prático

Oferece funcionalidade de demonstração em tempo real, permitindo que os alunos experimentem diretamente a capacidade de transcrição de fala do modelo.
Inclui uma grande quantidade de exercícios práticos e projetos.
Desenvolvido com base em modelos pré-treinados poderosos.

📚 Aprendizagem Sistemática

Compreensão aprofundada das particularidades do processamento de dados de áudio.
Estudo de diferentes arquiteturas Transformer.
Treinamento de seus próprios modelos Transformer de áudio.

🆓 Totalmente Gratuito

100% gratuito, público e de código aberto.
Todos os materiais de estudo são de livre acesso.

Equipe do Curso

Sanchit Gandhi

Engenheiro de Pesquisa em Machine Learning na Hugging Face
Focado em reconhecimento automático de fala e tradução
Dedicado a tornar os modelos de fala mais rápidos, leves e fáceis de usar

Matthijs Hollemans

Engenheiro de Machine Learning na Hugging Face
Autor de livros relacionados a sintetizadores de áudio
Desenvolvedor de plugins de áudio

Maria Khalusova

Líder de Documentação e Cursos na Hugging Face
Especializada na criação de conteúdo educacional e documentação
Habilidosa em simplificar conceitos técnicos complexos

Vaibhav Srivastav

Engenheiro de Defesa de Desenvolvedores de ML na Hugging Face
Pesquisa tecnologia de texto para fala com poucos recursos
Dedicado a popularizar a pesquisa de ponta em fala

Estrutura do Curso

Unidade 1: Fundamentos de Dados de Áudio

Aprender as particularidades do processamento de dados de áudio
Técnicas de processamento de áudio e preparação de dados

Unidade 2: Introdução a Aplicações de Áudio

Compreender cenários de aplicação de áudio
Aprender a usar os pipelines 🤗 Transformers
Praticar tarefas de classificação de áudio e reconhecimento de fala

Unidade 3: Exploração da Arquitetura Transformer

Aprofundar o conhecimento sobre as arquiteturas Transformer de áudio
Aprender as diferenças e cenários de aplicação de diferentes arquiteturas

Unidade 4: Classificador de Gêneros Musicais

Construir seu próprio classificador de gêneros musicais
Praticar o desenvolvimento de projetos

Unidade 5: Deep Learning para Reconhecimento de Fala

Aprofundar a pesquisa em tecnologia de reconhecimento de fala
Construir um modelo de transcrição de gravações de reuniões

Unidade 6: Texto para Fala

Aprender técnicas para gerar fala a partir de texto
Implementar um sistema TTS

Unidade 7: Desenvolvimento de Aplicações Práticas

Aprender a construir aplicações de áudio do mundo real
Desenvolver soluções completas usando Transformers

Caminho de Aprendizagem e Certificação

Flexibilidade do Curso

Pode-se aprender no próprio ritmo
Sugere-se seguir a ordem das unidades
Testes são fornecidos para verificar o progresso da aprendizagem

Opções de Certificação

Certificado de Conclusão (Certificate of completion)

Requisito: Concluir 80% dos exercícios práticos

Certificado de Honra (Certificate of honors)

Requisito: Concluir 100% dos exercícios práticos

Pré-requisitos

Conhecimentos Necessários

Conhecimentos básicos de Deep Learning
Compreensão fundamental de Transformers

Conhecimentos Não Necessários

Não é necessário conhecimento especializado em processamento de dados de áudio
Para complementar o conhecimento sobre Transformers, consulte o Curso de PNL

Cronograma de Lançamento

Unidade	Data de Lançamento
Unidade 0, Unidade 1, Unidade 2	14 de junho de 2023
Unidade 3, Unidade 4	21 de junho de 2023
Unidade 5	28 de junho de 2023
Unidade 6	5 de julho de 2023
Unidade 7, Unidade 8	12 de julho de 2023

Pilha Tecnológica

Ferramentas Principais

Biblioteca 🤗 Transformers
🤗 Datasets
🤗 Tokenizers
🤗 Accelerate
Hugging Face Hub

Tecnologias Abrangidas

Uso de modelos pré-treinados
Pré-processamento de dados de áudio
Ajuste fino e treinamento de modelos
Processamento de áudio em tempo real
Extração de características de áudio

Resultados de Aprendizagem

Ao concluir este curso, os alunos terão:

Base Teórica Sólida: Compreensão aprofundada dos princípios de aplicação dos Transformers no domínio do áudio.
Habilidades Práticas: Capacidade de lidar com várias tarefas relacionadas ao áudio.
Experiência em Projetos: Conclusão de múltiplos projetos práticos, incluindo classificadores, sistemas de reconhecimento, etc.
Capacidade de Engenharia: Habilidade para construir e implantar aplicações de processamento de áudio.

Contribuição de Código Aberto

Este curso é totalmente de código aberto, hospedado no GitHub, e contribuições e traduções da comunidade são bem-vindas. Os materiais do curso podem ser encontrados no repositório do GitHub.

Público-Alvo

Profissionais de deep learning interessados em processamento de áudio
Pesquisadores que desejam aplicar Transformers no domínio do áudio
Desenvolvedores que precisam construir aplicações relacionadas a áudio
Alunos interessados em tecnologias como reconhecimento de fala e classificação de áudio