Home
Login

Quinta Etapa: Exploração de Cenários de Aplicação de IA

Curso oficial de áudio da Hugging Face, ensinando como usar Transformers para processar dados de áudio, cobrindo um caminho de aprendizado completo para tarefas como reconhecimento de fala, classificação de áudio e conversão de texto em fala.

TransformersAudioProcessingHuggingFaceWebSiteTextFreeMulti-Language

Introdução Detalhada ao Curso de Áudio da Hugging Face

Visão Geral do Curso

O Curso de Áudio da Hugging Face é um curso abrangente focado no processamento de dados de áudio usando Transformers. Este curso demonstra como os Transformers, uma das arquiteturas de deep learning mais poderosas e versáteis, alcançam resultados de ponta no campo do processamento de áudio.

Objetivos do Curso

Este curso ensinará os alunos a aplicar Transformers a dados de áudio, cobrindo uma variedade de tarefas relacionadas ao áudio:

  • Reconhecimento de Fala (Speech Recognition)
  • Classificação de Áudio (Audio Classification)
  • Geração de Texto para Fala (Text-to-Speech Generation)
  • Transcrição de Fala em Tempo Real (Real-time Speech Transcription)

Destaques do Curso

🎯 Altamente Prático

  • Oferece funcionalidade de demonstração em tempo real, permitindo que os alunos experimentem diretamente a capacidade de transcrição de fala do modelo.
  • Inclui uma grande quantidade de exercícios práticos e projetos.
  • Desenvolvido com base em modelos pré-treinados poderosos.

📚 Aprendizagem Sistemática

  • Compreensão aprofundada das particularidades do processamento de dados de áudio.
  • Estudo de diferentes arquiteturas Transformer.
  • Treinamento de seus próprios modelos Transformer de áudio.

🆓 Totalmente Gratuito

  • 100% gratuito, público e de código aberto.
  • Todos os materiais de estudo são de livre acesso.

Equipe do Curso

Sanchit Gandhi

  • Engenheiro de Pesquisa em Machine Learning na Hugging Face
  • Focado em reconhecimento automático de fala e tradução
  • Dedicado a tornar os modelos de fala mais rápidos, leves e fáceis de usar

Matthijs Hollemans

  • Engenheiro de Machine Learning na Hugging Face
  • Autor de livros relacionados a sintetizadores de áudio
  • Desenvolvedor de plugins de áudio

Maria Khalusova

  • Líder de Documentação e Cursos na Hugging Face
  • Especializada na criação de conteúdo educacional e documentação
  • Habilidosa em simplificar conceitos técnicos complexos

Vaibhav Srivastav

  • Engenheiro de Defesa de Desenvolvedores de ML na Hugging Face
  • Pesquisa tecnologia de texto para fala com poucos recursos
  • Dedicado a popularizar a pesquisa de ponta em fala

Estrutura do Curso

Unidade 1: Fundamentos de Dados de Áudio

  • Aprender as particularidades do processamento de dados de áudio
  • Técnicas de processamento de áudio e preparação de dados

Unidade 2: Introdução a Aplicações de Áudio

  • Compreender cenários de aplicação de áudio
  • Aprender a usar os pipelines 🤗 Transformers
  • Praticar tarefas de classificação de áudio e reconhecimento de fala

Unidade 3: Exploração da Arquitetura Transformer

  • Aprofundar o conhecimento sobre as arquiteturas Transformer de áudio
  • Aprender as diferenças e cenários de aplicação de diferentes arquiteturas

Unidade 4: Classificador de Gêneros Musicais

  • Construir seu próprio classificador de gêneros musicais
  • Praticar o desenvolvimento de projetos

Unidade 5: Deep Learning para Reconhecimento de Fala

  • Aprofundar a pesquisa em tecnologia de reconhecimento de fala
  • Construir um modelo de transcrição de gravações de reuniões

Unidade 6: Texto para Fala

  • Aprender técnicas para gerar fala a partir de texto
  • Implementar um sistema TTS

Unidade 7: Desenvolvimento de Aplicações Práticas

  • Aprender a construir aplicações de áudio do mundo real
  • Desenvolver soluções completas usando Transformers

Caminho de Aprendizagem e Certificação

Flexibilidade do Curso

  • Pode-se aprender no próprio ritmo
  • Sugere-se seguir a ordem das unidades
  • Testes são fornecidos para verificar o progresso da aprendizagem

Opções de Certificação

Certificado de Conclusão (Certificate of completion)

  • Requisito: Concluir 80% dos exercícios práticos

Certificado de Honra (Certificate of honors)

  • Requisito: Concluir 100% dos exercícios práticos

Pré-requisitos

Conhecimentos Necessários

  • Conhecimentos básicos de Deep Learning
  • Compreensão fundamental de Transformers

Conhecimentos Não Necessários

  • Não é necessário conhecimento especializado em processamento de dados de áudio
  • Para complementar o conhecimento sobre Transformers, consulte o Curso de PNL

Cronograma de Lançamento

Unidade Data de Lançamento
Unidade 0, Unidade 1, Unidade 2 14 de junho de 2023
Unidade 3, Unidade 4 21 de junho de 2023
Unidade 5 28 de junho de 2023
Unidade 6 5 de julho de 2023
Unidade 7, Unidade 8 12 de julho de 2023

Pilha Tecnológica

Ferramentas Principais

  • Biblioteca 🤗 Transformers
  • 🤗 Datasets
  • 🤗 Tokenizers
  • 🤗 Accelerate
  • Hugging Face Hub

Tecnologias Abrangidas

  • Uso de modelos pré-treinados
  • Pré-processamento de dados de áudio
  • Ajuste fino e treinamento de modelos
  • Processamento de áudio em tempo real
  • Extração de características de áudio

Resultados de Aprendizagem

Ao concluir este curso, os alunos terão:

  1. Base Teórica Sólida: Compreensão aprofundada dos princípios de aplicação dos Transformers no domínio do áudio.
  2. Habilidades Práticas: Capacidade de lidar com várias tarefas relacionadas ao áudio.
  3. Experiência em Projetos: Conclusão de múltiplos projetos práticos, incluindo classificadores, sistemas de reconhecimento, etc.
  4. Capacidade de Engenharia: Habilidade para construir e implantar aplicações de processamento de áudio.

Contribuição de Código Aberto

Este curso é totalmente de código aberto, hospedado no GitHub, e contribuições e traduções da comunidade são bem-vindas. Os materiais do curso podem ser encontrados no repositório do GitHub.

Público-Alvo

  • Profissionais de deep learning interessados em processamento de áudio
  • Pesquisadores que desejam aplicar Transformers no domínio do áudio
  • Desenvolvedores que precisam construir aplicações relacionadas a áudio
  • Alunos interessados em tecnologias como reconhecimento de fala e classificação de áudio