Home
Login

Modelo de linguagem unificado pré-treinado e auto-supervisionado em larga escala da Microsoft, que suporta pesquisa de modelos básicos entre tarefas, entre idiomas e entre modalidades.

MITPython 21.5kmicrosoftunilm Last Updated: 2025-06-03

Apresentação Detalhada do Projeto Microsoft UniLM

Visão Geral do Projeto

O Microsoft UniLM é uma biblioteca de modelos pré-treinados auto-supervisionados em larga escala desenvolvida pela Microsoft Research, focada em pesquisa de modelos fundamentais entre tarefas, entre idiomas e entre modalidades. Este projeto se dedica a desenvolver novas arquiteturas de modelos fundamentais e IA, com foco na modelagem de generalidade e capacidade, bem como na estabilidade e eficiência do treinamento.

Endereço do Projeto: https://github.com/microsoft/unilm

Filosofia Central: Convergência da Grande Unificação

A filosofia central do projeto UniLM é a "Convergência da Grande Unificação" (The Big Convergence), que é alcançar o pré-treinamento auto-supervisionado em larga escala nas seguintes três dimensões:

  • Entre Tarefas: Tarefas preditivas e generativas
  • Entre Idiomas: Suporte para mais de 100 idiomas
  • Entre Modalidades: Linguagem, imagem, áudio, formatos de layout, visual+linguagem, áudio+linguagem, etc.

Principais Pilares Tecnológicos

1. Biblioteca de Arquitetura TorchScale

Pesquisa de arquitetura fundamental, focada em:

  • Estabilidade: DeepNet - Estendendo o Transformer para 1000 camadas ou mais
  • Generalidade: Foundation Transformers (Magneto) - Modelagem verdadeiramente geral entre tarefas e modalidades
  • Capacidade: Length-Extrapolatable Transformer - Capacidade de processamento de sequências longas
  • Eficiência: Arquiteturas eficientes como X-MoE, BitNet, RetNet, LongNet, etc.

2. Série de Modelos de Linguagem

Série UniLM

  • UniLM: Pré-treinamento unificado de compreensão e geração de linguagem
  • InfoXLM/XLM-E: Modelos de pré-treinamento multilíngue/interlinguístico que suportam mais de 100 idiomas
  • DeltaLM/mT6: Pré-treinamento de codificador-decodificador para geração e tradução de linguagem
  • MiniLM: Modelo de pré-treinamento pequeno e rápido para compreensão e geração de linguagem
  • AdaLM: Adaptação de domínio, idioma e tarefa de modelos pré-treinados
  • EdgeLM: Modelo de pré-treinamento pequeno em dispositivos de borda/cliente
  • SimLM: Pré-treinamento em larga escala para correspondência de similaridade
  • E5: Modelo de incorporação de texto
  • MiniLLM: Destilação de conhecimento de grandes modelos de linguagem

Grandes Modelos de Linguagem Multimodal

  • Kosmos-1: Grande modelo de linguagem multimodal (MLLM)
  • Kosmos-2: Grande modelo de linguagem multimodal baseado no mundo
  • Kosmos-2.5: Modelo de compreensão de documentos multimodal
  • MetaLM: Modelo de linguagem como uma interface universal para modelos fundamentais

3. Série de Modelos Visuais

Série BEiT

  • BEiT: Pré-treinamento auto-supervisionado generativo visual
  • BEiT-2: Pré-treinamento de Transformer de imagem no estilo BERT
  • BEiT-3: Modelo fundamental multimodal geral, um marco importante no pré-treinamento em larga escala entre tarefas, idiomas e modalidades

Modelos de IA para Documentos

  • DiT: Pré-treinamento auto-supervisionado de Transformer de imagem de documento
  • TextDiffuser/TextDiffuser-2: Modelo de difusão como um pintor de texto
  • LayoutLM/LayoutLMv2/LayoutLMv3: Modelo fundamental de documento multimodal (texto+layout+imagem)
  • LayoutXLM: Modelo fundamental multimodal para IA de documento multilíngue
  • MarkupLM: Pré-treinamento de modelo de linguagem de marcação para compreensão de documentos visualmente ricos
  • XDoc: Pré-treinamento unificado para compreensão de documentos entre formatos
  • TrOCR: Modelo de pré-treinamento OCR baseado em Transformer
  • LayoutReader: Pré-treinamento de texto e layout para detecção de ordem de leitura

4. Série de Modelos de Voz

  • WavLM: Pré-treinamento de voz para tarefas de pilha completa
  • VALL-E: Modelo de linguagem de codificação-decodificação neural para TTS
  • UniSpeech: Pré-treinamento unificado auto-supervisionado e supervisionado para ASR
  • UniSpeech-SAT: Aprendizado de representação de voz universal com pré-treinamento com percepção do falante
  • SpeechT5: Pré-treinamento de codificador-decodificador para processamento de linguagem falada
  • SpeechLM: Pré-treinamento de voz aprimorado usando dados de texto não pareados

5. Modelos Visuais-Linguísticos

  • VLMo: Pré-treinamento visual-linguístico unificado
  • VL-BEiT: Pré-treinamento visual-linguístico generativo

Principais Características Técnicas

1. Inovação de Arquitetura

  • DeepNet: Suporte para estender para redes profundas de 1000 camadas
  • Magneto: Arquitetura de modelagem verdadeiramente geral
  • BitNet: Arquitetura Transformer de 1 bit
  • RetNet: Rede de retenção como sucessora do Transformer
  • LongNet: Processamento de sequência longa estendido para 1 bilhão de tokens

2. Otimização da Eficiência do Treinamento

  • X-MoE: Modelo de mistura de especialistas esparso escalável e ajustável
  • Aggressive Decoding: Algoritmo de decodificação de sequência para sequência eficiente e sem perdas
  • Knowledge Distillation: Técnicas de compressão e aceleração de modelo

3. Suporte Multilíngue

  • Suporte para mais de 100 idiomas
  • Aprendizado de transferência interlinguística
  • Compreensão de documentos multilíngues

4. Fusão Multimodal

  • Modelagem unificada de texto+imagem+layout
  • Compreensão e geração visual-linguística
  • Processamento multimodal de voz-texto

Áreas de Aplicação

1. Processamento de Linguagem Natural

  • Compreensão e geração de linguagem
  • Tradução automática
  • Classificação de texto e análise de sentimento
  • Sistemas de perguntas e respostas

2. IA para Documentos

  • Análise de layout de documentos
  • Compreensão de formulários
  • Reconhecimento de texto OCR
  • Perguntas e respostas sobre documentos

3. Visão Computacional

  • Classificação de imagem
  • Detecção de objetos
  • Geração de imagem
  • Perguntas e respostas visuais

4. Processamento de Voz

  • Reconhecimento de voz (ASR)
  • Síntese de voz (TTS)
  • Compreensão de voz
  • Processamento de voz multilíngue

Pilares Tecnológicos e Ferramentas

Framework de Desenvolvimento

  • Desenvolvido com base no PyTorch
  • Integração com HuggingFace Transformers
  • Suporte para treinamento distribuído

Dados de Pré-treinamento

  • Dados de texto multilíngue em larga escala
  • Dados pareados de imagem-texto
  • Dados de voz
  • Dados de imagem de documento

Benchmarks de Avaliação

  • Benchmarks de compreensão de linguagem GLUE, SuperGLUE
  • Benchmark multilíngue XTREME
  • Benchmark de perguntas e respostas visuais VQA
  • Benchmark de perguntas e respostas sobre documentos DocVQA
  • Benchmark de voz SUPERB

O projeto UniLM representa a pesquisa de ponta da Microsoft em modelos fundamentais e inteligência artificial geral, fornecendo ferramentas e infraestrutura poderosas para a academia e a indústria, impulsionando o desenvolvimento e a aplicação de tecnologias de IA multimodal.

Star History Chart