Home
Login

Modèle de langage unifié pré-entraîné à grande échelle et auto-supervisé de Microsoft, prenant en charge la recherche sur les modèles de base inter-tâches, inter-langues et inter-modalités.

MITPython 21.5kmicrosoftunilm Last Updated: 2025-06-03

Présentation détaillée du projet Microsoft UniLM

Aperçu du projet

Microsoft UniLM est une bibliothèque de modèles pré-entraînés auto-supervisés à grande échelle développée par Microsoft Research, axée sur la recherche de modèles de base inter-tâches, inter-langues et inter-modalités. Ce projet vise à développer de nouvelles architectures de modèles de base et d'IA, en se concentrant sur la modélisation de la généralité et des capacités, ainsi que sur la stabilité et l'efficacité de la formation.

Adresse du projet : https://github.com/microsoft/unilm

Concept clé : Convergence de la grande unification

Le concept clé du projet UniLM est la "Convergence de la grande unification" (The Big Convergence), c'est-à-dire la réalisation d'un pré-entraînement auto-supervisé à grande échelle dans les trois dimensions suivantes :

  • Inter-tâches : Tâches prédictives et génératives
  • Inter-langues : Prise en charge de plus de 100 langues
  • Inter-modalités : Langue, image, audio, format de mise en page, visuel + langue, audio + langue, etc.

Principales piles technologiques

1. Bibliothèque d'architecture TorchScale

Recherche sur l'infrastructure de base, axée sur :

  • Stabilité : DeepNet - Extension de Transformer à 1000 couches et plus
  • Généralité : Foundation Transformers (Magneto) - Modélisation véritablement universelle inter-tâches et inter-modalités
  • Capacité : Length-Extrapolatable Transformer - Capacité de traitement de séquences longues
  • Efficacité : Architectures efficaces telles que X-MoE, BitNet, RetNet, LongNet, etc.

2. Série de modèles de langage

Série UniLM

  • UniLM : Pré-entraînement unifié pour la compréhension et la génération du langage
  • InfoXLM/XLM-E : Modèles de pré-entraînement multilingues/inter-langues prenant en charge plus de 100 langues
  • DeltaLM/mT6 : Pré-entraînement encodeur-décodeur pour la génération et la traduction de langage
  • MiniLM : Modèles de pré-entraînement petits et rapides pour la compréhension et la génération du langage
  • AdaLM : Adaptation du domaine, de la langue et de la tâche des modèles pré-entraînés
  • EdgeLM : Petits modèles pré-entraînés sur les appareils périphériques/clients
  • SimLM : Pré-entraînement à grande échelle pour la correspondance de similarité
  • E5 : Modèles d'intégration de texte
  • MiniLLM : Distillation des connaissances des grands modèles de langage

Grands modèles de langage multimodaux

  • Kosmos-1 : Grand modèle de langage multimodal (MLLM)
  • Kosmos-2 : Grand modèle de langage multimodal basé sur le monde
  • Kosmos-2.5 : Modèle de compréhension de documents multimodaux
  • MetaLM : Modèle de langage comme interface universelle pour les modèles de base

3. Série de modèles visuels

Série BEiT

  • BEiT : Pré-entraînement auto-supervisé génératif visuel
  • BEiT-2 : Pré-entraînement de transformateur d'image de style BERT
  • BEiT-3 : Modèle de base multimodal universel, une étape importante dans le pré-entraînement à grande échelle inter-tâches, inter-langues et inter-modalités

Modèles d'IA de documents

  • DiT : Pré-entraînement auto-supervisé de transformateur d'image de document
  • TextDiffuser/TextDiffuser-2 : Modèles de diffusion en tant que peintres de texte
  • LayoutLM/LayoutLMv2/LayoutLMv3 : Modèles de base de documents multimodaux (texte + mise en page + image)
  • LayoutXLM : Modèle de base multimodal pour l'IA de documents multilingues
  • MarkupLM : Pré-entraînement de modèle de langage de balisage pour la compréhension de documents riches en visuels
  • XDoc : Pré-entraînement unifié pour la compréhension de documents inter-formats
  • TrOCR : Modèle de pré-entraînement OCR basé sur Transformer
  • LayoutReader : Pré-entraînement de texte et de mise en page pour la détection de l'ordre de lecture

4. Série de modèles vocaux

  • WavLM : Pré-entraînement vocal pour les tâches complètes
  • VALL-E : Modèle de langage de codage-décodage neuronal pour TTS
  • UniSpeech : Pré-entraînement unifié auto-supervisé et supervisé pour ASR
  • UniSpeech-SAT : Apprentissage de représentation vocale universelle avec pré-entraînement sensible au locuteur
  • SpeechT5 : Pré-entraînement encodeur-décodeur pour le traitement de la parole
  • SpeechLM : Pré-entraînement vocal amélioré à l'aide de données textuelles non appariées

5. Modèles visuels-linguistiques

  • VLMo : Pré-entraînement visuel-linguistique unifié
  • VL-BEiT : Pré-entraînement visuel-linguistique génératif

Principales caractéristiques techniques

1. Innovation architecturale

  • DeepNet : Prend en charge l'extension à des réseaux profonds de 1000 couches
  • Magneto : Véritable architecture de modélisation universelle
  • BitNet : Architecture Transformer 1-bit
  • RetNet : Réseau de rétention en tant que successeur de Transformer
  • LongNet : Extension au traitement de séquences longues de 1 milliard de jetons

2. Optimisation de l'efficacité de la formation

  • X-MoE : Modèle d'experts mixtes clairsemé, évolutif et affinable
  • Aggressive Decoding : Algorithme de décodage séquence à séquence efficace et sans perte
  • Knowledge Distillation : Techniques de compression et d'accélération des modèles

3. Prise en charge multilingue

  • Prise en charge de plus de 100 langues
  • Apprentissage par transfert inter-langues
  • Compréhension de documents multilingues

4. Fusion multimodale

  • Modélisation unifiée de texte + image + mise en page
  • Compréhension et génération visuelles-linguistiques
  • Traitement intermodal parole-texte

Domaines d'application

1. Traitement du langage naturel

  • Compréhension et génération du langage
  • Traduction automatique
  • Classification de texte et analyse des sentiments
  • Systèmes de questions-réponses

2. IA de documents

  • Analyse de la mise en page des documents
  • Compréhension des formulaires
  • Reconnaissance de texte OCR
  • Questions-réponses sur les documents

3. Vision par ordinateur

  • Classification d'images
  • Détection d'objets
  • Génération d'images
  • Questions-réponses visuelles

4. Traitement de la parole

  • Reconnaissance vocale (ASR)
  • Synthèse vocale (TTS)
  • Compréhension de la parole
  • Traitement de la parole multilingue

Pile technologique et outils

Cadre de développement

  • Développé sur la base de PyTorch
  • Intégration de HuggingFace Transformers
  • Prise en charge de la formation distribuée

Données de pré-entraînement

  • Données textuelles multilingues à grande échelle
  • Données appariées image-texte
  • Données vocales
  • Données d'images de documents

Points de repère d'évaluation

  • Points de repère de compréhension du langage GLUE, SuperGLUE
  • Point de repère multilingue XTREME
  • Point de repère de questions-réponses visuelles VQA
  • Point de repère de questions-réponses sur les documents DocVQA
  • Point de repère vocal SUPERB

Le projet UniLM représente la recherche de pointe de Microsoft dans le domaine des modèles de base et de l'intelligence artificielle générale, fournissant des outils et une infrastructure puissants aux milieux universitaires et industriels, et faisant progresser le développement et l'application des technologies d'IA multimodales.

Star History Chart