Home
Login

Microsofts umfangreiches, selbstüberwachtes, vortrainiertes, vereinheitlichtes Sprachmodell, das die Forschung an Basismodellen über Aufgaben, Sprachen und Modalitäten hinweg unterstützt.

MITPython 21.5kmicrosoftunilm Last Updated: 2025-06-03

Microsoft UniLM Projekt – Detaillierte Vorstellung

Projektübersicht

Microsoft UniLM ist eine umfangreiche Bibliothek von selbstüberwachten, vortrainierten Modellen, die von Microsoft Research entwickelt wurde und sich auf die Forschung an Basismodellen für verschiedene Aufgaben, Sprachen und Modalitäten konzentriert. Das Projekt zielt darauf ab, neue Basismodellarchitekturen und KI zu entwickeln, wobei der Schwerpunkt auf der Modellierung von Universalität und Fähigkeiten sowie auf Trainingsstabilität und -effizienz liegt.

Projektadresse: https://github.com/microsoft/unilm

Kernkonzept: Große Vereinheitlichung

Das Kernkonzept des UniLM-Projekts ist die "Große Vereinheitlichung" (The Big Convergence), d.h. die Realisierung einer groß angelegten, selbstüberwachten Vortrainierung in den folgenden drei Dimensionen:

  • Aufgabenübergreifend: Vorhersage- und generative Aufgaben
  • Sprachenübergreifend: Unterstützung von über 100 Sprachen
  • Modalitätenübergreifend: Sprache, Bild, Audio, Layoutformate, visuell+sprachlich, audio+sprachlich usw.

Wichtigste Technologie-Stack

1. TorchScale Architektur-Bibliothek

Grundlagenforschung zur Architektur, mit Fokus auf:

  • Stabilität: DeepNet - Erweiterung von Transformer auf 1000 Schichten und mehr
  • Universalität: Foundation Transformers (Magneto) - wirklich universelle Modellierung über Aufgaben und Modalitäten hinweg
  • Fähigkeit: Length-Extrapolatable Transformer - Fähigkeit zur Verarbeitung langer Sequenzen
  • Effizienz: X-MoE, BitNet, RetNet, LongNet und andere effiziente Architekturen

2. Sprachmodell-Serie

UniLM-Serie

  • UniLM: Vereinheitlichte Sprachverständnis- und Generierungs-Vortrainierung
  • InfoXLM/XLM-E: Mehrsprachige/Sprachenübergreifende Vortrainierungsmodelle, die über 100 Sprachen unterstützen
  • DeltaLM/mT6: Encoder-Decoder-Vortrainierung für Sprachgenerierung und Übersetzung
  • MiniLM: Kleines, schnelles Sprachverständnis- und Generierungs-Vortrainierungsmodell
  • AdaLM: Domänen-, Sprach- und Aufgabenanpassung von vortrainierten Modellen
  • EdgeLM: Kleine vortrainierte Modelle auf Edge-/Client-Geräten
  • SimLM: Groß angelegte Vortrainierung für Ähnlichkeitsabgleich
  • E5: Text-Embedding-Modell
  • MiniLLM: Wissensdestillation großer Sprachmodelle

Multimodale große Sprachmodelle

  • Kosmos-1: Multimodales großes Sprachmodell (MLLM)
  • Kosmos-2: Weltbasiertes multimodales großes Sprachmodell
  • Kosmos-2.5: Multimodales Dokumentenverständnismodell
  • MetaLM: Sprachmodell als universelle Schnittstelle für Basismodelle

3. Visuelle Modell-Serie

BEiT-Serie

  • BEiT: Visuelle generative selbstüberwachte Vortrainierung
  • BEiT-2: BERT-ähnliche Bild-Transformer-Vortrainierung
  • BEiT-3: Universelles multimodales Basismodell, ein wichtiger Meilenstein für die groß angelegte Vortrainierung über Aufgaben, Sprachen und Modalitäten hinweg

Dokumenten-KI-Modelle

  • DiT: Selbstüberwachte Vortrainierung für Dokumentenbild-Transformer
  • TextDiffuser/TextDiffuser-2: Diffusionsmodell als Textmaler
  • LayoutLM/LayoutLMv2/LayoutLMv3: Multimodale (Text+Layout+Bild) Dokumenten-Basismodelle
  • LayoutXLM: Multimodales Basismodell für mehrsprachige Dokumenten-KI
  • MarkupLM: Vortrainierung von Markup-Sprachmodellen für das Verständnis visuell reichhaltiger Dokumente
  • XDoc: Vereinheitlichte Vortrainierung für das Verständnis von Dokumenten in verschiedenen Formaten
  • TrOCR: Transformer-basiertes OCR-Vortrainierungsmodell
  • LayoutReader: Text- und Layout-Vortrainierung zur Erkennung der Lesereihenfolge

4. Sprachmodell-Serie

  • WavLM: Sprachvortrainierung für Full-Stack-Aufgaben
  • VALL-E: Neuronales Codec-Sprachmodell für TTS
  • UniSpeech: Vereinheitlichte Vortrainierung für selbstüberwachtes und überwachtes Lernen für ASR
  • UniSpeech-SAT: Generelles Sprachdarstellungslernen mit sprecherbewusster Vortrainierung
  • SpeechT5: Encoder-Decoder-Vortrainierung für die Sprachverarbeitung
  • SpeechLM: Verbesserte Sprachvortrainierung mit ungepaarten Textdaten

5. Visuell-sprachliche Modelle

  • VLMo: Vereinheitlichte visuell-sprachliche Vortrainierung
  • VL-BEiT: Generative visuell-sprachliche Vortrainierung

Kerntechnische Merkmale

1. Architektonische Innovation

  • DeepNet: Unterstützt die Erweiterung auf 1000 Schichten tiefe Netzwerke
  • Magneto: Wirklich universelle Modellierungsarchitektur
  • BitNet: 1-Bit-Transformer-Architektur
  • RetNet: Beibehaltungsnetzwerk als Nachfolger von Transformer
  • LongNet: Erweiterung auf die Verarbeitung langer Sequenzen mit 1 Milliarde Token

2. Optimierung der Trainingseffizienz

  • X-MoE: Skalierbares und feinabstimmbares spärliches Expertenmischungsmodell
  • Aggressive Decoding: Verlustfreier, effizienter Sequenz-zu-Sequenz-Decodierungsalgorithmus
  • Knowledge Distillation: Modellkomprimierungs- und Beschleunigungstechniken

3. Mehrsprachige Unterstützung

  • Unterstützung von über 100 Sprachen
  • Sprachenübergreifendes Transferlernen
  • Mehrsprachiges Dokumentenverständnis

4. Multimodale Fusion

  • Vereinheitlichte Modellierung von Text+Bild+Layout
  • Visuell-sprachliches Verständnis und Generierung
  • Sprach-Text-Modalitätenübergreifende Verarbeitung

Anwendungsbereiche

1. Verarbeitung natürlicher Sprache

  • Sprachverständnis und -generierung
  • Maschinelle Übersetzung
  • Textklassifizierung und Stimmungsanalyse
  • Frage-Antwort-Systeme

2. Dokumenten-KI

  • Dokumentenlayoutanalyse
  • Formularverständnis
  • OCR-Texterkennung
  • Dokumenten-Frage-Antwort

3. Computer Vision

  • Bildklassifizierung
  • Objekterkennung
  • Bilderzeugung
  • Visuelles Frage-Antwort

4. Sprachverarbeitung

  • Spracherkennung (ASR)
  • Sprachsynthese (TTS)
  • Sprachverständnis
  • Mehrsprachige Sprachverarbeitung

Technologie-Stack und Tools

Entwicklungs-Framework

  • Basierend auf PyTorch entwickelt
  • Integration von HuggingFace Transformers
  • Unterstützung für verteiltes Training

Vortrainingsdaten

  • Umfangreiche mehrsprachige Textdaten
  • Bild-Text-Paardaten
  • Sprachdaten
  • Dokumentenbilddaten

Bewertungs-Benchmarks

  • GLUE, SuperGLUE Sprachverständnis-Benchmark
  • XTREME mehrsprachiger Benchmark
  • VQA visueller Frage-Antwort-Benchmark
  • DocVQA Dokumenten-Frage-Antwort-Benchmark
  • SUPERB Sprach-Benchmark

Das UniLM-Projekt repräsentiert die Spitzenforschung von Microsoft im Bereich der Basismodelle und der allgemeinen künstlichen Intelligenz und bietet der akademischen Welt und der Industrie leistungsstarke Werkzeuge und Infrastrukturen, die die Entwicklung und Anwendung multimodaler KI-Technologien vorantreiben.

Star History Chart