Home
Login

Microsoftによる大規模自己教師あり学習済み統一言語モデル。タスク、言語、モダリティを横断した基盤モデル研究をサポート。

MITPython 21.5kmicrosoftunilm Last Updated: 2025-06-03

Microsoft UniLM プロジェクト詳細

プロジェクト概要

Microsoft UniLMは、マイクロソフトリサーチが開発した大規模な自己教師あり事前学習モデルライブラリであり、タスク、言語、モダリティを横断する基盤モデルの研究に焦点を当てています。このプロジェクトは、汎用性と能力のモデリング、およびトレーニングの安定性と効率に焦点を当てた、新しい基盤モデルアーキテクチャとAIの開発に取り組んでいます。

プロジェクトアドレス: https://github.com/microsoft/unilm

コアコンセプト:大統一収束

UniLMプロジェクトのコアコンセプトは「大統一収束」(The Big Convergence)であり、以下の3つの次元で大規模な自己教師あり事前学習を実現します。

  • クロスタスク: 予測タスクと生成タスク
  • クロスランゲージ: 100以上の言語をサポート
  • クロスマダリティ: 言語、画像、音声、レイアウト形式、視覚+言語、音声+言語など

主要な技術スタック

1. TorchScaleアーキテクチャライブラリ

基盤アーキテクチャの研究、以下に焦点を当てています。

  • 安定性: DeepNet - Transformerを1000層以上に拡張
  • 汎用性: Foundation Transformers (Magneto) - タスクとモダリティを横断する真に汎用的なモデリング
  • 能力: Length-Extrapolatable Transformer - 長いシーケンス処理能力
  • 効率: X-MoE、BitNet、RetNet、LongNetなどの効率的なアーキテクチャ

2. 言語モデルシリーズ

UniLMシリーズ
  • UniLM: 統一された言語理解と生成の事前学習
  • InfoXLM/XLM-E: 100以上の言語をサポートする多言語/クロスリンガル事前学習モデル
  • DeltaLM/mT6: 言語生成と翻訳のためのエンコーダー-デコーダー事前学習
  • MiniLM: 小型で高速な言語理解と生成の事前学習モデル
  • AdaLM: 事前学習モデルのドメイン、言語、タスクへの適応
  • EdgeLM: エッジ/クライアントデバイス上の小型事前学習モデル
  • SimLM: 類似性マッチングの大規模事前学習
  • E5: テキスト埋め込みモデル
  • MiniLLM: 大規模言語モデルの知識蒸留
マルチモーダル大規模言語モデル
  • Kosmos-1: マルチモーダル大規模言語モデル(MLLM)
  • Kosmos-2: 世界を基盤としたマルチモーダル大規模言語モデル
  • Kosmos-2.5: マルチモーダルドキュメント理解モデル
  • MetaLM: 基盤モデルとしての汎用インターフェースとしての言語モデル

3. 視覚モデルシリーズ

BEiTシリーズ
  • BEiT: 視覚生成自己教師あり事前学習
  • BEiT-2: BERTスタイルの画像Transformer事前学習
  • BEiT-3: 汎用マルチモーダル基盤モデル、タスク、言語、モダリティを横断する大規模事前学習の重要なマイルストーン
ドキュメントAIモデル
  • DiT: ドキュメント画像Transformerの自己教師あり事前学習
  • TextDiffuser/TextDiffuser-2: テキスト画家としての拡散モデル
  • LayoutLM/LayoutLMv2/LayoutLMv3: マルチモーダル(テキスト+レイアウト+画像)ドキュメント基盤モデル
  • LayoutXLM: 多言語ドキュメントAIのマルチモーダル基盤モデル
  • MarkupLM: マークアップ言語モデルの事前学習、視覚的に豊富なドキュメント理解のため
  • XDoc: クロスフォーマットドキュメント理解のための統一された事前学習
  • TrOCR: TransformerベースのOCR事前学習モデル
  • LayoutReader: テキストとレイアウトの事前学習による読み取り順序検出

4. 音声モデルシリーズ

  • WavLM: フルスタックタスクの音声事前学習
  • VALL-E: TTSのためのニューラルコーデック言語モデル
  • UniSpeech: ASRの自己教師あり学習と教師あり学習の統一された事前学習
  • UniSpeech-SAT: 話者認識事前学習による汎用音声表現学習
  • SpeechT5: 音声処理のエンコーダー-デコーダー事前学習
  • SpeechLM: ペアになっていないテキストデータを使用した拡張音声事前学習

5. 視覚-言語モデル

  • VLMo: 統一された視覚-言語事前学習
  • VL-BEiT: 生成的な視覚-言語事前学習

コア技術の特徴

1. アーキテクチャの革新

  • DeepNet: 1000層までの深層ネットワークの拡張をサポート
  • Magneto: 真に汎用的なモデリングアーキテクチャ
  • BitNet: 1-bit Transformerアーキテクチャ
  • RetNet: Transformerの後継としての保持ネットワーク
  • LongNet: 10億トークンに拡張された長いシーケンス処理

2. トレーニング効率の最適化

  • X-MoE: スケーラブルで微調整可能なスパースエキスパート混合モデル
  • Aggressive Decoding: ロスレスで効率的なシーケンスからシーケンスへのデコードアルゴリズム
  • Knowledge Distillation: モデル圧縮と高速化技術

3. 多言語サポート

  • 100以上の言語をサポート
  • クロスリンガル転移学習
  • 多言語ドキュメント理解

4. マルチモーダル融合

  • テキスト+画像+レイアウトの統一モデリング
  • 視覚-言語理解と生成
  • 音声-テキストのクロスマダリティ処理

応用分野

1. 自然言語処理

  • 言語理解と生成
  • 機械翻訳
  • テキスト分類と感情分析
  • 質問応答システム

2. ドキュメントAI

  • ドキュメントレイアウト分析
  • フォーム理解
  • OCRテキスト認識
  • ドキュメント質問応答

3. コンピュータビジョン

  • 画像分類
  • 物体検出
  • 画像生成
  • 視覚質問応答

4. 音声処理

  • 音声認識(ASR)
  • 音声合成(TTS)
  • 音声理解
  • 多言語音声処理

技術スタックとツール

開発フレームワーク

  • PyTorchベースで開発
  • HuggingFace Transformersを統合
  • 分散トレーニングをサポート

事前学習データ

  • 大規模な多言語テキストデータ
  • 画像-テキストペアデータ
  • 音声データ
  • ドキュメント画像データ

評価基準

  • GLUE、SuperGLUE言語理解ベンチマーク
  • XTREME多言語ベンチマーク
  • VQA視覚質問応答ベンチマーク
  • DocVQAドキュメント質問応答ベンチマーク
  • SUPERB音声ベンチマーク

UniLMプロジェクトは、マイクロソフトの基盤モデルと汎用人工知能の分野における最先端の研究を代表しており、学術界と産業界に強力なツールとインフラストラクチャを提供し、マルチモーダルAI技術の開発と応用を推進しています。

Star History Chart