Home
Login

微軟大規模自監督預訓練統一語言模型,支援跨任務、跨語言、跨模態的基礎模型研究

MITPython 21.5kmicrosoftunilm Last Updated: 2025-06-03

Microsoft UniLM 項目詳細介紹

項目概述

Microsoft UniLM 是微軟研究院開發的大規模自監督預訓練模型庫,專注於跨任務、跨語言、跨模態的基礎模型研究。該項目致力於開發新的基礎模型架構和 AI,專注於建模通用性和能力,以及訓練穩定性和效率。

項目地址: https://github.com/microsoft/unilm

核心理念:大統一收斂

UniLM 項目核心理念是"大統一收斂"(The Big Convergence),即在以下三個維度實現大規模自監督預訓練:

  • 跨任務: 預測性和生成性任務
  • 跨語言: 支援 100 多種語言
  • 跨模態: 語言、圖像、音訊、佈局格式、視覺+語言、音訊+語言等

主要技術棧

1. TorchScale 架構庫

基礎架構研究,專注於:

  • 穩定性: DeepNet - 將 Transformer 擴展到 1000 層及以上
  • 通用性: Foundation Transformers (Magneto) - 跨任務和模態的真正通用建模
  • 能力: Length-Extrapolatable Transformer - 長序列處理能力
  • 效率: X-MoE、BitNet、RetNet、LongNet 等高效架構

2. 語言模型系列

UniLM 系列

  • UniLM: 統一的語言理解和生成預訓練
  • InfoXLM/XLM-E: 支援 100 多種語言的多語言/跨語言預訓練模型
  • DeltaLM/mT6: 用於語言生成和翻譯的編碼器-解碼器預訓練
  • MiniLM: 小型快速的語言理解和生成預訓練模型
  • AdaLM: 預訓練模型的領域、語言和任務適應
  • EdgeLM: 邊緣/客戶端設備上的小型預訓練模型
  • SimLM: 相似性匹配的大規模預訓練
  • E5: 文本嵌入模型
  • MiniLLM: 大語言模型的知識蒸餾

多模態大語言模型

  • Kosmos-1: 多模態大語言模型(MLLM)
  • Kosmos-2: 基於世界的多模態大語言模型
  • Kosmos-2.5: 多模態文檔理解模型
  • MetaLM: 語言模型作為基礎模型的通用介面

3. 視覺模型系列

BEiT 系列

  • BEiT: 視覺生成式自監督預訓練
  • BEiT-2: BERT 風格的圖像 Transformer 預訓練
  • BEiT-3: 通用多模態基礎模型,是跨任務、語言和模態大規模預訓練的重要里程碑

文檔 AI 模型

  • DiT: 文檔圖像 Transformer 的自監督預訓練
  • TextDiffuser/TextDiffuser-2: 作為文本畫家的擴散模型
  • LayoutLM/LayoutLMv2/LayoutLMv3: 多模態(文本+佈局+圖像)文檔基礎模型
  • LayoutXLM: 多語言文檔 AI 的多模態基礎模型
  • MarkupLM: 標記語言模型預訓練,用於視覺豐富的文檔理解
  • XDoc: 跨格式文檔理解的統一預訓練
  • TrOCR: 基於 Transformer 的 OCR 預訓練模型
  • LayoutReader: 文本和佈局預訓練用於閱讀順序檢測

4. 語音模型系列

  • WavLM: 全棧任務的語音預訓練
  • VALL-E: 用於 TTS 的神經編解碼語言模型
  • UniSpeech: ASR 的自監督和監督學習統一預訓練
  • UniSpeech-SAT: 具有說話人感知預訓練的通用語音表示學習
  • SpeechT5: 口語處理的編碼器-解碼器預訓練
  • SpeechLM: 使用無配對文本數據的增強語音預訓練

5. 視覺-語言模型

  • VLMo: 統一的視覺-語言預訓練
  • VL-BEiT: 生成式視覺-語言預訓練

核心技術特點

1. 架構創新

  • DeepNet: 支援擴展到 1000 層的深度網路
  • Magneto: 真正的通用建模架構
  • BitNet: 1-bit Transformer 架構
  • RetNet: 作為 Transformer 繼任者的保持網路
  • LongNet: 擴展到 10 億 token 的長序列處理

2. 訓練效率優化

  • X-MoE: 可擴展和可微調的稀疏專家混合模型
  • Aggressive Decoding: 無損高效的序列到序列解碼演算法
  • Knowledge Distillation: 模型壓縮和加速技術

3. 多語言支援

  • 支援 100 多種語言
  • 跨語言遷移學習
  • 多語言文檔理解

4. 多模態融合

  • 文本+圖像+佈局的統一建模
  • 視覺-語言理解和生成
  • 語音-文本跨模態處理

應用領域

1. 自然語言處理

  • 語言理解和生成
  • 機器翻譯
  • 文本分類和情感分析
  • 問答系統

2. 文檔 AI

  • 文檔佈局分析
  • 表單理解
  • OCR 文本識別
  • 文檔問答

3. 計算機視覺

  • 圖像分類
  • 目標檢測
  • 圖像生成
  • 視覺問答

4. 語音處理

  • 語音識別(ASR)
  • 語音合成(TTS)
  • 語音理解
  • 多語言語音處理

技術棧與工具

開發框架

  • 基於 PyTorch 開發
  • 集成 HuggingFace Transformers
  • 支援分散式訓練

預訓練數據

  • 大規模多語言文本數據
  • 圖像-文本配對數據
  • 語音數據
  • 文檔圖像數據

評估基準

  • GLUE、SuperGLUE 語言理解基準
  • XTREME 多語言基準
  • VQA 視覺問答基準
  • DocVQA 文檔問答基準
  • SUPERB 語音基準

UniLM 項目代表了微軟在基礎模型和通用人工智能領域的前沿研究,為學術界和工業界提供了強大的工具和基礎設施,推動了多模態 AI 技術的發展和應用。

Star History Chart