Home
Login

마이크로소프트의 대규모 자기 지도 학습 기반 사전 훈련 통합 언어 모델로, 작업 간, 언어 간, 양식 간 기초 모델 연구를 지원합니다.

MITPython 21.5kmicrosoftunilm Last Updated: 2025-06-03

Microsoft UniLM 프로젝트 상세 소개

프로젝트 개요

Microsoft UniLM은 마이크로소프트 연구소에서 개발한 대규모 자가 지도 사전 훈련 모델 라이브러리로, 교차 작업, 교차 언어, 교차 모달의 기초 모델 연구에 집중합니다. 이 프로젝트는 새로운 기초 모델 아키텍처와 AI 개발에 전념하며, 범용성과 능력, 훈련 안정성 및 효율성 모델링에 중점을 둡니다.

프로젝트 주소: https://github.com/microsoft/unilm

핵심 이념: 대통일 수렴

UniLM 프로젝트의 핵심 이념은 "대통일 수렴"(The Big Convergence)으로, 다음 세 가지 차원에서 대규모 자가 지도 사전 훈련을 실현합니다.

  • 교차 작업: 예측성 및 생성성 작업
  • 교차 언어: 100개 이상의 언어 지원
  • 교차 모달: 언어, 이미지, 오디오, 레이아웃 형식, 시각+언어, 오디오+언어 등

주요 기술 스택

1. TorchScale 아키텍처 라이브러리

기초 아키텍처 연구, 다음 사항에 집중:

  • 안정성: DeepNet - Transformer를 1000개 이상의 레이어로 확장
  • 범용성: Foundation Transformers (Magneto) - 교차 작업 및 모달의 진정한 범용 모델링
  • 능력: Length-Extrapolatable Transformer - 긴 시퀀스 처리 능력
  • 효율성: X-MoE, BitNet, RetNet, LongNet 등 효율적인 아키텍처

2. 언어 모델 시리즈

UniLM 시리즈

  • UniLM: 통합된 언어 이해 및 생성 사전 훈련
  • InfoXLM/XLM-E: 100개 이상의 언어를 지원하는 다국어/교차 언어 사전 훈련 모델
  • DeltaLM/mT6: 언어 생성 및 번역을 위한 인코더-디코더 사전 훈련
  • MiniLM: 소형 고속 언어 이해 및 생성 사전 훈련 모델
  • AdaLM: 사전 훈련 모델의 영역, 언어 및 작업 적응
  • EdgeLM: 엣지/클라이언트 장치의 소형 사전 훈련 모델
  • SimLM: 유사성 매칭의 대규모 사전 훈련
  • E5: 텍스트 임베딩 모델
  • MiniLLM: 대규모 언어 모델의 지식 증류

다중 모달 대규모 언어 모델

  • Kosmos-1: 다중 모달 대규모 언어 모델(MLLM)
  • Kosmos-2: 세계 기반 다중 모달 대규모 언어 모델
  • Kosmos-2.5: 다중 모달 문서 이해 모델
  • MetaLM: 기초 모델로서의 언어 모델의 범용 인터페이스

3. 시각 모델 시리즈

BEiT 시리즈

  • BEiT: 시각 생성 자가 지도 사전 훈련
  • BEiT-2: BERT 스타일의 이미지 Transformer 사전 훈련
  • BEiT-3: 범용 다중 모달 기초 모델, 교차 작업, 언어 및 모달의 대규모 사전 훈련의 중요한 이정표

문서 AI 모델

  • DiT: 문서 이미지 Transformer의 자가 지도 사전 훈련
  • TextDiffuser/TextDiffuser-2: 텍스트 화가로서의 확산 모델
  • LayoutLM/LayoutLMv2/LayoutLMv3: 다중 모달(텍스트+레이아웃+이미지) 문서 기초 모델
  • LayoutXLM: 다국어 문서 AI의 다중 모달 기초 모델
  • MarkupLM: 마크업 언어 모델 사전 훈련, 시각적으로 풍부한 문서 이해를 위해
  • XDoc: 교차 형식 문서 이해의 통합 사전 훈련
  • TrOCR: Transformer 기반 OCR 사전 훈련 모델
  • LayoutReader: 텍스트 및 레이아웃 사전 훈련, 읽기 순서 감지를 위해

4. 음성 모델 시리즈

  • WavLM: 풀 스택 작업의 음성 사전 훈련
  • VALL-E: TTS를 위한 신경 코덱 언어 모델
  • UniSpeech: ASR의 자가 지도 및 감독 학습 통합 사전 훈련
  • UniSpeech-SAT: 화자 인식 사전 훈련을 통한 범용 음성 표현 학습
  • SpeechT5: 구어 처리의 인코더-디코더 사전 훈련
  • SpeechLM: 페어링되지 않은 텍스트 데이터를 사용한 향상된 음성 사전 훈련

5. 시각-언어 모델

  • VLMo: 통합된 시각-언어 사전 훈련
  • VL-BEiT: 생성적 시각-언어 사전 훈련

핵심 기술 특징

1. 아키텍처 혁신

  • DeepNet: 1000개 레이어로 확장을 지원하는 심층 네트워크
  • Magneto: 진정한 범용 모델링 아키텍처
  • BitNet: 1-bit Transformer 아키텍처
  • RetNet: Transformer의 후계자로서의 유지 네트워크
  • LongNet: 10억 토큰으로 확장되는 긴 시퀀스 처리

2. 훈련 효율 최적화

  • X-MoE: 확장 가능하고 미분 가능한 희소 전문가 혼합 모델
  • Aggressive Decoding: 무손실 효율적인 시퀀스-투-시퀀스 디코딩 알고리즘
  • Knowledge Distillation: 모델 압축 및 가속 기술

3. 다국어 지원

  • 100개 이상의 언어 지원
  • 교차 언어 전이 학습
  • 다국어 문서 이해

4. 다중 모달 융합

  • 텍스트+이미지+레이아웃의 통합 모델링
  • 시각-언어 이해 및 생성
  • 음성-텍스트 교차 모달 처리

응용 분야

1. 자연어 처리

  • 언어 이해 및 생성
  • 기계 번역
  • 텍스트 분류 및 감정 분석
  • 질의응답 시스템

2. 문서 AI

  • 문서 레이아웃 분석
  • 양식 이해
  • OCR 텍스트 인식
  • 문서 질의응답

3. 컴퓨터 비전

  • 이미지 분류
  • 객체 감지
  • 이미지 생성
  • 시각 질의응답

4. 음성 처리

  • 음성 인식(ASR)
  • 음성 합성(TTS)
  • 음성 이해
  • 다국어 음성 처리

기술 스택 및 도구

개발 프레임워크

  • PyTorch 기반 개발
  • HuggingFace Transformers 통합
  • 분산 훈련 지원

사전 훈련 데이터

  • 대규모 다국어 텍스트 데이터
  • 이미지-텍스트 페어링 데이터
  • 음성 데이터
  • 문서 이미지 데이터

평가 기준

  • GLUE, SuperGLUE 언어 이해 기준
  • XTREME 다국어 기준
  • VQA 시각 질의응답 기준
  • DocVQA 문서 질의응답 기준
  • SUPERB 음성 기준

UniLM 프로젝트는 마이크로소프트의 기초 모델 및 범용 인공지능 분야의 최첨단 연구를 대표하며, 학계와 산업계에 강력한 도구와 인프라를 제공하여 다중 모달 AI 기술의 발전과 응용을 촉진합니다.

Star History Chart