Home
Login

Modelo de lenguaje unificado preentrenado auto-supervisado a gran escala de Microsoft, que admite la investigación de modelos básicos entre tareas, entre idiomas y entre modalidades.

MITPython 21.5kmicrosoftunilm Last Updated: 2025-06-03

Introducción Detallada al Proyecto Microsoft UniLM

Resumen del Proyecto

Microsoft UniLM es una biblioteca de modelos preentrenados auto-supervisados a gran escala desarrollada por Microsoft Research, centrada en la investigación de modelos fundamentales inter-tareas, inter-lingüísticos e inter-modales. Este proyecto se dedica a desarrollar nuevas arquitecturas de modelos fundamentales e IA, centrándose en el modelado de la generalidad y la capacidad, así como en la estabilidad y eficiencia del entrenamiento.

Dirección del Proyecto: https://github.com/microsoft/unilm

Filosofía Central: La Gran Convergencia

La filosofía central del proyecto UniLM es "La Gran Convergencia", que implica lograr un preentrenamiento auto-supervisado a gran escala en las siguientes tres dimensiones:

  • Inter-tareas: Tareas predictivas y generativas
  • Inter-lingüístico: Soporte para más de 100 idiomas
  • Inter-modal: Lenguaje, imagen, audio, formatos de diseño, visual + lenguaje, audio + lenguaje, etc.

Pila Tecnológica Principal

1. Biblioteca de Arquitectura TorchScale

Investigación de infraestructura básica, centrada en:

  • Estabilidad: DeepNet - Extiende Transformer a 1000 capas o más
  • Generalidad: Foundation Transformers (Magneto) - Modelado verdaderamente universal entre tareas y modalidades
  • Capacidad: Length-Extrapolatable Transformer - Capacidad de procesamiento de secuencias largas
  • Eficiencia: Arquitecturas eficientes como X-MoE, BitNet, RetNet, LongNet, etc.

2. Serie de Modelos de Lenguaje

Serie UniLM

  • UniLM: Preentrenamiento unificado de comprensión y generación del lenguaje
  • InfoXLM/XLM-E: Modelos de preentrenamiento multilingües/interlingüísticos que admiten más de 100 idiomas
  • DeltaLM/mT6: Preentrenamiento de codificador-decodificador para generación y traducción de lenguaje
  • MiniLM: Modelo de preentrenamiento pequeño y rápido para la comprensión y generación del lenguaje
  • AdaLM: Adaptación de dominio, idioma y tarea de modelos preentrenados
  • EdgeLM: Modelos preentrenados pequeños en dispositivos periféricos/cliente
  • SimLM: Preentrenamiento a gran escala para la coincidencia de similitud
  • E5: Modelos de incrustación de texto
  • MiniLLM: Destilación de conocimiento de grandes modelos de lenguaje

Grandes Modelos de Lenguaje Multimodal

  • Kosmos-1: Gran modelo de lenguaje multimodal (MLLM)
  • Kosmos-2: Gran modelo de lenguaje multimodal basado en el mundo
  • Kosmos-2.5: Modelo de comprensión de documentos multimodal
  • MetaLM: Modelo de lenguaje como interfaz universal para modelos fundamentales

3. Serie de Modelos Visuales

Serie BEiT

  • BEiT: Preentrenamiento auto-supervisado generativo visual
  • BEiT-2: Preentrenamiento de Transformer de imagen al estilo BERT
  • BEiT-3: Modelo fundamental multimodal universal, un hito importante en el preentrenamiento a gran escala entre tareas, idiomas y modalidades

Modelos de IA de Documentos

  • DiT: Preentrenamiento auto-supervisado de Document Image Transformer
  • TextDiffuser/TextDiffuser-2: Modelo de difusión como pintor de texto
  • LayoutLM/LayoutLMv2/LayoutLMv3: Modelo fundamental de documento multimodal (texto + diseño + imagen)
  • LayoutXLM: Modelo fundamental multimodal para IA de documentos multilingües
  • MarkupLM: Preentrenamiento de modelos de lenguaje de marcado para la comprensión de documentos visualmente enriquecidos
  • XDoc: Preentrenamiento unificado para la comprensión de documentos entre formatos
  • TrOCR: Modelo de preentrenamiento OCR basado en Transformer
  • LayoutReader: Preentrenamiento de texto y diseño para la detección del orden de lectura

4. Serie de Modelos de Voz

  • WavLM: Preentrenamiento de voz para tareas de pila completa
  • VALL-E: Modelo de lenguaje de codificación-decodificación neuronal para TTS
  • UniSpeech: Preentrenamiento unificado auto-supervisado y supervisado para ASR
  • UniSpeech-SAT: Aprendizaje de representación de voz universal con preentrenamiento consciente del hablante
  • SpeechT5: Preentrenamiento de codificador-decodificador para el procesamiento del lenguaje hablado
  • SpeechLM: Preentrenamiento de voz mejorado utilizando datos de texto no emparejados

5. Modelos Visuales-Lingüísticos

  • VLMo: Preentrenamiento visual-lingüístico unificado
  • VL-BEiT: Preentrenamiento visual-lingüístico generativo

Características Técnicas Clave

1. Innovación de Arquitectura

  • DeepNet: Soporte para extenderse a redes profundas de 1000 capas
  • Magneto: Arquitectura de modelado universal verdadera
  • BitNet: Arquitectura Transformer de 1 bit
  • RetNet: Red de retención como sucesor de Transformer
  • LongNet: Extensión al procesamiento de secuencias largas de mil millones de tokens

2. Optimización de la Eficiencia del Entrenamiento

  • X-MoE: Modelo de mezcla de expertos dispersos escalable y ajustable
  • Aggressive Decoding: Algoritmo de decodificación de secuencia a secuencia eficiente sin pérdidas
  • Knowledge Distillation: Técnicas de compresión y aceleración de modelos

3. Soporte Multilingüe

  • Soporte para más de 100 idiomas
  • Aprendizaje por transferencia interlingüística
  • Comprensión de documentos multilingües

4. Fusión Multimodal

  • Modelado unificado de texto + imagen + diseño
  • Comprensión y generación visual-lingüística
  • Procesamiento intermodal de voz-texto

Áreas de Aplicación

1. Procesamiento del Lenguaje Natural

  • Comprensión y generación del lenguaje
  • Traducción automática
  • Clasificación de texto y análisis de sentimientos
  • Sistemas de preguntas y respuestas

2. IA de Documentos

  • Análisis de diseño de documentos
  • Comprensión de formularios
  • Reconocimiento de texto OCR
  • Preguntas y respuestas sobre documentos

3. Visión por Computadora

  • Clasificación de imágenes
  • Detección de objetos
  • Generación de imágenes
  • Preguntas y respuestas visuales

4. Procesamiento de Voz

  • Reconocimiento de voz (ASR)
  • Síntesis de voz (TTS)
  • Comprensión de voz
  • Procesamiento de voz multilingüe

Pila Tecnológica y Herramientas

Marco de Desarrollo

  • Desarrollado basado en PyTorch
  • Integrado con HuggingFace Transformers
  • Soporte para entrenamiento distribuido

Datos de Preentrenamiento

  • Datos de texto multilingües a gran escala
  • Datos emparejados de imagen-texto
  • Datos de voz
  • Datos de imágenes de documentos

Puntos de Referencia de Evaluación

  • Puntos de referencia de comprensión del lenguaje GLUE, SuperGLUE
  • Punto de referencia multilingüe XTREME
  • Punto de referencia de preguntas y respuestas visuales VQA
  • Punto de referencia de preguntas y respuestas sobre documentos DocVQA
  • Punto de referencia de voz SUPERB

El proyecto UniLM representa la investigación de vanguardia de Microsoft en el campo de los modelos fundamentales y la inteligencia artificial general, proporcionando a la academia y la industria herramientas e infraestructura poderosas, impulsando el desarrollo y la aplicación de la tecnología de IA multimodal.

Star History Chart