deepseek-ai/DeepSeek-OCR-2 View GitHub Homepage for Latest Official Releases

Modelo OCR avanzado con tecnología de Flujo Causal Visual para una comprensión de documentos y reconocimiento de texto similar al humano

Apache-2.0PythonDeepSeek-OCR-2deepseek-ai 1.3k Last Updated: January 27, 2026

DeepSeek-OCR-2: Flujo Causal Visual

Resumen

DeepSeek-OCR-2 es un modelo revolucionario de reconocimiento óptico de caracteres (OCR) que introduce el innovador concepto de Flujo Causal Visual. Lanzado por DeepSeek AI el 27 de enero de 2026, este proyecto representa un cambio de paradigma del procesamiento tradicional de escaneo rasterizado fijo a la comprensión visual impulsada por la semántica.

Características Clave

🚀 Tecnología de Flujo Causal Visual

Reordenamiento Dinámico de Tokens: En lugar de escanear mecánicamente las imágenes de izquierda a derecha, de arriba a abajo, el modelo reordena dinámicamente los tokens visuales basándose en el contenido semántico.
Procesamiento similar al humano: Imita cómo los humanos leen y entienden documentos de forma natural, siguiendo el flujo lógico de la información.
Secuenciación consciente del contenido: Comprende las relaciones semánticas entre los elementos visuales en lugar de solo la posición espacial.

🔧 Arquitectura Técnica

Arquitectura DeepEncoder V2

Actualización del Codificador Visual: Reemplaza el codificador basado en CLIP con el modelo de lenguaje ligero Qwen2-0.5B.
Mecanismo de Atención Causal: Implementa "consultas de flujo causal" para la reorganización de tokens visuales impulsada por la semántica.
Procesamiento en Dos Etapas:
1. Codificación visual con comprensión semántica.
2. El decodificador LLM realiza razonamiento autorregresivo sobre secuencias ordenadas.

Mejoras de Rendimiento

Mejora del 3.7% en precisión sobre modelos OCR anteriores.
Mejor comprensión del orden de lectura para documentos complejos.
Reducción de la alucinación y los errores de duplicación de texto.
Mejora de la fiabilidad en producción.

📊 Capacidades

Procesamiento de Documentos

Convertir documentos a formato Markdown.
OCR gratuito para varios tipos de imágenes.
Procesamiento de PDF con alta concurrencia.
Análisis de figuras y gráficos.
Extracción de texto consciente del diseño.

Formatos Soportados

Imágenes (JPG, PNG, etc.)
Documentos PDF
Diseños y tablas complejas
Documentos multicolumna
Artículos científicos e informes

Instalación y Uso

Requisitos

Python 3.12.9
CUDA 11.8
PyTorch 2.6.0
Flash Attention 2.7.3

Inicio Rápido

Usando Transformers

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name, 
    _attn_implementation='flash_attention_2', 
    trust_remote_code=True, 
    use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)

# Conversión de documento a markdown
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

result = model.infer(
    tokenizer, 
    prompt=prompt, 
    image_file=image_file, 
    output_path=output_path, 
    base_size=1024, 
    image_size=768, 
    crop_mode=True, 
    save_results=True
)

Usando vLLM (para alto rendimiento)

El proyecto incluye soporte vLLM para inferencia más rápida y procesamiento por lotes, particularmente útil para el procesamiento de PDF y evaluaciones de referencia.

Ejemplos de Prompts

Conversión de documentos: <image>\n<|grounding|>Convert the document to markdown.
OCR general: <image>\nFree OCR.
Análisis de figuras: <image>\nParse the figure.
Descripción de imagen: <image>\nDescribe this image in detail.

Innovación Técnica

Problema con el OCR Tradicional

Los sistemas OCR tradicionales sufren tres limitaciones críticas:

Menor precisión en documentos complejos debido a patrones de escaneo fijos.
Interpretación incorrecta del orden de lectura cuando la información relacionada está dispersa.
Mayores tasas de error en producción, incluyendo duplicación de texto y alucinación.

Solución de Flujo Causal Visual

DeepSeek-OCR-2 aborda estos problemas mediante:

Comprensión de las relaciones semánticas entre los elementos visuales.
Seguimiento del flujo lógico de la información en lugar de la posición espacial.
Razonamiento sobre la precedencia visual similar a la comprensión de documentos humanos.

Beneficios de la Arquitectura

Modelo de Lenguaje como Codificador Visual: El uso de Qwen2-0.5B permite la comprensión semántica del contenido visual.
Atención Causal: Permite al modelo razonar sobre qué elementos visuales preceden lógicamente a otros.
Eficiencia: Equilibra la capacidad de comprensión semántica con la eficiencia computacional.

Rendimiento y Benchmarks

Mejoras de Precisión

3.7% mejor rendimiento en comparación con modelos OCR anteriores.
Comprensión superior del orden de lectura para diseños complejos.
Tasas de error reducidas en entornos de producción.
Mejor manejo de tablas, figuras y diseños multicolumna.

Casos de Uso

Procesamiento de artículos académicos.
Digitalización de documentos empresariales.
Análisis de documentos legales.
Conversión de manuales técnicos.
Análisis de publicaciones científicas.

Estructura del Proyecto

DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/          # Implementación principal
│   ├── DeepSeek-OCR2-vllm/       # Scripts de inferencia vLLM
│   └── DeepSeek-OCR2-hf/         # Scripts de Hugging Face transformers
├── assets/                        # Activos y figuras del proyecto
├── DeepSeek_OCR2_paper.pdf       # Documento de investigación
├── requirements.txt               # Dependencias de Python
└── README.md                      # Documentación del proyecto

Investigación y Desarrollo

Contribución Académica

Documento de Investigación: "DeepSeek-OCR 2: Visual Causal Flow"
Código Abierto: Disponible en GitHub y Hugging Face.
Licencia: Apache 2.0

Desarrollo Futuro

Comprensión de Imágenes 2D: Planes para implementar razonamiento 2D real a través de razonadores causales 1D en cascada.
Aplicaciones VLM más Amplias: El concepto de Flujo Causal Visual es aplicable a otras tareas de visión y lenguaje.
Razonamiento Espacial Mejorado: Comprensión mejorada de diseños visuales complejos.

Comparación con Modelos Anteriores

Característica	OCR Tradicional	DeepSeek-OCR	DeepSeek-OCR-2
Método de Escaneo	Escaneo rasterizado fijo	Tokens visuales comprimidos	Flujo causal semántico
Orden de Lectura	Solo espacial	Espacial mejorado	Comprensión semántica
Codificador Visual	Basado en CLIP	Basado en CLIP	LM Qwen2-0.5B
Precisión	Base	Mejorada	Mejora de +3.7%
Comprensión Semántica	Limitada	Mejor	Similar al humano

Comunidad y Recursos

Enlaces

Repositorio de GitHub: https://github.com/deepseek-ai/DeepSeek-OCR-2
Modelo de Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
Documento de Investigación: Disponible en el repositorio.
Comunidad de Discord: Servidor de Discord de DeepSeek AI.

Agradecimientos

El proyecto se basa y reconoce las contribuciones de:

DeepSeek-OCR
Vary
GOT-OCR2.0
MinerU
PaddleOCR
OmniDocBench (para benchmarking)

Conclusión

DeepSeek-OCR-2 representa un avance significativo en la tecnología OCR al introducir el Flujo Causal Visual, que permite una comprensión de documentos más similar a la humana. Esta innovación aborda las limitaciones fundamentales de los sistemas OCR tradicionales y abre nuevas posibilidades para aplicaciones de procesamiento de documentos en diversas industrias.

La naturaleza de código abierto del proyecto, la documentación completa y las sólidas mejoras de rendimiento lo convierten en una herramienta valiosa para investigadores, desarrolladores y organizaciones que requieren capacidades avanzadas de procesamiento de documentos.