Modelo OCR avanzado con tecnología de Flujo Causal Visual para una comprensión de documentos y reconocimiento de texto similar al humano
DeepSeek-OCR-2: Flujo Causal Visual
Resumen
DeepSeek-OCR-2 es un modelo revolucionario de reconocimiento óptico de caracteres (OCR) que introduce el innovador concepto de Flujo Causal Visual. Lanzado por DeepSeek AI el 27 de enero de 2026, este proyecto representa un cambio de paradigma del procesamiento tradicional de escaneo rasterizado fijo a la comprensión visual impulsada por la semántica.
Características Clave
🚀 Tecnología de Flujo Causal Visual
- Reordenamiento Dinámico de Tokens: En lugar de escanear mecánicamente las imágenes de izquierda a derecha, de arriba a abajo, el modelo reordena dinámicamente los tokens visuales basándose en el contenido semántico.
- Procesamiento similar al humano: Imita cómo los humanos leen y entienden documentos de forma natural, siguiendo el flujo lógico de la información.
- Secuenciación consciente del contenido: Comprende las relaciones semánticas entre los elementos visuales en lugar de solo la posición espacial.
🔧 Arquitectura Técnica
Arquitectura DeepEncoder V2
- Actualización del Codificador Visual: Reemplaza el codificador basado en CLIP con el modelo de lenguaje ligero Qwen2-0.5B.
- Mecanismo de Atención Causal: Implementa "consultas de flujo causal" para la reorganización de tokens visuales impulsada por la semántica.
- Procesamiento en Dos Etapas:
- Codificación visual con comprensión semántica.
- El decodificador LLM realiza razonamiento autorregresivo sobre secuencias ordenadas.
Mejoras de Rendimiento
- Mejora del 3.7% en precisión sobre modelos OCR anteriores.
- Mejor comprensión del orden de lectura para documentos complejos.
- Reducción de la alucinación y los errores de duplicación de texto.
- Mejora de la fiabilidad en producción.
📊 Capacidades
Procesamiento de Documentos
- Convertir documentos a formato Markdown.
- OCR gratuito para varios tipos de imágenes.
- Procesamiento de PDF con alta concurrencia.
- Análisis de figuras y gráficos.
- Extracción de texto consciente del diseño.
Formatos Soportados
- Imágenes (JPG, PNG, etc.)
- Documentos PDF
- Diseños y tablas complejas
- Documentos multicolumna
- Artículos científicos e informes
Instalación y Uso
Requisitos
- Python 3.12.9
- CUDA 11.8
- PyTorch 2.6.0
- Flash Attention 2.7.3
Inicio Rápido
Usando Transformers
from transformers import AutoModel, AutoTokenizer
import torch
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
model_name,
_attn_implementation='flash_attention_2',
trust_remote_code=True,
use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)
# Conversión de documento a markdown
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'
result = model.infer(
tokenizer,
prompt=prompt,
image_file=image_file,
output_path=output_path,
base_size=1024,
image_size=768,
crop_mode=True,
save_results=True
)
Usando vLLM (para alto rendimiento)
El proyecto incluye soporte vLLM para inferencia más rápida y procesamiento por lotes, particularmente útil para el procesamiento de PDF y evaluaciones de referencia.
Ejemplos de Prompts
- Conversión de documentos:
<image>\n<|grounding|>Convert the document to markdown. - OCR general:
<image>\nFree OCR. - Análisis de figuras:
<image>\nParse the figure. - Descripción de imagen:
<image>\nDescribe this image in detail.
Innovación Técnica
Problema con el OCR Tradicional
Los sistemas OCR tradicionales sufren tres limitaciones críticas:
- Menor precisión en documentos complejos debido a patrones de escaneo fijos.
- Interpretación incorrecta del orden de lectura cuando la información relacionada está dispersa.
- Mayores tasas de error en producción, incluyendo duplicación de texto y alucinación.
Solución de Flujo Causal Visual
DeepSeek-OCR-2 aborda estos problemas mediante:
- Comprensión de las relaciones semánticas entre los elementos visuales.
- Seguimiento del flujo lógico de la información en lugar de la posición espacial.
- Razonamiento sobre la precedencia visual similar a la comprensión de documentos humanos.
Beneficios de la Arquitectura
- Modelo de Lenguaje como Codificador Visual: El uso de Qwen2-0.5B permite la comprensión semántica del contenido visual.
- Atención Causal: Permite al modelo razonar sobre qué elementos visuales preceden lógicamente a otros.
- Eficiencia: Equilibra la capacidad de comprensión semántica con la eficiencia computacional.
Rendimiento y Benchmarks
Mejoras de Precisión
- 3.7% mejor rendimiento en comparación con modelos OCR anteriores.
- Comprensión superior del orden de lectura para diseños complejos.
- Tasas de error reducidas en entornos de producción.
- Mejor manejo de tablas, figuras y diseños multicolumna.
Casos de Uso
- Procesamiento de artículos académicos.
- Digitalización de documentos empresariales.
- Análisis de documentos legales.
- Conversión de manuales técnicos.
- Análisis de publicaciones científicas.
Estructura del Proyecto
DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/ # Implementación principal
│ ├── DeepSeek-OCR2-vllm/ # Scripts de inferencia vLLM
│ └── DeepSeek-OCR2-hf/ # Scripts de Hugging Face transformers
├── assets/ # Activos y figuras del proyecto
├── DeepSeek_OCR2_paper.pdf # Documento de investigación
├── requirements.txt # Dependencias de Python
└── README.md # Documentación del proyecto
Investigación y Desarrollo
Contribución Académica
- Documento de Investigación: "DeepSeek-OCR 2: Visual Causal Flow"
- Código Abierto: Disponible en GitHub y Hugging Face.
- Licencia: Apache 2.0
Desarrollo Futuro
- Comprensión de Imágenes 2D: Planes para implementar razonamiento 2D real a través de razonadores causales 1D en cascada.
- Aplicaciones VLM más Amplias: El concepto de Flujo Causal Visual es aplicable a otras tareas de visión y lenguaje.
- Razonamiento Espacial Mejorado: Comprensión mejorada de diseños visuales complejos.
Comparación con Modelos Anteriores
| Característica | OCR Tradicional | DeepSeek-OCR | DeepSeek-OCR-2 |
|---|---|---|---|
| Método de Escaneo | Escaneo rasterizado fijo | Tokens visuales comprimidos | Flujo causal semántico |
| Orden de Lectura | Solo espacial | Espacial mejorado | Comprensión semántica |
| Codificador Visual | Basado en CLIP | Basado en CLIP | LM Qwen2-0.5B |
| Precisión | Base | Mejorada | Mejora de +3.7% |
| Comprensión Semántica | Limitada | Mejor | Similar al humano |
Comunidad y Recursos
Enlaces
- Repositorio de GitHub: https://github.com/deepseek-ai/DeepSeek-OCR-2
- Modelo de Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- Documento de Investigación: Disponible en el repositorio.
- Comunidad de Discord: Servidor de Discord de DeepSeek AI.
Agradecimientos
El proyecto se basa y reconoce las contribuciones de:
- DeepSeek-OCR
- Vary
- GOT-OCR2.0
- MinerU
- PaddleOCR
- OmniDocBench (para benchmarking)
Conclusión
DeepSeek-OCR-2 representa un avance significativo en la tecnología OCR al introducir el Flujo Causal Visual, que permite una comprensión de documentos más similar a la humana. Esta innovación aborda las limitaciones fundamentales de los sistemas OCR tradicionales y abre nuevas posibilidades para aplicaciones de procesamiento de documentos en diversas industrias.
La naturaleza de código abierto del proyecto, la documentación completa y las sólidas mejoras de rendimiento lo convierten en una herramienta valiosa para investigadores, desarrolladores y organizaciones que requieren capacidades avanzadas de procesamiento de documentos.