Modèle OCR avancé avec la technologie Visual Causal Flow pour une compréhension de documents et une reconnaissance de texte de type humain.

Apache-2.0PythonDeepSeek-OCR-2deepseek-ai 1.3k Last Updated: January 27, 2026

DeepSeek-OCR-2 : Flux Causal Visuel

Aperçu

DeepSeek-OCR-2 est un modèle révolutionnaire de reconnaissance optique de caractères (OCR) qui introduit le concept novateur de Flux Causal Visuel. Lancé par DeepSeek AI le 27 janvier 2026, ce projet représente un changement de paradigme par rapport au traitement traditionnel par balayage raster fixe au profit d'une compréhension visuelle axée sur la sémantique.

Caractéristiques Principales

🚀 Technologie de Flux Causal Visuel

  • Réorganisation Dynamique des Tokens : Au lieu de scanner mécaniquement les images de gauche à droite, de haut en bas, le modèle réorganise dynamiquement les tokens visuels en fonction du contenu sémantique.
  • Traitement Similaire à l'Humain : Imite la manière dont les humains lisent et comprennent naturellement les documents en suivant un flux d'informations logique.
  • Séquençage Conscient du Contenu : Comprend les relations sémantiques entre les éléments visuels plutôt que leur simple position spatiale.

🔧 Architecture Technique

Architecture DeepEncoder V2

  • Mise à Niveau de l'Encodeur Visuel : Remplace l'encodeur basé sur CLIP par un modèle linguistique léger Qwen2-0.5B.
  • Mécanisme d'Attention Causale : Implémente des "requêtes de flux causal" pour la réorganisation des tokens visuels axée sur la sémantique.
  • Traitement en Deux Étapes :
    1. Encodage visuel avec compréhension sémantique.
    2. Le décodeur LLM effectue un raisonnement autorégressif sur les séquences ordonnées.

Améliorations des Performances

  • Amélioration de la précision de 3,7 % par rapport aux modèles OCR précédents.
  • Meilleure compréhension de l'ordre de lecture pour les documents complexes.
  • Réduction des hallucinations et des erreurs de duplication de texte.
  • Amélioration de la fiabilité en production.

📊 Capacités

Traitement de Documents

  • Conversion de documents au format Markdown.
  • OCR gratuit pour divers types d'images.
  • Traitement de PDF avec une haute concurrence.
  • Analyse de figures et de graphiques.
  • Extraction de texte tenant compte de la mise en page.

Formats Pris en Charge

  • Images (JPG, PNG, etc.).
  • Documents PDF.
  • Mises en page et tableaux complexes.
  • Documents en plusieurs colonnes.
  • Articles scientifiques et rapports.

Installation et Utilisation

Prérequis

  • Python 3.12.9
  • CUDA 11.8
  • PyTorch 2.6.0
  • Flash Attention 2.7.3

Démarrage Rapide

Utilisation de Transformers

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name, 
    _attn_implementation='flash_attention_2', 
    trust_remote_code=True, 
    use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)

# Conversion de document en markdown
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

result = model.infer(
    tokenizer, 
    prompt=prompt, 
    image_file=image_file, 
    output_path=output_path, 
    base_size=1024, 
    image_size=768, 
    crop_mode=True, 
    save_results=True
)

Utilisation de vLLM (pour des performances élevées)

Le projet inclut la prise en charge de vLLM pour une inférence plus rapide et un traitement par lots, particulièrement utile pour le traitement de PDF et les évaluations de référence.

Exemples de Prompts

  • Conversion de document : <image>\n<|grounding|>Convert the document to markdown.
  • OCR général : <image>\nFree OCR.
  • Analyse de figure : <image>\nParse the figure.
  • Description d'image : <image>\nDescribe this image in detail.

Innovation Technique

Problème avec l'OCR Traditionnel

Les systèmes OCR traditionnels souffrent de trois limitations critiques :

  1. Précision plus faible sur les documents complexes en raison des modèles de numérisation fixes.
  2. Interprétation incorrecte de l'ordre de lecture lorsque des informations connexes sont dispersées.
  3. Taux d'erreur plus élevés en production, y compris la duplication de texte et les hallucinations.

Solution du Flux Causal Visuel

DeepSeek-OCR-2 aborde ces problèmes en :

  • Comprenant les relations sémantiques entre les éléments visuels.
  • Suivant un flux d'informations logique plutôt qu'une position spatiale.
  • Raisonnement sur la précédence visuelle similaire à la compréhension de documents par les humains.

Avantages de l'Architecture

  • Modèle Linguistique comme Encodeur Visuel : L'utilisation de Qwen2-0.5B permet la compréhension sémantique du contenu visuel.
  • Attention Causale : Permet au modèle de raisonner sur quels éléments visuels précèdent logiquement les autres.
  • Efficacité : Équilibre la capacité de compréhension sémantique avec l'efficacité computationnelle.

Performances et Références

Améliorations de la Précision

  • Performances 3,7 % meilleures par rapport aux modèles OCR précédents.
  • Compréhension supérieure de l'ordre de lecture pour les mises en page complexes.
  • Taux d'erreur réduits dans les environnements de production.
  • Meilleure gestion des tableaux, figures et mises en page multicolonnes.

Cas d'Utilisation

  • Traitement d'articles académiques.
  • Numérisation de documents d'entreprise.
  • Analyse de documents juridiques.
  • Conversion de manuels techniques.
  • Analyse de publications scientifiques.

Structure du Projet

DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/          # Implémentation principale
│   ├── DeepSeek-OCR2-vllm/       # Scripts d'inférence vLLM
│   └── DeepSeek-OCR2-hf/         # Scripts Hugging Face transformers
├── assets/                        # Actifs et figures du projet
├── DeepSeek_OCR2_paper.pdf       # Article de recherche
├── requirements.txt               # Dépendances Python
└── README.md                      # Documentation du projet

Recherche et Développement

Contribution Académique

  • Article de Recherche : "DeepSeek-OCR 2: Visual Causal Flow"
  • Open Source : Disponible sur GitHub et Hugging Face.
  • Licence : Apache 2.0.

Développement Futur

  • Compréhension d'Images 2D : Plans pour implémenter un véritable raisonnement 2D via des raisonneurs causaux 1D en cascade.
  • Applications VLM plus larges : Le concept de Flux Causal Visuel est applicable à d'autres tâches vision-langage.
  • Raisonnement Spatial Amélioré : Meilleure compréhension des mises en page visuelles complexes.

Comparaison avec les Modèles Précédents

Caractéristique OCR Traditionnel DeepSeek-OCR DeepSeek-OCR-2
Méthode de Balayage Balayage raster fixe Tokens visuels compressés Flux causal sémantique
Ordre de Lecture Spatiale uniquement Spatiale améliorée Compréhension sémantique
Encodeur Visuel Basé sur CLIP Basé sur CLIP LLM Qwen2-0.5B
Précision De base Améliorée Amélioration de +3,7 %
Compréhension Sémantique Limitée Meilleure Similaire à l'humain

Communauté et Ressources

Liens

Remerciements

Le projet s'appuie sur et reconnaît les contributions de :

  • DeepSeek-OCR
  • Vary
  • GOT-OCR2.0
  • MinerU
  • PaddleOCR
  • OmniDocBench (pour l'évaluation comparative)

Conclusion

DeepSeek-OCR-2 représente une avancée significative dans la technologie OCR en introduisant le Flux Causal Visuel, qui permet une compréhension des documents plus proche de celle des humains. Cette innovation aborde les limitations fondamentales des systèmes OCR traditionnels et ouvre de nouvelles possibilités pour les applications de traitement de documents dans diverses industries.

La nature open-source du projet, sa documentation complète et ses améliorations de performance significatives en font un outil précieux pour les chercheurs, les développeurs et les organisations nécessitant des capacités de traitement de documents avancées.

Star History Chart