deepseek-ai/DeepSeek-OCR-2 View GitHub Homepage for Latest Official Releases

Modèle OCR avancé avec la technologie Visual Causal Flow pour une compréhension de documents et une reconnaissance de texte de type humain.

Apache-2.0PythonDeepSeek-OCR-2deepseek-ai 1.3k Last Updated: January 27, 2026

DeepSeek-OCR-2 : Flux Causal Visuel

Aperçu

DeepSeek-OCR-2 est un modèle révolutionnaire de reconnaissance optique de caractères (OCR) qui introduit le concept novateur de Flux Causal Visuel. Lancé par DeepSeek AI le 27 janvier 2026, ce projet représente un changement de paradigme par rapport au traitement traditionnel par balayage raster fixe au profit d'une compréhension visuelle axée sur la sémantique.

Caractéristiques Principales

🚀 Technologie de Flux Causal Visuel

Réorganisation Dynamique des Tokens : Au lieu de scanner mécaniquement les images de gauche à droite, de haut en bas, le modèle réorganise dynamiquement les tokens visuels en fonction du contenu sémantique.
Traitement Similaire à l'Humain : Imite la manière dont les humains lisent et comprennent naturellement les documents en suivant un flux d'informations logique.
Séquençage Conscient du Contenu : Comprend les relations sémantiques entre les éléments visuels plutôt que leur simple position spatiale.

🔧 Architecture Technique

Architecture DeepEncoder V2

Mise à Niveau de l'Encodeur Visuel : Remplace l'encodeur basé sur CLIP par un modèle linguistique léger Qwen2-0.5B.
Mécanisme d'Attention Causale : Implémente des "requêtes de flux causal" pour la réorganisation des tokens visuels axée sur la sémantique.
Traitement en Deux Étapes :
1. Encodage visuel avec compréhension sémantique.
2. Le décodeur LLM effectue un raisonnement autorégressif sur les séquences ordonnées.

Améliorations des Performances

Amélioration de la précision de 3,7 % par rapport aux modèles OCR précédents.
Meilleure compréhension de l'ordre de lecture pour les documents complexes.
Réduction des hallucinations et des erreurs de duplication de texte.
Amélioration de la fiabilité en production.

📊 Capacités

Traitement de Documents

Conversion de documents au format Markdown.
OCR gratuit pour divers types d'images.
Traitement de PDF avec une haute concurrence.
Analyse de figures et de graphiques.
Extraction de texte tenant compte de la mise en page.

Formats Pris en Charge

Images (JPG, PNG, etc.).
Documents PDF.
Mises en page et tableaux complexes.
Documents en plusieurs colonnes.
Articles scientifiques et rapports.

Installation et Utilisation

Prérequis

Python 3.12.9
CUDA 11.8
PyTorch 2.6.0
Flash Attention 2.7.3

Démarrage Rapide

Utilisation de Transformers

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name, 
    _attn_implementation='flash_attention_2', 
    trust_remote_code=True, 
    use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)

# Conversion de document en markdown
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

result = model.infer(
    tokenizer, 
    prompt=prompt, 
    image_file=image_file, 
    output_path=output_path, 
    base_size=1024, 
    image_size=768, 
    crop_mode=True, 
    save_results=True
)

Utilisation de vLLM (pour des performances élevées)

Le projet inclut la prise en charge de vLLM pour une inférence plus rapide et un traitement par lots, particulièrement utile pour le traitement de PDF et les évaluations de référence.

Exemples de Prompts

Conversion de document : <image>\n<|grounding|>Convert the document to markdown.
OCR général : <image>\nFree OCR.
Analyse de figure : <image>\nParse the figure.
Description d'image : <image>\nDescribe this image in detail.

Innovation Technique

Problème avec l'OCR Traditionnel

Les systèmes OCR traditionnels souffrent de trois limitations critiques :

Précision plus faible sur les documents complexes en raison des modèles de numérisation fixes.
Interprétation incorrecte de l'ordre de lecture lorsque des informations connexes sont dispersées.
Taux d'erreur plus élevés en production, y compris la duplication de texte et les hallucinations.

Solution du Flux Causal Visuel

DeepSeek-OCR-2 aborde ces problèmes en :

Comprenant les relations sémantiques entre les éléments visuels.
Suivant un flux d'informations logique plutôt qu'une position spatiale.
Raisonnement sur la précédence visuelle similaire à la compréhension de documents par les humains.

Avantages de l'Architecture

Modèle Linguistique comme Encodeur Visuel : L'utilisation de Qwen2-0.5B permet la compréhension sémantique du contenu visuel.
Attention Causale : Permet au modèle de raisonner sur quels éléments visuels précèdent logiquement les autres.
Efficacité : Équilibre la capacité de compréhension sémantique avec l'efficacité computationnelle.

Performances et Références

Améliorations de la Précision

Performances 3,7 % meilleures par rapport aux modèles OCR précédents.
Compréhension supérieure de l'ordre de lecture pour les mises en page complexes.
Taux d'erreur réduits dans les environnements de production.
Meilleure gestion des tableaux, figures et mises en page multicolonnes.

Cas d'Utilisation

Traitement d'articles académiques.
Numérisation de documents d'entreprise.
Analyse de documents juridiques.
Conversion de manuels techniques.
Analyse de publications scientifiques.

Structure du Projet

DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/          # Implémentation principale
│   ├── DeepSeek-OCR2-vllm/       # Scripts d'inférence vLLM
│   └── DeepSeek-OCR2-hf/         # Scripts Hugging Face transformers
├── assets/                        # Actifs et figures du projet
├── DeepSeek_OCR2_paper.pdf       # Article de recherche
├── requirements.txt               # Dépendances Python
└── README.md                      # Documentation du projet

Recherche et Développement

Contribution Académique

Article de Recherche : "DeepSeek-OCR 2: Visual Causal Flow"
Open Source : Disponible sur GitHub et Hugging Face.
Licence : Apache 2.0.

Développement Futur

Compréhension d'Images 2D : Plans pour implémenter un véritable raisonnement 2D via des raisonneurs causaux 1D en cascade.
Applications VLM plus larges : Le concept de Flux Causal Visuel est applicable à d'autres tâches vision-langage.
Raisonnement Spatial Amélioré : Meilleure compréhension des mises en page visuelles complexes.

Comparaison avec les Modèles Précédents

Caractéristique	OCR Traditionnel	DeepSeek-OCR	DeepSeek-OCR-2
Méthode de Balayage	Balayage raster fixe	Tokens visuels compressés	Flux causal sémantique
Ordre de Lecture	Spatiale uniquement	Spatiale améliorée	Compréhension sémantique
Encodeur Visuel	Basé sur CLIP	Basé sur CLIP	LLM Qwen2-0.5B
Précision	De base	Améliorée	Amélioration de +3,7 %
Compréhension Sémantique	Limitée	Meilleure	Similaire à l'humain

Communauté et Ressources

Liens

Dépôt GitHub : https://github.com/deepseek-ai/DeepSeek-OCR-2
Modèle Hugging Face : https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
Article de Recherche : Disponible dans le dépôt.
Communauté Discord : Serveur Discord DeepSeek AI.

Remerciements

Le projet s'appuie sur et reconnaît les contributions de :

DeepSeek-OCR
Vary
GOT-OCR2.0
MinerU
PaddleOCR
OmniDocBench (pour l'évaluation comparative)

Conclusion

DeepSeek-OCR-2 représente une avancée significative dans la technologie OCR en introduisant le Flux Causal Visuel, qui permet une compréhension des documents plus proche de celle des humains. Cette innovation aborde les limitations fondamentales des systèmes OCR traditionnels et ouvre de nouvelles possibilités pour les applications de traitement de documents dans diverses industries.

La nature open-source du projet, sa documentation complète et ses améliorations de performance significatives en font un outil précieux pour les chercheurs, les développeurs et les organisations nécessitant des capacités de traitement de documents avancées.