Modèle OCR avancé avec la technologie Visual Causal Flow pour une compréhension de documents et une reconnaissance de texte de type humain.
DeepSeek-OCR-2 : Flux Causal Visuel
Aperçu
DeepSeek-OCR-2 est un modèle révolutionnaire de reconnaissance optique de caractères (OCR) qui introduit le concept novateur de Flux Causal Visuel. Lancé par DeepSeek AI le 27 janvier 2026, ce projet représente un changement de paradigme par rapport au traitement traditionnel par balayage raster fixe au profit d'une compréhension visuelle axée sur la sémantique.
Caractéristiques Principales
🚀 Technologie de Flux Causal Visuel
- Réorganisation Dynamique des Tokens : Au lieu de scanner mécaniquement les images de gauche à droite, de haut en bas, le modèle réorganise dynamiquement les tokens visuels en fonction du contenu sémantique.
- Traitement Similaire à l'Humain : Imite la manière dont les humains lisent et comprennent naturellement les documents en suivant un flux d'informations logique.
- Séquençage Conscient du Contenu : Comprend les relations sémantiques entre les éléments visuels plutôt que leur simple position spatiale.
🔧 Architecture Technique
Architecture DeepEncoder V2
- Mise à Niveau de l'Encodeur Visuel : Remplace l'encodeur basé sur CLIP par un modèle linguistique léger Qwen2-0.5B.
- Mécanisme d'Attention Causale : Implémente des "requêtes de flux causal" pour la réorganisation des tokens visuels axée sur la sémantique.
- Traitement en Deux Étapes :
- Encodage visuel avec compréhension sémantique.
- Le décodeur LLM effectue un raisonnement autorégressif sur les séquences ordonnées.
Améliorations des Performances
- Amélioration de la précision de 3,7 % par rapport aux modèles OCR précédents.
- Meilleure compréhension de l'ordre de lecture pour les documents complexes.
- Réduction des hallucinations et des erreurs de duplication de texte.
- Amélioration de la fiabilité en production.
📊 Capacités
Traitement de Documents
- Conversion de documents au format Markdown.
- OCR gratuit pour divers types d'images.
- Traitement de PDF avec une haute concurrence.
- Analyse de figures et de graphiques.
- Extraction de texte tenant compte de la mise en page.
Formats Pris en Charge
- Images (JPG, PNG, etc.).
- Documents PDF.
- Mises en page et tableaux complexes.
- Documents en plusieurs colonnes.
- Articles scientifiques et rapports.
Installation et Utilisation
Prérequis
- Python 3.12.9
- CUDA 11.8
- PyTorch 2.6.0
- Flash Attention 2.7.3
Démarrage Rapide
Utilisation de Transformers
from transformers import AutoModel, AutoTokenizer
import torch
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
model_name,
_attn_implementation='flash_attention_2',
trust_remote_code=True,
use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)
# Conversion de document en markdown
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'
result = model.infer(
tokenizer,
prompt=prompt,
image_file=image_file,
output_path=output_path,
base_size=1024,
image_size=768,
crop_mode=True,
save_results=True
)
Utilisation de vLLM (pour des performances élevées)
Le projet inclut la prise en charge de vLLM pour une inférence plus rapide et un traitement par lots, particulièrement utile pour le traitement de PDF et les évaluations de référence.
Exemples de Prompts
- Conversion de document :
<image>\n<|grounding|>Convert the document to markdown. - OCR général :
<image>\nFree OCR. - Analyse de figure :
<image>\nParse the figure. - Description d'image :
<image>\nDescribe this image in detail.
Innovation Technique
Problème avec l'OCR Traditionnel
Les systèmes OCR traditionnels souffrent de trois limitations critiques :
- Précision plus faible sur les documents complexes en raison des modèles de numérisation fixes.
- Interprétation incorrecte de l'ordre de lecture lorsque des informations connexes sont dispersées.
- Taux d'erreur plus élevés en production, y compris la duplication de texte et les hallucinations.
Solution du Flux Causal Visuel
DeepSeek-OCR-2 aborde ces problèmes en :
- Comprenant les relations sémantiques entre les éléments visuels.
- Suivant un flux d'informations logique plutôt qu'une position spatiale.
- Raisonnement sur la précédence visuelle similaire à la compréhension de documents par les humains.
Avantages de l'Architecture
- Modèle Linguistique comme Encodeur Visuel : L'utilisation de Qwen2-0.5B permet la compréhension sémantique du contenu visuel.
- Attention Causale : Permet au modèle de raisonner sur quels éléments visuels précèdent logiquement les autres.
- Efficacité : Équilibre la capacité de compréhension sémantique avec l'efficacité computationnelle.
Performances et Références
Améliorations de la Précision
- Performances 3,7 % meilleures par rapport aux modèles OCR précédents.
- Compréhension supérieure de l'ordre de lecture pour les mises en page complexes.
- Taux d'erreur réduits dans les environnements de production.
- Meilleure gestion des tableaux, figures et mises en page multicolonnes.
Cas d'Utilisation
- Traitement d'articles académiques.
- Numérisation de documents d'entreprise.
- Analyse de documents juridiques.
- Conversion de manuels techniques.
- Analyse de publications scientifiques.
Structure du Projet
DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/ # Implémentation principale
│ ├── DeepSeek-OCR2-vllm/ # Scripts d'inférence vLLM
│ └── DeepSeek-OCR2-hf/ # Scripts Hugging Face transformers
├── assets/ # Actifs et figures du projet
├── DeepSeek_OCR2_paper.pdf # Article de recherche
├── requirements.txt # Dépendances Python
└── README.md # Documentation du projet
Recherche et Développement
Contribution Académique
- Article de Recherche : "DeepSeek-OCR 2: Visual Causal Flow"
- Open Source : Disponible sur GitHub et Hugging Face.
- Licence : Apache 2.0.
Développement Futur
- Compréhension d'Images 2D : Plans pour implémenter un véritable raisonnement 2D via des raisonneurs causaux 1D en cascade.
- Applications VLM plus larges : Le concept de Flux Causal Visuel est applicable à d'autres tâches vision-langage.
- Raisonnement Spatial Amélioré : Meilleure compréhension des mises en page visuelles complexes.
Comparaison avec les Modèles Précédents
| Caractéristique | OCR Traditionnel | DeepSeek-OCR | DeepSeek-OCR-2 |
|---|---|---|---|
| Méthode de Balayage | Balayage raster fixe | Tokens visuels compressés | Flux causal sémantique |
| Ordre de Lecture | Spatiale uniquement | Spatiale améliorée | Compréhension sémantique |
| Encodeur Visuel | Basé sur CLIP | Basé sur CLIP | LLM Qwen2-0.5B |
| Précision | De base | Améliorée | Amélioration de +3,7 % |
| Compréhension Sémantique | Limitée | Meilleure | Similaire à l'humain |
Communauté et Ressources
Liens
- Dépôt GitHub : https://github.com/deepseek-ai/DeepSeek-OCR-2
- Modèle Hugging Face : https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- Article de Recherche : Disponible dans le dépôt.
- Communauté Discord : Serveur Discord DeepSeek AI.
Remerciements
Le projet s'appuie sur et reconnaît les contributions de :
- DeepSeek-OCR
- Vary
- GOT-OCR2.0
- MinerU
- PaddleOCR
- OmniDocBench (pour l'évaluation comparative)
Conclusion
DeepSeek-OCR-2 représente une avancée significative dans la technologie OCR en introduisant le Flux Causal Visuel, qui permet une compréhension des documents plus proche de celle des humains. Cette innovation aborde les limitations fondamentales des systèmes OCR traditionnels et ouvre de nouvelles possibilités pour les applications de traitement de documents dans diverses industries.
La nature open-source du projet, sa documentation complète et ses améliorations de performance significatives en font un outil précieux pour les chercheurs, les développeurs et les organisations nécessitant des capacités de traitement de documents avancées.