نموذج OCR متقدم بتقنية التدفق السببي البصري لفهم المستندات الشبيه بالبشر والتعرف على النصوص
DeepSeek-OCR-2: التدفق السببي المرئي
نظرة عامة
DeepSeek-OCR-2 هو نموذج ثوري للتعرف الضوئي على الحروف (OCR) يقدم المفهوم الرائد للتدفق السببي المرئي. تم إصدار هذا المشروع بواسطة DeepSeek AI في 27 يناير 2026، ويمثل تحولًا نموذجيًا من المعالجة التقليدية للمسح النقطي الثابت إلى الفهم المرئي المدفوع بالدلالات.
الميزات الرئيسية
🚀 تقنية التدفق السببي المرئي
- إعادة ترتيب الرموز الديناميكية: بدلاً من مسح الصور ميكانيكيًا من اليسار إلى اليمين، ومن الأعلى إلى الأسفل، يعيد النموذج ترتيب الرموز المرئية ديناميكيًا بناءً على المحتوى الدلالي.
- معالجة شبيهة بالبشر: يحاكي كيفية قراءة وفهم المستندات بشكل طبيعي من قبل البشر من خلال اتباع تدفق المعلومات المنطقي.
- تسلسل مدرك للمحتوى: يفهم العلاقات الدلالية بين العناصر المرئية بدلاً من مجرد تحديد المواقع المكانية.
🔧 البنية التقنية
بنية DeepEncoder V2
- ترقية المشفر المرئي: يستبدل المشفر المستند إلى CLIP بنموذج لغة Qwen2-0.5B خفيف الوزن.
- آلية الانتباه السببي: ينفذ "استعلامات التدفق السببي" لإعادة تنظيم الرموز المرئية المدفوعة بالدلالات.
- معالجة على مرحلتين:
- الترميز المرئي مع الفهم الدلالي.
- يقوم مفكك تشفير LLM بإجراء استدلال ذاتي الانحدار على التسلسلات المرتبة.
تحسينات الأداء
- تحسن الدقة بنسبة 3.7% مقارنة بنماذج OCR السابقة.
- فهم أفضل لترتيب القراءة للمستندات المعقدة.
- تقليل الهلوسة وأخطاء تكرار النص.
- تحسين موثوقية الإنتاج.
📊 القدرات
معالجة المستندات
- تحويل المستندات إلى تنسيق Markdown.
- OCR مجاني لأنواع مختلفة من الصور.
- معالجة PDF بتزامن عالٍ.
- تحليل الأشكال والرسوم البيانية.
- استخراج النص المدرك للتخطيط.
التنسيقات المدعومة
- صور (JPG، PNG، إلخ).
- مستندات PDF.
- تخطيطات وجداول معقدة.
- مستندات متعددة الأعمدة.
- أوراق وتقارير علمية.
التثبيت والاستخدام
المتطلبات
- Python 3.12.9
- CUDA 11.8
- PyTorch 2.6.0
- Flash Attention 2.7.3
البدء السريع
استخدام Transformers
from transformers import AutoModel, AutoTokenizer
import torch
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
model_name,
_attn_implementation='flash_attention_2',
trust_remote_code=True,
use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)
# تحويل المستند إلى markdown
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'
result = model.infer(
tokenizer,
prompt=prompt,
image_file=image_file,
output_path=output_path,
base_size=1024,
image_size=768,
crop_mode=True,
save_results=True
)
استخدام vLLM (لأداء عالٍ)
يتضمن المشروع دعم vLLM للاستدلال الأسرع ومعالجة الدُفعات، وهو مفيد بشكل خاص لمعالجة PDF وتقييمات المعايير.
أمثلة المطالبات
- تحويل المستند:
<image>\n<|grounding|>Convert the document to markdown. - OCR عام:
<image>\nFree OCR. - تحليل الشكل:
<image>\nParse the figure. - وصف الصورة:
<image>\nDescribe this image in detail.
الابتكار التقني
مشكلة OCR التقليدي
تعاني أنظمة OCR التقليدية من ثلاثة قيود حرجة:
- دقة أقل على المستندات المعقدة بسبب أنماط المسح الثابتة.
- تفسير ترتيب قراءة غير صحيح عندما تكون المعلومات ذات الصلة متناثرة.
- معدلات خطأ أعلى في الإنتاج بما في ذلك تكرار النص والهلوسة.
حل التدفق السببي المرئي
يعالج DeepSeek-OCR-2 هذه المشكلات من خلال:
- فهم العلاقات الدلالية بين العناصر المرئية.
- اتباع تدفق المعلومات المنطقي بدلاً من تحديد المواقع المكانية.
- الاستدلال على الأسبقية المرئية بشكل مشابه لفهم المستندات البشرية.
فوائد البنية
- نموذج اللغة كمشفر مرئي: يتيح استخدام Qwen2-0.5B الفهم الدلالي للمحتوى المرئي.
- الانتباه السببي: يسمح للنموذج بالاستدلال على العناصر المرئية التي تسبق العناصر الأخرى منطقيًا.
- الكفاءة: يوازن بين قدرة الفهم الدلالي والكفاءة الحسابية.
الأداء والمعايير
تحسينات الدقة
- أداء أفضل بنسبة 3.7% مقارنة بنماذج OCR السابقة.
- فهم فائق لترتيب القراءة للتخطيطات المعقدة.
- معدلات خطأ أقل في بيئات الإنتاج.
- تعامل أفضل مع الجداول والأشكال والتخطيطات متعددة الأعمدة.
حالات الاستخدام
- معالجة الأوراق الأكاديمية.
- رقمنة مستندات الأعمال.
- تحليل المستندات القانونية.
- تحويل الأدلة الفنية.
- تحليل المنشورات العلمية.
هيكل المشروع
DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/ # التنفيذ الأساسي
│ ├── DeepSeek-OCR2-vllm/ # نصوص استدلال vLLM
│ └── DeepSeek-OCR2-hf/ # نصوص Hugging Face transformers
├── assets/ # أصول المشروع والصور
├── DeepSeek_OCR2_paper.pdf # ورقة البحث
├── requirements.txt # تبعيات Python
└── README.md # وثائق المشروع
البحث والتطوير
المساهمة الأكاديمية
- ورقة البحث: "DeepSeek-OCR 2: Visual Causal Flow"
- مفتوح المصدر: متاح على GitHub و Hugging Face.
- الترخيص: Apache 2.0.
التطوير المستقبلي
- فهم الصور ثنائية الأبعاد: خطط لتنفيذ استدلال ثنائي الأبعاد حقيقي من خلال معالجات سببية أحادية البعد متتالية.
- تطبيقات VLM أوسع: مفهوم التدفق السببي المرئي قابل للتطبيق على مهام الرؤية واللغة الأخرى.
- تحسين الاستدلال المكاني: فهم محسّن للتخطيطات المرئية المعقدة.
المقارنة مع النماذج السابقة
| الميزة | OCR التقليدي | DeepSeek-OCR | DeepSeek-OCR-2 |
|---|---|---|---|
| طريقة المسح | مسح نقطي ثابت | رموز مرئية مضغوطة | تدفق سببي دلالي |
| ترتيب القراءة | مكاني فقط | مكاني محسّن | فهم دلالي |
| المشفر المرئي | مستند إلى CLIP | مستند إلى CLIP | نموذج لغة Qwen2-0.5B |
| الدقة | أساسي | محسّن | تحسن +3.7% |
| الفهم الدلالي | محدود | أفضل | شبيه بالبشر |
المجتمع والموارد
الروابط
- مستودع GitHub: https://github.com/deepseek-ai/DeepSeek-OCR-2
- نموذج Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- ورقة البحث: متاحة في المستودع.
- مجتمع Discord: خادم Discord الخاص بـ DeepSeek AI.
شكر وتقدير
يبني المشروع على مساهمات ويقر بها من:
- DeepSeek-OCR
- Vary
- GOT-OCR2.0
- MinerU
- PaddleOCR
- OmniDocBench (للمعايير)
الخلاصة
يمثل DeepSeek-OCR-2 تقدمًا كبيرًا في تقنية OCR من خلال تقديم التدفق السببي المرئي، والذي يتيح فهمًا للمستندات يشبه فهم البشر. تعالج هذه الابتكار القيود الأساسية لأنظمة OCR التقليدية وتفتح إمكانيات جديدة لمعالجة المستندات عبر مختلف الصناعات.
إن الطبيعة مفتوحة المصدر للمشروع، والوثائق الشاملة، وتحسينات الأداء القوية تجعله أداة قيمة للباحثين والمطورين والمؤسسات التي تتطلب قدرات متقدمة لمعالجة المستندات.