Fortgeschrittenes OCR-Modell mit Visual Causal Flow-Technologie für menschenähnliches Dokumentenverständnis und Texterkennung

Apache-2.0PythonDeepSeek-OCR-2deepseek-ai 1.3k Last Updated: January 27, 2026

DeepSeek-OCR-2: Visueller kausaler Fluss

Überblick

DeepSeek-OCR-2 ist ein revolutionäres Modell zur optischen Zeichenerkennung (OCR), das das bahnbrechende Konzept des visuellen kausalen Flusses einführt. Dieses Projekt, das am 27. Januar 2026 von DeepSeek AI veröffentlicht wurde, stellt einen Paradigmenwechsel von der traditionellen festen Raster-Scan-Verarbeitung hin zum semantisch gesteuerten visuellen Verständnis dar.

Hauptmerkmale

🚀 Technologie des visuellen kausalen Flusses

  • Dynamische Token-Neuanordnung: Anstatt Bilder mechanisch von links nach rechts, von oben nach unten zu scannen, ordnet das Modell visuelle Token dynamisch basierend auf dem semantischen Inhalt neu an.
  • Menschenähnliche Verarbeitung: Imitiert, wie Menschen Dokumente natürlich lesen und verstehen, indem sie dem logischen Informationsfluss folgen.
  • Inhaltsabhängige Sequenzierung: Versteht semantische Beziehungen zwischen visuellen Elementen und nicht nur die räumliche Position.

🔧 Technische Architektur

DeepEncoder V2 Architektur

  • Upgrade des visuellen Encoders: Ersetzt den CLIP-basierten Encoder durch ein leichtgewichtiges Qwen2-0.5B Sprachmodell.
  • Kausaler Aufmerksamkeitsmechanismus: Implementiert "kausale Flussabfragen" zur semantisch gesteuerten Neuanordnung visueller Token.
  • Zweistufige Verarbeitung:
    1. Visuelle Kodierung mit semantischem Verständnis.
    2. LLM-Decoder führt autoregressives Reasoning über geordnete Sequenzen durch.

Leistungsverbesserungen

  • 3,7 % Genauigkeitsverbesserung gegenüber früheren OCR-Modellen.
  • Besseres Verständnis der Lesereihenfolge für komplexe Dokumente.
  • Reduzierte Halluzinationen und Fehler bei der Textduplizierung.
  • Erhöhung der Produktionszuverlässigkeit.

📊 Fähigkeiten

Dokumentenverarbeitung

  • Konvertierung von Dokumenten in das Markdown-Format.
  • Kostenlose OCR für verschiedene Bildtypen.
  • PDF-Verarbeitung mit hoher Nebenläufigkeit.
  • Parsen von Abbildungen und Diagrammen.
  • Layout-bewusste Textextraktion.

Unterstützte Formate

  • Bilder (JPG, PNG usw.)
  • PDF-Dokumente
  • Komplexe Layouts und Tabellen
  • Mehrspaltige Dokumente
  • Wissenschaftliche Arbeiten und Berichte

Installation und Verwendung

Anforderungen

  • Python 3.12.9
  • CUDA 11.8
  • PyTorch 2.6.0
  • Flash Attention 2.7.3

Schnelleinstieg

Verwendung von Transformers

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name, 
    _attn_implementation='flash_attention_2', 
    trust_remote_code=True, 
    use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)

# Konvertierung von Dokumenten in Markdown
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

result = model.infer(
    tokenizer, 
    prompt=prompt, 
    image_file=image_file, 
    output_path=output_path, 
    base_size=1024, 
    image_size=768, 
    crop_mode=True, 
    save_results=True
)

Verwendung von vLLM (für hohe Leistung)

Das Projekt beinhaltet vLLM-Unterstützung für schnellere Inferenz und Stapelverarbeitung, was besonders nützlich für die PDF-Verarbeitung und Benchmark-Bewertungen ist.

Prompt-Beispiele

  • Dokumentenkonvertierung: <image>\n<|grounding|>Convert the document to markdown.
  • Allgemeine OCR: <image>\nFree OCR.
  • Parsen von Abbildungen: <image>\nParse the figure.
  • Bildbeschreibung: <image>\nDescribe this image in detail.

Technische Innovation

Problem traditioneller OCR

Traditionelle OCR-Systeme leiden unter drei kritischen Einschränkungen:

  1. Geringere Genauigkeit bei komplexen Dokumenten aufgrund fester Scan-Muster.
  2. Falsche Interpretation der Lesereihenfolge, wenn zusammengehörige Informationen verstreut sind.
  3. Höhere Fehlerraten in der Produktion, einschließlich Textduplizierung und Halluzinationen.

Lösung durch visuellen kausalen Fluss

DeepSeek-OCR-2 adressiert diese Probleme durch:

  • Verständnis semantischer Beziehungen zwischen visuellen Elementen.
  • Folgen des logischen Informationsflusses anstelle der räumlichen Positionierung.
  • Reasoning über visuelle Präzedenzfälle, ähnlich der menschlichen Dokumentenverständnis.

Architekturvorteile

  • Sprachmodell als visueller Encoder: Die Verwendung von Qwen2-0.5B ermöglicht das semantische Verständnis visueller Inhalte.
  • Kausale Aufmerksamkeit: Ermöglicht dem Modell, zu verstehen, welche visuellen Elemente logisch anderen vorausgehen.
  • Effizienz: Gleicht die Fähigkeit zum semantischen Verständnis mit der rechnerischen Effizienz aus.

Leistung und Benchmarks

Genauigkeitsverbesserungen

  • 3,7 % bessere Leistung im Vergleich zu früheren OCR-Modellen.
  • Überlegenes Verständnis der Lesereihenfolge für komplexe Layouts.
  • Reduzierte Fehlerraten in Produktionsumgebungen.
  • Bessere Handhabung von Tabellen, Abbildungen und mehrspaltigen Layouts.

Anwendungsfälle

  • Verarbeitung wissenschaftlicher Arbeiten.
  • Digitalisierung von Geschäftsdokumenten.
  • Analyse juristischer Dokumente.
  • Konvertierung technischer Handbücher.
  • Parsen wissenschaftlicher Publikationen.

Projektstruktur

DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/          # Kernimplementierung
│   ├── DeepSeek-OCR2-vllm/       # vLLM Inferenz-Skripte
│   └── DeepSeek-OCR2-hf/         # Hugging Face Transformers-Skripte
├── assets/                        # Projekt-Assets und Abbildungen
├── DeepSeek_OCR2_paper.pdf       # Forschungsarbeit
├── requirements.txt               # Python-Abhängigkeiten
└── README.md                      # Projektdokumentation

Forschung und Entwicklung

Akademischer Beitrag

  • Forschungsarbeit: "DeepSeek-OCR 2: Visual Causal Flow"
  • Open Source: Verfügbar auf GitHub und Hugging Face.
  • Lizenz: Apache 2.0

Zukünftige Entwicklung

  • 2D-Bildverständnis: Pläne zur Implementierung von echtem 2D-Reasoning durch kaskadierte 1D-kausale Reasoner.
  • Breitere VLM-Anwendungen: Das Konzept des visuellen kausalen Flusses ist auf andere Vision-Language-Aufgaben anwendbar.
  • Verbessertes räumliches Reasoning: Besseres Verständnis komplexer visueller Layouts.

Vergleich mit früheren Modellen

Merkmal Traditionelle OCR DeepSeek-OCR DeepSeek-OCR-2
Scan-Methode Fester Raster-Scan Komprimierte visuelle Token Semantischer kausaler Fluss
Lesereihenfolge Nur räumlich Verbessert räumlich Semantisches Verständnis
Visueller Encoder CLIP-basiert CLIP-basiert Qwen2-0.5B LM
Genauigkeit Basislinie Verbessert +3,7 % Verbesserung
Semantisches Verständnis Begrenzt Besser Menschenähnlich

Community und Ressourcen

Links

Danksagungen

Das Projekt baut auf Beiträgen von auf und erkennt diese an:

  • DeepSeek-OCR
  • Vary
  • GOT-OCR2.0
  • MinerU
  • PaddleOCR
  • OmniDocBench (für Benchmarking)

Fazit

DeepSeek-OCR-2 stellt einen bedeutenden Fortschritt in der OCR-Technologie dar, indem es den visuellen kausalen Fluss einführt, der ein menschenähnlicheres Dokumentenverständnis ermöglicht. Diese Innovation adressiert grundlegende Einschränkungen traditioneller OCR-Systeme und eröffnet neue Möglichkeiten für Dokumentenverarbeitungsanwendungen in verschiedenen Branchen.

Die Open-Source-Natur des Projekts, die umfassende Dokumentation und die starken Leistungsverbesserungen machen es zu einem wertvollen Werkzeug für Forscher, Entwickler und Organisationen, die fortschrittliche Dokumentenverarbeitungsfähigkeiten benötigen.

Star History Chart