採用視覺因果流技術的先進OCR模型,實現類人文件理解和文字識別

Apache-2.0PythonDeepSeek-OCR-2deepseek-ai 1.3k Last Updated: January 27, 2026

DeepSeek-OCR-2:視覺因果流

總覽

DeepSeek-OCR-2 是一款革命性的光學字元辨識 (OCR) 模型,引入了開創性的「視覺因果流」概念。此專案由 DeepSeek AI 於 2026 年 1 月 27 日發布,代表著從傳統的固定點陣掃描處理轉向語義驅動的視覺理解的範式轉移。

主要特色

🚀 視覺因果流技術

  • 動態標記重排序:模型不再機械地從左到右、從上到下掃描圖像,而是根據語義內容動態重排序視覺標記。
  • 類人處理:模仿人類自然閱讀和理解文件的方式,遵循邏輯資訊流。
  • 內容感知排序:理解視覺元素之間的語義關係,而不僅僅是空間位置。

🔧 技術架構

DeepEncoder V2 架構

  • 視覺編碼器升級:用輕量級的 Qwen2-0.5B 語言模型取代基於 CLIP 的編碼器。
  • 因果注意力機制:實現「因果流查詢」,用於語義驅動的視覺標記重組。
  • 兩階段處理
    1. 具有語義理解的視覺編碼。
    2. LLM 解碼器對排序後的序列執行自迴歸推理。

效能改進

  • 相較於先前 OCR 模型,準確度提升 3.7%
  • 對複雜文件具有更佳的閱讀順序理解能力
  • 減少幻覺和文字重複錯誤。
  • 提升生產可靠性

📊 功能

文件處理

  • 將文件轉換為 Markdown 格式。
  • 各種圖像類型的免費 OCR。
  • 高併發 PDF 處理。
  • 圖表解析。
  • 佈局感知文字提取。

支援格式

  • 圖像 (JPG, PNG 等)。
  • PDF 文件。
  • 複雜佈局和表格。
  • 多欄文件。
  • 科學論文和報告。

安裝與使用

要求

  • Python 3.12.9
  • CUDA 11.8
  • PyTorch 2.6.0
  • Flash Attention 2.7.3

快速入門

使用 Transformers

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name,
    _attn_implementation='flash_attention_2',
    trust_remote_code=True,
    use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)

# 文件轉 Markdown
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

result = model.infer(
    tokenizer,
    prompt=prompt,
    image_file=image_file,
    output_path=output_path,
    base_size=1024,
    image_size=768,
    crop_mode=True,
    save_results=True
)

使用 vLLM (用於高效率)

該專案包含 vLLM 支援,用於更快的推理和批次處理,這對於 PDF 處理和基準測試評估特別有用。

Prompt 範例

  • 文件轉換:<image>\n<|grounding|>Convert the document to markdown.
  • 一般 OCR:<image>\nFree OCR.
  • 圖表解析:<image>\nParse the figure.
  • 圖像描述:<image>\nDescribe this image in detail.

技術創新

傳統 OCR 的問題

傳統 OCR 系統面臨三個關鍵限制:

  1. 複雜文件準確度較低:由於固定的掃描模式。
  2. 閱讀順序解釋錯誤:當相關資訊分散時。
  3. 生產環境錯誤率較高:包括文字重複和幻覺。

視覺因果流解決方案

DeepSeek-OCR-2 透過以下方式解決這些問題:

  • 理解視覺元素之間的語義關係
  • 遵循邏輯資訊流,而非空間位置。
  • 推理視覺優先順序,類似於人類文件理解。

架構優勢

  • 語言模型作為視覺編碼器:使用 Qwen2-0.5B 可實現對視覺內容的語義理解。
  • 因果注意力:使模型能夠推理哪些視覺元素在邏輯上先於其他元素。
  • 效率:在語義理解能力和計算效率之間取得平衡。

效能與基準測試

準確度提升

  • 相較於先前 OCR 模型,效能提升 3.7%
  • 對複雜佈局具有卓越的閱讀順序理解能力
  • 降低生產環境的錯誤率
  • 更好地處理表格、圖表和多欄佈局。

使用案例

  • 學術論文處理。
  • 商業文件數位化。
  • 法律文件分析。
  • 技術手冊轉換。
  • 科學出版物解析。

專案結構

DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/          # 核心實現
│   ├── DeepSeek-OCR2-vllm/       # vLLM 推理腳本
│   └── DeepSeek-OCR2-hf/         # Hugging Face transformers 腳本
├── assets/                        # 專案資產和圖表
├── DeepSeek_OCR2_paper.pdf       # 研究論文
├── requirements.txt               # Python 依賴項
└── README.md                      # 專案文件

研究與開發

學術貢獻

  • 研究論文:「DeepSeek-OCR 2: Visual Causal Flow」
  • 開源:可在 GitHub 和 Hugging Face 上取得。
  • 授權:Apache 2.0。

未來發展

  • 2D 圖像理解:計劃透過級聯的 1D 因果推理器實現真正的 2D 推理。
  • 更廣泛的 VLM 應用:視覺因果流概念可應用於其他視覺語言任務。
  • 增強空間推理:提高對複雜視覺佈局的理解能力。

與先前模型的比較

特徵 傳統 OCR DeepSeek-OCR DeepSeek-OCR-2
掃描方法 固定點陣掃描 壓縮視覺標記 語義因果流
閱讀順序 僅空間 改進的空間 語義理解
視覺編碼器 基於 CLIP 基於 CLIP Qwen2-0.5B LM
準確度 基線 改進 +3.7% 提升
語義理解 有限 更好 類人

社群與資源

連結

致謝

該專案建立在以下貢獻的基礎上並對其表示感謝:

  • DeepSeek-OCR
  • Vary
  • GOT-OCR2.0
  • MinerU
  • PaddleOCR
  • OmniDocBench (用於基準測試)

結論

DeepSeek-OCR-2 透過引入視覺因果流,在 OCR 技術上取得了重大進展,實現了更類人的文件理解能力。這項創新解決了傳統 OCR 系統的基本限制,並為各行業的文件處理應用開闢了新的可能性。

該專案的開源性質、全面的文件以及強大的效能改進,使其成為需要先進文件處理能力的開發人員、研究人員和組織的寶貴工具。

Star History Chart