Visual Causal Flow技術により人間のような文書理解とテキスト認識を実現する高度なOCRモデル

Apache-2.0PythonDeepSeek-OCR-2deepseek-ai 1.3k Last Updated: January 27, 2026

DeepSeek-OCR-2: Visual Causal Flow

概要

DeepSeek-OCR-2は、画期的な「Visual Causal Flow」という概念を導入した革新的な光学文字認識(OCR)モデルです。DeepSeek AIが2026年1月27日にリリースしたこのプロジェクトは、従来の固定ラスタースキャン処理から、セマンティック駆動型の視覚理解へのパラダイムシフトを表します。

主な特徴

🚀 Visual Causal Flowテクノロジー

  • 動的なトークン並べ替え: モデルは、画像を機械的に左から右、上から下へスキャンするのではなく、セマンティックコンテンツに基づいて視覚トークンを動的に並べ替えます。
  • 人間のような処理: 論理的な情報フローに従うことで、人間が自然に文書を読み、理解する方法を模倣します。
  • コンテンツ認識型シーケンス: 単なる空間的な位置関係ではなく、視覚要素間のセマンティックな関係性を理解します。

🔧 技術アーキテクチャ

DeepEncoder V2アーキテクチャ

  • ビジュアルエンコーダーのアップグレード: CLIPベースのエンコーダーを軽量なQwen2-0.5B言語モデルに置き換えます。
  • 因果的アテンションメカニズム: セマンティック駆動型の視覚トークン再編成のために「因果フロークエリ」を実装します。
  • 二段階処理:
    1. セマンティック理解を伴う視覚エンコーディング
    2. LLMデコーダーが順序付けられたシーケンスに対して自己回帰的推論を実行します。

パフォーマンスの向上

  • 従来のOCRモデルと比較して精度が3.7%向上しました。
  • 複雑な文書に対する読解順序の理解が向上しました。
  • 幻覚(ハルシネーション)やテキスト重複のエラーが削減されました。
  • 本番環境での信頼性が向上しました。

📊 機能

文書処理

  • 文書をMarkdown形式に変換します。
  • 様々な画像タイプに対応した無料OCRを提供します。
  • 高い並行処理能力を持つPDF処理を行います。
  • 図やグラフの解析を行います。
  • レイアウト認識型のテキスト抽出を行います。

サポートされているフォーマット

  • 画像(JPG、PNGなど)
  • PDF文書
  • 複雑なレイアウトやテーブル
  • マルチカラム文書
  • 学術論文やレポート

インストールと使用方法

要件

  • Python 3.12.9
  • CUDA 11.8
  • PyTorch 2.6.0
  • Flash Attention 2.7.3

クイックスタート

Transformersの使用

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name,
    _attn_implementation='flash_attention_2',
    trust_remote_code=True,
    use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)

# 文書からmarkdownへの変換
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

result = model.infer(
    tokenizer,
    prompt=prompt,
    image_file=image_file,
    output_path=output_path,
    base_size=1024,
    image_size=768,
    crop_mode=True,
    save_results=True
)

vLLMの使用(高パフォーマンス向け)

このプロジェクトには、特にPDF処理やベンチマーク評価に役立つ、より高速な推論とバッチ処理のためのvLLMサポートが含まれています。

プロンプト例

  • 文書変換: <image>\n<|grounding|>Convert the document to markdown.
  • 一般OCR: <image>\nFree OCR.
  • 図の解析: <image>\nParse the figure.
  • 画像の説明: <image>\nDescribe this image in detail.

技術革新

従来のOCRの問題点

従来のOCRシステムは、3つの重大な制限に悩まされています。

  1. 固定されたスキャンパターンによる、複雑な文書での精度の低下
  2. 関連情報が散在している場合の読解順序の誤解釈
  3. テキストの重複や幻覚を含む、本番環境でのエラー率の高さ

Visual Causal Flowソリューション

DeepSeek-OCR-2は、以下の方法でこれらの問題に対処します。

  • 視覚要素間のセマンティックな関係性を理解します。
  • 空間的な位置関係ではなく、論理的な情報フローに従います
  • 人間が文書を理解するのと同様に、視覚的な先行関係について推論します。

アーキテクチャの利点

  • 言語モデルをビジュアルエンコーダーとして使用: Qwen2-0.5Bを使用することで、視覚コンテンツのセマンティックな理解が可能になります。
  • 因果的アテンション: モデルがどの視覚要素が論理的に他の要素に先行するかについて推論することを可能にします。
  • 効率性: セマンティックな理解能力と計算効率のバランスを取ります。

パフォーマンスとベンチマーク

精度の向上

  • 従来のOCRモデルと比較して3.7%高いパフォーマンスを発揮します。
  • 複雑なレイアウトに対する優れた読解順序の理解を実現します。
  • 本番環境でのエラー率を削減します。
  • テーブル、図、マルチカラムレイアウトの処理能力が向上しました。

ユースケース

  • 学術論文処理
  • ビジネス文書のデジタル化
  • 法務文書分析
  • 技術マニュアル変換
  • 科学出版物の解析

プロジェクト構造

DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/          # コア実装
│   ├── DeepSeek-OCR2-vllm/       # vLLM推論スクリプト
│   └── DeepSeek-OCR2-hf/         # Hugging Face transformersスクリプト
├── assets/                        # プロジェクトアセットと図
├── DeepSeek_OCR2_paper.pdf       # 研究論文
├── requirements.txt               # Python依存関係
└── README.md                      # プロジェクトドキュメント

研究開発

学術的貢献

  • 研究論文: "DeepSeek-OCR 2: Visual Causal Flow"
  • オープンソース: GitHubとHugging Faceで利用可能
  • ライセンス: Apache 2.0

将来の開発

  • 2D画像理解: カスケードされた1D因果推論器を介した真の2D推論の実装を計画しています。
  • より広範なVLMアプリケーション: Visual Causal Flowの概念は、他のビジョン・言語タスクにも応用可能です。
  • 強化された空間推論: 複雑な視覚レイアウトの理解を改善します。

以前のモデルとの比較

特徴 従来のOCR DeepSeek-OCR DeepSeek-OCR-2
スキャン方法 固定ラスタースキャン 圧縮された視覚トークン セマンティック因果フロー
読解順序 空間のみ 空間改善 セマンティック理解
ビジュアルエンコーダー CLIPベース CLIPベース Qwen2-0.5B LM
精度 ベースライン 改善 +3.7%向上
セマンティック理解 限定的 より良い 人間のような

コミュニティとリソース

リンク

謝辞

このプロジェクトは、以下の貢献の上に成り立っており、それらに感謝します。

  • DeepSeek-OCR
  • Vary
  • GOT-OCR2.0
  • MinerU
  • PaddleOCR
  • OmniDocBench(ベンチマーク用)

結論

DeepSeek-OCR-2は、より人間のような文書理解を可能にするVisual Causal Flowを導入することにより、OCR技術における重要な進歩を表します。この革新は、従来のOCRシステムの根本的な限界に対処し、様々な業界の文書処理アプリケーションに新たな可能性を開きます。

このプロジェクトのオープンソース性、包括的なドキュメント、そして強力なパフォーマンス向上は、高度な文書処理能力を必要とする研究者、開発者、組織にとって貴重なツールとなっています。

Star History Chart