시각적 인과 흐름 기술을 통해 인간과 유사한 문서 이해 및 텍스트 인식을 제공하는 고급 OCR 모델

Apache-2.0PythonDeepSeek-OCR-2deepseek-ai 1.3k Last Updated: January 27, 2026

DeepSeek-OCR-2: 시각적 인과 흐름

개요

DeepSeek-OCR-2는 혁신적인 광학 문자 인식(OCR) 모델로, 획기적인 시각적 인과 흐름(Visual Causal Flow) 개념을 도입했습니다. DeepSeek AI가 2026년 1월 27일에 출시한 이 프로젝트는 기존의 고정된 래스터 스캔 처리 방식에서 벗어나 의미 기반의 시각적 이해로의 패러다임 전환을 나타냅니다.

주요 특징

🚀 시각적 인과 흐름 기술

  • 동적 토큰 재정렬: 좌에서 우, 위에서 아래로 기계적으로 이미지를 스캔하는 대신, 모델은 의미론적 내용을 기반으로 시각적 토큰을 동적으로 재정렬합니다.
  • 인간과 유사한 처리: 논리적인 정보 흐름을 따라 문서를 자연스럽게 읽고 이해하는 인간의 방식을 모방합니다.
  • 콘텐츠 인식 시퀀싱: 단순히 공간적 위치뿐만 아니라 시각적 요소 간의 의미론적 관계를 이해합니다.

🔧 기술 아키텍처

DeepEncoder V2 아키텍처

  • 시각 인코더 업그레이드: CLIP 기반 인코더를 경량 Qwen2-0.5B 언어 모델로 대체합니다.
  • 인과 주의 메커니즘: 의미 기반 시각 토큰 재구성을 위한 "인과 흐름 쿼리"를 구현합니다.
  • 2단계 처리:
    1. 의미 이해를 통한 시각적 인코딩
    2. LLM 디코더가 정렬된 시퀀스에 대해 자기회귀 추론을 수행합니다.

성능 향상

  • 이전 OCR 모델 대비 정확도 3.7% 향상
  • 복잡한 문서에 대한 더 나은 읽기 순서 이해
  • 환각 및 텍스트 중복 오류 감소
  • 운영 안정성 향상

📊 기능

문서 처리

  • 문서를 Markdown 형식으로 변환
  • 다양한 이미지 유형에 대한 무료 OCR
  • 높은 동시성을 갖춘 PDF 처리
  • 그림 및 차트 파싱
  • 레이아웃 인식 텍스트 추출

지원 형식

  • 이미지 (JPG, PNG 등)
  • PDF 문서
  • 복잡한 레이아웃 및 표
  • 다단 문서
  • 과학 논문 및 보고서

설치 및 사용법

요구 사항

  • Python 3.12.9
  • CUDA 11.8
  • PyTorch 2.6.0
  • Flash Attention 2.7.3

빠른 시작

Transformers 사용

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name, 
    _attn_implementation='flash_attention_2', 
    trust_remote_code=True, 
    use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)

# 문서 markdown 변환
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

result = model.infer(
    tokenizer, 
    prompt=prompt, 
    image_file=image_file, 
    output_path=output_path, 
    base_size=1024, 
    image_size=768, 
    crop_mode=True, 
    save_results=True
)

vLLM 사용 (고성능용)

이 프로젝트는 더 빠른 추론 및 배치 처리를 위해 vLLM 지원을 포함하며, 특히 PDF 처리 및 벤치마크 평가에 유용합니다.

프롬프트 예시

  • 문서 변환: <image>\n<|grounding|>Convert the document to markdown.
  • 일반 OCR: <image>\nFree OCR.
  • 그림 파싱: <image>\nParse the figure.
  • 이미지 설명: <image>\nDescribe this image in detail.

기술 혁신

기존 OCR의 문제점

기존 OCR 시스템은 세 가지 치명적인 한계점을 가지고 있습니다.

  1. 고정된 스캔 패턴으로 인한 복잡한 문서의 낮은 정확도
  2. 관련 정보가 흩어져 있을 때 잘못된 읽기 순서 해석
  3. 텍스트 중복 및 환각을 포함한 운영 환경에서의 높은 오류율

시각적 인과 흐름 솔루션

DeepSeek-OCR-2는 다음과 같은 방법으로 이러한 문제를 해결합니다.

  • 시각적 요소 간의 의미론적 관계 이해
  • 공간적 위치가 아닌 논리적 정보 흐름 따르기
  • 인간의 문서 이해와 유사한 시각적 선행 관계 추론

아키텍처 이점

  • 언어 모델을 시각 인코더로 사용: Qwen2-0.5B를 사용하면 시각적 콘텐츠의 의미 이해가 가능합니다.
  • 인과 주의: 모델이 어떤 시각적 요소가 논리적으로 다른 요소에 선행하는지 추론할 수 있도록 합니다.
  • 효율성: 의미 이해 능력과 계산 효율성의 균형을 맞춥니다.

성능 및 벤치마크

정확도 향상

  • 이전 OCR 모델 대비 3.7% 더 나은 성능
  • 복잡한 레이아웃에 대한 우수한 읽기 순서 이해
  • 운영 환경에서의 오류율 감소
  • 표, 그림, 다단 레이아웃 더 나은 처리

사용 사례

  • 학술 논문 처리
  • 비즈니스 문서 디지털화
  • 법률 문서 분석
  • 기술 매뉴얼 변환
  • 과학 출판물 파싱

프로젝트 구조

DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/          # 핵심 구현
│   ├── DeepSeek-OCR2-vllm/       # vLLM 추론 스크립트
│   └── DeepSeek-OCR2-hf/         # Hugging Face transformers 스크립트
├── assets/                        # 프로젝트 에셋 및 그림
├── DeepSeek_OCR2_paper.pdf       # 연구 논문
├── requirements.txt               # Python 종속성
└── README.md                      # 프로젝트 문서

연구 개발

학술적 기여

  • 연구 논문: "DeepSeek-OCR 2: Visual Causal Flow"
  • 오픈 소스: GitHub 및 Hugging Face에서 사용 가능
  • 라이선스: Apache 2.0

향후 개발

  • 2D 이미지 이해: 캐스케이딩된 1D 인과 추론기를 통한 진정한 2D 추론 구현 계획
  • 더 넓은 VLM 응용: 시각적 인과 흐름 개념을 다른 비전-언어 작업에 적용 가능
  • 향상된 공간 추론: 복잡한 시각적 레이아웃에 대한 이해력 향상

이전 모델과의 비교

특징 기존 OCR DeepSeek-OCR DeepSeek-OCR-2
스캔 방식 고정 래스터 스캔 압축된 시각 토큰 의미론적 인과 흐름
읽기 순서 공간적만 향상된 공간적 의미론적 이해
시각 인코더 CLIP 기반 CLIP 기반 Qwen2-0.5B LM
정확도 기준선 향상됨 +3.7% 향상
의미론적 이해 제한적 더 나음 인간과 유사

커뮤니티 및 리소스

링크

감사

이 프로젝트는 다음의 기여를 기반으로 하며 감사드립니다.

  • DeepSeek-OCR
  • Vary
  • GOT-OCR2.0
  • MinerU
  • PaddleOCR
  • OmniDocBench (벤치마킹용)

결론

DeepSeek-OCR-2는 인간과 유사한 문서 이해를 가능하게 하는 시각적 인과 흐름을 도입함으로써 OCR 기술의 상당한 발전을 나타냅니다. 이 혁신은 기존 OCR 시스템의 근본적인 한계를 해결하고 다양한 산업 분야의 문서 처리 응용 프로그램에 대한 새로운 가능성을 열어줍니다.

이 프로젝트의 오픈 소스 특성, 포괄적인 문서, 강력한 성능 향상은 고급 문서 처리 기능을 필요로 하는 연구원, 개발자 및 조직에게 귀중한 도구가 됩니다.

Star History Chart