deepseek-ai/DeepSeek-OCR-2 View GitHub Homepage for Latest Official Releases

시각적 인과 흐름 기술을 통해 인간과 유사한 문서 이해 및 텍스트 인식을 제공하는 고급 OCR 모델

Apache-2.0PythonDeepSeek-OCR-2deepseek-ai 1.3k Last Updated: January 27, 2026

DeepSeek-OCR-2: 시각적 인과 흐름

개요

DeepSeek-OCR-2는 혁신적인 광학 문자 인식(OCR) 모델로, 획기적인 시각적 인과 흐름(Visual Causal Flow) 개념을 도입했습니다. DeepSeek AI가 2026년 1월 27일에 출시한 이 프로젝트는 기존의 고정된 래스터 스캔 처리 방식에서 벗어나 의미 기반의 시각적 이해로의 패러다임 전환을 나타냅니다.

주요 특징

🚀 시각적 인과 흐름 기술

동적 토큰 재정렬: 좌에서 우, 위에서 아래로 기계적으로 이미지를 스캔하는 대신, 모델은 의미론적 내용을 기반으로 시각적 토큰을 동적으로 재정렬합니다.
인간과 유사한 처리: 논리적인 정보 흐름을 따라 문서를 자연스럽게 읽고 이해하는 인간의 방식을 모방합니다.
콘텐츠 인식 시퀀싱: 단순히 공간적 위치뿐만 아니라 시각적 요소 간의 의미론적 관계를 이해합니다.

🔧 기술 아키텍처

DeepEncoder V2 아키텍처

시각 인코더 업그레이드: CLIP 기반 인코더를 경량 Qwen2-0.5B 언어 모델로 대체합니다.
인과 주의 메커니즘: 의미 기반 시각 토큰 재구성을 위한 "인과 흐름 쿼리"를 구현합니다.
2단계 처리:
1. 의미 이해를 통한 시각적 인코딩
2. LLM 디코더가 정렬된 시퀀스에 대해 자기회귀 추론을 수행합니다.

성능 향상

이전 OCR 모델 대비 정확도 3.7% 향상
복잡한 문서에 대한 더 나은 읽기 순서 이해
환각 및 텍스트 중복 오류 감소
운영 안정성 향상

📊 기능

문서 처리

문서를 Markdown 형식으로 변환
다양한 이미지 유형에 대한 무료 OCR
높은 동시성을 갖춘 PDF 처리
그림 및 차트 파싱
레이아웃 인식 텍스트 추출

지원 형식

이미지 (JPG, PNG 등)
PDF 문서
복잡한 레이아웃 및 표
다단 문서
과학 논문 및 보고서

설치 및 사용법

요구 사항

Python 3.12.9
CUDA 11.8
PyTorch 2.6.0
Flash Attention 2.7.3

빠른 시작

Transformers 사용

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name, 
    _attn_implementation='flash_attention_2', 
    trust_remote_code=True, 
    use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)

# 문서 markdown 변환
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

result = model.infer(
    tokenizer, 
    prompt=prompt, 
    image_file=image_file, 
    output_path=output_path, 
    base_size=1024, 
    image_size=768, 
    crop_mode=True, 
    save_results=True
)

vLLM 사용 (고성능용)

이 프로젝트는 더 빠른 추론 및 배치 처리를 위해 vLLM 지원을 포함하며, 특히 PDF 처리 및 벤치마크 평가에 유용합니다.

프롬프트 예시

문서 변환: <image>\n<|grounding|>Convert the document to markdown.
일반 OCR: <image>\nFree OCR.
그림 파싱: <image>\nParse the figure.
이미지 설명: <image>\nDescribe this image in detail.

기술 혁신

기존 OCR의 문제점

기존 OCR 시스템은 세 가지 치명적인 한계점을 가지고 있습니다.

고정된 스캔 패턴으로 인한 복잡한 문서의 낮은 정확도
관련 정보가 흩어져 있을 때 잘못된 읽기 순서 해석
텍스트 중복 및 환각을 포함한 운영 환경에서의 높은 오류율

시각적 인과 흐름 솔루션

DeepSeek-OCR-2는 다음과 같은 방법으로 이러한 문제를 해결합니다.

시각적 요소 간의 의미론적 관계 이해
공간적 위치가 아닌 논리적 정보 흐름 따르기
인간의 문서 이해와 유사한 시각적 선행 관계 추론

아키텍처 이점

언어 모델을 시각 인코더로 사용: Qwen2-0.5B를 사용하면 시각적 콘텐츠의 의미 이해가 가능합니다.
인과 주의: 모델이 어떤 시각적 요소가 논리적으로 다른 요소에 선행하는지 추론할 수 있도록 합니다.
효율성: 의미 이해 능력과 계산 효율성의 균형을 맞춥니다.

성능 및 벤치마크

정확도 향상

이전 OCR 모델 대비 3.7% 더 나은 성능
복잡한 레이아웃에 대한 우수한 읽기 순서 이해
운영 환경에서의 오류율 감소
표, 그림, 다단 레이아웃 더 나은 처리

사용 사례

학술 논문 처리
비즈니스 문서 디지털화
법률 문서 분석
기술 매뉴얼 변환
과학 출판물 파싱

프로젝트 구조

DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/          # 핵심 구현
│   ├── DeepSeek-OCR2-vllm/       # vLLM 추론 스크립트
│   └── DeepSeek-OCR2-hf/         # Hugging Face transformers 스크립트
├── assets/                        # 프로젝트 에셋 및 그림
├── DeepSeek_OCR2_paper.pdf       # 연구 논문
├── requirements.txt               # Python 종속성
└── README.md                      # 프로젝트 문서

연구 개발

학술적 기여

연구 논문: "DeepSeek-OCR 2: Visual Causal Flow"
오픈 소스: GitHub 및 Hugging Face에서 사용 가능
라이선스: Apache 2.0

향후 개발

2D 이미지 이해: 캐스케이딩된 1D 인과 추론기를 통한 진정한 2D 추론 구현 계획
더 넓은 VLM 응용: 시각적 인과 흐름 개념을 다른 비전-언어 작업에 적용 가능
향상된 공간 추론: 복잡한 시각적 레이아웃에 대한 이해력 향상

이전 모델과의 비교

특징	기존 OCR	DeepSeek-OCR	DeepSeek-OCR-2
스캔 방식	고정 래스터 스캔	압축된 시각 토큰	의미론적 인과 흐름
읽기 순서	공간적만	향상된 공간적	의미론적 이해
시각 인코더	CLIP 기반	CLIP 기반	Qwen2-0.5B LM
정확도	기준선	향상됨	+3.7% 향상
의미론적 이해	제한적	더 나음	인간과 유사

커뮤니티 및 리소스

링크

GitHub 저장소: https://github.com/deepseek-ai/DeepSeek-OCR-2
Hugging Face 모델: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
연구 논문: 저장소에서 사용 가능
Discord 커뮤니티: DeepSeek AI Discord 서버

감사

이 프로젝트는 다음의 기여를 기반으로 하며 감사드립니다.

DeepSeek-OCR
Vary
GOT-OCR2.0
MinerU
PaddleOCR
OmniDocBench (벤치마킹용)

결론

DeepSeek-OCR-2는 인간과 유사한 문서 이해를 가능하게 하는 시각적 인과 흐름을 도입함으로써 OCR 기술의 상당한 발전을 나타냅니다. 이 혁신은 기존 OCR 시스템의 근본적인 한계를 해결하고 다양한 산업 분야의 문서 처리 응용 프로그램에 대한 새로운 가능성을 열어줍니다.

이 프로젝트의 오픈 소스 특성, 포괄적인 문서, 강력한 성능 향상은 고급 문서 처리 기능을 필요로 하는 연구원, 개발자 및 조직에게 귀중한 도구가 됩니다.