deepseek-ai/DeepSeek-OCR-2 View GitHub Homepage for Latest Official Releases
시각적 인과 흐름 기술을 통해 인간과 유사한 문서 이해 및 텍스트 인식을 제공하는 고급 OCR 모델
Apache-2.0PythonDeepSeek-OCR-2deepseek-ai 1.3k Last Updated: January 27, 2026
DeepSeek-OCR-2: 시각적 인과 흐름
개요
DeepSeek-OCR-2는 혁신적인 광학 문자 인식(OCR) 모델로, 획기적인 시각적 인과 흐름(Visual Causal Flow) 개념을 도입했습니다. DeepSeek AI가 2026년 1월 27일에 출시한 이 프로젝트는 기존의 고정된 래스터 스캔 처리 방식에서 벗어나 의미 기반의 시각적 이해로의 패러다임 전환을 나타냅니다.
주요 특징
🚀 시각적 인과 흐름 기술
- 동적 토큰 재정렬: 좌에서 우, 위에서 아래로 기계적으로 이미지를 스캔하는 대신, 모델은 의미론적 내용을 기반으로 시각적 토큰을 동적으로 재정렬합니다.
- 인간과 유사한 처리: 논리적인 정보 흐름을 따라 문서를 자연스럽게 읽고 이해하는 인간의 방식을 모방합니다.
- 콘텐츠 인식 시퀀싱: 단순히 공간적 위치뿐만 아니라 시각적 요소 간의 의미론적 관계를 이해합니다.
🔧 기술 아키텍처
DeepEncoder V2 아키텍처
- 시각 인코더 업그레이드: CLIP 기반 인코더를 경량 Qwen2-0.5B 언어 모델로 대체합니다.
- 인과 주의 메커니즘: 의미 기반 시각 토큰 재구성을 위한 "인과 흐름 쿼리"를 구현합니다.
- 2단계 처리:
- 의미 이해를 통한 시각적 인코딩
- LLM 디코더가 정렬된 시퀀스에 대해 자기회귀 추론을 수행합니다.
성능 향상
- 이전 OCR 모델 대비 정확도 3.7% 향상
- 복잡한 문서에 대한 더 나은 읽기 순서 이해
- 환각 및 텍스트 중복 오류 감소
- 운영 안정성 향상
📊 기능
문서 처리
- 문서를 Markdown 형식으로 변환
- 다양한 이미지 유형에 대한 무료 OCR
- 높은 동시성을 갖춘 PDF 처리
- 그림 및 차트 파싱
- 레이아웃 인식 텍스트 추출
지원 형식
- 이미지 (JPG, PNG 등)
- PDF 문서
- 복잡한 레이아웃 및 표
- 다단 문서
- 과학 논문 및 보고서
설치 및 사용법
요구 사항
- Python 3.12.9
- CUDA 11.8
- PyTorch 2.6.0
- Flash Attention 2.7.3
빠른 시작
Transformers 사용
from transformers import AutoModel, AutoTokenizer
import torch
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
model_name,
_attn_implementation='flash_attention_2',
trust_remote_code=True,
use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)
# 문서 markdown 변환
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'
result = model.infer(
tokenizer,
prompt=prompt,
image_file=image_file,
output_path=output_path,
base_size=1024,
image_size=768,
crop_mode=True,
save_results=True
)
vLLM 사용 (고성능용)
이 프로젝트는 더 빠른 추론 및 배치 처리를 위해 vLLM 지원을 포함하며, 특히 PDF 처리 및 벤치마크 평가에 유용합니다.
프롬프트 예시
- 문서 변환:
<image>\n<|grounding|>Convert the document to markdown. - 일반 OCR:
<image>\nFree OCR. - 그림 파싱:
<image>\nParse the figure. - 이미지 설명:
<image>\nDescribe this image in detail.
기술 혁신
기존 OCR의 문제점
기존 OCR 시스템은 세 가지 치명적인 한계점을 가지고 있습니다.
- 고정된 스캔 패턴으로 인한 복잡한 문서의 낮은 정확도
- 관련 정보가 흩어져 있을 때 잘못된 읽기 순서 해석
- 텍스트 중복 및 환각을 포함한 운영 환경에서의 높은 오류율
시각적 인과 흐름 솔루션
DeepSeek-OCR-2는 다음과 같은 방법으로 이러한 문제를 해결합니다.
- 시각적 요소 간의 의미론적 관계 이해
- 공간적 위치가 아닌 논리적 정보 흐름 따르기
- 인간의 문서 이해와 유사한 시각적 선행 관계 추론
아키텍처 이점
- 언어 모델을 시각 인코더로 사용: Qwen2-0.5B를 사용하면 시각적 콘텐츠의 의미 이해가 가능합니다.
- 인과 주의: 모델이 어떤 시각적 요소가 논리적으로 다른 요소에 선행하는지 추론할 수 있도록 합니다.
- 효율성: 의미 이해 능력과 계산 효율성의 균형을 맞춥니다.
성능 및 벤치마크
정확도 향상
- 이전 OCR 모델 대비 3.7% 더 나은 성능
- 복잡한 레이아웃에 대한 우수한 읽기 순서 이해
- 운영 환경에서의 오류율 감소
- 표, 그림, 다단 레이아웃 더 나은 처리
사용 사례
- 학술 논문 처리
- 비즈니스 문서 디지털화
- 법률 문서 분석
- 기술 매뉴얼 변환
- 과학 출판물 파싱
프로젝트 구조
DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/ # 핵심 구현
│ ├── DeepSeek-OCR2-vllm/ # vLLM 추론 스크립트
│ └── DeepSeek-OCR2-hf/ # Hugging Face transformers 스크립트
├── assets/ # 프로젝트 에셋 및 그림
├── DeepSeek_OCR2_paper.pdf # 연구 논문
├── requirements.txt # Python 종속성
└── README.md # 프로젝트 문서
연구 개발
학술적 기여
- 연구 논문: "DeepSeek-OCR 2: Visual Causal Flow"
- 오픈 소스: GitHub 및 Hugging Face에서 사용 가능
- 라이선스: Apache 2.0
향후 개발
- 2D 이미지 이해: 캐스케이딩된 1D 인과 추론기를 통한 진정한 2D 추론 구현 계획
- 더 넓은 VLM 응용: 시각적 인과 흐름 개념을 다른 비전-언어 작업에 적용 가능
- 향상된 공간 추론: 복잡한 시각적 레이아웃에 대한 이해력 향상
이전 모델과의 비교
| 특징 | 기존 OCR | DeepSeek-OCR | DeepSeek-OCR-2 |
|---|---|---|---|
| 스캔 방식 | 고정 래스터 스캔 | 압축된 시각 토큰 | 의미론적 인과 흐름 |
| 읽기 순서 | 공간적만 | 향상된 공간적 | 의미론적 이해 |
| 시각 인코더 | CLIP 기반 | CLIP 기반 | Qwen2-0.5B LM |
| 정확도 | 기준선 | 향상됨 | +3.7% 향상 |
| 의미론적 이해 | 제한적 | 더 나음 | 인간과 유사 |
커뮤니티 및 리소스
링크
- GitHub 저장소: https://github.com/deepseek-ai/DeepSeek-OCR-2
- Hugging Face 모델: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- 연구 논문: 저장소에서 사용 가능
- Discord 커뮤니티: DeepSeek AI Discord 서버
감사
이 프로젝트는 다음의 기여를 기반으로 하며 감사드립니다.
- DeepSeek-OCR
- Vary
- GOT-OCR2.0
- MinerU
- PaddleOCR
- OmniDocBench (벤치마킹용)
결론
DeepSeek-OCR-2는 인간과 유사한 문서 이해를 가능하게 하는 시각적 인과 흐름을 도입함으로써 OCR 기술의 상당한 발전을 나타냅니다. 이 혁신은 기존 OCR 시스템의 근본적인 한계를 해결하고 다양한 산업 분야의 문서 처리 응용 프로그램에 대한 새로운 가능성을 열어줍니다.
이 프로젝트의 오픈 소스 특성, 포괄적인 문서, 강력한 성능 향상은 고급 문서 처리 기능을 필요로 하는 연구원, 개발자 및 조직에게 귀중한 도구가 됩니다.