deepseek-ai/DeepSeek-OCR-2 View GitHub Homepage for Latest Official Releases

Modelo OCR avançado com tecnologia de Fluxo Causal Visual para compreensão de documentos semelhante à humana e reconhecimento de texto

Apache-2.0PythonDeepSeek-OCR-2deepseek-ai 1.3k Last Updated: January 27, 2026

DeepSeek-OCR-2: Fluxo Causal Visual

Visão Geral

DeepSeek-OCR-2 é um modelo revolucionário de reconhecimento óptico de caracteres (OCR) que introduz o conceito inovador de Fluxo Causal Visual. Lançado pela DeepSeek AI em 27 de janeiro de 2026, este projeto representa uma mudança de paradigma do processamento tradicional de varredura raster fixa para a compreensão visual orientada por semântica.

Principais Recursos

🚀 Tecnologia de Fluxo Causal Visual

Reordenação Dinâmica de Tokens: Em vez de digitalizar mecanicamente imagens da esquerda para a direita, de cima para baixo, o modelo reordena dinamicamente tokens visuais com base no conteúdo semântico
Processamento Semelhante ao Humano: Imita como os humanos leem e entendem documentos naturalmente, seguindo o fluxo lógico de informações
Sequenciamento Consciente do Conteúdo: Compreende as relações semânticas entre os elementos visuais, em vez de apenas o posicionamento espacial

🔧 Arquitetura Técnica

Arquitetura DeepEncoder V2

Atualização do Codificador Visual: Substitui o codificador baseado em CLIP pelo modelo de linguagem leve Qwen2-0.5B
Mecanismo de Atenção Causal: Implementa "consultas de fluxo causal" para reorganização de tokens visuais orientada por semântica
Processamento em Dois Estágios:
1. Codificação visual com compreensão semântica
2. O decodificador LLM realiza raciocínio autorregressivo em sequências ordenadas

Melhorias de Desempenho

Melhora de 3,7% na precisão em relação aos modelos OCR anteriores
Melhor compreensão da ordem de leitura para documentos complexos
Redução de alucinações e erros de duplicação de texto
Aprimoramento da confiabilidade em produção

📊 Capacidades

Processamento de Documentos

Converter documentos para formato Markdown
OCR gratuito para vários tipos de imagem
Processamento de PDF com alta concorrência
Análise de figuras e gráficos
Extração de texto consciente do layout

Formatos Suportados

Imagens (JPG, PNG, etc.)
Documentos PDF
Layouts e tabelas complexos
Documentos em várias colunas
Artigos científicos e relatórios

Instalação e Uso

Requisitos

Python 3.12.9
CUDA 11.8
PyTorch 2.6.0
Flash Attention 2.7.3

Início Rápido

Usando Transformers

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name, 
    _attn_implementation='flash_attention_2', 
    trust_remote_code=True, 
    use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)

# Conversão de documento para markdown
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

result = model.infer(
    tokenizer, 
    prompt=prompt, 
    image_file=image_file, 
    output_path=output_path, 
    base_size=1024, 
    image_size=768, 
    crop_mode=True, 
    save_results=True
)

Usando vLLM (para alto desempenho)

O projeto inclui suporte vLLM para inferência mais rápida e processamento em lote, particularmente útil para processamento de PDF e avaliações de benchmark.

Exemplos de Prompt

Conversão de documento: <image>\n<|grounding|>Convert the document to markdown.
OCR geral: <image>\nFree OCR.
Análise de figura: <image>\nParse the figure.
Descrição de imagem: <image>\nDescribe this image in detail.

Inovação Técnica

Problema com OCR Tradicional

Sistemas OCR tradicionais sofrem de três limitações críticas:

Menor precisão em documentos complexos devido a padrões de digitalização fixos
Interpretação incorreta da ordem de leitura quando informações relacionadas estão dispersas
Taxas de erro mais altas em produção, incluindo duplicação de texto e alucinação

Solução de Fluxo Causal Visual

DeepSeek-OCR-2 aborda esses problemas:

Compreendendo as relações semânticas entre os elementos visuais
Seguindo o fluxo lógico de informações, em vez do posicionamento espacial
Raciocinando sobre a precedência visual, semelhante à compreensão de documentos humanos

Benefícios da Arquitetura

Modelo de Linguagem como Codificador Visual: O uso do Qwen2-0.5B permite a compreensão semântica do conteúdo visual
Atenção Causal: Permite que o modelo raciocine sobre quais elementos visuais precedem logicamente outros
Eficiência: Equilibra a capacidade de compreensão semântica com a eficiência computacional

Desempenho e Benchmarks

Melhorias de Precisão

3,7% de melhor desempenho em comparação com modelos OCR anteriores
Compreensão superior da ordem de leitura para layouts complexos
Taxas de erro reduzidas em ambientes de produção
Melhor tratamento de tabelas, figuras e layouts em várias colunas

Casos de Uso

Processamento de artigos acadêmicos
Digitalização de documentos empresariais
Análise de documentos legais
Conversão de manuais técnicos
Análise de publicações científicas

Estrutura do Projeto

DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/          # Implementação principal
│   ├── DeepSeek-OCR2-vllm/       # Scripts de inferência vLLM
│   └── DeepSeek-OCR2-hf/         # Scripts Hugging Face transformers
├── assets/                        # Ativos e figuras do projeto
├── DeepSeek_OCR2_paper.pdf       # Artigo de pesquisa
├── requirements.txt               # Dependências Python
└── README.md                      # Documentação do projeto

Pesquisa e Desenvolvimento

Contribuição Acadêmica

Artigo de Pesquisa: "DeepSeek-OCR 2: Visual Causal Flow"
Código Aberto: Disponível no GitHub e Hugging Face
Licença: Apache 2.0

Desenvolvimento Futuro

Compreensão de Imagem 2D: Planos para implementar raciocínio 2D real através de raciocinadores causais 1D em cascata
Aplicações VLM Mais Amplas: Conceito de Fluxo Causal Visual aplicável a outras tarefas de visão-linguagem
Raciocínio Espacial Aprimorado: Melhor compreensão de layouts visuais complexos

Comparação com Modelos Anteriores

Recurso	OCR Tradicional	DeepSeek-OCR	DeepSeek-OCR-2
Método de Digitalização	Varredura raster fixa	Tokens visuais comprimidos	Fluxo causal semântico
Ordem de Leitura	Apenas espacial	Espacial aprimorado	Compreensão semântica
Codificador Visual	Baseado em CLIP	Baseado em CLIP	LM Qwen2-0.5B
Precisão	Linha de base	Aprimorado	+3,7% de melhoria
Compreensão Semântica	Limitada	Melhor	Semelhante ao humano

Comunidade e Recursos

Agradecimentos

O projeto se baseia e reconhece as contribuições de:

DeepSeek-OCR
Vary
GOT-OCR2.0
MinerU
PaddleOCR
OmniDocBench (para benchmarking)

Conclusão

DeepSeek-OCR-2 representa um avanço significativo na tecnologia OCR ao introduzir o Fluxo Causal Visual, que permite uma compreensão de documentos mais semelhante à humana. Essa inovação aborda limitações fundamentais dos sistemas OCR tradicionais e abre novas possibilidades para aplicações de processamento de documentos em várias indústrias.

A natureza de código aberto do projeto, a documentação abrangente e as fortes melhorias de desempenho o tornam uma ferramenta valiosa para pesquisadores, desenvolvedores e organizações que necessitam de recursos avançados de processamento de documentos.