Modelo OCR avançado com tecnologia de Fluxo Causal Visual para compreensão de documentos semelhante à humana e reconhecimento de texto

Apache-2.0PythonDeepSeek-OCR-2deepseek-ai 1.3k Last Updated: January 27, 2026

DeepSeek-OCR-2: Fluxo Causal Visual

Visão Geral

DeepSeek-OCR-2 é um modelo revolucionário de reconhecimento óptico de caracteres (OCR) que introduz o conceito inovador de Fluxo Causal Visual. Lançado pela DeepSeek AI em 27 de janeiro de 2026, este projeto representa uma mudança de paradigma do processamento tradicional de varredura raster fixa para a compreensão visual orientada por semântica.

Principais Recursos

🚀 Tecnologia de Fluxo Causal Visual

  • Reordenação Dinâmica de Tokens: Em vez de digitalizar mecanicamente imagens da esquerda para a direita, de cima para baixo, o modelo reordena dinamicamente tokens visuais com base no conteúdo semântico
  • Processamento Semelhante ao Humano: Imita como os humanos leem e entendem documentos naturalmente, seguindo o fluxo lógico de informações
  • Sequenciamento Consciente do Conteúdo: Compreende as relações semânticas entre os elementos visuais, em vez de apenas o posicionamento espacial

🔧 Arquitetura Técnica

Arquitetura DeepEncoder V2

  • Atualização do Codificador Visual: Substitui o codificador baseado em CLIP pelo modelo de linguagem leve Qwen2-0.5B
  • Mecanismo de Atenção Causal: Implementa "consultas de fluxo causal" para reorganização de tokens visuais orientada por semântica
  • Processamento em Dois Estágios:
    1. Codificação visual com compreensão semântica
    2. O decodificador LLM realiza raciocínio autorregressivo em sequências ordenadas

Melhorias de Desempenho

  • Melhora de 3,7% na precisão em relação aos modelos OCR anteriores
  • Melhor compreensão da ordem de leitura para documentos complexos
  • Redução de alucinações e erros de duplicação de texto
  • Aprimoramento da confiabilidade em produção

📊 Capacidades

Processamento de Documentos

  • Converter documentos para formato Markdown
  • OCR gratuito para vários tipos de imagem
  • Processamento de PDF com alta concorrência
  • Análise de figuras e gráficos
  • Extração de texto consciente do layout

Formatos Suportados

  • Imagens (JPG, PNG, etc.)
  • Documentos PDF
  • Layouts e tabelas complexos
  • Documentos em várias colunas
  • Artigos científicos e relatórios

Instalação e Uso

Requisitos

  • Python 3.12.9
  • CUDA 11.8
  • PyTorch 2.6.0
  • Flash Attention 2.7.3

Início Rápido

Usando Transformers

from transformers import AutoModel, AutoTokenizer
import torch
import os

os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
    model_name, 
    _attn_implementation='flash_attention_2', 
    trust_remote_code=True, 
    use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)

# Conversão de documento para markdown
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

result = model.infer(
    tokenizer, 
    prompt=prompt, 
    image_file=image_file, 
    output_path=output_path, 
    base_size=1024, 
    image_size=768, 
    crop_mode=True, 
    save_results=True
)

Usando vLLM (para alto desempenho)

O projeto inclui suporte vLLM para inferência mais rápida e processamento em lote, particularmente útil para processamento de PDF e avaliações de benchmark.

Exemplos de Prompt

  • Conversão de documento: <image>\n<|grounding|>Convert the document to markdown.
  • OCR geral: <image>\nFree OCR.
  • Análise de figura: <image>\nParse the figure.
  • Descrição de imagem: <image>\nDescribe this image in detail.

Inovação Técnica

Problema com OCR Tradicional

Sistemas OCR tradicionais sofrem de três limitações críticas:

  1. Menor precisão em documentos complexos devido a padrões de digitalização fixos
  2. Interpretação incorreta da ordem de leitura quando informações relacionadas estão dispersas
  3. Taxas de erro mais altas em produção, incluindo duplicação de texto e alucinação

Solução de Fluxo Causal Visual

DeepSeek-OCR-2 aborda esses problemas:

  • Compreendendo as relações semânticas entre os elementos visuais
  • Seguindo o fluxo lógico de informações, em vez do posicionamento espacial
  • Raciocinando sobre a precedência visual, semelhante à compreensão de documentos humanos

Benefícios da Arquitetura

  • Modelo de Linguagem como Codificador Visual: O uso do Qwen2-0.5B permite a compreensão semântica do conteúdo visual
  • Atenção Causal: Permite que o modelo raciocine sobre quais elementos visuais precedem logicamente outros
  • Eficiência: Equilibra a capacidade de compreensão semântica com a eficiência computacional

Desempenho e Benchmarks

Melhorias de Precisão

  • 3,7% de melhor desempenho em comparação com modelos OCR anteriores
  • Compreensão superior da ordem de leitura para layouts complexos
  • Taxas de erro reduzidas em ambientes de produção
  • Melhor tratamento de tabelas, figuras e layouts em várias colunas

Casos de Uso

  • Processamento de artigos acadêmicos
  • Digitalização de documentos empresariais
  • Análise de documentos legais
  • Conversão de manuais técnicos
  • Análise de publicações científicas

Estrutura do Projeto

DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/          # Implementação principal
│   ├── DeepSeek-OCR2-vllm/       # Scripts de inferência vLLM
│   └── DeepSeek-OCR2-hf/         # Scripts Hugging Face transformers
├── assets/                        # Ativos e figuras do projeto
├── DeepSeek_OCR2_paper.pdf       # Artigo de pesquisa
├── requirements.txt               # Dependências Python
└── README.md                      # Documentação do projeto

Pesquisa e Desenvolvimento

Contribuição Acadêmica

  • Artigo de Pesquisa: "DeepSeek-OCR 2: Visual Causal Flow"
  • Código Aberto: Disponível no GitHub e Hugging Face
  • Licença: Apache 2.0

Desenvolvimento Futuro

  • Compreensão de Imagem 2D: Planos para implementar raciocínio 2D real através de raciocinadores causais 1D em cascata
  • Aplicações VLM Mais Amplas: Conceito de Fluxo Causal Visual aplicável a outras tarefas de visão-linguagem
  • Raciocínio Espacial Aprimorado: Melhor compreensão de layouts visuais complexos

Comparação com Modelos Anteriores

Recurso OCR Tradicional DeepSeek-OCR DeepSeek-OCR-2
Método de Digitalização Varredura raster fixa Tokens visuais comprimidos Fluxo causal semântico
Ordem de Leitura Apenas espacial Espacial aprimorado Compreensão semântica
Codificador Visual Baseado em CLIP Baseado em CLIP LM Qwen2-0.5B
Precisão Linha de base Aprimorado +3,7% de melhoria
Compreensão Semântica Limitada Melhor Semelhante ao humano

Comunidade e Recursos

Links

Agradecimentos

O projeto se baseia e reconhece as contribuições de:

  • DeepSeek-OCR
  • Vary
  • GOT-OCR2.0
  • MinerU
  • PaddleOCR
  • OmniDocBench (para benchmarking)

Conclusão

DeepSeek-OCR-2 representa um avanço significativo na tecnologia OCR ao introduzir o Fluxo Causal Visual, que permite uma compreensão de documentos mais semelhante à humana. Essa inovação aborda limitações fundamentais dos sistemas OCR tradicionais e abre novas possibilidades para aplicações de processamento de documentos em várias indústrias.

A natureza de código aberto do projeto, a documentação abrangente e as fortes melhorias de desempenho o tornam uma ferramenta valiosa para pesquisadores, desenvolvedores e organizações que necessitam de recursos avançados de processamento de documentos.

Star History Chart