Modelo OCR avançado com tecnologia de Fluxo Causal Visual para compreensão de documentos semelhante à humana e reconhecimento de texto
DeepSeek-OCR-2: Fluxo Causal Visual
Visão Geral
DeepSeek-OCR-2 é um modelo revolucionário de reconhecimento óptico de caracteres (OCR) que introduz o conceito inovador de Fluxo Causal Visual. Lançado pela DeepSeek AI em 27 de janeiro de 2026, este projeto representa uma mudança de paradigma do processamento tradicional de varredura raster fixa para a compreensão visual orientada por semântica.
Principais Recursos
🚀 Tecnologia de Fluxo Causal Visual
- Reordenação Dinâmica de Tokens: Em vez de digitalizar mecanicamente imagens da esquerda para a direita, de cima para baixo, o modelo reordena dinamicamente tokens visuais com base no conteúdo semântico
- Processamento Semelhante ao Humano: Imita como os humanos leem e entendem documentos naturalmente, seguindo o fluxo lógico de informações
- Sequenciamento Consciente do Conteúdo: Compreende as relações semânticas entre os elementos visuais, em vez de apenas o posicionamento espacial
🔧 Arquitetura Técnica
Arquitetura DeepEncoder V2
- Atualização do Codificador Visual: Substitui o codificador baseado em CLIP pelo modelo de linguagem leve Qwen2-0.5B
- Mecanismo de Atenção Causal: Implementa "consultas de fluxo causal" para reorganização de tokens visuais orientada por semântica
- Processamento em Dois Estágios:
- Codificação visual com compreensão semântica
- O decodificador LLM realiza raciocínio autorregressivo em sequências ordenadas
Melhorias de Desempenho
- Melhora de 3,7% na precisão em relação aos modelos OCR anteriores
- Melhor compreensão da ordem de leitura para documentos complexos
- Redução de alucinações e erros de duplicação de texto
- Aprimoramento da confiabilidade em produção
📊 Capacidades
Processamento de Documentos
- Converter documentos para formato Markdown
- OCR gratuito para vários tipos de imagem
- Processamento de PDF com alta concorrência
- Análise de figuras e gráficos
- Extração de texto consciente do layout
Formatos Suportados
- Imagens (JPG, PNG, etc.)
- Documentos PDF
- Layouts e tabelas complexos
- Documentos em várias colunas
- Artigos científicos e relatórios
Instalação e Uso
Requisitos
- Python 3.12.9
- CUDA 11.8
- PyTorch 2.6.0
- Flash Attention 2.7.3
Início Rápido
Usando Transformers
from transformers import AutoModel, AutoTokenizer
import torch
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'deepseek-ai/DeepSeek-OCR-2'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(
model_name,
_attn_implementation='flash_attention_2',
trust_remote_code=True,
use_safetensors=True
)
model = model.eval().cuda().to(torch.bfloat16)
# Conversão de documento para markdown
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'your_image.jpg'
output_path = 'your/output/dir'
result = model.infer(
tokenizer,
prompt=prompt,
image_file=image_file,
output_path=output_path,
base_size=1024,
image_size=768,
crop_mode=True,
save_results=True
)
Usando vLLM (para alto desempenho)
O projeto inclui suporte vLLM para inferência mais rápida e processamento em lote, particularmente útil para processamento de PDF e avaliações de benchmark.
Exemplos de Prompt
- Conversão de documento:
<image>\n<|grounding|>Convert the document to markdown. - OCR geral:
<image>\nFree OCR. - Análise de figura:
<image>\nParse the figure. - Descrição de imagem:
<image>\nDescribe this image in detail.
Inovação Técnica
Problema com OCR Tradicional
Sistemas OCR tradicionais sofrem de três limitações críticas:
- Menor precisão em documentos complexos devido a padrões de digitalização fixos
- Interpretação incorreta da ordem de leitura quando informações relacionadas estão dispersas
- Taxas de erro mais altas em produção, incluindo duplicação de texto e alucinação
Solução de Fluxo Causal Visual
DeepSeek-OCR-2 aborda esses problemas:
- Compreendendo as relações semânticas entre os elementos visuais
- Seguindo o fluxo lógico de informações, em vez do posicionamento espacial
- Raciocinando sobre a precedência visual, semelhante à compreensão de documentos humanos
Benefícios da Arquitetura
- Modelo de Linguagem como Codificador Visual: O uso do Qwen2-0.5B permite a compreensão semântica do conteúdo visual
- Atenção Causal: Permite que o modelo raciocine sobre quais elementos visuais precedem logicamente outros
- Eficiência: Equilibra a capacidade de compreensão semântica com a eficiência computacional
Desempenho e Benchmarks
Melhorias de Precisão
- 3,7% de melhor desempenho em comparação com modelos OCR anteriores
- Compreensão superior da ordem de leitura para layouts complexos
- Taxas de erro reduzidas em ambientes de produção
- Melhor tratamento de tabelas, figuras e layouts em várias colunas
Casos de Uso
- Processamento de artigos acadêmicos
- Digitalização de documentos empresariais
- Análise de documentos legais
- Conversão de manuais técnicos
- Análise de publicações científicas
Estrutura do Projeto
DeepSeek-OCR-2/
├── DeepSeek-OCR2-master/ # Implementação principal
│ ├── DeepSeek-OCR2-vllm/ # Scripts de inferência vLLM
│ └── DeepSeek-OCR2-hf/ # Scripts Hugging Face transformers
├── assets/ # Ativos e figuras do projeto
├── DeepSeek_OCR2_paper.pdf # Artigo de pesquisa
├── requirements.txt # Dependências Python
└── README.md # Documentação do projeto
Pesquisa e Desenvolvimento
Contribuição Acadêmica
- Artigo de Pesquisa: "DeepSeek-OCR 2: Visual Causal Flow"
- Código Aberto: Disponível no GitHub e Hugging Face
- Licença: Apache 2.0
Desenvolvimento Futuro
- Compreensão de Imagem 2D: Planos para implementar raciocínio 2D real através de raciocinadores causais 1D em cascata
- Aplicações VLM Mais Amplas: Conceito de Fluxo Causal Visual aplicável a outras tarefas de visão-linguagem
- Raciocínio Espacial Aprimorado: Melhor compreensão de layouts visuais complexos
Comparação com Modelos Anteriores
| Recurso | OCR Tradicional | DeepSeek-OCR | DeepSeek-OCR-2 |
|---|---|---|---|
| Método de Digitalização | Varredura raster fixa | Tokens visuais comprimidos | Fluxo causal semântico |
| Ordem de Leitura | Apenas espacial | Espacial aprimorado | Compreensão semântica |
| Codificador Visual | Baseado em CLIP | Baseado em CLIP | LM Qwen2-0.5B |
| Precisão | Linha de base | Aprimorado | +3,7% de melhoria |
| Compreensão Semântica | Limitada | Melhor | Semelhante ao humano |
Comunidade e Recursos
Links
- Repositório GitHub: https://github.com/deepseek-ai/DeepSeek-OCR-2
- Modelo Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
- Artigo de Pesquisa: Disponível no repositório
- Comunidade Discord: Servidor Discord da DeepSeek AI
Agradecimentos
O projeto se baseia e reconhece as contribuições de:
- DeepSeek-OCR
- Vary
- GOT-OCR2.0
- MinerU
- PaddleOCR
- OmniDocBench (para benchmarking)
Conclusão
DeepSeek-OCR-2 representa um avanço significativo na tecnologia OCR ao introduzir o Fluxo Causal Visual, que permite uma compreensão de documentos mais semelhante à humana. Essa inovação aborda limitações fundamentais dos sistemas OCR tradicionais e abre novas possibilidades para aplicações de processamento de documentos em várias indústrias.
A natureza de código aberto do projeto, a documentação abrangente e as fortes melhorias de desempenho o tornam uma ferramenta valiosa para pesquisadores, desenvolvedores e organizações que necessitam de recursos avançados de processamento de documentos.