What DPI should I scan at for OCR?

300 DPI is the standard recommendation. 200 DPI works for clean printed text. 400-600 DPI helps with small fonts or degraded documents. Higher than 600 DPI rarely improves accuracy.

Can OCR read handwriting?

Modern OCR can read neat handwriting with 60-80% accuracy. Cursive and messy handwriting remains challenging. Specialized handwriting recognition (ICR) tools perform better than general OCR.

What is a searchable PDF?

A searchable PDF has an invisible text layer behind the scanned image. You see the original scan but can select, copy, and search the OCR-extracted text.

Is Tesseract OCR good enough?

Tesseract 5 achieves 95-99% accuracy on clean printed text. For degraded documents, complex layouts, or handwriting, commercial engines like ABBYY or Google Vision API perform better.

How do I OCR a PDF in bulk?

Use ocrmypdf for batch processing: find . -name '*.pdf' -exec ocrmypdf {} {}.ocr.pdf. It handles multi-page PDFs, skips already-OCR'd pages, and produces PDF/A output.

PDF OCR: Extrair Texto de Documentos Digitalizados

31 de março de 2026 · 12 min de leitura

Índice

O Que É OCR?
Como o OCR Funciona
Fatores de Precisão Que Importam
Comparação de Motores OCR
Guia CLI do Tesseract
ocrmypdf: A Melhor Ferramenta CLI
Fluxo de Trabalho Prático de OCR
Precisão por Tipo de Documento
Solução de Problemas Comuns
Processamento em Lote de Múltiplos PDFs
Perguntas Frequentes
Artigos Relacionados

O Que É OCR?

OCR (Reconhecimento Óptico de Caracteres) converte imagens de texto em texto legível por máquina. Quando você digitaliza um documento em papel para PDF, o resultado é essencialmente uma coleção de imagens — você pode ver o texto, mas não pode selecioná-lo, pesquisá-lo ou copiá-lo. O OCR analisa essas imagens e extrai o conteúdo de texto.

Um "PDF pesquisável" tem uma camada de texto invisível posicionada atrás da imagem digitalizada. Você vê a digitalização original, mas pode pressionar Ctrl+F para pesquisar, selecionar texto para copiar, e leitores de tela podem ler o conteúdo em voz alta para acessibilidade. Isso torna documentos digitalizados tão funcionais quanto PDFs digitais nativos.

A tecnologia OCR evoluiu dramaticamente na última década. Sistemas antigos dependiam de correspondência de modelos e exigiam digitalizações limpas e de alta qualidade. Motores OCR modernos usam redes neurais de aprendizado profundo que podem lidar com documentos degradados, múltiplos idiomas e layouts complexos com precisão notável.

Os casos de uso mais comuns para OCR incluem:

Digitalizar arquivos em papel e documentos históricos
Tornar contratos digitalizados e documentos legais pesquisáveis
Extrair dados de faturas e recibos para contabilidade
Converter livros e artigos impressos em texto editável
Habilitar acessibilidade para usuários com deficiência visual
Criar repositórios pesquisáveis de documentação técnica

Experimente nossa ferramenta PDF OCR para tornar seus PDFs digitalizados pesquisáveis em segundos. Para documentos que precisam de processamento adicional, confira nosso compressor de PDF para reduzir tamanhos de arquivo após o OCR.

Como o OCR Funciona

Motores OCR modernos processam documentos através de um pipeline sofisticado de análise de imagem e reconhecimento de texto. Entender esse processo ajuda você a otimizar suas digitalizações para melhores resultados.

Pré-processamento de Imagem

Antes de qualquer reconhecimento de texto acontecer, o motor OCR prepara a imagem:

Correção de inclinação — Detecta e corrige rotação. Até uma inclinação de 2 graus pode reduzir a precisão em 10-15%. O motor analisa linhas de base do texto e endireita a imagem.
Remoção de ruído — Remove manchas, pontos de poeira e artefatos do scanner. Isso é crítico para documentos antigos ou digitalizações de baixa qualidade.
Binarização — Converte imagens em tons de cinza ou coloridas para preto e branco puro. Limiarização adaptativa lida com iluminação irregular e sombras.
Melhoria de contraste — Aguça texto desbotado e melhora a distinção entre texto e fundo.
Remoção de bordas — Corta margens e áreas sem texto para focar o processamento no conteúdo real.

Análise de Layout

O motor deve entender a estrutura do documento antes de ler o texto:

Detectar regiões de texto versus imagens, diagramas e espaço em branco
Identificar colunas e determinar ordem de leitura (esquerda para direita, cima para baixo)
Reconhecer tabelas, cabeçalhos, rodapés e números de página
Separar parágrafos e manter fluxo lógico do documento

A análise de layout é onde muitos sistemas OCR têm dificuldades com documentos complexos. Um artigo acadêmico de duas colunas com notas de rodapé e figuras incorporadas requer análise sofisticada para manter a ordem de leitura correta.

Segmentação de Caracteres

O motor isola caracteres ou palavras individuais para reconhecimento. Esta etapa lida com:

Separar caracteres que se tocam ou se sobrepõem
Identificar limites de caracteres em scripts cursivos ou conectados
Lidar com espaçamento variável e kerning
Detectar e preservar caracteres e símbolos especiais

Reconhecimento de Caracteres

É aqui que a extração real de texto acontece. Motores modernos usam redes neurais LSTM (Memória de Curto e Longo Prazo) treinadas em milhões de amostras de caracteres. A rede analisa formas de caracteres, contexto e padrões para identificar cada letra, número ou símbolo.

Ao contrário de sistemas antigos de correspondência de modelos, redes neurais podem lidar com variações de fonte, texto degradado e formas de caracteres incomuns. Elas aprendem padrões em vez de corresponder modelos exatos.

Pós-processamento

O estágio final melhora a precisão através de correção inteligente:

Consulta de dicionário — Compara palavras reconhecidas com dicionários de idiomas para capturar erros óbvios
Correção de modelo de linguagem — Usa modelos estatísticos para corrigir palavras com base no contexto (por exemplo, "teh" torna-se "the")
Pontuação de confiança — Atribui pontuações de confiabilidade a cada palavra, sinalizando reconhecimentos incertos
Preservação de formato — Mantém negrito, itálico, tamanhos de fonte e outras formatações quando possível

Dica profissional: O estágio de pré-processamento é onde você tem mais controle. Uma digitalização limpa e de alta resolução com bom contraste sempre superará o pós-processamento agressivo de uma imagem de baixa qualidade.

Fatores de Precisão Que Importam

A precisão do OCR varia dramaticamente com base na qualidade da entrada e características do documento. Entender esses fatores ajuda você a otimizar seu processo de digitalização e definir expectativas realistas.

Fator	Nível de Impacto	Recomendação
Resolução de digitalização	Alto	300 DPI mínimo. 200 DPI para texto limpo. 400+ DPI para fontes pequenas ou documentos degradados.
Qualidade da imagem	Alto	Iluminação uniforme, sem sombras, página plana (sem curva da lombada do livro). Use alimentador de documentos ou scanner plano.
Tipo de fonte	Médio-Alto	Fontes padrão (Arial, Times): 98%+ de precisão. Decorativa/manuscrita: 60-80%. Fontes serifadas geralmente mais fáceis que sem serifa.
Idioma	Médio	Scripts latinos: melhor suporte. CJK (Chinês/Japonês/Coreano): bom. Árabe/Devanágari: melhorando mas menos maduro.
Idade do documento	Médio	Tinta desbotada, papel amarelado e tipos antigos reduzem a precisão. Considere limpeza manual para documentos históricos críticos.
Complexidade do layout	Médio	Coluna única: fácil. Multi-coluna, tabelas, conteúdo misto: mais difícil. Pode exigir verificação manual.
Ângulo de inclinação	Baixo-Médio	Correção automática de inclinação lida bem com até 10 graus. Além disso, gire manualmente antes do OCR.
Ruído de fundo	Médio	Marcas d'água, carimbos e padrões de fundo confundem o OCR. Digitalizações limpas ou use filtros de pré-processamento.

Análise Profunda de Resolução

A resolução de digitalização merece atenção especial porque é o fator mais controlável que afeta a precisão do OCR. Aqui está o que diferentes resoluções significam na prática:

150 DPI — Mal utilizável. Apenas para texto grande e limpo (18pt+). Espere 70-80% de precisão.
200 DPI — Aceitável para documentos padrão com fontes de 10-12pt. Precisão em torno de 90-95%.
300 DPI — O ponto ideal. Lida com a maioria dos documentos com 95-99% de precisão. Padrão da indústria.
400-600 DPI — Necessário para fontes pequenas (8pt ou menos), documentos degradados ou quando você precisa de precisão quase perfeita.
600+ DPI — Exagero para a maioria dos casos de uso. Cria arquivos enormes com melhoria mínima de precisão. Use apenas para fins de arquivo ou texto extremamente pequeno.

Maior resolução significa tamanhos de arquivo maiores. Uma digitalização colorida de 300 DPI de uma página tamanho carta tem cerca de 25 MB descomprimida. Equilibre necessidades de qualidade com armazenamento e tempo de processamento.

Dica rápida: Se você está digitalizando livros, use 400 DPI para compensar as páginas curvas perto da lombada. A distorção nas bordas do livro requer resolução extra para manter a precisão.

Comparação de Motores OCR

Vários motores OCR dominam o cenário de código aberto e comercial. Cada um tem pontos fortes e fracos dependendo do seu caso de uso.

Tesseract OCR

Tesseract é o motor OCR de código aberto mais popular, originalmente desenvolvido pela HP e agora mantido pelo Google. É o motor padrão para a maioria das ferramentas CLI e bibliotecas.

Pontos fortes:

Completamente gratuito e de código aberto
Suporta mais de 100 idiomas prontos para uso
Desenvolvimento ativo e atualizações regulares
Excelente documentação e suporte da comunidade
Funciona bem com documentos padrão e digitalizações limpas

Pontos fracos:

Tem dificuldades com layouts complexos e tabelas
Menor precisão em documentos degradados ou históricos
Requer bom pré-processamento para resultados ideais
Preservação de formato limitada (negrito, itálico, etc.)

Melhor para: OCR de uso geral, processamento em lote, integração em aplicações, projetos com orçamento limitado.

ABBYY FineReader

ABBYY é o padrão ouro comercial para precisão de OCR. É caro, mas oferece resultados superiores em documentos desafiadores.

Pontos fortes:

Taxas de precisão mais altas (99%+ em boas digitalizações)
Excelente preservação de layout e detecção de formato
Lida com tabelas complexas, formulários e layouts multi-coluna
Desempenho superior em documentos degradados
Ferramentas integradas de comparação e redação de documentos

Pontos fracos:

Licenciamento caro (centenas de dólares por usuário)
Aplicação desktop apenas para Windows (suporte Linux limitado)
Exagero para documentos simples
Código fechado sem opções de personalização

Melhor para: Gerenciamento profissional de documentos, documentos legais/médicos, projetos de arquivo com requisitos de qualidade.

Google Cloud Vision API

O serviço OCR baseado em nuvem do Google aproveita a mesma tecnologia que alimenta os recursos de digitalização de documentos do Google.

Pontos fortes:

Excelente precisão com redes neurais modernas
Lida com escrita manual melhor que a maioria das alternativas
Detecção automática de idioma
Escala sem esforço para grandes volumes
Inclui análise de estrutura de documento

Pontos fracos:

Requer conexão com a internet e chamadas de API
Custa dinheiro após o nível gratuito (1.000 páginas/mês)
Preocupações de privacidade para documentos sensíveis
Dependência de fornecedor e dependência da infraestrutura do Google

Melhor para: Aplicações com acesso à internet, tipos de documentos variáveis, projetos que precisam de reconhecimento de escrita manual.

Amazon Textract

O serviço de análise de documentos da AWS foca na extração de dados estruturados de formulários e tabelas.

Pontos fortes:

Excelente extração de formulários e tabelas
Detecção automática de pares chave-valor
Integra-se perfeitamente com o ecossistema AWS
Boa precisão em documentos comerciais

Pontos fracos:

Mais caro que o Google Cloud Vision
Exagero se você só precisa de extração de texto simples
Requer conta AWS e configuração

Melhor para: Processamento de faturas, digitalização de formulários