What DPI should I scan at for OCR?

300 DPI is the standard recommendation. 200 DPI works for clean printed text. 400-600 DPI helps with small fonts or degraded documents. Higher than 600 DPI rarely improves accuracy.

Can OCR read handwriting?

Modern OCR can read neat handwriting with 60-80% accuracy. Cursive and messy handwriting remains challenging. Specialized handwriting recognition (ICR) tools perform better than general OCR.

What is a searchable PDF?

A searchable PDF has an invisible text layer behind the scanned image. You see the original scan but can select, copy, and search the OCR-extracted text.

Is Tesseract OCR good enough?

Tesseract 5 achieves 95-99% accuracy on clean printed text. For degraded documents, complex layouts, or handwriting, commercial engines like ABBYY or Google Vision API perform better.

How do I OCR a PDF in bulk?

Use ocrmypdf for batch processing: find . -name '*.pdf' -exec ocrmypdf {} {}.ocr.pdf. It handles multi-page PDFs, skips already-OCR'd pages, and produces PDF/A output.

OCR de PDF: Extraer Texto de Documentos Escaneados

31 de marzo de 2026 · 12 min de lectura

Tabla de Contenidos

¿Qué es OCR?
Cómo Funciona el OCR
Factores de Precisión que Importan
Comparación de Motores OCR
Guía de CLI de Tesseract
ocrmypdf: La Mejor Herramienta CLI
Flujo de Trabajo Práctico de OCR
Precisión por Tipo de Documento
Solución de Problemas Comunes
Procesamiento por Lotes de Múltiples PDFs
Preguntas Frecuentes
Artículos Relacionados

¿Qué es OCR?

OCR (Reconocimiento Óptico de Caracteres) convierte imágenes de texto en texto legible por máquina. Cuando escaneas un documento en papel a PDF, el resultado es esencialmente una colección de imágenes: puedes ver el texto pero no puedes seleccionarlo, buscarlo o copiarlo. El OCR analiza estas imágenes y extrae el contenido de texto.

Un "PDF con búsqueda" tiene una capa de texto invisible posicionada detrás de la imagen escaneada. Ves el escaneo original, pero puedes presionar Ctrl+F para buscar, seleccionar texto para copiar, y los lectores de pantalla pueden leer el contenido en voz alta para accesibilidad. Esto hace que los documentos escaneados sean tan funcionales como los PDFs digitales nativos.

La tecnología OCR ha evolucionado dramáticamente durante la última década. Los sistemas tempranos dependían de la coincidencia de plantillas y requerían escaneos limpios y de alta calidad. Los motores OCR modernos usan redes neuronales de aprendizaje profundo que pueden manejar documentos degradados, múltiples idiomas y diseños complejos con notable precisión.

Los casos de uso más comunes para OCR incluyen:

Digitalizar archivos en papel y documentos históricos
Hacer que contratos escaneados y documentos legales sean buscables
Extraer datos de facturas y recibos para contabilidad
Convertir libros y artículos impresos a texto editable
Habilitar accesibilidad para usuarios con discapacidad visual
Crear repositorios buscables de documentación técnica

Prueba nuestra herramienta de OCR de PDF para hacer tus PDFs escaneados buscables en segundos. Para documentos que necesitan procesamiento adicional, consulta nuestro compresor de PDF para reducir el tamaño de los archivos después del OCR.

Cómo Funciona el OCR

Los motores OCR modernos procesan documentos a través de un sofisticado proceso de análisis de imágenes y reconocimiento de texto. Comprender este proceso te ayuda a optimizar tus escaneos para mejores resultados.

Preprocesamiento de Imagen

Antes de que ocurra cualquier reconocimiento de texto, el motor OCR prepara la imagen:

Corrección de inclinación — Detecta y corrige la rotación. Incluso una inclinación de 2 grados puede reducir la precisión en un 10-15%. El motor analiza las líneas base del texto y endereza la imagen.
Eliminación de ruido — Elimina motas, manchas de polvo y artefactos del escáner. Esto es crítico para documentos antiguos o escaneos de baja calidad.
Binarización — Convierte imágenes en escala de grises o color a blanco y negro puro. El umbral adaptativo maneja iluminación desigual y sombras.
Mejora de contraste — Afila el texto desvanecido y mejora la distinción entre texto y fondo.
Eliminación de bordes — Recorta márgenes y áreas sin texto para enfocar el procesamiento en el contenido real.

Análisis de Diseño

El motor debe entender la estructura del documento antes de leer el texto:

Detectar regiones de texto versus imágenes, diagramas y espacio en blanco
Identificar columnas y determinar el orden de lectura (izquierda a derecha, arriba a abajo)
Reconocer tablas, encabezados, pies de página y números de página
Separar párrafos y mantener el flujo lógico del documento

El análisis de diseño es donde muchos sistemas OCR tienen dificultades con documentos complejos. Un artículo académico de dos columnas con notas al pie y figuras incrustadas requiere un análisis sofisticado para mantener el orden de lectura correcto.

Segmentación de Caracteres

El motor aísla caracteres o palabras individuales para reconocimiento. Este paso maneja:

Separar caracteres que se tocan o superponen
Identificar límites de caracteres en escritura cursiva o conectada
Manejar espaciado variable y kerning
Detectar y preservar caracteres especiales y símbolos

Reconocimiento de Caracteres

Aquí es donde ocurre la extracción real del texto. Los motores modernos usan redes neuronales LSTM (Memoria a Largo y Corto Plazo) entrenadas en millones de muestras de caracteres. La red analiza formas de caracteres, contexto y patrones para identificar cada letra, número o símbolo.

A diferencia de los sistemas antiguos de coincidencia de plantillas, las redes neuronales pueden manejar variaciones de fuentes, texto degradado y formas de caracteres inusuales. Aprenden patrones en lugar de coincidir plantillas exactas.

Postprocesamiento

La etapa final mejora la precisión mediante corrección inteligente:

Búsqueda en diccionario — Compara palabras reconocidas con diccionarios de idiomas para detectar errores obvios
Corrección de modelo de lenguaje — Usa modelos estadísticos para corregir palabras basándose en el contexto (por ejemplo, "teh" se convierte en "the")
Puntuación de confianza — Asigna puntuaciones de confiabilidad a cada palabra, marcando reconocimientos inciertos
Preservación de formato — Mantiene negrita, cursiva, tamaños de fuente y otro formato cuando es posible

Consejo profesional: La etapa de preprocesamiento es donde tienes más control. Un escaneo limpio y de alta resolución con buen contraste siempre superará al postprocesamiento agresivo de una imagen de mala calidad.

Factores de Precisión que Importan

La precisión del OCR varía dramáticamente según la calidad de entrada y las características del documento. Comprender estos factores te ayuda a optimizar tu proceso de escaneo y establecer expectativas realistas.

Factor	Nivel de Impacto	Recomendación
Resolución de escaneo	Alto	300 DPI mínimo. 200 DPI para texto limpio. 400+ DPI para fuentes pequeñas o documentos degradados.
Calidad de imagen	Alto	Iluminación uniforme, sin sombras, página plana (sin curva del lomo del libro). Usa alimentador de documentos o escáner plano.
Tipo de fuente	Medio-Alto	Fuentes estándar (Arial, Times): 98%+ de precisión. Decorativas/manuscritas: 60-80%. Las fuentes serif generalmente son más fáciles que las sans-serif.
Idioma	Medio	Escrituras latinas: mejor soporte. CJK (chino/japonés/coreano): bueno. Árabe/Devanagari: mejorando pero menos maduro.
Antigüedad del documento	Medio	Tinta desvanecida, papel amarillento y tipografías antiguas reducen la precisión. Considera limpieza manual para documentos históricos críticos.
Complejidad del diseño	Medio	Una columna: fácil. Múltiples columnas, tablas, contenido mixto: más difícil. Puede requerir verificación manual.
Ángulo de inclinación	Bajo-Medio	La corrección automática maneja bien hasta 10 grados. Más allá de eso, rota manualmente antes del OCR.
Ruido de fondo	Medio	Marcas de agua, sellos y patrones de fondo confunden el OCR. Escaneos limpios o usa filtros de preprocesamiento.

Análisis Profundo de Resolución

La resolución de escaneo merece atención especial porque es el factor más controlable que afecta la precisión del OCR. Esto es lo que significan diferentes resoluciones en la práctica:

150 DPI — Apenas utilizable. Solo para texto grande y limpio (18pt+). Espera 70-80% de precisión.
200 DPI — Aceptable para documentos estándar con fuentes de 10-12pt. Precisión alrededor del 90-95%.
300 DPI — El punto óptimo. Maneja la mayoría de documentos con 95-99% de precisión. Estándar de la industria.
400-600 DPI — Necesario para fuentes pequeñas (8pt o menos), documentos degradados, o cuando necesitas precisión casi perfecta.
600+ DPI — Excesivo para la mayoría de casos de uso. Crea archivos enormes con mejora mínima de precisión. Usa solo para propósitos de archivo o texto extremadamente pequeño.

Mayor resolución significa archivos más grandes. Un escaneo a color de 300 DPI de una página tamaño carta es aproximadamente 25 MB sin comprimir. Equilibra las necesidades de calidad con el almacenamiento y el tiempo de procesamiento.

Consejo rápido: Si estás escaneando libros, usa 400 DPI para compensar las páginas curvas cerca del lomo. La distorsión en los bordes del libro requiere resolución extra para mantener la precisión.

Comparación de Motores OCR

Varios motores OCR dominan el panorama de código abierto y comercial. Cada uno tiene fortalezas y debilidades dependiendo de tu caso de uso.

Tesseract OCR

Tesseract es el motor OCR de código abierto más popular, originalmente desarrollado por HP y ahora mantenido por Google. Es el motor predeterminado para la mayoría de herramientas CLI y bibliotecas.

Fortalezas:

Completamente gratuito y de código abierto
Soporta más de 100 idiomas de fábrica
Desarrollo activo y actualizaciones regulares
Excelente documentación y soporte de la comunidad
Funciona bien con documentos estándar y escaneos limpios

Debilidades:

Tiene dificultades con diseños complejos y tablas
Menor precisión en documentos degradados o históricos
Requiere buen preprocesamiento para resultados óptimos
Preservación de formato limitada (negrita, cursiva, etc.)

Mejor para: OCR de propósito general, procesamiento por lotes, integración en aplicaciones, proyectos con presupuesto limitado.

ABBYY FineReader

ABBYY es el estándar de oro comercial para precisión de OCR. Es costoso pero ofrece resultados superiores en documentos desafiantes.

Fortalezas:

Tasas de precisión más altas (99%+ en buenos escaneos)
Excelente preservación de diseño y detección de formato
Maneja tablas complejas, formularios y diseños de múltiples columnas
Rendimiento superior en documentos degradados
Herramientas integradas de comparación y redacción de documentos

Debilidades:

Licencias costosas (cientos de dólares por usuario)
Aplicación de escritorio solo para Windows (soporte limitado en Linux)
Excesivo para documentos simples
Código cerrado sin opciones de personalización

Mejor para: Gestión profesional de documentos, documentos legales/médicos, proyectos de archivo con requisitos de calidad.

Google Cloud Vision API

El servicio OCR basado en la nube de Google aprovecha la misma tecnología que impulsa las funciones de escaneo de documentos de Google.

Fortalezas:

Excelente precisión con redes neuronales modernas
Maneja escritura a mano mejor que la mayoría de alternativas
Detección automática de idioma
Escala sin esfuerzo para grandes volúmenes
Incluye análisis de estructura de documentos

Debilidades:

Requiere conexión a internet y llamadas API
Cuesta dinero después del nivel gratuito (1,000 páginas/mes)
Preocupaciones de privacidad para documentos sensibles
Dependencia del proveedor y dependencia de la infraestructura de Google

Mejor para: Aplicaciones con acceso a internet, tipos de documentos variables, proyectos que necesitan reconocimiento de escritura a mano.

Amazon Textract

El servicio de análisis de documentos de AWS se enfoca en la extracción de datos estructurados de formularios y tablas.

Fortalezas:

Excelente extracción de formularios y tablas
Detección automática de pares clave-valor
Se integra perfectamente con el ecosistema AWS
Buena precisión en documentos comerciales

Debilidades:

Más costoso que Google Cloud Vision
Excesivo si solo necesitas extracción de texto plano
Requiere cuenta AWS y configuración

Mejor para: Procesamiento de facturas, digitalización de formularios