What DPI should I scan at for OCR?

300 DPI is the standard recommendation. 200 DPI works for clean printed text. 400-600 DPI helps with small fonts or degraded documents. Higher than 600 DPI rarely improves accuracy.

Can OCR read handwriting?

Modern OCR can read neat handwriting with 60-80% accuracy. Cursive and messy handwriting remains challenging. Specialized handwriting recognition (ICR) tools perform better than general OCR.

What is a searchable PDF?

A searchable PDF has an invisible text layer behind the scanned image. You see the original scan but can select, copy, and search the OCR-extracted text.

Is Tesseract OCR good enough?

Tesseract 5 achieves 95-99% accuracy on clean printed text. For degraded documents, complex layouts, or handwriting, commercial engines like ABBYY or Google Vision API perform better.

How do I OCR a PDF in bulk?

Use ocrmypdf for batch processing: find . -name '*.pdf' -exec ocrmypdf {} {}.ocr.pdf. It handles multi-page PDFs, skips already-OCR'd pages, and produces PDF/A output.

OCR PDF : Extraire le texte de documents numérisés

31 mars 2026 · 12 min de lecture

Table des matières

Qu'est-ce que l'OCR ?
Comment fonctionne l'OCR
Facteurs de précision importants
Comparaison des moteurs OCR
Guide CLI Tesseract
ocrmypdf : Le meilleur outil CLI
Flux de travail OCR pratique
Précision par type de document
Résolution des problèmes courants
Traitement par lots de plusieurs PDF
Questions fréquemment posées
Articles connexes

Qu'est-ce que l'OCR ?

L'OCR (Reconnaissance Optique de Caractères) convertit les images de texte en texte lisible par machine. Lorsque vous numérisez un document papier en PDF, le résultat est essentiellement une collection d'images — vous pouvez voir le texte mais ne pouvez pas le sélectionner, le rechercher ou le copier. L'OCR analyse ces images et extrait le contenu textuel.

Un « PDF consultable » possède une couche de texte invisible positionnée derrière l'image numérisée. Vous voyez la numérisation originale, mais vous pouvez appuyer sur Ctrl+F pour rechercher, sélectionner du texte pour le copier, et les lecteurs d'écran peuvent lire le contenu à voix haute pour l'accessibilité. Cela rend les documents numérisés aussi fonctionnels que les PDF numériques natifs.

La technologie OCR a considérablement évolué au cours de la dernière décennie. Les premiers systèmes reposaient sur la correspondance de modèles et nécessitaient des numérisations propres et de haute qualité. Les moteurs OCR modernes utilisent des réseaux neuronaux d'apprentissage profond capables de traiter des documents dégradés, plusieurs langues et des mises en page complexes avec une précision remarquable.

Les cas d'utilisation les plus courants de l'OCR incluent :

Numériser les archives papier et les documents historiques
Rendre les contrats numérisés et les documents juridiques consultables
Extraire des données de factures et de reçus pour la comptabilité
Convertir des livres et articles imprimés en texte modifiable
Permettre l'accessibilité pour les utilisateurs malvoyants
Créer des référentiels consultables de documentation technique

Essayez notre outil OCR PDF pour rendre vos PDF numérisés consultables en quelques secondes. Pour les documents nécessitant un traitement supplémentaire, consultez notre compresseur PDF pour réduire la taille des fichiers après l'OCR.

Comment fonctionne l'OCR

Les moteurs OCR modernes traitent les documents à travers un pipeline sophistiqué d'analyse d'image et de reconnaissance de texte. Comprendre ce processus vous aide à optimiser vos numérisations pour de meilleurs résultats.

Prétraitement d'image

Avant toute reconnaissance de texte, le moteur OCR prépare l'image :

Redressement — Détecte et corrige la rotation. Même une inclinaison de 2 degrés peut réduire la précision de 10 à 15 %. Le moteur analyse les lignes de base du texte et redresse l'image.
Débruitage — Supprime les taches, les points de poussière et les artefacts du scanner. Ceci est essentiel pour les documents anciens ou les numérisations de faible qualité.
Binarisation — Convertit les images en niveaux de gris ou en couleur en noir et blanc pur. Le seuillage adaptatif gère l'éclairage inégal et les ombres.
Amélioration du contraste — Accentue le texte délavé et améliore la distinction entre le texte et l'arrière-plan.
Suppression des bordures — Recadre les marges et les zones sans texte pour concentrer le traitement sur le contenu réel.

Analyse de mise en page

Le moteur doit comprendre la structure du document avant de lire le texte :

Détecter les régions de texte par rapport aux images, diagrammes et espaces blancs
Identifier les colonnes et déterminer l'ordre de lecture (gauche à droite, haut en bas)
Reconnaître les tableaux, en-têtes, pieds de page et numéros de page
Séparer les paragraphes et maintenir le flux logique du document

L'analyse de mise en page est l'endroit où de nombreux systèmes OCR ont du mal avec les documents complexes. Un article académique à deux colonnes avec des notes de bas de page et des figures intégrées nécessite une analyse sophistiquée pour maintenir l'ordre de lecture correct.

Segmentation des caractères

Le moteur isole les caractères ou mots individuels pour la reconnaissance. Cette étape gère :

Séparer les caractères qui se touchent ou se chevauchent
Identifier les limites des caractères dans les scripts cursifs ou connectés
Gérer l'espacement et le crénage variables
Détecter et préserver les caractères spéciaux et les symboles

Reconnaissance des caractères

C'est là que l'extraction de texte réelle se produit. Les moteurs modernes utilisent des réseaux neuronaux LSTM (Long Short-Term Memory) entraînés sur des millions d'échantillons de caractères. Le réseau analyse les formes de caractères, le contexte et les motifs pour identifier chaque lettre, chiffre ou symbole.

Contrairement aux anciens systèmes de correspondance de modèles, les réseaux neuronaux peuvent gérer les variations de police, le texte dégradé et les formes de caractères inhabituelles. Ils apprennent des motifs plutôt que de faire correspondre des modèles exacts.

Post-traitement

L'étape finale améliore la précision grâce à une correction intelligente :

Recherche dans le dictionnaire — Compare les mots reconnus aux dictionnaires de langue pour détecter les erreurs évidentes
Correction du modèle de langue — Utilise des modèles statistiques pour corriger les mots en fonction du contexte (par ex., « teh » devient « the »)
Score de confiance — Attribue des scores de fiabilité à chaque mot, signalant les reconnaissances incertaines
Préservation du format — Maintient le gras, l'italique, les tailles de police et autres formatages lorsque c'est possible

Conseil de pro : L'étape de prétraitement est celle où vous avez le plus de contrôle. Une numérisation propre et haute résolution avec un bon contraste surpassera toujours un post-traitement agressif d'une image de mauvaise qualité.

Facteurs de précision importants

La précision de l'OCR varie considérablement en fonction de la qualité d'entrée et des caractéristiques du document. Comprendre ces facteurs vous aide à optimiser votre processus de numérisation et à définir des attentes réalistes.

Facteur	Niveau d'impact	Recommandation
Résolution de numérisation	Élevé	300 DPI minimum. 200 DPI pour texte propre. 400+ DPI pour petites polices ou documents dégradés.
Qualité d'image	Élevé	Éclairage uniforme, pas d'ombres, page plate (pas de courbure de la reliure du livre). Utilisez un chargeur de documents ou un scanner à plat.
Type de police	Moyen-Élevé	Polices standard (Arial, Times) : précision de 98 %+. Décorative/manuscrite : 60-80 %. Les polices à empattement sont généralement plus faciles que les sans-empattement.
Langue	Moyen	Scripts latins : meilleur support. CJC (chinois/japonais/coréen) : bon. Arabe/Devanagari : en amélioration mais moins mature.
Âge du document	Moyen	Encre délavée, papier jauni et anciennes polices réduisent la précision. Envisagez un nettoyage manuel pour les documents historiques critiques.
Complexité de mise en page	Moyen	Colonne unique : facile. Multi-colonnes, tableaux, contenu mixte : plus difficile. Peut nécessiter une vérification manuelle.
Angle d'inclinaison	Faible-Moyen	Le redressement automatique gère bien jusqu'à 10 degrés. Au-delà, faites pivoter manuellement avant l'OCR.
Bruit de fond	Moyen	Les filigranes, tampons et motifs d'arrière-plan perturbent l'OCR. Numérisations propres ou utilisez des filtres de prétraitement.

Analyse approfondie de la résolution

La résolution de numérisation mérite une attention particulière car c'est le facteur le plus contrôlable affectant la précision de l'OCR. Voici ce que signifient différentes résolutions en pratique :

150 DPI — À peine utilisable. Uniquement pour texte grand et propre (18pt+). Attendez-vous à une précision de 70-80 %.
200 DPI — Acceptable pour les documents standard avec des polices de 10-12pt. Précision d'environ 90-95 %.
300 DPI — Le point idéal. Gère la plupart des documents avec une précision de 95-99 %. Norme de l'industrie.
400-600 DPI — Nécessaire pour les petites polices (8pt ou moins), les documents dégradés ou lorsque vous avez besoin d'une précision quasi parfaite.
600+ DPI — Excessif pour la plupart des cas d'utilisation. Crée d'énormes fichiers avec une amélioration minimale de la précision. À utiliser uniquement à des fins d'archivage ou pour du texte extrêmement petit.

Une résolution plus élevée signifie des fichiers plus volumineux. Une numérisation couleur de 300 DPI d'une page au format lettre fait environ 25 Mo non compressée. Équilibrez les besoins de qualité avec le stockage et le temps de traitement.

Conseil rapide : Si vous numérisez des livres, utilisez 400 DPI pour compenser les pages courbées près de la reliure. La distorsion aux bords du livre nécessite une résolution supplémentaire pour maintenir la précision.

Comparaison des moteurs OCR

Plusieurs moteurs OCR dominent le paysage open source et commercial. Chacun a des forces et des faiblesses selon votre cas d'utilisation.

Tesseract OCR

Tesseract est le moteur OCR open source le plus populaire, développé à l'origine par HP et maintenant maintenu par Google. C'est le moteur par défaut pour la plupart des outils CLI et des bibliothèques.

Forces :

Complètement gratuit et open source
Prend en charge plus de 100 langues prêtes à l'emploi
Développement actif et mises à jour régulières
Excellente documentation et support communautaire
Fonctionne bien avec les documents standard et les numérisations propres

Faiblesses :

Difficultés avec les mises en page complexes et les tableaux
Précision inférieure sur les documents dégradés ou historiques
Nécessite un bon prétraitement pour des résultats optimaux
Préservation limitée du format (gras, italique, etc.)

Idéal pour : OCR polyvalent, traitement par lots, intégration dans des applications, projets soucieux du budget.

ABBYY FineReader

ABBYY est la référence commerciale en matière de précision OCR. C'est cher mais offre des résultats supérieurs sur les documents difficiles.

Forces :

Taux de précision les plus élevés (99 %+ sur de bonnes numérisations)
Excellente préservation de la mise en page et détection du format
Gère les tableaux complexes, les formulaires et les mises en page multi-colonnes
Performance supérieure sur les documents dégradés
Outils intégrés de comparaison et de caviardage de documents

Faiblesses :

Licence coûteuse (des centaines de dollars par utilisateur)
Application de bureau Windows uniquement (support Linux limité)
Excessif pour les documents simples
Source fermée sans options de personnalisation

Idéal pour : Gestion professionnelle de documents, documents juridiques/médicaux, projets d'archivage avec exigences de qualité.

API Google Cloud Vision

Le service OCR basé sur le cloud de Google exploite la même technologie qui alimente les fonctionnalités de numérisation de documents de Google.

Forces :

Excellente précision avec des réseaux neuronaux modernes
Gère mieux l'écriture manuscrite que la plupart des alternatives
Détection automatique de la langue
Évolue sans effort pour de gros volumes
Inclut l'analyse de la structure du document

Faiblesses :

Nécessite une connexion Internet et des appels API
Coûte de l'argent après le niveau gratuit (1 000 pages/mois)
Préoccupations de confidentialité pour les documents sensibles
Verrouillage du fournisseur et dépendance à l'infrastructure Google

Idéal pour : Applications avec accès Internet, types de documents variables, projets nécessitant la reconnaissance de l'écriture manuscrite.

Amazon Textract

Le service d'analyse de documents d'AWS se concentre sur l'extraction de données structurées à partir de formulaires et de tableaux.

Forces :

Excellente extraction de formulaires et de tableaux
Détection automatique de paires clé-valeur
S'intègre parfaitement à l'écosystème AWS
Bonne précision sur les documents commerciaux

Faiblesses :

Plus cher que Google Cloud Vision
Excessif si vous avez juste besoin d'extraction de texte brut
Nécessite un compte AWS et une configuration

Idéal pour : Traitement de factures, numérisation de formulaires