What DPI should I scan at for OCR?

300 DPI is the standard recommendation. 200 DPI works for clean printed text. 400-600 DPI helps with small fonts or degraded documents. Higher than 600 DPI rarely improves accuracy.

Can OCR read handwriting?

Modern OCR can read neat handwriting with 60-80% accuracy. Cursive and messy handwriting remains challenging. Specialized handwriting recognition (ICR) tools perform better than general OCR.

What is a searchable PDF?

A searchable PDF has an invisible text layer behind the scanned image. You see the original scan but can select, copy, and search the OCR-extracted text.

Is Tesseract OCR good enough?

Tesseract 5 achieves 95-99% accuracy on clean printed text. For degraded documents, complex layouts, or handwriting, commercial engines like ABBYY or Google Vision API perform better.

How do I OCR a PDF in bulk?

Use ocrmypdf for batch processing: find . -name '*.pdf' -exec ocrmypdf {} {}.ocr.pdf. It handles multi-page PDFs, skips already-OCR'd pages, and produces PDF/A output.

PDF OCR: Text aus gescannten Dokumenten extrahieren

31. März 2026 · 12 Min. Lesezeit

Inhaltsverzeichnis

Was ist OCR?
Wie OCR funktioniert
Genauigkeitsfaktoren, die wichtig sind
OCR-Engines im Vergleich
Tesseract CLI-Anleitung
ocrmypdf: Das beste CLI-Tool
Praktischer OCR-Workflow
Genauigkeit nach Dokumenttyp
Behebung häufiger Probleme
Stapelverarbeitung mehrerer PDFs
Häufig gestellte Fragen
Verwandte Artikel

Was ist OCR?

OCR (Optical Character Recognition, optische Zeichenerkennung) wandelt Textbilder in maschinenlesbaren Text um. Wenn Sie ein Papierdokument als PDF scannen, ist das Ergebnis im Wesentlichen eine Sammlung von Bildern – Sie können den Text sehen, aber nicht auswählen, durchsuchen oder kopieren. OCR analysiert diese Bilder und extrahiert den Textinhalt.

Ein „durchsuchbares PDF" verfügt über eine unsichtbare Textebene, die hinter dem gescannten Bild positioniert ist. Sie sehen den ursprünglichen Scan, können aber Strg+F drücken, um zu suchen, Text zum Kopieren auswählen, und Screenreader können den Inhalt zur Barrierefreiheit vorlesen. Dies macht gescannte Dokumente genauso funktional wie native digitale PDFs.

Die OCR-Technologie hat sich im letzten Jahrzehnt dramatisch weiterentwickelt. Frühe Systeme basierten auf Musterabgleich und erforderten saubere, hochwertige Scans. Moderne OCR-Engines verwenden Deep-Learning-neuronale Netze, die beschädigte Dokumente, mehrere Sprachen und komplexe Layouts mit bemerkenswerter Genauigkeit verarbeiten können.

Die häufigsten Anwendungsfälle für OCR umfassen:

Digitalisierung von Papierarchiven und historischen Dokumenten
Durchsuchbar machen gescannter Verträge und juristischer Dokumente
Extrahieren von Daten aus Rechnungen und Belegen für die Buchhaltung
Umwandlung gedruckter Bücher und Artikel in bearbeitbaren Text
Ermöglichung der Barrierefreiheit für sehbehinderte Benutzer
Erstellung durchsuchbarer Repositories technischer Dokumentation

Probieren Sie unser PDF OCR-Tool aus, um Ihre gescannten PDFs in Sekunden durchsuchbar zu machen. Für Dokumente, die zusätzliche Verarbeitung benötigen, schauen Sie sich unseren PDF-Kompressor an, um Dateigrößen nach der OCR zu reduzieren.

Wie OCR funktioniert

Moderne OCR-Engines verarbeiten Dokumente durch eine ausgeklügelte Pipeline aus Bildanalyse und Texterkennung. Das Verständnis dieses Prozesses hilft Ihnen, Ihre Scans für bessere Ergebnisse zu optimieren.

Bildvorverarbeitung

Bevor eine Texterkennung stattfindet, bereitet die OCR-Engine das Bild vor:

Entzerrung — Erkennt und korrigiert Drehungen. Selbst eine 2-Grad-Neigung kann die Genauigkeit um 10-15% reduzieren. Die Engine analysiert Textgrundlinien und richtet das Bild gerade aus.
Entrauschen — Entfernt Flecken, Staubflecken und Scanner-Artefakte. Dies ist kritisch für ältere Dokumente oder Scans niedriger Qualität.
Binarisierung — Wandelt Graustufen- oder Farbbilder in reines Schwarz-Weiß um. Adaptive Schwellenwertbildung bewältigt ungleichmäßige Beleuchtung und Schatten.
Kontrastverbesserung — Schärft verblassten Text und verbessert die Unterscheidung zwischen Text und Hintergrund.
Randentfernung — Schneidet Ränder und Nicht-Text-Bereiche ab, um die Verarbeitung auf den tatsächlichen Inhalt zu konzentrieren.

Layout-Analyse

Die Engine muss die Dokumentstruktur verstehen, bevor sie Text liest:

Erkennung von Textbereichen gegenüber Bildern, Diagrammen und Leerraum
Identifizierung von Spalten und Bestimmung der Lesereihenfolge (links-nach-rechts, oben-nach-unten)
Erkennung von Tabellen, Kopf- und Fußzeilen sowie Seitenzahlen
Trennung von Absätzen und Aufrechterhaltung des logischen Dokumentflusses

Die Layout-Analyse ist der Bereich, in dem viele OCR-Systeme bei komplexen Dokumenten Schwierigkeiten haben. Ein zweispaltiges wissenschaftliches Papier mit Fußnoten und eingebetteten Abbildungen erfordert eine ausgeklügelte Analyse, um die korrekte Lesereihenfolge beizubehalten.

Zeichensegmentierung

Die Engine isoliert einzelne Zeichen oder Wörter zur Erkennung. Dieser Schritt behandelt:

Trennung berührender oder überlappender Zeichen
Identifizierung von Zeichengrenzen in Schreibschrift oder verbundenen Schriften
Handhabung variabler Abstände und Unterschneidung
Erkennung und Beibehaltung von Sonderzeichen und Symbolen

Zeichenerkennung

Hier findet die eigentliche Textextraktion statt. Moderne Engines verwenden LSTM (Long Short-Term Memory) neuronale Netze, die auf Millionen von Zeichenmustern trainiert wurden. Das Netzwerk analysiert Zeichenformen, Kontext und Muster, um jeden Buchstaben, jede Zahl oder jedes Symbol zu identifizieren.

Im Gegensatz zu älteren Musterabgleichsystemen können neuronale Netze Schriftvariationen, beschädigten Text und ungewöhnliche Zeichenformen verarbeiten. Sie lernen Muster, anstatt exakte Vorlagen abzugleichen.

Nachbearbeitung

Die letzte Phase verbessert die Genauigkeit durch intelligente Korrektur:

Wörterbuch-Lookup — Vergleicht erkannte Wörter mit Sprachwörterbüchern, um offensichtliche Fehler zu erkennen
Sprachmodellkorrektur — Verwendet statistische Modelle, um Wörter basierend auf dem Kontext zu korrigieren (z.B. wird „teh" zu „the")
Konfidenzbewertung — Weist jedem Wort Zuverlässigkeitswerte zu und markiert unsichere Erkennungen
Formatbeibehaltung — Behält Fett, Kursiv, Schriftgrößen und andere Formatierungen bei, wenn möglich

Profi-Tipp: Die Vorverarbeitungsphase ist der Bereich, in dem Sie die meiste Kontrolle haben. Ein sauberer, hochauflösender Scan mit gutem Kontrast wird immer eine aggressive Nachbearbeitung eines Bildes schlechter Qualität übertreffen.

Genauigkeitsfaktoren, die wichtig sind

Die OCR-Genauigkeit variiert dramatisch basierend auf Eingabequalität und Dokumentmerkmalen. Das Verständnis dieser Faktoren hilft Ihnen, Ihren Scan-Prozess zu optimieren und realistische Erwartungen zu setzen.

Faktor	Auswirkungsniveau	Empfehlung
Scan-Auflösung	Hoch	300 DPI minimum. 200 DPI für sauberen Text. 400+ DPI für kleine Schriften oder beschädigte Dokumente.
Bildqualität	Hoch	Gleichmäßige Beleuchtung, keine Schatten, flache Seite (keine Krümmung vom Buchrücken). Verwenden Sie Dokumenteneinzug oder Flachbettscanner.
Schriftart	Mittel-Hoch	Standardschriften (Arial, Times): 98%+ Genauigkeit. Dekorativ/handgeschrieben: 60-80%. Serifenschriften generell einfacher als serifenlose.
Sprache	Mittel	Lateinische Schriften: beste Unterstützung. CJK (Chinesisch/Japanisch/Koreanisch): gut. Arabisch/Devanagari: verbessernd, aber weniger ausgereift.
Dokumentalter	Mittel	Verblasste Tinte, vergilbtes Papier und alte Schriftarten reduzieren die Genauigkeit. Erwägen Sie manuelle Bereinigung für kritische historische Dokumente.
Layout-Komplexität	Mittel	Einzelne Spalte: einfach. Mehrere Spalten, Tabellen, gemischter Inhalt: schwieriger. Kann manuelle Überprüfung erfordern.
Neigungswinkel	Niedrig-Mittel	Auto-Entzerrung bewältigt bis zu 10 Grad gut. Darüber hinaus manuell vor OCR drehen.
Hintergrundrauschen	Mittel	Wasserzeichen, Stempel und Hintergrundmuster verwirren OCR. Saubere Scans oder Verwendung von Vorverarbeitungsfiltern.

Auflösungs-Tiefenanalyse

Die Scan-Auflösung verdient besondere Aufmerksamkeit, da sie der am besten kontrollierbare Einzelfaktor ist, der die OCR-Genauigkeit beeinflusst. Hier ist, was verschiedene Auflösungen in der Praxis bedeuten:

150 DPI — Kaum verwendbar. Nur für großen, sauberen Text (18pt+). Erwarten Sie 70-80% Genauigkeit.
200 DPI — Akzeptabel für Standarddokumente mit 10-12pt Schriften. Genauigkeit um 90-95%.
300 DPI — Der Sweet Spot. Bewältigt die meisten Dokumente mit 95-99% Genauigkeit. Industriestandard.
400-600 DPI — Notwendig für kleine Schriften (8pt oder weniger), beschädigte Dokumente oder wenn Sie nahezu perfekte Genauigkeit benötigen.
600+ DPI — Übertrieben für die meisten Anwendungsfälle. Erstellt riesige Dateien mit minimaler Genauigkeitsverbesserung. Nur für Archivierungszwecke oder extrem kleinen Text verwenden.

Höhere Auflösung bedeutet größere Dateigrößen. Ein 300 DPI Farbscan einer briefgroßen Seite ist etwa 25 MB unkomprimiert. Balancieren Sie Qualitätsbedürfnisse gegen Speicher- und Verarbeitungszeit.

Schneller Tipp: Wenn Sie Bücher scannen, verwenden Sie 400 DPI, um die gekrümmten Seiten in der Nähe des Rückens zu kompensieren. Die Verzerrung an Buchkanten erfordert zusätzliche Auflösung, um die Genauigkeit aufrechtzuerhalten.

OCR-Engines im Vergleich

Mehrere OCR-Engines dominieren die Open-Source- und kommerzielle Landschaft. Jede hat Stärken und Schwächen, abhängig von Ihrem Anwendungsfall.

Tesseract OCR

Tesseract ist die beliebteste Open-Source-OCR-Engine, ursprünglich von HP entwickelt und jetzt von Google gepflegt. Es ist die Standard-Engine für die meisten CLI-Tools und Bibliotheken.

Stärken:

Vollständig kostenlos und Open Source
Unterstützt über 100 Sprachen sofort einsatzbereit
Aktive Entwicklung und regelmäßige Updates
Ausgezeichnete Dokumentation und Community-Unterstützung
Funktioniert gut mit Standarddokumenten und sauberen Scans

Schwächen:

Schwierigkeiten mit komplexen Layouts und Tabellen
Geringere Genauigkeit bei beschädigten oder historischen Dokumenten
Erfordert gute Vorverarbeitung für optimale Ergebnisse
Begrenzte Formatbeibehaltung (Fett, Kursiv usw.)

Am besten für: Allzweck-OCR, Stapelverarbeitung, Integration in Anwendungen, budgetbewusste Projekte.

ABBYY FineReader

ABBYY ist der kommerzielle Goldstandard für OCR-Genauigkeit. Es ist teuer, liefert aber überlegene Ergebnisse bei anspruchsvollen Dokumenten.

Stärken:

Höchste Genauigkeitsraten (99%+ bei guten Scans)
Ausgezeichnete Layout-Beibehaltung und Formaterkennung
Bewältigt komplexe Tabellen, Formulare und mehrspaltiges Layout
Überlegene Leistung bei beschädigten Dokumenten
Integrierte Dokumentvergleichs- und Schwärzungswerkzeuge

Schwächen:

Teure Lizenzierung (Hunderte von Dollar pro Benutzer)
Nur Windows-Desktop-Anwendung (begrenzte Linux-Unterstützung)
Übertrieben für einfache Dokumente
Closed-Source ohne Anpassungsoptionen

Am besten für: Professionelles Dokumentenmanagement, juristische/medizinische Dokumente, Archivierungsprojekte mit Qualitätsanforderungen.

Google Cloud Vision API

Googles cloudbasierter OCR-Dienst nutzt dieselbe Technologie, die Googles Dokumentenscan-Funktionen antreibt.

Stärken:

Ausgezeichnete Genauigkeit mit modernen neuronalen Netzen
Bewältigt Handschrift besser als die meisten Alternativen
Automatische Spracherkennung
Skaliert mühelos für große Volumen
Beinhaltet Dokumentstrukturanalyse

Schwächen:

Erfordert Internetverbindung und API-Aufrufe
Kostet Geld nach kostenlosem Kontingent (1.000 Seiten/Monat)
Datenschutzbedenken bei sensiblen Dokumenten
Vendor-Lock-in und Abhängigkeit von Google-Infrastruktur

Am besten für: Anwendungen mit Internetzugang, variable Dokumenttypen, Projekte, die Handschrifterkennung benötigen.

Amazon Textract

AWS's Dokumentenanalysedienst konzentriert sich auf strukturierte Datenextraktion aus Formularen und Tabellen.

Stärken:

Ausgezeichnete Formular- und Tabellenextraktion
Automatische Schlüssel-Wert-Paar-Erkennung
Integriert sich nahtlos in das AWS-Ökosystem
Gute Genauigkeit bei Geschäftsdokumenten

Schwächen:

Teurer als Google Cloud Vision
Übertrieben, wenn Sie nur Klartextextraktion benötigen
Erfordert AWS-Konto und Einrichtung

Am besten für: Rechnungsverarbeitung, Formulardigitalisierung