PDF OCR: スキャンされた文書からテキストを抽出

· 12分で読めます

目次

OCRとは?

OCR(光学文字認識)は、テキストの画像を機械可読テキストに変換します。紙の文書をPDFにスキャンすると、結果は本質的に画像の集合体です。テキストは見えますが、選択、検索、コピーはできません。OCRはこれらの画像を分析し、テキストコンテンツを抽出します。

「検索可能なPDF」には、スキャンされた画像の背後に配置された不可視のテキストレイヤーがあります。元のスキャンが表示されますが、Ctrl+Fを押して検索したり、テキストを選択してコピーしたり、スクリーンリーダーがアクセシビリティのためにコンテンツを読み上げたりできます。これにより、スキャンされた文書がネイティブデジタルPDFと同じように機能します。

OCR技術は過去10年間で劇的に進化しました。初期のシステムはテンプレートマッチングに依存し、クリーンで高品質なスキャンが必要でした。最新のOCRエンジンは、劣化した文書、複数の言語、複雑なレイアウトを驚くべき精度で処理できるディープラーニングニューラルネットワークを使用しています。

OCRの最も一般的な使用例には以下が含まれます:

当社のPDF OCRツールを試して、スキャンされたPDFを数秒で検索可能にしましょう。追加処理が必要な文書については、OCR後にファイルサイズを削減するためのPDF圧縮ツールをご確認ください。

OCRの仕組み

最新のOCRエンジンは、画像分析とテキスト認識の洗練されたパイプラインを通じて文書を処理します。このプロセスを理解することで、より良い結果を得るためにスキャンを最適化できます。

画像前処理

テキスト認識が行われる前に、OCRエンジンは画像を準備します:

レイアウト分析

エンジンはテキストを読む前に文書構造を理解する必要があります:

レイアウト分析は、多くのOCRシステムが複雑な文書で苦労する部分です。脚注や埋め込み図を含む2列の学術論文は、正しい読み順を維持するために洗練された分析が必要です。

文字セグメンテーション

エンジンは認識のために個々の文字または単語を分離します。このステップでは以下を処理します:

文字認識

ここで実際のテキスト抽出が行われます。最新のエンジンは、数百万の文字サンプルでトレーニングされたLSTM(長短期記憶)ニューラルネットワークを使用します。ネットワークは文字の形状、コンテキスト、パターンを分析して、各文字、数字、または記号を識別します。

古いテンプレートマッチングシステムとは異なり、ニューラルネットワークはフォントのバリエーション、劣化したテキスト、異常な文字形状を処理できます。正確なテンプレートをマッチングするのではなく、パターンを学習します。

後処理

最終段階では、インテリジェントな修正により精度が向上します:

プロのヒント: 前処理段階は、最もコントロールできる部分です。良好なコントラストを持つクリーンで高解像度のスキャンは、低品質画像の積極的な後処理を常に上回ります。

重要な精度要因

OCRの精度は、入力品質と文書の特性に基づいて劇的に変化します。これらの要因を理解することで、スキャンプロセスを最適化し、現実的な期待を設定できます。

要因 影響レベル 推奨事項
スキャン解像度 最低300 DPI。クリーンなテキストには200 DPI。小さなフォントや劣化した文書には400+ DPI。
画像品質 均一な照明、影なし、平らなページ(本の背からの曲がりなし)。ドキュメントフィーダーまたはフラットベッドスキャナーを使用。
フォントタイプ 中〜高 標準フォント(Arial、Times): 98%以上の精度。装飾的/手書き: 60〜80%。セリフフォントは一般的にサンセリフより簡単。
言語 ラテン文字: 最高のサポート。CJK(中国語/日本語/韓国語): 良好。アラビア語/デーヴァナーガリー: 改善中だが成熟度は低い。
文書の年代 薄れたインク、黄ばんだ紙、古い書体は精度を低下させます。重要な歴史的文書には手動クリーンアップを検討してください。
レイアウトの複雑さ 単一列: 簡単。複数列、表、混合コンテンツ: 難しい。手動検証が必要な場合があります。
傾き角度 低〜中 自動傾き補正は最大10度まで適切に処理します。それを超える場合は、OCR前に手動で回転してください。
背景ノイズ 透かし、スタンプ、背景パターンはOCRを混乱させます。クリーンなスキャンまたは前処理フィルターを使用してください。

解像度の詳細

スキャン解像度は、OCR精度に影響を与える最も制御可能な単一要因であるため、特別な注意が必要です。異なる解像度が実際に何を意味するかは次のとおりです:

解像度が高いほど、ファイルサイズが大きくなります。レターサイズのページの300 DPIカラースキャンは、非圧縮で約25 MBです。品質のニーズとストレージおよび処理時間のバランスを取ってください。

クイックヒント: 書籍をスキャンする場合は、背の近くの湾曲したページを補正するために400 DPIを使用してください。本の端の歪みは、精度を維持するために追加の解像度が必要です。

OCRエンジンの比較

いくつかのOCRエンジンがオープンソースおよび商用の分野を支配しています。それぞれに、使用例に応じた長所と短所があります。

Tesseract OCR

Tesseractは最も人気のあるオープンソースOCRエンジンで、元々HPによって開発され、現在はGoogleによって維持されています。ほとんどのCLIツールとライブラリのデフォルトエンジンです。

長所:

短所:

最適な用途: 汎用OCR、バッチ処理、アプリケーションへの統合、予算重視のプロジェクト。

ABBYY FineReader

ABBYYはOCR精度の商用ゴールドスタンダードです。高価ですが、困難な文書で優れた結果を提供します。

長所:

短所:

最適な用途: プロフェッショナルな文書管理、法的/医療文書、品質要件のあるアーカイブプロジェクト。

Google Cloud Vision API

GoogleのクラウドベースのOCRサービスは、Googleの文書スキャン機能を支える同じ技術を活用しています。

長所:

短所:

最適な用途: インターネットアクセスのあるアプリケーション、可変文書タイプ、手書き認識が必要なプロジェクト。

Amazon Textract

AWSの文書分析サービスは、フォームと表からの構造化データ抽出に焦点を当てています。

長所:

短所:

最適な用途: 請求書処理、フォームのデジタル化