PDF OCR: スキャンされた文書からテキストを抽出
· 12分で読めます
目次
OCRとは?
OCR(光学文字認識)は、テキストの画像を機械可読テキストに変換します。紙の文書をPDFにスキャンすると、結果は本質的に画像の集合体です。テキストは見えますが、選択、検索、コピーはできません。OCRはこれらの画像を分析し、テキストコンテンツを抽出します。
「検索可能なPDF」には、スキャンされた画像の背後に配置された不可視のテキストレイヤーがあります。元のスキャンが表示されますが、Ctrl+Fを押して検索したり、テキストを選択してコピーしたり、スクリーンリーダーがアクセシビリティのためにコンテンツを読み上げたりできます。これにより、スキャンされた文書がネイティブデジタルPDFと同じように機能します。
OCR技術は過去10年間で劇的に進化しました。初期のシステムはテンプレートマッチングに依存し、クリーンで高品質なスキャンが必要でした。最新のOCRエンジンは、劣化した文書、複数の言語、複雑なレイアウトを驚くべき精度で処理できるディープラーニングニューラルネットワークを使用しています。
OCRの最も一般的な使用例には以下が含まれます:
- 紙のアーカイブや歴史的文書のデジタル化
- スキャンされた契約書や法的文書を検索可能にする
- 会計のために請求書や領収書からデータを抽出する
- 印刷された書籍や記事を編集可能なテキストに変換する
- 視覚障害のあるユーザーのためのアクセシビリティを実現する
- 技術文書の検索可能なリポジトリを作成する
当社のPDF OCRツールを試して、スキャンされたPDFを数秒で検索可能にしましょう。追加処理が必要な文書については、OCR後にファイルサイズを削減するためのPDF圧縮ツールをご確認ください。
OCRの仕組み
最新のOCRエンジンは、画像分析とテキスト認識の洗練されたパイプラインを通じて文書を処理します。このプロセスを理解することで、より良い結果を得るためにスキャンを最適化できます。
画像前処理
テキスト認識が行われる前に、OCRエンジンは画像を準備します:
- 傾き補正 — 回転を検出して修正します。わずか2度の傾きでも精度が10〜15%低下する可能性があります。エンジンはテキストのベースラインを分析し、画像をまっすぐにします。
- ノイズ除去 — 斑点、ほこりの跡、スキャナーのアーティファクトを除去します。これは古い文書や低品質のスキャンにとって重要です。
- 二値化 — グレースケールまたはカラー画像を純粋な白黒に変換します。適応的閾値処理は、不均一な照明や影を処理します。
- コントラスト強調 — 薄れたテキストをシャープにし、テキストと背景の区別を改善します。
- 境界除去 — 余白や非テキスト領域を切り取り、実際のコンテンツに処理を集中させます。
レイアウト分析
エンジンはテキストを読む前に文書構造を理解する必要があります:
- テキスト領域と画像、図、空白の検出
- 列の識別と読み順の決定(左から右、上から下)
- 表、ヘッダー、フッター、ページ番号の認識
- 段落の分離と論理的な文書フローの維持
レイアウト分析は、多くのOCRシステムが複雑な文書で苦労する部分です。脚注や埋め込み図を含む2列の学術論文は、正しい読み順を維持するために洗練された分析が必要です。
文字セグメンテーション
エンジンは認識のために個々の文字または単語を分離します。このステップでは以下を処理します:
- 接触または重なり合う文字の分離
- 筆記体または連結スクリプトでの文字境界の識別
- 可変スペーシングとカーニングの処理
- 特殊文字と記号の検出と保存
文字認識
ここで実際のテキスト抽出が行われます。最新のエンジンは、数百万の文字サンプルでトレーニングされたLSTM(長短期記憶)ニューラルネットワークを使用します。ネットワークは文字の形状、コンテキスト、パターンを分析して、各文字、数字、または記号を識別します。
古いテンプレートマッチングシステムとは異なり、ニューラルネットワークはフォントのバリエーション、劣化したテキスト、異常な文字形状を処理できます。正確なテンプレートをマッチングするのではなく、パターンを学習します。
後処理
最終段階では、インテリジェントな修正により精度が向上します:
- 辞書検索 — 認識された単語を言語辞書と比較して、明らかなエラーをキャッチします
- 言語モデル修正 — 統計モデルを使用してコンテキストに基づいて単語を修正します(例:「teh」が「the」になる)
- 信頼度スコアリング — 各単語に信頼性スコアを割り当て、不確実な認識にフラグを立てます
- フォーマット保存 — 可能な場合、太字、斜体、フォントサイズ、その他のフォーマットを維持します
プロのヒント: 前処理段階は、最もコントロールできる部分です。良好なコントラストを持つクリーンで高解像度のスキャンは、低品質画像の積極的な後処理を常に上回ります。
重要な精度要因
OCRの精度は、入力品質と文書の特性に基づいて劇的に変化します。これらの要因を理解することで、スキャンプロセスを最適化し、現実的な期待を設定できます。
| 要因 | 影響レベル | 推奨事項 |
|---|---|---|
| スキャン解像度 | 高 | 最低300 DPI。クリーンなテキストには200 DPI。小さなフォントや劣化した文書には400+ DPI。 |
| 画像品質 | 高 | 均一な照明、影なし、平らなページ(本の背からの曲がりなし)。ドキュメントフィーダーまたはフラットベッドスキャナーを使用。 |
| フォントタイプ | 中〜高 | 標準フォント(Arial、Times): 98%以上の精度。装飾的/手書き: 60〜80%。セリフフォントは一般的にサンセリフより簡単。 |
| 言語 | 中 | ラテン文字: 最高のサポート。CJK(中国語/日本語/韓国語): 良好。アラビア語/デーヴァナーガリー: 改善中だが成熟度は低い。 |
| 文書の年代 | 中 | 薄れたインク、黄ばんだ紙、古い書体は精度を低下させます。重要な歴史的文書には手動クリーンアップを検討してください。 |
| レイアウトの複雑さ | 中 | 単一列: 簡単。複数列、表、混合コンテンツ: 難しい。手動検証が必要な場合があります。 |
| 傾き角度 | 低〜中 | 自動傾き補正は最大10度まで適切に処理します。それを超える場合は、OCR前に手動で回転してください。 |
| 背景ノイズ | 中 | 透かし、スタンプ、背景パターンはOCRを混乱させます。クリーンなスキャンまたは前処理フィルターを使用してください。 |
解像度の詳細
スキャン解像度は、OCR精度に影響を与える最も制御可能な単一要因であるため、特別な注意が必要です。異なる解像度が実際に何を意味するかは次のとおりです:
- 150 DPI — かろうじて使用可能。大きくてクリーンなテキスト(18pt以上)のみ。70〜80%の精度を期待してください。
- 200 DPI — 10〜12ptフォントの標準文書には許容範囲。精度は約90〜95%。
- 300 DPI — スイートスポット。ほとんどの文書を95〜99%の精度で処理します。業界標準。
- 400〜600 DPI — 小さなフォント(8pt以下)、劣化した文書、またはほぼ完璧な精度が必要な場合に必要。
- 600+ DPI — ほとんどの使用例では過剰。精度の向上はわずかで、巨大なファイルを作成します。アーカイブ目的または非常に小さなテキストにのみ使用してください。
解像度が高いほど、ファイルサイズが大きくなります。レターサイズのページの300 DPIカラースキャンは、非圧縮で約25 MBです。品質のニーズとストレージおよび処理時間のバランスを取ってください。
クイックヒント: 書籍をスキャンする場合は、背の近くの湾曲したページを補正するために400 DPIを使用してください。本の端の歪みは、精度を維持するために追加の解像度が必要です。
OCRエンジンの比較
いくつかのOCRエンジンがオープンソースおよび商用の分野を支配しています。それぞれに、使用例に応じた長所と短所があります。
Tesseract OCR
Tesseractは最も人気のあるオープンソースOCRエンジンで、元々HPによって開発され、現在はGoogleによって維持されています。ほとんどのCLIツールとライブラリのデフォルトエンジンです。
長所:
- 完全に無料でオープンソース
- 100以上の言語をすぐにサポート
- 活発な開発と定期的な更新
- 優れたドキュメントとコミュニティサポート
- 標準文書とクリーンなスキャンで良好に機能
短所:
- 複雑なレイアウトと表で苦労する
- 劣化した文書や歴史的文書での精度が低い
- 最適な結果を得るには良好な前処理が必要
- 限定的なフォーマット保存(太字、斜体など)
最適な用途: 汎用OCR、バッチ処理、アプリケーションへの統合、予算重視のプロジェクト。
ABBYY FineReader
ABBYYはOCR精度の商用ゴールドスタンダードです。高価ですが、困難な文書で優れた結果を提供します。
長所:
- 最高の精度率(良好なスキャンで99%以上)
- 優れたレイアウト保存とフォーマット検出
- 複雑な表、フォーム、複数列レイアウトを処理
- 劣化した文書での優れたパフォーマンス
- 組み込みの文書比較と編集ツール
短所:
- 高価なライセンス(ユーザーあたり数百ドル)
- Windowsのみのデスクトップアプリケーション(限定的なLinuxサポート)
- シンプルな文書には過剰
- カスタマイズオプションのないクローズドソース
最適な用途: プロフェッショナルな文書管理、法的/医療文書、品質要件のあるアーカイブプロジェクト。
Google Cloud Vision API
GoogleのクラウドベースのOCRサービスは、Googleの文書スキャン機能を支える同じ技術を活用しています。
長所:
- 最新のニューラルネットワークによる優れた精度
- ほとんどの代替手段よりも手書きを適切に処理
- 自動言語検出
- 大量に対して楽にスケール
- 文書構造分析を含む
短所:
- インターネット接続とAPI呼び出しが必要
- 無料枠(月1,000ページ)後は費用がかかる
- 機密文書のプライバシーに関する懸念
- ベンダーロックインとGoogleインフラストラクチャへの依存
最適な用途: インターネットアクセスのあるアプリケーション、可変文書タイプ、手書き認識が必要なプロジェクト。
Amazon Textract
AWSの文書分析サービスは、フォームと表からの構造化データ抽出に焦点を当てています。
長所:
- 優れたフォームと表の抽出
- 自動キー値ペア検出
- AWSエコシステムとシームレスに統合
- ビジネス文書での良好な精度
短所:
- Google Cloud Visionよりも高価
- プレーンテキスト抽出だけが必要な場合は過剰
- AWSアカウントとセットアップが必要
最適な用途: 請求書処理、フォームのデジタル化