PDF圧縮:品質を損なわずにファイルサイズを削減する方法
· 12分で読めます
PDFファイルは、特に高解像度の画像、埋め込みフォント、または複雑なグラフィックスが含まれている場合、扱いにくいサイズに膨れ上がることで知られています。ドキュメントをメールで送信したり、サイズ制限のあるWebポータルにアップロードしたり、単にストレージスペースを節約したりする場合、PDFを効果的に圧縮する方法を理解することが不可欠です。
この包括的なガイドでは、PDFが大きくなる原因の理解から、品質を保持する実用的な圧縮戦略の実装まで、PDF圧縮の技術的な詳細を説明します。さまざまな圧縮アルゴリズム、コマンドラインツール、および非可逆圧縮と可逆圧縮のどちらを使用するかについて学びます。
目次
PDFが大きくなる理由
PDFは基本的に、テキスト、画像、フォント、ベクターグラフィックス、JavaScript、マルチメディア要素、および広範なメタデータなど、複数のタイプのコンテンツを保持できるコンテナ形式です。ファイルサイズに寄与するものを理解することが、効果的な圧縮への第一歩です。
PDF仕様は驚くべき柔軟性を可能にしますが、これには代償が伴います。追加する各要素はファイルサイズを増加させ、適切な最適化がなければ、単純なドキュメントでも驚くほど大きくなる可能性があります。
| ソース | 典型的な影響 | 例 | 解決策 |
|---|---|---|---|
| 高解像度画像 | ファイルサイズの60-90% | 300 DPIの写真1枚で5-15 MBになる可能性 | 画面表示用に150 DPIにダウンサンプリング |
| 埋め込みフォント | フォントあたり200 KB - 5 MB | CJKフォントは10 MBを超えることも | 使用されるグリフのみを含めるフォントサブセット化を使用 |
| 非圧縮ストリーム | 必要なサイズの2-5倍 | Flate圧縮なしのテストとベクターデータ | PDF作成時にストリーム圧縮を適用 |
| 重複リソース | 可変 | すべてのページに埋め込まれた同じ画像 | リソースを一度参照し、ページ間で再利用 |
| メタデータとサムネイル | 100 KB - 2 MB | ページサムネイル、XMPメタデータ、編集履歴 | 不要なメタデータとサムネイルを削除 |
| 増分保存 | 10-50%のオーバーヘッド | 各保存は書き換えではなく変更を追加 | PDF構造全体を線形化または書き換え |
PDF情報ツールを使用して、ファイル内で何がスペースを消費しているかを正確に分析してください。この診断ステップは、圧縮を適用する前に重要です。最適化の取り組みをどこに集中させるべきかを教えてくれます。
プロのヒント:画像はほぼ常に主な原因です。PDFが5 MBを超える場合は、フォントやメタデータを心配する前に、画像の解像度と圧縮設定を調べることから始めてください。
圧縮方法の理解
PDF圧縮は単一の技術ではなく、ドキュメント内のさまざまなコンテンツタイプに適用される戦略の集合です。各タイプのコンテンツ(画像、テキスト、フォント、ベクターグラフィックス)には、異なるアプローチが必要です。
画像のダウンサンプリング
ダウンサンプリングは、画像が多いPDFに最も効果的な圧縮技術です。ピクセル数を減らすことで画像解像度を下げ、ファイルサイズを直接削減します。300 DPIの画像を150 DPIにダウンサンプリングすると、ピクセル数は約4分の1になります。
主なダウンサンプリング方法は3つあります:
- バイキュービックダウンサンプリング — 3次関数を使用してピクセル近傍を平均化することで、最高の品質を提供します。この方法は滑らかなグラデーションを生成し、写真や複雑な画像に最適です。
- 平均ダウンサンプリング — バイキュービックより高速で、よりシンプルな方法でピクセルを平均化します。品質はわずかに低くなりますが、ほとんどの使用例では許容範囲です。
- サブサンプリング — 最速の方法で、平均化せずに最も近いピクセルを選択するだけです。ブロック状のアーティファクトが発生する可能性があり、速度が重要で品質が二次的な場合にのみ使用する必要があります。
選択する解像度は、ドキュメントの使用目的に完全に依存します。画面表示では150 DPI以上が必要になることはほとんどありませんが、プロの印刷では通常300 DPI以上が必要です。
画像の再圧縮
ダウンサンプリング後、より効率的なコーデックで画像を再圧縮することで、サイズをさらに削減できます。異なる画像タイプは、異なる圧縮アルゴリズムから恩恵を受けます。
| 形式 | タイプ | 最適な用途 | 品質に関する注意 | 典型的な圧縮率 |
|---|---|---|---|---|
| JPEG | 非可逆 | 写真、スキャンされたドキュメント | 品質75-85で良好 | 10:1から20:1 |
| JPEG2000 | 非可逆/可逆 | 高品質写真 | 同じサイズでJPEGより優れている | 15:1から30:1 |
| JBIG2 | 非可逆/可逆 | 白黒テキスト/スキャン | CCITTより10-30倍小さい | 50:1から100:1 |
| Flate (ZIP) | 可逆 | スクリーンショット、図 | 完璧な品質、中程度の圧縮 | 2:1から4:1 |
| CCITT Group 4 | 可逆 | 白黒ファックス品質スキャン | 1ビット画像に最適 | 10:1から20:1 |
JPEGは、カラー写真に最も広くサポートされ、効果的な形式です。JPEG2000はより優れた圧縮を提供しますが、一部のPDFリーダーでのサポートが限られています。白黒ドキュメントの場合、JBIG2は非常に効率的ですが、専用のツールが必要です。
非可逆圧縮と可逆圧縮
非可逆圧縮と可逆圧縮の違いを理解することは、PDF最適化について情報に基づいた決定を下すための基本です。
可逆圧縮
可逆圧縮は、情報を破棄せずにファイルサイズを削減します。ファイルを解凍すると、開始時と完全に同じものが得られます。これは、正確性が重要なドキュメントに不可欠です。
一般的な可逆技術には次のものがあります:
- Flate/Deflate圧縮 — ZIPアルゴリズム、テキストストリームとベクターグラフィックスに適用
- LZW圧縮 — 古いアルゴリズム、Flateより効率が低いが、一部のPDFで使用されている
- ランレングス符号化 — 単色の大きな領域を持つ画像に効率的
- CCITT Group 4 — 白黒ファックス画像専用に設計
可逆圧縮は通常、テキストとベクターコンテンツに対して2:1から4:1の圧縮率を達成します。画像の場合、比率は画像の特性に大きく依存します。スクリーンショットはよく圧縮されますが、写真はそうではありません。
非可逆圧縮
非可逆圧縮は、人間の視覚にとって知覚しにくい情報を永久に破棄することで、はるかに高い圧縮率を達成します。一度適用すると、元のデータを回復することはできません。
重要なのは、ファイルサイズが大幅に減少するが、使用例に対して品質が許容範囲内に留まるスイートスポットを見つけることです。JPEG品質設定85は通常、非圧縮と比較してファイルサイズを80-90%削減しながら、優れた視覚品質を提供します。
クイックヒント:同じ画像に非可逆圧縮を複数回適用しないでください。各圧縮パスは品質をさらに劣化させます。再圧縮する必要がある場合は、可能であれば常に元の非圧縮ソースから始めてください。
各タイプを使用する場合
次の場合は可逆圧縮を選択してください:
- ドキュメントに完璧な正確性を必要とする法的、医療、または財務情報が含まれている
- テキストはどのズームレベルでも鮮明で読みやすい必要がある
- PDFがさらに編集または処理される
- テキスト付きの線画、図、またはスクリーンショットを扱っている
次の場合は非可逆圧縮を選択してください:
- ドキュメントが主に写真またはスキャンされた画像である
- ファイルサイズが完璧な視覚的忠実度よりも重要である
- ドキュメントは画面表示のみで、プロの印刷用ではない
- 厳格なファイルサイズ制限(メール添付、Webアップロード)を満たす必要がある
画像最適化テクニック
画像は通常PDFファイルサイズの60-90%を占めるため、それらを最適化することが最大の影響を与えます。画像最適化への体系的なアプローチは次のとおりです。
解像度ガイドライン
適切な解像度は、PDFの使用方法に完全に依存します:
- 72-96 DPI — Web表示、メール添付、モバイルデバイス
- 150 DPI — 一般的な画面表示、プレゼンテーション、内部ドキュメント
- 300 DPI — プロの印刷、高品質出力
- 600+ DPI — 美術品の複製、医療画像、アーカイブ目的
画面表示を目的としたほとんどのPDFは、知覚可能な品質損失なしに150 DPIを安全に使用できます。これだけで、300 DPI画像と比較してファイルサイズを75%削減できます。
色空間の最適化
カラー画像は、グレースケールや白黒よりも大幅に多くのデータを使用します。ドキュメントに色が必要ない場合、グレースケールに変換すると画像サイズを60-70%削減できます。
主にテキストで時折カラー要素があるドキュメントの場合、次を検討してください:
- テキストページを白黒(1ビット)に変換
- 必要不可欠なページのみをカラーで保持
- 可能な場合はカラーの代わりにグレースケールを使用
PDF to Imagesツールを使用すると、個々のページを抽出して分析し、実際にカラーが必要なページを判断できます。
JPEG品質設定
JPEG品質は通常0-100のスケールで指定されますが、正確な意味は実装によって異なります。実用的なガイドは次のとおりです:
- 90-100 — 最小限の圧縮、非常に大きなファイル、元と区別がつかない
- 85-89 — 優れた品質、良好な圧縮、ほとんどの用途に推奨
- 75-84 — 良好な品質、大幅な圧縮、WebおよびWeb画面表示に適している
- 60-74 — 許容可能な品質、高圧縮、わずかなアーティファクトが見える可能性
- 60未満 — 品質が悪い、明らかなアーティファクト、サムネイルまたはプレビューのみ
ほとんどのビジネスドキュメントとプレゼンテーションでは、80-85の品質設定がファイルサイズと視覚品質の最良のバランスを提供します。
フォントのサブセット化と埋め込み
フォントは、特に複数の書体や非ラテン文字を使用する場合、PDFファイルサイズに大きく寄与する可能性があります。フォントの埋め込みとサブセット化を理解することは、最適化にとって重要です。
フォント埋め込みの仕組み
PDFを作成する際、フォントを処理するための3つのオプションがあります:
- 完全なフォントを埋め込む — フォントファイル全体を含め、完璧なレンダリングを保証しますが、ファイルサイズが増加します
- サブセットフォントを埋め込む — ドキュメントで実際に使用されているグリフ(文字)のみを含めます
- フォントを埋め込まない — ビューアのシステムフォントに依存し、最小のファイルサイズですが、レンダリングが一貫しません
完全なフォントファイルには、複数の言語と特殊文字をカバーする数千のグリフが含まれています。ドキュメントで50文字しか使用していない場合、サブセット化により未使用のグリフが削除されます。2 MBのフォントは、サブセット化後に30 KBに縮小される可能性があります。
フォントサブセット化のベストプラクティス
最新のPDF作成ツールはデフォルトでフォントを自動的にサブセット化しますが、特に古いソフトウェアを使用している場合や他の形式から変換する場合は、これを確認する必要があります。
主な考慮事項:
- 特定の理由(フォームフィールドのテキスト入力を許可するなど)がない限り、常にフォントをサブセット化する
- CJK(中国語、日本語、韓国語)フォントは特に大きい—サブセット化が不可欠
- 複数のページが同じフォントを使用する場合、サブセットはすべてのページで共有される
- サブセット化により、ほとんどのPDFエディタでのテキスト編集が防止されます。これは最終ドキュメントにとって望ましい場合があります
プロのヒント:プログラムでPDFを作成している場合は、ライブラリの設定で常にフォントサブセット化を有効にしてください。この単一の設定により、テキストが多いドキュメントでファイルサイズを数メガバイト削減できます。
標準フォント
PDFは、すべてのPDFリーダーがサポートする必要がある14の「標準フォント」を定義しています:Times、Helvetica、Courier(それぞれレギュラー、ボールド、イタリック、ボールドイタリック)、Symbol、およびZapfDingbats。これらのフォントを使用すると、埋め込みの必要性が完全になくなります。
ただし、標準フォントには制限があります:
- 基本的なラテン文字に限定
- PDFビューア間でレンダリングがわずかに異なる
- 高度なタイポグラフィ機能のサポートなし
- 特定の書体を必要とするブランドドキュメントには適していない
使用例別の推奨設定
異なる使用例には異なる圧縮戦略が必要です。