PDF 완벽 가이드: 역사, 기능, 보안 등
· 12분 읽기
PDF로 널리 알려진 휴대용 문서 형식(Portable Document Format)은 지금까지 만들어진 가장 중요한 파일 형식 중 하나입니다. 매일 전 세계적으로 수십억 개의 PDF가 공유됩니다: 계약서 서명, 송장 처리, 연구 논문 출판, 정부 양식 제출, 그리고 책 읽기 등. 그러나 대부분의 사람들은 이 형식을 그토록 강력하고 다재다능하며 지속적으로 만드는 요소에 대해 놀랍도록 적게 알고 있습니다.
이 종합 가이드는 1990년대 초 PDF의 기원부터 디지털 서명, 대화형 양식, 장기 보관, 접근성 기능, 고급 보안을 포함한 현대적 기능까지 PDF에 대해 알아야 할 모든 것을 다룹니다. 일반 사용자든 문서 관리 전문가든, PDF를 깊이 이해하면 더 효과적으로 사용할 수 있습니다.
PDF의 역사
PDF의 이야기는 1991년 Adobe Systems 공동 창립자 John Warnock이 "The Camelot Project"를 시작하면서 시작됩니다. Warnock의 비전은 기만적으로 단순하면서도 혁명적이었습니다: 모든 애플리케이션에서 문서를 캡처하고, 전자적으로 전송하며, 모든 기기에서 보고 인쇄할 수 있는 범용 파일 형식을 만드는 것 — 완벽한 시각적 충실도로. 당시 서로 다른 컴퓨터 간에 문서를 공유하는 것은 악몽이었습니다. Macintosh에서 만든 문서는 Windows PC에서 열면 완전히 다르게 보였고, 인쇄 결과도 마찬가지로 예측할 수 없었습니다.
Adobe는 1993년 6월 PDF의 첫 번째 버전(1.0)을 PDF 파일을 만들고 볼 수 있는 최초의 애플리케이션인 Adobe Acrobat과 함께 출시했습니다. 초기 반응은 미온적이었습니다. Acrobat은 비쌌고, 무료 Reader 소프트웨어는 당시 하드웨어에 비해 무거웠으며, PDF의 주요 배포 채널이 될 인터넷은 아직 초기 단계였습니다. 많은 비평가들이 이 형식을 불필요하다고 일축했습니다.
전환점은 1994년 Adobe가 Acrobat Reader를 무료 다운로드로 제공하면서 찾아왔습니다. World Wide Web의 폭발적인 성장과 결합하여, 이 결정은 PDF를 틈새 형식에서 글로벌 표준으로 변모시켰습니다. IRS는 PDF로 세금 양식을 받기 시작했고, 정부 기관들은 공식 출판물에 이를 채택했으며, 기업들은 계약서와 보고서에 이를 받아들였습니다.
이후 수십 년 동안 PDF는 여러 버전을 거치며 진화했으며, 각 버전은 중요한 기능을 추가했습니다. PDF 1.3(2000)은 디지털 서명과 JavaScript 지원을 도입했습니다. PDF 1.4(2001)는 투명도와 접근성 기능을 가져왔습니다. PDF 1.5(2003)는 멀티미디어 콘텐츠 지원을 추가했습니다. PDF 1.7(2006)은 3D 콘텐츠와 개선된 양식 처리를 포함했습니다.
획기적인 움직임으로, Adobe는 2007년 PDF 사양을 국제표준화기구(ISO)에 제출했습니다. 2008년 PDF는 더 이상 단일 회사가 통제하지 않는 개방형 국제 표준인 ISO 32000-1이 되었습니다. 이는 PDF의 수명을 보장하고 전체 소프트웨어 산업에 걸쳐 혁신을 장려했습니다. 가장 최근 버전인 PDF 2.0(ISO 32000-2)은 2017년에 출판되고 2020년에 개선되어 현대적인 암호화 알고리즘, 개선된 접근성 태깅, 디지털 출판 워크플로우에 대한 더 나은 지원을 제공합니다.
PDF의 내부 작동 원리
PDF의 내부 구조를 이해하면 이 형식이 왜 그토록 신뢰할 수 있고 다재다능한지 알 수 있습니다. 핵심적으로 PDF 파일은 네 가지 주요 섹션으로 구성된 구조화된 바이너리 형식입니다: 헤더, 객체를 포함하는 본문, 상호 참조 테이블, 그리고 트레일러.
헤더는 파일을 PDF로 식별하고 버전 번호를 지정합니다. %PDF-1.7과 같은 간단한 텍스트 줄은 읽기 애플리케이션에 어떤 기능을 기대할지 알려줍니다. 본문은 모든 실제 콘텐츠 — 텍스트, 이미지, 글꼴, 주석 등 — 를 번호가 매겨진 객체로 저장합니다. 각 객체는 고유 식별자를 가지며 다른 객체를 참조할 수 있어 상호 연결된 콘텐츠 웹을 만듭니다.
상호 참조 테이블(xref table)은 PDF를 빠르게 만드는 요소입니다. 특정 페이지를 찾기 위해 전체 파일을 읽는 대신, 뷰어는 xref 테이블에 저장된 바이트 오프셋을 사용하여 모든 객체로 직접 이동할 수 있습니다. 이것이 500페이지 PDF가 5페이지 문서만큼 빠르게 열리는 이유입니다 — 뷰어는 현재 보기에 필요한 것만 로드합니다.
PDF는 PostScript에서 파생된 페이지 설명 언어를 사용하지만 중요한 차이점이 있습니다. PostScript는 완전한 프로그래밍 언어(튜링 완전)인 반면, PDF의 콘텐츠 스트림은 의도적으로 그래픽 연산자 세트로 제한됩니다. 이는 PDF를 예측 가능하고 안전하게 렌더링할 수 있게 만듭니다 — PDF는 PostScript 프로그램과 달리 무한 루프에 들어가거나 다른 뷰어에서 다르게 동작할 수 없습니다.
PDF의 텍스트는 변환 행렬을 사용하여 페이지에 정확하게 배치된 문자 코드 시퀀스로 저장됩니다. 이 접근 방식은 텍스트가 보기 애플리케이션에 관계없이 정확히 같은 위치에, 정확히 같은 크기와 간격으로 나타난다는 것을 의미합니다. 글꼴은 파일에 직접 포함될 수 있으며(완전히 또는 하위 집합으로), 특이한 서체도 모든 장치에서 올바르게 렌더링되도록 보장합니다.
이미지는 압축된 픽셀 데이터 스트림으로 저장되며, JPEG, JPEG2000, CCITT(흑백 스캔에 최적화), Flate(ZIP 기반 무손실 압축)를 포함한 여러 압축 알고리즘을 지원합니다. 벡터 그래픽은 PDF의 기본 그리기 연산자를 사용하며, 이는 픽셀이 아닌 수학적으로 모양을 설명합니다 — 모든 확대/축소 수준에서 선명하게 유지됩니다.
PDF/A: 아카이브 표준
50년 후 디지털 문서는 어떻게 될까요? 문서를 열 수 있는 소프트웨어가 여전히 존재할까요? 글꼴이 올바르게 렌더링될까요? 링크된 콘텐츠가 여전히 사용 가능할까요? 이러한 질문들이 장기 디지털 보존을 위해 특별히 설계된 PDF의 ISO 표준화된 하위 집합인 PDF/A의 생성을 주도했습니다.
2005년 ISO 19005-1로 출판된 PDF/A("A"는 "Archive"를 의미)는 문서가 무기한으로 자체 포함되고 재현 가능하도록 보장하는 엄격한 규칙을 부과합니다. 핵심 원칙은 간단합니다: 문서를 렌더링하는 데 필요한 모든 것이 파일 자체에 포함되어야 하며, 외부 종속성이 없어야 합니다.
PDF/A는 몇 가지 주요 요구 사항을 의무화합니다. 모든 글꼴은 완전히 포함되어야 합니다 — 미래 컴퓨터에 존재하지 않을 수 있는 시스템 글꼴을 참조하지 않습니다. 대부분의 적합성 수준에서 오디오 및 비디오 콘텐츠는 금지됩니다. 미디어 코덱이 구식이 될 수 있기 때문입니다. JavaScript 및 실행 가능한 콘텐츠는 금지되어 보안 위험과 렌더링 예측 불가능성을 제거합니다. 외부 콘텐츠 참조(URL의 링크된 이미지 등)는 허용되지 않습니다. 색 공간은 장치 독립적이어야 하며(ICC 프로파일 사용), 디스플레이 기술에 관계없이 색상이 일관되게 나타나도록 보장합니다. 적절한 카탈로그 작성 및 검색을 위해 XMP 메타데이터가 필요합니다.
표준은 여러 적합성 수준을 통해 진화했습니다. PDF/A-1(PDF 1.4 기반)은 두 가지 하위 수준으로 제공됩니다: PDF/A-1a는 완전한 접근성 태깅을 요구하고, PDF/A-1b는 시각적 재현만 요구합니다. PDF/A-2(PDF 1.7 기반)는 JPEG2000 압축, 투명도 및 레이어 지원을 추가했습니다. PDF/A-3는 임의의 파일 첨부를 허용하여 PDF/A-2를 확장했습니다 — 렌더링된 PDF와 함께 원본 소스 데이터(예: 스프레드시트)를 포함하는 사용 사례를 가능하게 합니다. PDF/A-4(2020)는 PDF 2.0을 기반으로 하며 표준을 더욱 현대화합니다.
PDF/A는 이제 전 세계 정부 기관, 법원, 도서관 및 아카이브에서 요구되거나 권장됩니다. 유럽 연합은 많은 공식 문서에 PDF/A를 의무화합니다. 미국 국립 기록 보관소와 의회 도서관은 PDF/A를 선호하는 보존 형식으로 받아들입니다. 100년 후에도 읽을 수 있는 문서가 필요하다면 PDF/A가 답입니다.
대화형 PDF 양식
PDF 양식은 정적 문서를 대화형 데이터 수집 도구로 변환합니다. 양식을 인쇄하고, 손으로 작성하고, 다시 스캔하는 대신, 사용자는 지정된 필드에 직접 입력하고, 드롭다운에서 선택하고, 상자를 체크하고, 데이터를 전자적으로 제출할 수 있습니다.
PDF는 두 가지 별개의 양식 기술을 지원합니다. AcroForms(클래식 PDF 양식이라고도 함)는 버전 1.2부터 PDF 사양의 일부였습니다. 텍스트 필드, 체크박스, 라디오 버튼, 드롭다운 목록, 서명 필드 및 작업 버튼을 지원합니다. AcroForms는 거의 모든 PDF 뷰어에서 광범위하게 지원되며 범용 양식에 가장 호환 가능한 선택으로 남아 있습니다.
XFA Forms(XML Forms Architecture)는 나중에 도입되었으며 동적 레이아웃, 서식 있는 텍스트 서식 및 복잡한 유효성 검사 논리를 포함한 더 정교한 기능을 제공합니다. 그러나 XFA는 PDF 2.0에서 더 이상 사용되지 않으며 Adobe Acrobat 외부의 많은 최신 PDF 뷰어에서 지원되지 않습니다. 새로운 양식 개발의 경우 AcroForms가 권장되는 접근 방식입니다.
최신 PDF 양식에는 계산된 필드(값 자동 합산), 조건부 가시성(이전 답변에 따라 필드 표시), 입력 유효성 검사(이메일 주소가 올바른 형식을 따르는지 확인), 자동 처리를 위한 바코드 생성까지 포함될 수 있습니다. JavaScript와 결합하면 PDF 양식은 PDF가 알려진 시각적 정밀도를 유지하면서 풍부한 대화형 경험을 제공할 수 있습니다.
대량의 양식을 처리하는 조직의 경우 PDF의 양식 데이터는 FDF(Forms Data Format) 또는 XFDF(XML Forms Data Format) 파일로 내보낼 수 있어 전체 PDF 문서를 구문 분석하지 않고도 효율적인 추출 및 데이터베이스 통합이 가능합니다. 브라우저에서 직접 양식 필드를 작업하려면 PDF 편집기를 사용하세요.
PDF의 디지털 서명
PDF의 디지털 서명은 단순한 손으로 쓴 서명 이미지를 훨씬 뛰어넘습니다. 세 가지 중요한 속성에 대한 암호화 증명을 제공합니다: 인증(누가 문서에 서명했는지 확인), 무결성(서명 이후 문서가 수정되지 않았음을 확인), 부인 방지(서명자가 서명했다는 것을 부인하지 못하도록 방지).
PDF 디지털 서명은 공개 키 인프라(PKI)를 사용합니다. PDF에 서명하면 소프트웨어는 문서 콘텐츠의 해시(디지털 지문)를 생성하고, 개인 키로 해당 해시를 암호화하고, 암호화된 해시를 디지털 인증서와 함께 PDF에 포함합니다. 누군가 서명된 PDF를 열면 뷰어는 공개 키(인증서에서)를 사용하여 해시를 해독하고, 문서의 새로운 해시를 계산하고, 두 개를 비교합니다. 일치하면 서명이 유효하고 문서가 수정되지 않은 것입니다.
PDF 사양은 여러 서명 유형을 지원합니다. 승인 서명은 문서 콘텐츠에 대한 동의를 나타냅니다 — 계약서 서명과 같습니다. 인증 서명(작성자 서명이라고도 함)은 문서 작성자가 적용하며 서명 후 허용되는 변경 사항을 지정할 수 있습니다 — 예를 들어 양식 작성은 허용하지만 콘텐츠 편집은 금지합니다. 타임스탬프는 신뢰할 수 있는 타임스탬프 기관(TSA)을 사용하여 문서가 특정 시간에 존재했다는 증거를 제공합니다.
PDF 2.0은 SHA-256, SHA-384 및 SHA-512 해시 함수를 포함한 최신 암호화 알고리즘과 기존 RSA와 함께 ECDSA(타원 곡선 디지털 서명 알고리즘)로 서명 지원을 강화했습니다. 장기 유효성 검사(LTV)는 인증서가 만료된 후에도 서명이 검증 가능하도록 보장하며, 필요한 모든 유효성 검사 데이터(인증서 체인, 해지 정보 및 타임스탬프)를 PDF 자체에 포함합니다.
PDF 디지털 서명의 법적 인정은 잘 확립되어 있습니다. 미국 ESIGN Act(2000), EU eIDAS Regulation(2014) 및 60개 이상의 국가에서 동등한 법률은 적절하게 실행된 디지털 서명을 법적 구속력이 있는 것으로 인정합니다. 금융, 의료, 부동산 및 정부를 포함한 많은 산업은 이제 우수한 보안 및 감사 가능성을 위해 습식 잉크보다 디지털 서명을 요구하거나 선호합니다.
PDF 접근성
접근 가능한 PDF는 화면 판독기, 확대 소프트웨어 또는 대체 입력 장치를 사용하는 사람들을 포함하여 모든 사람이 읽고 탐색할 수 있습니다. 전 세계적으로 10억 명 이상의 사람들이 어떤 형태의 장애를 가지고 살고 있으므로, 접근 가능한 문서는 단순히 좋은 것이 아니라 많은 상황에서 법적 요구 사항이며 근본적