Просмотр или изменение основных метаданных PDF-документа в AcrobatДобавьте информацию о документе к своему PDF-документу, не используя Acrobat. Стандартные метаданные — это заголовок документа, список авторов и ISBN. Но можно добавить и другую информацию, например номер редакции документа, категорию, внутренний идентификатор или дату истечения срока действия. PDF-документ может хранить эту информацию двумя различными способами: используя информационный словарь Info PDF-документа или внедренный поток Extensible Metadata Platform (Расширяемая платформа метаданных — ХМР). При изменении заголовка PDF-документа, списка авторов, темы или ключевых слов с помощью Acrobat, как показано на рисунке, модифицируются оба этих ресурса. Acrobat 6, кроме того, дает возможность экспортировать или импортировать PDF ХМР-файлы данных. Для получения дополнительной информации о ХМР Adobe посетите веб-страницу http://www.adobe.com/products/xmp/.

В Acrobat 6 просмотрите и модифицируйте метаданные командой меню File\Document Properties\Description or Advanced\Document Metadata (Файл\Свойства документа\Описание или Дополнительно\ Метаданные документа). В Acrobat 5 выберите команду File\Document Properties\Summary (Файл\Свойства документа\Выводы). Сохраните свой PDF-документ после внесения изменений.

Программа pdftk в настоящее время читает и записывает только метаданные из словаря Info PDF-документа. Однако она не ограничивается только заголовком, списком авторов, темой и ключевыми словами, а позволяет при необходимости добавлять в PDF-документ пользовательские поля метаданных. Программа pdftk — свободно распространяемое программное обеспечение.

Программа pdfinfo из проекта Xpdf (http://www.foolabs.com/xpdf/) сообщает о содержании словаря Info PDF-документа, его ХМР-потоке и других данных документа. Программа pdfinfo — бесплатное программное обеспечение.

Получение метаданных документа

Чтобы создать отчет с открытым текстом о метаданных PDF-документа, используйте операцию dump_data программы pdftk. Она также сообщит о PDF-закладках и метках страниц. Пример команды:

pdftk mydoc.pdf dump.data output mydoc.data.txt

Метаданные будут представлены в виде пар ключ/значение наподобие следующего фрагмента:

InfoKey: Creator
InfoValue: Acrobat PDFMaker 6.0 for Word InfoKey: Title
InfoValue: Brian Eno: His Music and the Vertical Color of Sound InfoKey: Author InfoValue: Eric Tamm InfoKey: Producer
InfoValue: Acrobat Distiller 6.0.1 (Windows) InfoKey: ModDate
InfoValue: D:20040420234132-07’00’ InfoKey: CreationDate InfoValue: D:20040420234045-07W

Другим инструментом для получения информации о PDF-метаданных служит программа pdfinfo, которая является частью проекта Xpdf (http://www.foolabs.com/xpdf/). В дополнение к метаданным она сообщает о размере страниц, их количестве и правах доступа PDF-документа. Выполнение pdfinfo mydoc.pdf выдает сообщение наподобие следующего:

Title: Brian Eno: His Music and the Vertical Color of Sound Author: Eric Tamm
Creator: Acrobat PDFMaker 6.0 for Word
Producer: Acrobat Distiller 6.0.1 (Windows)
CreationDate: 04/20/04 23:40:45
ModDate: 04/22/04 14:39:30
Tagged: no
Pages: 216
Encrypted: no
Page size: 522 x 756 pts
File size: 1126904 bytes
Optimized: yes
PDF version: 1.4

Используйте опции программы pdfinfo для ее настройки, а опцию -meta для отображения ХМР-потока PDF-документа.

Настройка метаданных документа

Программа pdftk модифицирует словарь Info PDF-документа для получения соответствия с файлом открытого текста пар ключ/значение, но не модифицирует ХМР-поток PDF-документа. Команда может выглядеть следующим образом:

pdftk mydoc.pdf update_info new_info.txt output mydoc.updated.pdf

Ее выполнение добавит или изменит ключи Info, находящиеся в файле mydoc.new_data.txt. Обратите внимание, что имя выходного файла PDF-документа должно отличаться от имени входного файла. Чтобы удалить пару ключ/значение, просто передайте ей пустое значение, например:

InfoKey: MyDataKey

InfoValue:

Используйте программу pdftk, чтобы получить все Info и ХМР-метаданные из документа, копируя его страницы в новый PDF-документ следующим образом:

pdftk mydoc.pdf cat A output mydoc.no_metadata.pdf

PDF-спецификация определяет несколько полей Info. Будьте внимательны, используя их только так, как описано в спецификации. Это поля Title, Author, Subject, Keywords, Creator, Producer, CreationDate, ModDate и Trapped.