Добавление и настройка PDF-метаданных
Добавьте информацию о документе к своему PDF-документу, не используя Acrobat. Стандартные метаданные — это заголовок документа, список авторов и ISBN. Но можно добавить и другую информацию, например номер редакции документа, категорию, внутренний идентификатор или дату истечения срока действия. PDF-документ может хранить эту информацию двумя различными способами: используя информационный словарь Info PDF-документа или внедренный поток Extensible Metadata Platform (Расширяемая платформа метаданных — ХМР). При изменении заголовка PDF-документа, списка авторов, темы или ключевых слов с помощью Acrobat, как показано на рисунке, модифицируются оба этих ресурса. Acrobat 6, кроме того, дает возможность экспортировать или импортировать PDF ХМР-файлы данных. Для получения дополнительной информации о ХМР Adobe посетите веб-страницу http://www.adobe.com/products/xmp/.
В Acrobat 6 просмотрите и модифицируйте метаданные командой меню File\Document Properties\Description or Advanced\Document Metadata (Файл\Свойства документа\Описание или Дополнительно\ Метаданные документа). В Acrobat 5 выберите команду File\Document Properties\Summary (Файл\Свойства документа\Выводы). Сохраните свой PDF-документ после внесения изменений.
Программа pdftk в настоящее время читает и записывает только метаданные из словаря Info PDF-документа. Однако она не ограничивается только заголовком, списком авторов, темой и ключевыми словами, а позволяет при необходимости добавлять в PDF-документ пользовательские поля метаданных. Программа pdftk — свободно распространяемое программное обеспечение.
Программа pdfinfo из проекта Xpdf (http://www.foolabs.com/xpdf/) сообщает о содержании словаря Info PDF-документа, его ХМР-потоке и других данных документа. Программа pdfinfo — бесплатное программное обеспечение.
Получение метаданных документа
Чтобы создать отчет с открытым текстом о метаданных PDF-документа, используйте операцию dump_data программы pdftk. Она также сообщит о PDF-закладках и метках страниц. Пример команды:
pdftk mydoc.pdf dump.data output mydoc.data.txt
Метаданные будут представлены в виде пар ключ/значение наподобие следующего фрагмента:
InfoKey: Creator
InfoValue: Acrobat PDFMaker 6.0 for Word InfoKey: Title
InfoValue: Brian Eno: His Music and the Vertical Color of Sound InfoKey: Author InfoValue: Eric Tamm InfoKey: Producer
InfoValue: Acrobat Distiller 6.0.1 (Windows) InfoKey: ModDate
InfoValue: D:20040420234132-07’00’ InfoKey: CreationDate InfoValue: D:20040420234045-07W
Другим инструментом для получения информации о PDF-метаданных служит программа pdfinfo, которая является частью проекта Xpdf (http://www.foolabs.com/xpdf/). В дополнение к метаданным она сообщает о размере страниц, их количестве и правах доступа PDF-документа. Выполнение pdfinfo mydoc.pdf выдает сообщение наподобие следующего:
Title: Brian Eno: His Music and the Vertical Color of Sound Author: Eric Tamm
Creator: Acrobat PDFMaker 6.0 for Word
Producer: Acrobat Distiller 6.0.1 (Windows)
CreationDate: 04/20/04 23:40:45
ModDate: 04/22/04 14:39:30
Tagged: no
Pages: 216
Encrypted: no
Page size: 522 x 756 pts
File size: 1126904 bytes
Optimized: yes
PDF version: 1.4
Используйте опции программы pdfinfo для ее настройки, а опцию -meta для отображения ХМР-потока PDF-документа.
Настройка метаданных документа
Программа pdftk модифицирует словарь Info PDF-документа для получения соответствия с файлом открытого текста пар ключ/значение, но не модифицирует ХМР-поток PDF-документа. Команда может выглядеть следующим образом:
pdftk mydoc.pdf update_info new_info.txt output mydoc.updated.pdf
Ее выполнение добавит или изменит ключи Info, находящиеся в файле mydoc.new_data.txt. Обратите внимание, что имя выходного файла PDF-документа должно отличаться от имени входного файла. Чтобы удалить пару ключ/значение, просто передайте ей пустое значение, например:
InfoKey: MyDataKey
InfoValue:
Используйте программу pdftk, чтобы получить все Info и ХМР-метаданные из документа, копируя его страницы в новый PDF-документ следующим образом:
pdftk mydoc.pdf cat A output mydoc.no_metadata.pdf
PDF-спецификация определяет несколько полей Info. Будьте внимательны, используя их только так, как описано в спецификации. Это поля Title, Author, Subject, Keywords, Creator, Producer, CreationDate, ModDate и Trapped.