Копирование данных с PDF-страниц
Данные, извлеченные из PDF-файлов, используйте в собственных документах или электронных таблицах. Копирование данных из одного электронного документа в другой должно быть предсказуемым, как, например, процесс, изображенный на рисунке. Попытка скопировать данные из PDF-документа, однако, может оказаться неудачной. Наилучшим решением для пользователей Acrobat 6 и Adobe Reader в Windows является использование Acrobat 5.
Программа Adobe Acrobat 5 содержит превосходное дополнение для выделения текста/таблиц — TAPS. Adobe Acrobat 6 его не имеет. Поскольку дополнения к программе Acrobat являются модульными, можно скопировать TAPS-папку (под названием Table) из папки Acrobat 5 plug_ins (см. Ускорение запуска программы Acrobat) и вставить ее в папку Acrobat 6 plug_ins. Вот так-то! У вас нет Acrobat 5? Лицензия TAPS разрешает его свободное распространение. Посетите сайт http://www.pdfhacks.com/TAPS/, ознакомьтесь с лицензией и загрузите копию. У вас нет и Acrobat 6? Используйте Adobe Reader вместо этой программы. Дополнение TAPS работает и в Adobe Acrobat и в Adobe Reader.
Adobe Reader 5 и 6
В Adobe Reader имеется простой инструмент Text Select (Выделение текста), который хорошо работает с отдельными строками текста. Чтобы выделить нужный фрагмент текста, удерживайте нажатыми клавиши Alt (Версия 6) или Ctrl (Версия 5) и вытягивайте прямоугольник выделения. Многострочные параграфы, скопированные с помощью этого инструмента, не сохраняют свой формат, и будучи вставленной в программу Word каждая строка становится отдельным параграфом.
Поэтому лучше использовать дополнение TAPS, которое точно копирует параграфы и таблицы. Скопируйте полную папку Table из каталога дополнений к программе Adobe Acrobat 5 (например, C:\Program Files\Adobe\Acrobat 5.0\Acrobat\plug_ins\Table) в каталог дополнений к программе Adobe Reader (например, C:\Program Files\Adobe\Acrobat 6.0\ Reader\plug_ins). Перезапустите программу Reader.
Если у вас нет Acrobat 5, посетите сайт http://www.pdfhacks.com/TAPS/ и скачайте файл архива Acrobat _5_TAPS.zip. Разархивируйте его, а затем поместите папку TAPS в каталог plugjns программы Reader. Перезапустите программу. Теперь у вас есть инструмент выделения таблиц/форматированного текста, как показано на рисунке.
Советы по использованию TAPS
- Adobe Acrobat 5
Программа Adobe Acrobat 5 содержит такой же инструмент Text Select (Выделение текста), как и Adobe Reader. Используйте его для копирования небольших фрагментов неформатированного текста, как было описано выше.
Для того чтобы копировать форматированный текст, например параграфы, столбцы и таблицы, используйте инструмент Table\Formatted Text Select (Таблица\Форматированный текст). Он сохраняет формат параграфа и стиль текста. Проверьте его параметры настройки командой меню Edit\Preferences\Table\Formatted Text (Правка\Параметры настройки\Таблица\Форматированный текст) и убедитесь, что они соответствуют вашим целям.
Выберите инструмент TAPS, затем растяните прямоугольник вокруг текста, который хотите скопировать. Отпустите кнопку мыши, и прямоугольник выделения превратится в зону изменяемого размера. Есть два типа зон: Table (Таблица) (синяя) и Text (Текст) (зеленая). Если автоматическое определение инструмента создает неправильный тип зоны, щелкните правой кнопкой мыши на ней и в контекстном меню выберите нужный тип.
Скопируйте выбранный текст или таблицу в буфер обмена или поместите в целевую программу.
- Adobe Acrobat 6
С выделением текста в Adobe Acrobat 6 что-то пошло не так, как надо: фирма Adobe опустила инструмент выделения таблиц/форматированного текста и добавила инструмент Select Table (Выделение таблицы). Этот инструмент работает медленно и плохо во многих документах формата PDF.
Решение состоит в том, чтобы получить копию дополнения TAPS и установить ее в Adobe Acrobat 6. Предыдущий раздел «Adobe Reader 5 и 6» объясняет, как найти и установить TAPS, а раздел «Adobe Acrobat 5» — как использовать ее.
Владелец PDF-документа может запретить копирование текста документа. В таких случаях инструменты выделения текста будут заблокированы. См. раздел «Шифрование и расшифровка PDF-документов (без помощи Adobe Acrobat)», где обсуждаются вопросы PDF-безопасности.
Выделение текста на отсканированных страницах
Если страницы вашего документа — растровые изображения, а не текст, попробуйте использовать инструмент Paper Capture OCR. Он конвертирует изображение страницы в оперативный текст, хотя качество преобразования зависит от четкости растрового изображения. Проверить, является ли страница растровым изображением, можно, активизировав инструмент Text Select (Выделение текста) и затем выделив весь текст командой Edit\Select All (Правка\Выделить все). Если страница имеет какой-либо текст, инструмент выделит его. Если ничего не выделено, но страница содержит текст, то это, вероятно, растровое изображение.
Иногда текст страницы создается с помощью векторной графики. Этот вид текста не является оперативным текстом (поэтому вы не можете копировать его) и не поддается оптическому распознаванию символов.
Пользователи Adobe Acrobat 6 могут копировать PDF-документ, используя команду меню Start Capture\Paper Capture\Document (Начало сбора данных\Сбор данных с бумаги\Документ). В отличие от Acrobat 5, Acrobat 6 не имеет никакого встроенного предела количества страниц, для которого можно применять оптическое распознавание символов.
Пользователи Adobe Acrobat 5 (в Windows) должны загрузить дополнение Paper Capture от Adobe. Откройте командой меню Tools\Download Paper Capture Plug-in (Сервис\3агрузить дополнение Paper Capture) веб-страницу с командами и ссылкой к странице загрузки. Или загрузите его непосредственно с веб-страницы http://www.adobe.com/support/downloads/detail.jsp?ftpID=1907. Это дополнение к программе выполняет оптическое распознавание символов только с 50 страниц PDF-документа за один раз.