Отчет о частоте слов, упорядоченный по количеству использования их в документе

Дополните стратегию поиска документа ключевыми словами.Ключевые слова могут играть важную роль в стратегии поиска, давая вам понимание темы документа. Заголовки документа, перечисленные в оглавлении, показывают схему его разделов. Ключевые слова относятся к полному тексту документа, они заполняют промежутки между формальными разделами и их фактической обработкой. Этот метод взлома позволяет найти ключевые слова PDF-документа, используя программу kw_catcher.

Как работает генератор ключевых слов kw_catcher

Автоматическое обнаружение ключевых слов — сложная проблема. Чтобы упростить ее, мы собираемся ввести несколько ограничений. Во-первых, рассматриваемый документ имеет 50 страниц или больше. Во-вторых, заголовок документа известен, и мы не собираемся искать общую тему документа, которая соответствует его заголовку. Мы попробуем обнаружить подтемы, которые имеются всюду в документе.

Игнорируемые слова, фон и сигнал. Игнорируемые слова (stopwords) — слова, которые наиболее часто появляются в почти любом документе, такие как the, of, and, to (и, на, в) и т. д. Эти слова не помогут нам идентифицировать разделы, потому что используются во всех разделах. Слова, которые используются с одинаковой частотой в документе, называют фоном. Игнорируемые слова — лучший пример фона. В любом документе к фону добавляется множество других слов.

Мы попробуем найти сигнал документа, который является набором слов, определяющих тему. Автоматически отделить сигнал от фона довольно сложно.

Введем ограничение, что заголовок документа или общая тема известны. Основная тема проходит через весь документ. Например, слово PDF так часто встречается в этой статье, что напоминает фон.

Идентификация местных тем. Частота слова — это количество раз, которое оно появляется в документе. Сама по себе она не поможет нам, потому что фоновые и сигнальные слова могут встречаться с любой частотой.

Вместо этого рассмотрим частоту слова в данном окне страниц и сравним ее с общей частотой слова в документе. Например, слово «частота» встречается на этом сайте десять раз, и в девяти из этих случаев находится в пределах нескольких страниц. Это отличает его от постоянного фона документа, поэтому оно может быть ключевым словом.

Это центральная идея, лежащая в основе работы программы kw_catcher. Она использует несколько других методов, чтобы гарантировать правильный выбор ключевого слова. Программа kw_catcher является бесплатным программным обеспечением.

Установка и использование утилиты pdftotext

Прежде чем анализировать текст PDF-файла на наличие ключевых слов, его необходимо конвертировать в файл открытого текста.

Модуль Xpdf (http://www.foolabs.com/xpdf/) включает утилиту командной строки pdftotext, преобразующую PDF-документ в файл открытого текста. Xpdf — свободно распространяемое программное обеспечение.

Пользователи Windows могут загрузить архив xpdf-3.00-win32.zip с веб-страницы http://www.foolabs.com/xpdf/download.html. Разархивируйте его и скопируйте файл pdftotext.exe в папку: C:\Windows\system32\. Пользователи Macintosh OS X могут загрузить инсталлятор pdftotext с веб-страницы http://www.carsten-bluem.de/downloads/pdftotext_en/.

Запустите утилиту pdftotext из командной строки следующим образом:

pdftotext input.pdfoutput.txt

Программа kw_catcher отмечает конец каждой страницы любого файла открытого текста, использующего символ прогона страницы (0х0С).

Установка и использование программы kw_catcher

Посетите веб-страницу http://www.pdfhacks.com/kw_index/ и загрузите архив kw_index-1.0.zip. Этот архив содержит Windows-программы и исходный код на языке С++. Разархивируйте его и поместите файлы kw_catcher.exe и page_refs.exe в папку C:\Windows\system32\. Или скомпилируйте исходный код для использования на вашей платформе. Выполните kw_catcher из командной строки:

kw_catcher <window size> <report style> <text input filename>

где параметры задаются следующим образом:

  • <window size> Количество последовательных страниц, используемых для идентификации пиков частоты слова. Если большинство появлений слова занимает окно этого размера, то это — ключевое слово. Большое окно допускает больше фона, тогда как маленькое окно теряет сигнал. Попробуйте начать с размера 12 и затем скорректировать это значение.
  • <report style> Представление данных.
  • keywords_only — Создать основной список ключевых слов.
  • frequency — Упорядочить ключевые слова по числу их появлений в документе.
  • reading_order — Выводить каждое ключевое слово только один раз в порядке его появления в первоначальном тексте.
  • reading_order_repeat — Выводить ключевые слова так, как они появляются в первоначальном тексте.
  • <text input filename> Имя файла для ввода открытого текста. Как правило, этот ввод выполнятся с помощью утилиты pdftotext.

Если все правильно, вы получите результаты, подобные показанным на рисунке .
Например, создание списка ключевых слов под названием mydoc.kw.txt из файла mydoc.pdf будет выглядеть примерно так:

pdftotext mydoc.pdf mydoc.txt
kw_catcher 12 keywords_only mydoc.txt > mydoc.kw.txt