RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2020, том 32, выпуск 6, страницы 127–136 (Mi tisp563)

Эта публикация цитируется в 2 статьях

Иерархическая рубрикация текстовых документов

Д. И. Сорокин, А. С. Нужный, Е. А. Савельева

Институт безопасного развития атомной энергетики РАН

Аннотация: В работе представлены алгоритм и компьютерная программа иерархической рубрикации текстовой документации. Программа позволяет структурировать неупорядоченный корпус документов в виде иерархии рубрик и визуализировать результат в виде интерактивной карты. Для каждой рубрики автоматически определяются ключевые слова, по которым находятся документы, отнесенные к ней. Анализ построенной иерархии тем позволяет оценить минимальную и максимальную допустимую глубину иерархии, соответствующие минимальному и максимальному количеству различных тем, содержащихся в корпусе документов. Программа апробирована на коллекции документов по захоронению радиоактивных отходов. Результаты тестирования программы показывают хорошее качество построенной иерархии рубрик. Программа может быть использована для ознакомления с коллекцией документов и для тематического поиска.

Ключевые слова: рубрикация, иерархическая кластеризация, обработка естественного языка, машинное обучение.

DOI: 10.15514/ISPRAS-2020-32(6)-10



© МИАН, 2024