RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика // Архив

Вестн. Астрахан. гос. техн. ун-та. Сер. управление, вычисл. техн. информ., 2012, номер 1, страницы 136–141 (Mi vagtu45)

КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

Принципы построения многомерного пространства терминов в процессе анализа предметно-ориентированной коллекции документов

Р. В. Хруничев

Рязанский государственный радиотехнический университет

Аннотация: Рассматривается проблема информационного поиска в предметно-ориентированной коллекции документов, возможность осуществления поиска документов посредством применения модифицированной модели поиска, основанной на векторной модели. Модернизация векторной модели заключается в возможности применения предметно-ориентированного словаря терминов на этапе предварительной обработки текста, что позволяет сократить количество термов для последующего частотного анализа текста. Закон Ципфа и принцип Луна, применяемые на этапе частотного анализа, также позволяют значительно сократить количество анализируемых термов. Приведен принцип построения многомерного пространства терминов, основанного на векторах, описывающих документ. Приведены принципы формирования данных векторов. Перечислены преимущества применения предметно-ориентированного словаря в процессе построения пространства термов, заключающиеся в возможности выделения составных термов и, за счет этого, более точного позиционирования документа в выдаче при запросе.

Ключевые слова: предметно-ориентированная коллекция документов, частотный анализ текста, хранилище данных, пространство термов.

УДК: 002.513.5

Поступила в редакцию: 30.11.2011
Исправленный вариант: 19.12.2011



© МИАН, 2024