Аннотация:
Рассматривается проблема информационного поиска в предметно-ориентированной коллекции документов, возможность осуществления поиска документов посредством применения модифицированной модели поиска, основанной на векторной модели. Модернизация векторной модели заключается в возможности применения предметно-ориентированного словаря терминов на этапе предварительной обработки текста, что позволяет сократить количество термов для последующего частотного анализа текста. Закон Ципфа и принцип Луна, применяемые на этапе частотного анализа, также позволяют значительно сократить количество анализируемых термов. Приведен принцип построения многомерного пространства терминов, основанного на векторах, описывающих документ. Приведены принципы формирования данных векторов. Перечислены преимущества применения предметно-ориентированного словаря в процессе построения пространства термов, заключающиеся в возможности выделения составных термов и, за счет этого, более точного позиционирования документа в выдаче при запросе.
Ключевые слова:предметно-ориентированная коллекция документов, частотный анализ текста, хранилище данных, пространство термов.
УДК:
002.513.5
Поступила в редакцию: 30.11.2011 Исправленный вариант: 19.12.2011