А. Б. Веретенников, “Применение трехкомпонентных ключей для полнотекстового поиска с учетом расстояния с гарантированным временем отклика”, Вестн. ЮУрГУ. Сер. Выч. матем. информ., 2018, том 7, выпуск 1,страницы 60

Эта публикация цитируется в 3 статьях

Информатика, вычислительная техника и управление

Применение трехкомпонентных ключей для полнотекстового поиска с учетом расстояния с гарантированным временем отклика

А. Б. Веретенников

Уральский федеральный университет (620083 Екатеринбург, пр. им. В.И. Ленина, д. 51)

Аннотация: Рассматриваются задачи поиска фраз и наборов слов в большом объеме текстов. В результате поиска получаем список документов, содержащих заданные слова, при этом документы, где слова располагаются ближе друг к другу, считаются более релевантными. Поскольку эта задача требует сохранения в индексе информации о каждом вхождении каждого слова в текстах, запросы, включающие часто встречающиеся слова, требуют для своего выполнения длительного времени. В некоторых поисковых системах предлагается ввести список стоп слов, которые не учитываются при поиске, но этот подход снижает качество поиска. В данной работе при поиске обрабатываются все слова и применяются дополнительные индексы. С помощью дополнительных индексов время выполнения поискового запроса, включающего часто встречающиеся слова, может быть снижено в десятки раз. Разработан новый вид индекса с трехкомпонентными ключами. Приведены алгоритмы поиска и результаты экспериментов поиска в сравнении с обычными индексами. Эксперименты показывают, что при применении разработанных индексов для определенного класса запросов, состоящих из самых часто встречающихся слов, скорость поиска возрастает более чем в 90 раз.

Ключевые слова: полнотекстовый поиск, поисковые системы, инвертированные файлы, дополнительные индексы, поиск с учетом близости слов.

УДК: 519.683.5

Поступила в редакцию: 28.11.2017

DOI: 10.14529/cmse180105