RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления // Архив

Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2018, том 14, выпуск 4, страницы 334–345 (Mi vspui381)

Информатика

Setting lower bounds on Jensen–Shannon divergence and its application to nearest neighbor document search

[Вычисление нижней границы дивергенции Дженсена–Шеннона и еe применение к задаче поиска ближайшего соседа]

V. Yu. Dobrynina, N. Rooneyb, J. A. Serdyukc

a St. Petersburg State University, 7–9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation
b Sophia Ltd, Northern Ireland Science Park, the Innovation Centre, Queen’s Road, Queen’s Island, Belfast, BT3 9DT, Northern Ireland
c Lomonosov Moscow State University, GSP-1, Leninskie Gory, Moscow, 119991, Russian Federation

Аннотация: Дивергенция Дженсена–Шеннона используется для определения ближайших соседей в коллекции документов для конкретного документа запроса. Это эффективный механизм, однако исчерпывающий поиск может оказаться трудоемким процессом. В этой статье покажем, определив нижнюю оценку дивергенции Дженсена–Шeннона, что возможно сократить объем вычислений на 60% для исчерпывающего поиска и на 98% для приближенного поиска на основе выполнения поиска ближайшего соседа в одной реальной коллекции документов. В этих экспериментах был применен корпус документов, который содержит 1 854 654 статьи, опубликованные в New York Times с 01.01.1987 по 19.06.2007 (The New York Times Annotated Corpus). В качестве запросов были выбраны 100 случайных документов из данного корпуса документов. Оценивается влияние на производительность на основе сокращения количества вызовов логарифмической функции. Приближенный поиск ближайшего соседа основан на кластеризации документов с помощью алгоритма контекстной кластеризации. Выполняется приближенный поиск ближайшего соседа путем нахождения некоторого набора аттракторов кластеров, которые наиболее близки запросу, и далее ограничивается поиск документов в кластерах, соответствующих выбранным аттракторам.

Ключевые слова: дивергенция Дженсена–Шеннона, поиск ближайшего соседа, снижение размерности.

УДК: 519.2

MSC: 60E05

Поступила: 5 июня 2018 г.
Принята к печати: 25 сентября 2018 г.

Язык публикации: английский

DOI: 10.21638/11701/spbu10.2018.406



Реферативные базы данных:


© МИАН, 2024