Аннотация:
Данная работа посвящена применению суффиксных кодов в модульной метрике для решения задач кластеризации и поиска ближайших соседей (k-nearest neighbors, kNN). Рассматриваются преимущества использования модульной метрики перед евклидовой метрикой, особенно в пространствах высокой размерности. Основной акцент сделан на разработку эффективных алгоритмов кластеризации и поиска ближайших соседей с использованием кодов, позволяющих исправить ошибки в модульной метрике. Предложенный подход обеспечивает полиномиальную сложность относительно размерности обучающей выборки, что делает его перспективным для приложений машинного обучения с большими наборами данных и высокими требованиями к производительности.
Ключевые слова:
метод k-ближайших соседей, метрики, кластеризация, коды в модульной метрике, вектор.