Аннотация:
Рассмотрена задача обнаружения нечетких дубликатов в потоке текстовых сообщений. Предложена модель документа, имеющая возможность гибкой настройки на различные предметные области. Представлен многокритериальный метод выявления дублирующихся документов на основе бинарной классификации с помощью метода опорных векторов. Предложен способ обеспечения высокого быстродействия метода посредством предварительного отбора кандидатов в дубликаты. Проведена экспериментальная оценка предложенного метода, демонстрирующая его практическую применимость.