А. М. Андреев, Д. В. Березкин, И. А. Козлов, К. В. Симаков, “Многокритериальный метод выявления нечетких дубликатов в потоке текстовых сообщений”, Системы и средства информ., 2015, том 25, выпуск 1,страницы 34

Эта публикация цитируется в 1 статье

Многокритериальный метод выявления нечетких дубликатов в потоке текстовых сообщений

А. М. Андреев, Д. В. Березкин, И. А. Козлов, К. В. Симаков

Московский государственный технический университет им. Н. Э. Баумана

Аннотация: Рассмотрена задача обнаружения нечетких дубликатов в потоке текстовых сообщений. Предложена модель документа, имеющая возможность гибкой настройки на различные предметные области. Представлен многокритериальный метод выявления дублирующихся документов на основе бинарной классификации с помощью метода опорных векторов. Предложен способ обеспечения высокого быстродействия метода посредством предварительного отбора кандидатов в дубликаты. Проведена экспериментальная оценка предложенного метода, демонстрирующая его практическую применимость.

Ключевые слова: обнаружение нечетких дубликатов; мера близости; бинарная классификация.

Поступила в редакцию: 30.12.2014

DOI: 10.14357/08696527150103