RUS  ENG
Полная версия
ЖУРНАЛЫ // Вычислительные методы и программирование // Архив

Выч. мет. программирование, 2011, том 12, выпуск 3, страницы 58–72 (Mi vmp220)

Программирование

Метод обнаружения массово порожденных неестественных текстов на основе анализа тематической структуры

А. С. Павловa, Б. В. Добровb

a Московский государственный университет им. М.В. Ломоносова, факультет вычислительной математики и кибернетики
b Научно-исследовательский вычислительный центр, Московский государственный университет им. М.В. Ломоносова

Аннотация: Поисковый спам – одна из основных угроз для современных поисковых систем. Спамеры используют разнообразные алгоритмы для массового порождения неестественных текстов. Рассматривается обобщенная теоретическая модель текстов, порождаемых на основе документов-образцов, а также предложен новый алгоритм обнаружения неестественных текстов на основе анализа тематической структуры текстов. Предложенный алгоритм апробирован на синтетических и реальных данных.

Ключевые слова: поисковый спам; тематическая структура; моделирование.

УДК: 681.513.7



© МИАН, 2024