Аннотация:
Поисковый спам – одна из основных угроз для современных поисковых систем.
Спамеры используют разнообразные алгоритмы для массового порождения
неестественных текстов. Рассматривается обобщенная теоретическая
модель текстов, порождаемых на основе документов-образцов, а также предложен
новый алгоритм обнаружения неестественных текстов на основе анализа
тематической
структуры текстов. Предложенный алгоритм апробирован на синтетических и реальных
данных.