Аннотация:
Предложен подход к классификации текстовых документов с использованием вероятностной тематической модели, отличающейся тем, что обучающее множество документов представлено экземплярами одного класса. Этот подход позволяет отбирать положительные экземпляры, похожие на заданный класс, из коллекций и потоков текстовых документов. Рассмотрены модели, обучаемые на экземплярах одного класса, решающие задачи классификации в применении к текстовым документам, обозначены их ключевые особенности. Представлена модель классификации Positive Example Based Learning-TM и разработан программный прототип, реализующий классификацию текстовых документов на ее основе. Не имея представления об отрицательных экземплярах документов, она демонстрирует высокую точность классификации, превышающую альтернативные подходы. Экспериментально доказано превосходство Positive Example Based Learning-TM по критерию точности классификации при малом объеме обучающей выборки.
Ключевые слова:классификация, бинарная классификация, тематическое моделирование, обработка текста на естественном языке.