Аннотация:
Рассматривается метод автоматической, т.е. не требующей участия человека, классификации текстов, основанный на использовании методов универсального кодирования источников информации (или “сжатия данных”). Показано, что при некоторых ограничениях предлагаемый метод состоятелен, т.е. при увеличении длины рассматриваемых текстов ошибка классификации стремится к нулю. В качестве примера практического использования метода рассматривается задача классификации научных текстов (статей, книг и т.п.). Экспериментально показано, что предлагаемый метод обладает высокой эффективностью.
УДК:
621.391.1+519.72
Поступила в редакцию: 21.10.2015 После переработки: 13.05.2017