Б. Я. Рябко, А. Е. Гуськов, И. В. Селиванова, “Теоретико-информационный метод классификации текстов”, Пробл. передачи информ., 2017, том 53, выпуск 3,страницы 100

Эта публикация цитируется в 7 статьях

Кодирование источников

Теоретико-информационный метод классификации текстов

Б. Я. Рябко^ab, А. Е. Гуськов^ca, И. В. Селиванова^bc

^a Институт вычислительных технологий СО РАН
^b Новосибирский государственный университет
^c Государственная публичная научно-техническая библиотека СО РАН

Аннотация: Рассматривается метод автоматической, т.е. не требующей участия человека, классификации текстов, основанный на использовании методов универсального кодирования источников информации (или “сжатия данных”). Показано, что при некоторых ограничениях предлагаемый метод состоятелен, т.е. при увеличении длины рассматриваемых текстов ошибка классификации стремится к нулю. В качестве примера практического использования метода рассматривается задача классификации научных текстов (статей, книг и т.п.). Экспериментально показано, что предлагаемый метод обладает высокой эффективностью.

УДК: 621.391.1+519.72

Поступила в редакцию: 21.10.2015
После переработки: 13.05.2017