RUS  ENG
Полная версия
ЖУРНАЛЫ // Проблемы передачи информации // Архив

Пробл. передачи информ., 2017, том 53, выпуск 3, страницы 100–111 (Mi ppi2248)

Эта публикация цитируется в 7 статьях

Кодирование источников

Теоретико-информационный метод классификации текстов

Б. Я. Рябкоab, А. Е. Гуськовca, И. В. Селивановаbc

a Институт вычислительных технологий СО РАН
b Новосибирский государственный университет
c Государственная публичная научно-техническая библиотека СО РАН

Аннотация: Рассматривается метод автоматической, т.е. не требующей участия человека, классификации текстов, основанный на использовании методов универсального кодирования источников информации (или “сжатия данных”). Показано, что при некоторых ограничениях предлагаемый метод состоятелен, т.е. при увеличении длины рассматриваемых текстов ошибка классификации стремится к нулю. В качестве примера практического использования метода рассматривается задача классификации научных текстов (статей, книг и т.п.). Экспериментально показано, что предлагаемый метод обладает высокой эффективностью.

УДК: 621.391.1+519.72

Поступила в редакцию: 21.10.2015
После переработки: 13.05.2017


 Англоязычная версия: Problems of Information Transmission, 2017, 53:3, 294–304

Реферативные базы данных:


© МИАН, 2024