Аннотация:
Статья посвящена рассмотрению трех основных технологий рубрикации текстов (ручного рубрицирования, рубрицирования на базе знаний, рубрицирования на базе машинного обучения), описываются их преимущества и возникающие проблемы. Рассматриваются два метода автоматической рубрикации текстов, направленные на преодоление недостатков существующих методов, приводятся данные о результатах их оценки на общедоступных коллекциях. Первым методом является метод, основанный на большом лингвистическом ресурсе – тезаурусе РуТез и комплексе автоматической обработки текстов АЛОТ. Второй метод представляет собой метод машинного обучения, порождающий описания рубрик в виде булевских формул.