RUS  ENG
Полная версия
ЖУРНАЛЫ // Ученые записки Казанского университета. Серия Физико-математические науки // Архив

Учён. зап. Казан. гос. ун-та. Сер. Физ.-матем. науки, 2008, том 150, книга 4, страницы 25–40 (Mi uzku698)

Эта публикация цитируется в 6 статьях

Автоматическая рубрикация текстов: методы и проблемы

М. С. Агеев, Б. В. Добров, Н. В. Лукашевич

Научно-исследовательский вычислительный центр Московского государственного университета им. М. В. Ломоносова

Аннотация: Статья посвящена рассмотрению трех основных технологий рубрикации текстов (ручного рубрицирования, рубрицирования на базе знаний, рубрицирования на базе машинного обучения), описываются их преимущества и возникающие проблемы. Рассматриваются два метода автоматической рубрикации текстов, направленные на преодоление недостатков существующих методов, приводятся данные о результатах их оценки на общедоступных коллекциях. Первым методом является метод, основанный на большом лингвистическом ресурсе – тезаурусе РуТез и комплексе автоматической обработки текстов АЛОТ. Второй метод представляет собой метод машинного обучения, порождающий описания рубрик в виде булевских формул.

Ключевые слова: обработка документов, автоматическая рубрикация, тезаурус, машинное обучение.

УДК: 004.912+004.822+004.855.5

Поступила в редакцию: 26.02.2008



© МИАН, 2024