Аннотация:
Рассмотрены вопросы автоматической классификации текстовых документов вуза в системе электронного документооборота. Представлен метод двухэтапной классификации на основе машинного обучения и числовой модели коллекции документов. Предлагается на первом этапе метода сокращать объем коллекции за счет отсеивания документов, не принадлежащих принятым классам (по оценке вероятности новизны документов). На втором этапе проводится отбор документов с наибольшими частотами вхождения слов, характерных для документов данного класса (формирование опорных векторов). Документу присваивается класс, к которому принадлежит большинство ближайших документов в соответствии с принятой метрикой расстояния. Реализован комплекс программ классификации текстовых документов, положенный в основу информационного обеспечения системы электронного документооборота вуза, и выполнены исследования, подтверждающие эффективность предлагаемого метода.
Ключевые слова:
классификация документов, новизна текстовых документов, вероятностная тематическая модель, метод опорных векторов, метод $k$-ближайших соседей.