RUS  ENG
Полная версия
ЖУРНАЛЫ // Препринты Института прикладной математики им. М. В. Келдыша РАН // Архив

Препринты ИПМ им. М. В. Келдыша, 2017, 106, 22 стр. (Mi ipmp2322)

Эта публикация цитируется в 2 статьях

Тематическая классификация текстов с помощью спектральных портретов

Л. А. Борисов, А. Ю. Ивченко, Н. А. Митин, Ю. Н. Орлов


Аннотация: В работе рассмотрены примеры применения метода спектрального анализа несимметричных матриц для построения классификационных индикаторов при структурировании текстовой информации большого объема. Обнаружилась возможность классификации текстов по тематике на основе анализа структуры инвариантных подпространств стохастической матрицы условных вероятностей парных буквосочетаний. Выяснилось, что тексты весьма достоверно могут быть классифицированы как литературные, научные по психологии, философии, а также по естественным наукам. Индикатором разделения служит величина близости к нулю косинуса угла между левым и правым собственными векторами, отвечающими соответственно минимальному и максимальному действительным собственным значениям стохастической матрицы условных вероятностей пар буквосочетаний.

Ключевые слова: стохастическая матрица, спектральный портрет, классификация текстов.

DOI: 10.20948/prepr-2017-106



© МИАН, 2024