М. Ю. Воронина, А. А. Кислицын, Ю. Н. Орлов, “Построение двухфакторных паттернов в задаче классификации текстов”, Препринты ИПМ им. М. В. Келдыша, 2022,043, 24 стр.

Эта публикация цитируется в 1 статье

Построение двухфакторных паттернов в задаче классификации текстов

М. Ю. Воронина, А. А. Кислицын, Ю. Н. Орлов

Аннотация: Построены двухфакторные паттерны эмпирических распределений частот биграмм для машинной классификации текстов по авторам и тематике. Атрибуты текста распознаются методом ближайшего соседа применительно к эталонным распределениям. Близость между распределениями понимается в смысле нормы в L1. Пара «автор-тема» неизвестного текста определяется как такая, к эталонному распределению которой тестируемый текст находится ближе всего. Анализируется проблема распознавания автора безотносительно темы текста и темы безотносительно автора. Исследуются также возможности укрупнения и детализации классификационных признаков.

Ключевые слова: машинная классификация, текст, распределение биграмм, спектральный портрет, кластеризация.

DOI: 10.20948/prepr-2022-43