RUS  ENG
Полная версия
ЖУРНАЛЫ // Препринты Института прикладной математики им. М. В. Келдыша РАН // Архив

Препринты ИПМ им. М. В. Келдыша, 2022, 043, 24 стр. (Mi ipmp3069)

Эта публикация цитируется в 1 статье

Построение двухфакторных паттернов в задаче классификации текстов

М. Ю. Воронина, А. А. Кислицын, Ю. Н. Орлов


Аннотация: Построены двухфакторные паттерны эмпирических распределений частот биграмм для машинной классификации текстов по авторам и тематике. Атрибуты текста распознаются методом ближайшего соседа применительно к эталонным распределениям. Близость между распределениями понимается в смысле нормы в L1. Пара «автор-тема» неизвестного текста определяется как такая, к эталонному распределению которой тестируемый текст находится ближе всего. Анализируется проблема распознавания автора безотносительно темы текста и темы безотносительно автора. Исследуются также возможности укрупнения и детализации классификационных признаков.

Ключевые слова: машинная классификация, текст, распределение биграмм, спектральный портрет, кластеризация.

DOI: 10.20948/prepr-2022-43



© МИАН, 2024