А. В. Боровский, Е. Е. Раковская, А. Л. Бисикало, “Дискриминантный анализ технических коротких текстов”, Вестн. Астрахан. гос. техн. ун-та. Сер. управление, вычисл. техн. информ., 2018, номер 2,страницы 53

Эта публикация цитируется в 2 статьях

КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

Дискриминантный анализ технических коротких текстов

А. В. Боровский^a, Е. Е. Раковская^a, А. Л. Бисикало^b

^a Байкальский государственный университет
^b Иркутский государственный университет

Аннотация: Большое внимание к обработке текстовой информации для формирования тематических групп и систематизации документов, обусловленное развитием и ростом популярности Интернета как средства коммуникации, требует категоризации коротких технических текстов, которая, в свою очередь, характеризуется сложностью традиционных подходов (проведением предобработки и «оцифровки» документов, идентификацией «классифицирующих» признаков, выбором методов классификации). Специфичность исследования на каждом этапе обусловлена характеристикой текста: небольшим размером, употреблением сходной лексики, наличием большого количества узкоспециальных символов и обозначений, синонимией терминов. Предложено описание процедуры подготовки текстов к анализу, снижения размерности матрицы «термин – документ» с помощью сингулярного разложения, позволяющего решить задачу малоранговой аппроксимации исходной матрицы. Применяемые методы классификации — метод $k$-ближайших соседей и дискриминантный анализ с использованием элементарных функций Фишера. В процедуре классификации по методу Фишера используются дискриминантные переменные и прием максимизации различий между классами для получения функции классификации. Объект относится к тому классу, для которого значение классифицирующей функции является наибольшим. Дана оценка полученных результатов, отмечается недостаточная точность классификации при применении меры $TF - IDF$ в условиях эксперимента. Для улучшения качества классификации предложен комбинированный метод, в рамках которого предлагается на первом этапе провести селекцию слов при помощи меры $TF - IDF$, на втором этапе применить словарь терминов и словосочетаний для классификации текстов. На основании полученных данных предлагается провести классификацию методами дискриминантного анализа и $k$-ближайших соседей. В будущем планируются уточнение и доработка предлагаемого комбинированного метода.

Ключевые слова: классификация коротких текстов, определение веса терминов, сингулярное разложение, дискриминантный анализ, элементарные функции Фишера, метод $k$-ближайших соседей.

УДК: 004.93

Поступила в редакцию: 05.03.2018

DOI: 10.24143/2072-9502-2018-2-53-60