Эта публикация цитируется в
2 статьях
КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА
Дискриминантный анализ технических коротких текстов
А. В. Боровскийa,
Е. Е. Раковскаяa,
А. Л. Бисикалоb a Байкальский государственный университет
b Иркутский государственный университет
Аннотация:
Большое внимание к обработке текстовой информации для формирования тематических групп и систематизации документов, обусловленное развитием и ростом популярности Интернета как средства коммуникации, требует категоризации коротких технических текстов, которая, в свою очередь, характеризуется сложностью традиционных подходов (проведением предобработки и «оцифровки» документов, идентификацией «классифицирующих» признаков, выбором методов классификации). Специфичность исследования на каждом этапе обусловлена характеристикой текста: небольшим размером, употреблением сходной лексики, наличием большого количества узкоспециальных символов и обозначений, синонимией терминов. Предложено описание процедуры подготовки текстов к анализу, снижения размерности матрицы «термин – документ» с помощью сингулярного разложения, позволяющего решить задачу малоранговой аппроксимации исходной матрицы. Применяемые методы классификации — метод
$k$-ближайших соседей и дискриминантный анализ с использованием элементарных функций Фишера. В процедуре классификации по методу Фишера используются дискриминантные переменные и прием максимизации различий между классами для получения функции классификации. Объект относится к тому классу, для которого значение классифицирующей функции является наибольшим. Дана оценка полученных результатов, отмечается недостаточная точность классификации при применении меры
$TF - IDF$ в условиях эксперимента. Для улучшения качества классификации предложен комбинированный метод, в рамках которого предлагается на первом этапе провести селекцию слов при помощи меры
$TF - IDF$, на втором этапе применить словарь терминов и словосочетаний для классификации текстов. На основании полученных данных предлагается провести классификацию методами дискриминантного анализа и
$k$-ближайших соседей. В будущем планируются уточнение и доработка предлагаемого комбинированного метода.
Ключевые слова:
классификация коротких текстов, определение веса терминов, сингулярное разложение, дискриминантный анализ, элементарные функции Фишера, метод $k$-ближайших соседей.
УДК:
004.93
Поступила в редакцию: 05.03.2018
DOI:
10.24143/2072-9502-2018-2-53-60