A. V. Pchelin, N. A. Kononov, V. S. Serova, E. V. Bunova, A. D. Marchenko, A. E. Shevchenko, “Analysis of machine learning models by solving the text data classification problem”, J. Comp. Eng. Math., 2021, том 8, выпуск 2,страницы 33

Computational Mathematics

Analysis of machine learning models by solving the text data classification problem

[Анализ моделей машинного обучения при решении задачи классификации текстовых данных]

A. V. Pchelin, N. A. Kononov, V. S. Serova, E. V. Bunova, A. D. Marchenko, A. E. Shevchenko

South Ural State University, Chelyabinsk, Russian Federation

Аннотация: В статье представлено исследование использования моделей машинного обучения для классификации текстовых данных на примере задачи классификации обращений в техническую поддержку через чат-бот мобильного приложения. Были рассмотрены следующие методы: наивный бейсовский классификатор (Naive Bayes classifier), метод k-ближайших соседей (k-nearest neighbors algorithm, KNN)), дерево принятия решений (Decision tree), метод случайный лес (Random forest), метод опорных векторов (SVM), метод логистическая регрессия (Logistic Regression), а также 21 модель, входящая в состав вышеперечисленных методов. Наилучшей моделью машинного обучения для классификации текстовых записей (обращений) в чат-бот технической поддержки оказалась модель на основе метода логистическая регрессия (Logistic Regression), которая была построена средствами языка программирования Python.

Ключевые слова: классификация текста, методы машинного обучения, регрессия, естественный язык, анализ текстовых данных.

УДК: 004.02

Поступила в редакцию: 10.06.2021

Язык публикации: английский

DOI: 10.14529/jcem210203