Аннотация:
В статье представлено исследование использования моделей машинного обучения для классификации текстовых данных на примере задачи классификации обращений в техническую поддержку через чат-бот мобильного приложения. Были рассмотрены следующие методы: наивный бейсовский классификатор (Naive Bayes classifier), метод k-ближайших соседей (k-nearest neighbors algorithm, KNN)), дерево принятия решений (Decision tree), метод случайный лес (Random forest), метод опорных векторов (SVM), метод логистическая регрессия (Logistic Regression), а также 21 модель, входящая в состав вышеперечисленных методов. Наилучшей моделью машинного обучения для классификации текстовых записей (обращений) в чат-бот технической поддержки оказалась модель на основе метода логистическая регрессия (Logistic Regression), которая была построена средствами языка программирования Python.
Ключевые слова:классификация текста, методы машинного обучения, регрессия, естественный язык, анализ текстовых данных.