Аннотация:
Прогнозируется отток клиентов на основе данных российского интернет-провайдера. Определены основные этапы и подходы к предварительной обработке
текстов комментариев операторов. Предложено использовать для сравнения
алгоритмы классификации, такие как логистическая регрессия, метод $k$-ближайших
соседей, градиентный бустинг, наивный байесовский алгоритм. В качестве выборки
сформирован массив входных данных из 23 признаков 380 тысяч абонентов. Проведены
исправление опечаток с помощью расстояния Дамерау — Левенштейна и лемматизация
текстовой информации с последующим преобразованием в вектор признаков с
помощью метода TF-IDF и добавлением в модель. Определены основные подходы
кодирования категориальных признаков. Построены прогнозные модели. Проведено
сравнение результатов исследования на разных классификаторах и сделаны выводы.
Ключевые слова:прогнозирование, отток клиентов, интернет-провайдер, python, обращения клиентов, классификация, анализ текстов, tf-idf.
УДК:
004.855.5
Поступила в редакцию: 31.12.2017 Исправленный вариант: 04.05.2018