RUS  ENG
Полная версия
ЖУРНАЛЫ // Челябинский физико-математический журнал // Архив

Челяб. физ.-матем. журн., 2018, том 3, выпуск 2, страницы 227–236 (Mi chfmj102)

Информатика, вычислительная техника и управление

Анализ текстов для прогнозирования оттока клиентов интернет-провайдера

А. А. Карякина, Д. С. Ботов

Челябинский государственный университет, Челябинск, Россия

Аннотация: Прогнозируется отток клиентов на основе данных российского интернет-провайдера. Определены основные этапы и подходы к предварительной обработке текстов комментариев операторов. Предложено использовать для сравнения алгоритмы классификации, такие как логистическая регрессия, метод $k$-ближайших соседей, градиентный бустинг, наивный байесовский алгоритм. В качестве выборки сформирован массив входных данных из 23 признаков 380 тысяч абонентов. Проведены исправление опечаток с помощью расстояния Дамерау — Левенштейна и лемматизация текстовой информации с последующим преобразованием в вектор признаков с помощью метода TF-IDF и добавлением в модель. Определены основные подходы кодирования категориальных признаков. Построены прогнозные модели. Проведено сравнение результатов исследования на разных классификаторах и сделаны выводы.

Ключевые слова: прогнозирование, отток клиентов, интернет-провайдер, python, обращения клиентов, классификация, анализ текстов, tf-idf.

УДК: 004.855.5

Поступила в редакцию: 31.12.2017
Исправленный вариант: 04.05.2018

DOI: 10.24411/2500-0101-2018-13209



© МИАН, 2024