Аннотация:
Статистические данные, представленные ФГБУ «НМИЦПН им. В.П. Сербского» Минздрава России, указывают на то, что депрессия, как психоэмоциональное состояние, является основной причиной беспокойства во всем мире, которая в большинстве случаев приводит к самоубийству, если ее не выявить, и к угрозе окружающим. Исследования показывают, что депрессия, как правило, оказывает влияние на стиль письма и соответствующее использование языка. Основной целью предлагаемого исследования является изучение сообщений пользователей в социальной сети ВКонтакте и определения атрибутов, которые могут указывать на депрессивные симптомы пользователей. В статье используются подходы машинного обучения (логистическая регрессия, случайный лес, машина опорных векторов, XGBoost) и методы обработки естественного языка (удаление стоп-слов, удаление символов, токенизация, лемматизация) для подготовки данных и оценки их эффективности. В работе было продемонстрировано, что возможность поиска депрессивных пользователей с точностью 77% с помощью классификатора XGBoost. Этот метод комбинируется с другими лингвистическими функциями (N-грамм + TF-IDF) и LDA для достижения более высокой точности. В заключительной части данной научной публикации представлены существенные результаты, полученные в ходе проведенных исследовательских работ.