Аннотация:
В статье рассмотрена задача классификации 3553 англоязычных комментариев из социальной сети Reddit на основе различных подходов к векторизации текстов комментариев: мешок слов, TF-IDF, анализ биграмм на основе точечной взаимной информации PMI и сентимента, глубокая модель представления языка BERT. Применение гибридного подхода на основе векторизации текстов с помощью BERT и анализа биграмм позволило повысить качество классификации комментариев до 91%. На основе кластерного анализа 1857 англоязычных комментариев, содержащих описание тревожностей, с помощью BERT+k-Means были выделены кластеры. В исследовании предложен гибридный подход, основанный на применении метода тематического моделирования LDA, метода анализа тональности VADER, точечной взаимной информации, анализа частей речи и позволяющий выделять биграммы и триграммы для описания кластеров комментариев. Для визуализации извлеченных закономерностей в виде триграмм был построен граф знаний, описывающий предметную область, а сопоставление слов выделенных целевых триграмм со словами кастомного словаря, описывающего различные аффективные расстройства, позволило определить типы психосоциологических стрессоров, c которыми связаны аффективные расстройства.