RUS  ENG
Полная версия
ЖУРНАЛЫ // Моделирование и анализ информационных систем // Архив

Модел. и анализ информ. систем, 2022, том 29, номер 4, страницы 316–332 (Mi mais782)

Theory of data

Поиск упоминаний экологических практик в социальных сетях с помощью методов классификации текстов

А. В. Глазковаa, О. В. Захароваa, А. В. Захаровa, Н. Н. Москвинаa, Т. Р. Еникеевb, А. Н. Ходыревa, В. К. Боровинскийa, И. Н. Пупышеваa

a Тюменский государственный университет, ул. Володарского, д. 6, г. Тюмень, 625003 Россия
b Новосибирский государственный университет, ул. Пирогова, д. 1, г. Новосибирск, 630090 Россия

Аннотация: Работа посвящена решению задачи поиска упоминаний экологических практик в текстах социальных сетей. Авторами составлен корпус текстов экологических сообществ социальной сети ВКонтакте, снабженный экспертной разметкой упоминаний девяти видов экологических практик. Предложен полуавтоматический подход к сбору дополнительных текстов для уменьшения несбалансированности видов экологических практик, представленных в корпусе. Подход включает в себя следующие этапы: определение наиболее частотных слов, характеризующих упоминания практик; автоматический сбор текстов, включающих в себя найденные частотные слова; экспертная проверка и фильтрация собранных текстов. Проведено сравнение четырех моделей машинного обучения для поиска упоминаний практик на двух вариантах корпуса: исходном и дополненном. Лучший усредненный показатель F-меры (81.32%) достигнут моделью Conversational RuBERT, дообученной на текстах дополненного корпуса. Данная модель выбрана в качестве основы для реализации прототипа приложения для поиска упоминаний экологических практик, реализованного в форме чат-бота Telegram.

Ключевые слова: классификация текстов, анализ социальных сетей, машинное обучение, BERT, экологические практики, обработка естественного языка.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 06.10.2022
Исправленный вариант: 11.11.2022
Принята в печать: 16.11.2022

DOI: 10.18255/1818-1015-2022-4-316-332



© МИАН, 2024