RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Информатика и автоматизация, 2023, выпуск 22, том 4, страницы 777–794 (Mi trspy1255)

Информационная безопасность

Comparative analysis of rumour detection on social media using different classifiers

[Сравнительный анализ выявления слухов в социальных сетях с использованием различных классификаторов]

M. Gidwani, A. Rao

Mukesh Patel School of Technology Management and Engineering (MPSTME), Shri Vile Parle Kelavani Mandal's Narsee Monjee Institute of Management Studies (SVKM's NMIMS)

Аннотация: По мере того, как число пользователей социальных сетей растет, создание и распространение информации увеличиваются каждый день в огромных масштабах. Люди могут делиться своими идеями и мнениями на этих платформах. Сайт микроблогов в социальных сетях, таких как Facebook или Twitter, является предпочтительным средством обсуждения любого важного события, и информация передается немедленно. Это приводит к быстрому распространению слухов и распространению неточной информации, что вызывает у людей беспокойство. Поэтому важно оценить и подтвердить уровень достоверности такой информации. Из-за сложности текста автоматическое обнаружение слухов на ранних стадиях затруднительно. В данном исследовании используются различные методы NLP для извлечения информации из твитов, а затем применяются различные модели машинного обучения, чтобы определить, является ли информация слухом. Классификация выполняется с использованием трех классификаторов, таких как SVC (Support Vector Classifier), Gradient Boosting и классификаторы Naive Bayes для пяти различных событий из набора данных PHEME. Существуют некоторые недостатки: ограниченная обработка несбалансированных данных, трудность улавливания сложных лингвистических шаблонов, отсутствие интерпретируемости, сложности с обработкой больших пространств признаков и нечувствительность к порядку слов и контексту при использовании вышеуказанных классификаторов. Подход суммирования используется для преодоления вышеуказанных недостатков, при котором выходные данные комбинированных классификаторов представляют собой ансамбль с LSTM. Была проанализирована производительность моделей. Экспериментальные результаты показывают, что ансамблевая модель дает эффективные результаты по сравнению с другими классификаторами с точностью 93,59%.

Ключевые слова: обнаружение слухов, машинное обучение, социальные сети, SVC, градиентный бустинг, наивный байесовский классификатор.

Поступила в редакцию: 11.04.2023

Язык публикации: английский

DOI: 10.15622/ia.22.4.3



© МИАН, 2024