Аннотация:
По мере того, как число пользователей социальных сетей растет, создание и распространение информации увеличиваются каждый день в огромных масштабах. Люди могут делиться своими идеями и мнениями на этих платформах. Сайт микроблогов в социальных сетях, таких как Facebook или Twitter, является предпочтительным средством обсуждения любого важного события, и информация передается немедленно. Это приводит к быстрому распространению слухов и распространению неточной информации, что вызывает у людей беспокойство. Поэтому важно оценить и подтвердить уровень достоверности такой информации. Из-за сложности текста автоматическое обнаружение слухов на ранних стадиях затруднительно. В данном исследовании используются различные методы NLP для извлечения информации из твитов, а затем применяются различные модели машинного обучения, чтобы определить, является ли информация слухом. Классификация выполняется с использованием трех классификаторов, таких как SVC (Support Vector Classifier), Gradient Boosting и классификаторы Naive Bayes для пяти различных событий из набора данных PHEME. Существуют некоторые недостатки: ограниченная обработка несбалансированных данных, трудность улавливания сложных лингвистических шаблонов, отсутствие интерпретируемости, сложности с обработкой больших пространств признаков и нечувствительность к порядку слов и контексту при использовании вышеуказанных классификаторов. Подход суммирования используется для преодоления вышеуказанных недостатков, при котором выходные данные комбинированных классификаторов представляют собой ансамбль с LSTM. Была проанализирована производительность моделей. Экспериментальные результаты показывают, что ансамблевая модель дает эффективные результаты по сравнению с другими классификаторами с точностью 93,59%.