RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика, телекоммуникации и управление // Архив

Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление, 2019, том 12, выпуск 3, страницы 7–24 (Mi ntitu239)

Информационные технологии

Оценка состояния транспортных магистралей Северо-Западного федерального округа с использованием анализа тональности отзывов пользователей сети Интернет

Я. А. Селиверстовa, К. В. Никитинb, Н. В. Шаталоваa, А. А. Киселевc

a Институт проблем транспорта им. Н.С. Соломенко Российской академии наук
b Санкт-Петербургский политехнический университет Петра Великого
c Санкт-Петербургская государственная художественно-промышленная академия им. А.Л. Штиглица

Аннотация: В результате анализа выявлено, что социальные сети, тематические сообщества, транспортные порталы являются источником актуальной информации о дорожно-транспортной обстановке. В статье рассмотрена задача анализа состояния транспортных магистралей Северо-Западного федерального округа по отзывам, размещенным в web-пространстве. Для решения этой задачи разработана система автоматической классификации отзывов на основе тонового классификатора. Проведен анализ библиотек с открытым исходным кодом для тематического сбора и анализа данных. Осуществлена разработка краулера с использованием фреймворка Scrapy на языке Python3 и собраны отзывы с сайта http://autostrada.info/ru. Рассмотрены методы векторизации и лемматизации текстов и их реализация в библиотеке Scikit-Learn: Bag-of-Words, N-gram, CountVectorizer и TF-IDF Vectorizer. Для классификации применялся наивный байесовский алгоритм и модель линейного классификатора с оптимизацией стохастического градиентного спуска. В качестве обучающей выборки использована база размеченных отзывов с ресурса Twitter. Проведено обучение классификатора, в ходе которого использована стратегия кросс-валидации и метод ShuffleSplit. Проведено тестирование и сравнение результатов тоновой классификации на разных классификаторах. По результатам валидации лучшей оказалась линейная модель со схемой N-gram и векторизатором TF-IDF. В ходе апробации разработанной системы проведен сбор и анализ отзывов, относящихся к качеству транспортных сетей Северо-Западного федерального округа. На основе результатов произведена цветовая разметка дорог, отражающая наглядность результатов исследования. Сделаны выводы и определены перспективы дальнейшего развития данного исследования.

Ключевые слова: автоматический анализ текстов, краулеры, классификация текстов, интеллектуальные транспортные системы, машинное обучение, TF-IDF, N-gram, наивный байесовский алгоритм, линейный классификатор, анализ тональности.

УДК: 004.8, 004.62, 007.5 , 51-74, 510.67, 656

Поступила в редакцию: 30.06.2019

DOI: 10.18721/JCSTCS.12301



© МИАН, 2025