Эта публикация цитируется в
2 статьях
Искусственный интеллект, инженерия данных и знаний
Разработка системы для тонового анализа отзывов пользователей портала «AUTOSTRADA.INFO/RU»
Я. А. Селиверстовab,
В. И. Чигурc,
А. М. Сазановa,
С. А. Селиверстовab,
А. С. Свистуноваd a Санкт-Петербургский политехнический университет Петра Великого
b Федеральное государственное бюджетное учреждение науки Институт проблем транспорта им. Н.С. Соломенко Российской академии наук (ИПТ РАН)
c Санкт-Петербургский государственный университет (СПбГУ)
d Федеральное государственное бюджетное учреждение науки Санкт-Петербургского института информатики и автоматизации Российской академии наук (СПИИРАН)
Аннотация:
Социальные сети (Вконтакте, Facebook), тематические сообщества в
сетях микроблогинга (Twitter), ресурсы для путешественников (TripAdvisor) и
транспортные порталы (Autostrada) являются источником актуальной и оперативной
информации о дорожно-транспортной обстановке, качестве предоставляемых
транспортных услуг и степени удовлетворенности пассажиров уровнем транспортного
обслуживания. Однако существующие системы транспортного мониторинга не содержат
программных инструментов, способных осуществлять сбор и анализ дорожно-транспортной информации в среде Интернет. В настоящей работе рассматривается
задача построения системы автоматического извлечения и классификации дорожнотранспортной информации с транспортных интернет-порталов и апробация
разработанной системы для анализа транспортных сетей Крыма и города Севастополя.
Для решения этой задачи проанализированы библиотеки с открытым исходным кодом
для тематического сбора и исследования данных. Разработан алгоритм для извлечения и
анализа текстов. Осуществлена разработка краулера с использованием пакета Scrapy на
языке Python3 и собраны отзывы пользователей с портала
http://autostrada.info/ru о
состоянии транспортной системы Крыма и города Севастополя. Для лемматизации
текстов и векторного преобразования текстов были рассмотрены методы tf, idf, tf-idf и
их реализация в библиотеке Scikit-Learn: CountVectorizer и TF-IDF Vectorizer. Для
обработки текстов были рассмотрены методы Bag-of-Words и n-gram. В ходе разработки
модели классификатора рассмотрены наивный байесовский алгоритм (MultinomialNB) и
модель линейного классификатора с оптимизацией стохастического градиентного
спуска (SGDClassifier). В качестве обучающей выборки использовался корпус объемом
225 тысяч размеченных текстов с ресурса Twitter. Проведено обучение классификатора,
в ходе которого использовалась стратегия кросс-валидации и метод ShuffleSplit.
Проведено тестирование и сравнение результатов тоновой классификации. По
результатам валидации лучшей оказалась линейная модель со схемой n-грамм [1, 3] и
векторизатором TF-IDF. В ходе апробации разработанной системы был проведен сбор и
анализ отзывов, относящихся к качеству транспортных сетей республики Крым и города
Севастополя. Сделаны выводы и определены перспективы дальнейшего
функционального развития разрабатываемого инструментария.
Ключевые слова:
автоматический анализ текстов, краулеры, классификация текстов, интеллектуальные транспортные системы, машинное обучение, TF-IDF, наивный байесовский алгоритм, линейный классификатор, анализ тональности.
УДК:
656, 004.8, 007.5, 51-74,
510.67 Поступила в редакцию: 19.02.2019
DOI:
10.15622/sp.18.2.354-389