Аннотация:
Социальные сети (Вконтакте, Facebook), тематические сообщества в
сетях микроблогинга (Twitter), ресурсы для путешественников (TripAdvisor) и
транспортные порталы (Autostrada) являются источником актуальной и оперативной
информации о дорожно-транспортной обстановке, качестве предоставляемых
транспортных услуг и степени удовлетворенности пассажиров уровнем транспортного
обслуживания. Однако существующие системы транспортного мониторинга не содержат
программных инструментов, способных осуществлять сбор и анализ дорожно-транспортной информации в среде Интернет. В настоящей работе рассматривается
задача построения системы автоматического извлечения и классификации дорожнотранспортной информации с транспортных интернет-порталов и апробация
разработанной системы для анализа транспортных сетей Крыма и города Севастополя.
Для решения этой задачи проанализированы библиотеки с открытым исходным кодом
для тематического сбора и исследования данных. Разработан алгоритм для извлечения и
анализа текстов. Осуществлена разработка краулера с использованием пакета Scrapy на
языке Python3 и собраны отзывы пользователей с портала http://autostrada.info/ru о
состоянии транспортной системы Крыма и города Севастополя. Для лемматизации
текстов и векторного преобразования текстов были рассмотрены методы tf, idf, tf-idf и
их реализация в библиотеке Scikit-Learn: CountVectorizer и TF-IDF Vectorizer. Для
обработки текстов были рассмотрены методы Bag-of-Words и n-gram. В ходе разработки
модели классификатора рассмотрены наивный байесовский алгоритм (MultinomialNB) и
модель линейного классификатора с оптимизацией стохастического градиентного
спуска (SGDClassifier). В качестве обучающей выборки использовался корпус объемом
225 тысяч размеченных текстов с ресурса Twitter. Проведено обучение классификатора,
в ходе которого использовалась стратегия кросс-валидации и метод ShuffleSplit.
Проведено тестирование и сравнение результатов тоновой классификации. По
результатам валидации лучшей оказалась линейная модель со схемой n-грамм [1, 3] и
векторизатором TF-IDF. В ходе апробации разработанной системы был проведен сбор и
анализ отзывов, относящихся к качеству транспортных сетей республики Крым и города
Севастополя. Сделаны выводы и определены перспективы дальнейшего
функционального развития разрабатываемого инструментария.
Ключевые слова:автоматический анализ текстов, краулеры, классификация текстов, интеллектуальные транспортные системы, машинное обучение, TF-IDF, наивный байесовский алгоритм, линейный классификатор, анализ тональности.