Аннотация:
Основная задача статьи – обоснование возможности использования технологий больших данных (Big Data) в сфере мониторинга атмосферного воздуха. В виде схемы представлена модель обработки больших данных, полученных с измерительных метеорологических газоанализаторных станций с использованием библиотеки PySpark для проведения дальнейших экспериментальных исследований. Выведены факторы, сопутствующие использованию Big Data в области мониторинга атмосферного воздуха, и проведено сравнение производительности библиотек Pandas и PySpark. Полученные результаты позволят в дальнейшем опираться на выведенные факторы и использовать наиболее оптимальные технологии работы с данными для построения предиктивных моделей машинного обучения в области анализа уровня загрязнения атмосферного воздуха. Последовательное использование больших данных и методов машинного обучения позволит обеспечить чистый и здоровый воздух для будущих поколений за счет более эффективной предиктивной аналитики. Данная статья имеет ценность для обучающихся и специалистов в области информационных технологий, в частности, в области обработки данных и машинного обучения.
Ключевые слова:большие данные, обработка данных, мониторинг атмосферного воздуха, прогнозирование загрязнений.