В. П. Потапов, М. А. Костылев, С. Е. Попов, “Потоковая обработка радарных данных в распределенной среде Apache Spark”, Вестн. С.-Петербург. ун-та. Сер. 10. Прикл. матем. Информ. Проц. упр., 2017, том 13, выпуск 2,страницы 168

Информатика

Потоковая обработка радарных данных в распределенной среде Apache Spark

В. П. Потапов, М. А. Костылев, С. Е. Попов

Институт вычислительных технологий СО РАН, Российская Федерация, 630090, Новосибирск, пр. Академика Лаврентьева, 6

Аннотация: В статье описан современный подход к созданию распределенного программного комплекса на базе массово-параллельной технологии для потоковой пре- и постобработки радарных снимков. Отличительными особенностями системы являются ее способность работы в режиме реального времени с большими объемами потоковых данных, а также применение существующих алгоритмов, не предназначенных для распределенной обработки, на множестве узлов без изменения реализации последних. Проведено сравнение технологий распределенных вычислений, на основе которого делается выбор в пользу системы Apache Spark. Показано, что ее функциональность позволяет организовать автоматическую обработку поступающих радарных снимков в виде последовательности операций (workflow), которые необходимо выполнить над входными данными в зависимости от заданных ранее условий. Результаты обработки остаются доступными в системе в виде устойчивых к сбоям распределенных коллекций данных (RDD-Resilient Distributed Data), что позволяет по мере поступления космических снимков и их автоматической обработки, согласно цепочке алгоритмов, на каждом этапе получать/сохранять промежуточный результат в распределенную файловую систему HDFS. Охарактеризованы особенности имплементации конкретных задач процессинга радарных данных в рамках предложенного подхода (расчет фазы, корегистрация, формирование интерферограммы и развертка фазы методом роста регионов). Представлена блок-схема алгоритма развертки фазы с возможностью его запуска на платформах с использованием графических устройств, поддерживающих технологию NVIDIA CUDA. Представлена адаптация ее к системам с массово-параллельным исполнением заданий. Имплементация алгоритма ориентирована на вычисления для пары радарных изображений на одном вычислительном узле. Ускорение достигается за счет возможности одновременной обработки множества пар изображений, равных количеству узлов кластера. Показан пример реализаций методов работы с потоками бинарных данных (BinaryRecordsStream), осуществляющих мониторинг распределенной файловой системы HDFS на наличие поступающих радарных данных и чтение/запись их как бинарных файлов со значением фиксированного размера байт. В качестве входных параметров используются каталог и размер одной записи в байтах. В заключении приведены результаты тестирования разработанных алгоритмов на демонстрационном кластере. Показано, что при количестве узлов, равном восьми, в среднем возможно достижение 8-кратного прироста скорости работы для такого же количества пар изображений по сравнению с их последовательной обработкой на отдельном вычислительном узле. Результаты тестирования дают возможность повышения производительности представленных алгоритмов при увеличении количества узлов кластера без внесения изменений в их реализацию, что оправдывает применение распределенного подхода для решения задач пре- и постобработки радарных данных. Библиогр. 26 назв. Ил. 4. Табл. 3.

Ключевые слова: Apache Spark, Apache Hadoop, распределенные информационные системы, радарная интерферометрия, алгоритмы обработки.

УДК: 004.042

Поступила: 15 сентября 2016 г.
Принята к печати: 11 апреля 2017 г.

DOI: 10.21638/11701/spbu10.2017.204