RUS  ENG
Полная версия
ЖУРНАЛЫ // Программные системы: теория и приложения // Архив

Программные системы: теория и приложения, 2021, том 12, выпуск 2, страницы 73–103 (Mi ps383)

Эта публикация цитируется в 1 статье

Программное и аппаратное обеспечение распределенных и суперкомпьютерных систем

Мониторинг приложений на кластере ZHORES в Сколтехе

И. Е. Захаров, О. А. Панарин, С. Г. Рыкованов, Р. Р. Загидуллин, А. К. Малютин, Ю. Н. Шкандыбин, А. Е. Ермекова

Сколковский институт науки и технологий

Аннотация: Стандартные инструменты мониторинга для кластерных вычислительных систем позволяют оценить работу системы в целом, но не позволяют анализировать работу приложений по отдельности. Система мониторинга для измерения ресурсов, затребованных каждым приложением в отдельности разработана в Сколтехе для высокопроизводительного кластера ZHORES. Система мониторинга собирает как обычные метрики загрузки процессоров и графических ускорителей, так и счетчики событий ЦПУ/ГПУ, которые позволяют более детально анализировать тип ресурса, затребованный приложением. Сервисные программы, развернутые на каждом узле кластера, посылают результаты измерений в единую базу данных временных рядов с шагом в одну секунду. Эти данные затем анализируются статистическими методами в режиме оффлайн для выделения характеристик, связанных с использованием вычислительных ресурсов каждым приложением. Мониторинг позволяет выявлять неэффективное программное обеспечение, производить тонкую настройку работы кластера, а также улучшать работу высокопроизводительной системы в целом.

Ключевые слова и фразы: кластер, высокопроизводительные вычисления, мониторинг приложений, счетчики событий ЦПУ/ГПУ, база данных временных рядов.

УДК: 004.451
ББК: 32.972.11

MSC: Primary 65Y05; Secondary 68M20, 68M99

Поступила в редакцию: 26.01.2021
29.03.2021
Подписана в печать : 05.06.2021

DOI: 10.25209/2079-3316-2021-12-2-73-103



© МИАН, 2024