Аннотация:
В связи с распространением больших кластерных систем в настоящее время
актуальной является задача эффективного использования таких систем.
Для этого необходимо выявлять проблемы, возникающие в процессе счeта задачи,
извещать пользователя о существовании проблем и предлагать возможные
пути их решения. Одним из путей достижения этих целей является непрерывный
мониторинг выполняемых на кластере задач и анализ полученных данных.
В статье предлагается подход для решения этих задач и описывается
разработанный прототип.
Работа выполнена при поддержке госконтракта Министерства образования и науки
РФ № 07.514.12.4001 и гранта РФФИ № 09-07-00168-а.
Статья рекомендована к печати Программным комитетом Всероссийской конференции
“Высокопроизводительные параллельные вычисления на кластерных системах”
(http://agora.guru.ru/display.php?conf=hpc2011).