А. А. Бондаренко, М. В. Якобовский, “Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек”, Вестн. ЮУрГУ. Сер. Выч. матем. информ., 2014, том 3, выпуск 3,страницы 20

Эта публикация цитируется в 2 статьях

Информатика, вычислительная техника и управление

Обеспечение отказоустойчивости высокопроизводительных вычислений с помощью локальных контрольных точек

А. А. Бондаренко, М. В. Якобовский

Институт прикладной математики им. М.В. Келдыша РАН (Москва, Российская Федерация)

Аннотация: Рассматриваются вопросы, связанные с проведением расчетов в распределенных вычислительных системах, компоненты которых подвержены отказам. В работе приводятся: определения системы, сбоя, ошибки, отказа и модели сбоя; наиболее важные результаты исследований отказов в параллельных вычислительных системах, в том числе с большими группами дисков; основные существующие методы восстановления и распространенные программные реализации обеспечения отказоустойчивости. Развивается подход обеспечения отказоустойчивости на уровне пользователя. Данный подход требует непосредственного участия разработчика прикладной программы в реализации метода обеспечения отказоустойчивости, в частности в формировании контрольных точек и процедур восстановления. Предложена схема сохранения в памяти вычислительных узлов данных прикладной программы, формирующих согласованную глобальную контрольную точку. В её рамках осуществляется дублирование локальных контрольных точек, что позволяет восстановить вычислительный процесс, если число отказов не превосходит допустимого для данной схемы уровня. Она может быть использована в различных протоколах восстановления и их модификациях.

Ключевые слова: параллельные вычисления, отказоустойчивость, контрольные точки, MPI.

УДК: 004.052.3

Поступила в редакцию: 05.08.2014