RUS  ENG
Полная версия
ЖУРНАЛЫ // Программные системы: теория и приложения // Архив

Программные системы: теория и приложения, 2011, том 2, выпуск 3, страницы 17–28 (Mi ps39)

Эта публикация цитируется в 1 статье

Программное и аппаратное обеспечение распределенных и суперкомпьютерных систем

Методы обеспечения отказоустойчивости в библиотеке шаблонных классов C++ для распараллеливания T-Sim

Е. О. Тютляеваa, А. А. Московскийb

a Институт программных систем им. А. К. Айламазяна РАН, г. Переславль-Залесский
b РСК СКИФ, г. Переславль-Залесский

Аннотация: В работе рассматриваются проблемы отказоустойчивости параллельных приложений при работе на распределенных вычислительных установках. Увеличение масштабов современных вычислительных систем приводит к увеличению вероятности отказа отдельных элементов системы. В ряде случаев вычислительные алгоритмы, такие как генетические алгоритмы, алгоритмы, использующие метод Монте–Карло и т.п., допускают возможность отказа одного или нескольких элементов. В статье предлагаются методы для реализации таких алгоритмов и обеспечения их работоспособности при условии программных и аппаратных сбоев на вычислительных узлах. В рамках библиотеки С++ T-Sim разработан пример редукционного (монотонного) объекта, а также нескольких альтернативных механизмов перезапуска заданий. Проведены пробные отказоустойчивые реализации алгоритма.

Ключевые слова и фразы: Отказоустойчивость, локальная синхронизация, монотонный объект, распределенные системы, шаблонные классы С++.

УДК: 004.052.3



© МИАН, 2024