Е. О. Тютляева, А. А. Московский, “Методы обеспечения отказоустойчивости в библиотеке шаблонных классов C++ для распараллеливания T-Sim”, Программные системы: теория и приложения, 2011, том 2, выпуск 3,страницы 17

Эта публикация цитируется в 1 статье

Программное и аппаратное обеспечение распределенных и суперкомпьютерных систем

Методы обеспечения отказоустойчивости в библиотеке шаблонных классов C++ для распараллеливания T-Sim

Е. О. Тютляева^a, А. А. Московский^b

^a Институт программных систем им. А. К. Айламазяна РАН, г. Переславль-Залесский
^b РСК СКИФ, г. Переславль-Залесский

Аннотация: В работе рассматриваются проблемы отказоустойчивости параллельных приложений при работе на распределенных вычислительных установках. Увеличение масштабов современных вычислительных систем приводит к увеличению вероятности отказа отдельных элементов системы. В ряде случаев вычислительные алгоритмы, такие как генетические алгоритмы, алгоритмы, использующие метод Монте–Карло и т.п., допускают возможность отказа одного или нескольких элементов. В статье предлагаются методы для реализации таких алгоритмов и обеспечения их работоспособности при условии программных и аппаратных сбоев на вычислительных узлах. В рамках библиотеки С++ T-Sim разработан пример редукционного (монотонного) объекта, а также нескольких альтернативных механизмов перезапуска заданий. Проведены пробные отказоустойчивые реализации алгоритма.

Ключевые слова и фразы: Отказоустойчивость, локальная синхронизация, монотонный объект, распределенные системы, шаблонные классы С++.

УДК: 004.052.3