RUS  ENG
Полная версия
ЖУРНАЛЫ // Вычислительные методы и программирование // Архив

Выч. мет. программирование, 2014, том 15, выпуск 4, страницы 560–568 (Mi vmp272)

Эта публикация цитируется в 1 статье

Автоматическое определение и описание сетевой инфраструктуры суперкомпьютеров

Вад. В. Воеводин, К. С. Стефанов

Научно-исследовательский вычислительный центр Московского государственного университета им. М.В. Ломоносова

Аннотация: С каждым годом наблюдается рост производительности суперкомпьютерных систем. Это достигается, в частности, за счет увеличения числа вычислительных узлов, усложнения иерархии подсистемы памяти и коммуникационной сети и т.д., что является одной из основных причин снижения надежности и эффективности функционирования системы. Как следствие, все более актуальной становится задача обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов. Для решения данной задачи в НИВЦ МГУ ведется разработка системы “Октотрон”, основная цель которой заключается в обеспечении максимальной сохранности оборудования и максимально полного его использования. Система “Октотрон” работает на основе модели вычислительной системы, которая должна отражать основные компоненты суперкомпьютера и их взаимосвязь. В данной модели должно присутствовать, в частности, описание коммуникационных сетей суперкомпьютера. Зачастую подобное описание устроено очень непросто, поэтому возникла необходимость в автоматизации этого процесса. В настоящей статье приведено описание разрабатываемого инструментария для определения топологии сетей Ethernet и Infiniband в суперкомпьютерных системах. Для построения топологии Ethernet-сети выполняется сбор SNMP-данных (Simple Network Management Protocol data) со всех доступных узлов, которые затем преобразуются на основе предлагаемого набора правил для получения более точного результата. Информация об Infiniband-сети получается на основе данных от менеджера подсети. Обсуждаются результаты работы инструментария на примере сетей суперкомпьютеров “Ломоносов” и “Чебышев”, установленных в МГУ им. М.В. Ломоносова.

Ключевые слова: суперкомпьютеры, параллельные вычисления, топология суперкомпьютерных систем, коммуникационные сети, определение топологии сетей, протокол SNMP.

УДК: 519.688

Поступила в редакцию: 17.08.2014



© МИАН, 2024