Аннотация:
С каждым годом наблюдается рост производительности суперкомпьютерных систем. Это достигается, в частности, за счет увеличения числа вычислительных узлов, усложнения иерархии подсистемы памяти и коммуникационной сети и т.д., что является одной из основных причин снижения надежности и эффективности функционирования системы. Как следствие, все более актуальной становится задача обеспечения оперативного контроля и эффективной автономной работы суперкомпьютерных комплексов. Для решения данной задачи в НИВЦ МГУ ведется разработка системы “Октотрон”, основная цель которой заключается в обеспечении максимальной сохранности оборудования и максимально полного его использования. Система “Октотрон” работает на основе модели вычислительной системы, которая должна отражать основные компоненты суперкомпьютера и их взаимосвязь. В данной модели должно присутствовать, в частности, описание коммуникационных сетей суперкомпьютера. Зачастую подобное описание устроено очень непросто, поэтому возникла необходимость в автоматизации этого процесса. В настоящей статье приведено описание разрабатываемого инструментария для определения топологии сетей Ethernet и Infiniband в суперкомпьютерных системах. Для построения топологии Ethernet-сети выполняется сбор SNMP-данных (Simple Network Management Protocol data) со всех доступных узлов, которые затем преобразуются на основе предлагаемого набора правил для получения более точного результата. Информация об Infiniband-сети получается на основе данных от менеджера подсети. Обсуждаются результаты работы инструментария на примере сетей суперкомпьютеров “Ломоносов” и “Чебышев”, установленных в МГУ им. М.В. Ломоносова.
Ключевые слова:суперкомпьютеры, параллельные вычисления, топология суперкомпьютерных систем, коммуникационные сети, определение топологии сетей, протокол SNMP.