Аннотация:
Определены классы ошибочных состояний распределенных вычислительных систем и источники их возникновения. Основные классы ошибочных состояний проиллюстрированы экспериментально на примере сбоя работы платформы RabbitMQ, используемой в качестве системы обмена сообщениями на основе стандарта AMQP (Advanced Message Queuing Protocol) между компонентами программной платформы OpenStack. Моделируемое ошибочное состояние неоднократно наблюдалось на практике при эксплуатации платформы в условиях, близких к исчерпанию ресурсов. Для эмуляции сбоя во всей распределенной системе в конфигурационный файл платформы обмена сообщений RabbitMQ в качестве эксперимента были внесены изменения с целью получить нехватку ресурсов. Также представлен результат анализа инцидента в качестве реализации классов ошибочных состояний в традиционных информационных сетевых инфраструктурах.