RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика, телекоммуникации и управление // Архив

Информатика, телекоммуникации и управление, 2024, том 17, выпуск 2, страницы 24–37 (Mi ntitu360)

Программное обеспечение вычислительных, телекоммуникационных и управляющих систем

Algorithm for monitoring and improving the stability of the it infrastructure based on availability and reliability metrics

[Алгоритм мониторинга и повышения стабильности информационно-технологической инфраструктуры на основе метрик доступности и надежности]

D. A. Varlamov, I. V. Nikiforov, S. M. Ustinov

Peter the Great St. Petersburg Polytechnic University

Аннотация: Большинство компаний имеют собственную информационно-технологическую инфраструктуру, состоящую из сложных систем и сервисов. Стабильность работы сервисов важна для компаний, так как проблемы с ними приводят к потерям ресурсов и человеческого времени. Поэтому важным является анализ предыдущих отключений сервисов, который направлен на выявление и налаживание уязвимых элементов инфраструктуры, подверженных поломке или отказу. Цель исследования: разработать алгоритм для повышения стабильности информационно-технологической инфраструктуры предприятия за счет анализа и учета статистики предыдущих отключений. Результаты: предложен новый алгоритм, позволяющий выявлять и устранять проблемы в информационно-технологических сервисах предприятия до того, как они приведут к серьезным последствиям, и сокращать время на поиск источника проблемы. Алгоритм основан на двух новых метриках: доступность и надежность, – отличительной особенностью которых является учет статистики предыдущих отключений. Представлена архитектура высокопроизводительного программного средства, позволяющего в режиме реального времени осуществлять мониторинг и оценку показателей стабильности сервисов. Демонстрируется эффективность предложенного алгоритма путем его реализации в программном средстве и наблюдения роста показателей стабильности – доступности и надежности – после обнаружения и устранения слабого звена в информационно-технологических сервисах. Использование разработанного алгоритма позволило на 25% сократить время, в течение которого материальные и человеческие ресурсы компании простаивали. Практическая значимость: представленный алгоритм применен на практике в одной из крупных промышленных информационно-технологических компаний с более чем 10000 сотрудников. На основе информации, полученной при помощи созданного программного средства, удалось получить рекомендации по повышению стабильности информационных сервисов компании.

Ключевые слова: метрики, доступность, надежность, стабильность, информационно-технологическая инфраструктура, отключение, мониторинг.

УДК: 004.052.3

Поступила в редакцию: 03.06.2024

Язык публикации: английский

DOI: 10.18721/JCSTCS.17203



© МИАН, 2024