С. М. Таранин, “Дедубликация в системе резервного копирования с хранением информации в базе данных”, Модел. и анализ информ. систем, 2017, том 24, номер 2,страницы 215

Дедубликация в системе резервного копирования с хранением информации в базе данных

С. М. Таранин

Ярославский государственный университет им. П.Г. Демидова, ул. Советская, 14, г. Ярославль, 150003 Россия

Аннотация: Профилактика потери данных с цифровых носителей включает такой процесс, как резервное копирование. Он может проводиться вручную простым копированием данных на внешние носители или автоматизированно по расписанию с помощью специальных программных средств. Существуют системы удаленного резервного копирования, когда данные сохраняются по сети в удаленное хранилище. Такие системы являются многопользовательскими и обрабатывают большие объемы данных. В общем хранилище могут встретиться файлы, содержащие одинаковые фрагменты. Для исключения повторяющихся данных применяется механизм дедубликации (англ. de-duplication). Он представляет собой метод сжатия информации, когда поиск копий производится по всему массиву данных, а не в пределах одного файла. Главным преимуществом использования данной технологии является существенная экономия дискового пространства. Однако механизм исключения повторяющихся данных может существенно снизить скорость сохранения и восстановления информации. Настоящая статья посвящена проблеме реализации такого механизма в системе резервного копирования с хранением информации в реляционной базе данных. В данной работе рассматривается пример реализации такой системы, работающей в двух режимах: с дедубликацией данных и без нее. В статье приведен пример схемы классов для разработки клиентской части приложения, а также описание таблиц и связей между ними в базе данных, что относится к серверной части. Далее автор предлагает алгоритм сохранения данных с дедубликацией, а также приводит результаты сравнительных тестов скорости работы алгоритмов сохранения и восстановления информации при работе с реляционными системами управления базами данных разных производителей.

Ключевые слова: файл, данные, резервное копирование, дедубликация, база данных.

УДК: 004.056.3

Поступила в редакцию: 18.09.2016

DOI: 10.18255/1818-1015-2017-2-215-226