Д. Д. Янцен, М. Л. Цымблер, “Алгоритм репрезентативного сэмплинга для систем баз данных на основе фрагментного параллелизма”, Вестн. ЮУрГУ. Сер. Выч. матем. информ., 2014, том 3, выпуск 4,страницы 36

Информатика, вычислительная техника и управление

Алгоритм репрезентативного сэмплинга для систем баз данных на основе фрагментного параллелизма

Д. Д. Янцен, М. Л. Цымблер

Южно-Уральский государственный университет (Челябинск, Российская Федерация)

Аннотация: Сэмплинг является популярным подходом к обработке сверхбольших баз данных в широком спектре приложений, связанных с интеллектуальным анализом данных, построением гистограмм, приблизительное исполнение запросов и др. Использование сэмпла вместо оригинальной базы данных может уменьшить точность результатов, но компенсируется сокращением времени выполнения обработки. Репрезентативный сэмплинг позволяет сохранить в сэмпле определенные характеристики базы данных. Однако существующие алгоритмы репрезентативного сэмплинга не могут быть применены для параллельных систем баз данных, поскольку не учитывают характеристики данных, распределяемых по вычислительным узлам кластерной системы. В данной статье предлагается алгоритм репрезентативного сэмплинга для параллельных реляционных систем баз данных на основе фрагментного параллелизма. Приведены результаты вычислительных экспериментов над предложенным алгоритмом, показавшие адекватное сохранение репрезентативности свойств базы данных, распределенной по узлам кластерной системы.

Ключевые слова: реляционные базы данных, параллельные системы баз данных, репрезентативный сэмплинг.

УДК: 004.65, 004.622

Поступила в редакцию: 11.08.2014

DOI: 10.14529/cmse140402