Аннотация:
Эмпирический закон Бенфорда, описывающий вероятность появления определённых первых значащих цифр во многих распределениях, взятых из реальной жизни, используется для выявления аномалий в различного рода данных. Целью исследования является апробация закона Бенфорда для анализа качества массовых данных профилактического скрининга на примере данных биоимпедансных измерений в центрах здоровья Москвы. Как было установлено ранее, особенностью таких данных является их сильное зашумление искусственно сгенерированными и поддельными данными. Сформированная база данных биоимпедансометрии центров здоровья Москвы за 2010–2019 гг. содержала 1361019 записей результатов измерений в возрастном диапазоне обследованных от 5 до 96 лет. Применение алгоритма экспертной оценки качества данных, использованного в качестве эталона для анализа эффективности Бенфорд-анализа, выявило высокий процент некорректных данных (66.5%) с преобладанием сфальсифицированных данных. Для характеристики степени соответствия данных закону Бенфорда для каждого центра здоровья рассчитывали средние абсолютные отклонения частот встречаемости первой и первых двух значащих цифр от должных значений и статистики $\chi^2$ для десятых степеней стандартизованных значений активного, реактивного сопротивлений импеданса и индекса активного сопротивления. Установлена значимая корреляция между отклонением данных от закона Бенфорда и процентом некорректных данных согласно алгоритму экспертной оценки качества ($\rho_{\mathrm{max}}$ = 0.66 и 0.62 для среднего абсолютного отклонения и величины $\chi^2$, соответственно, на основе параметра активного сопротивления импеданса и первой значащей цифры). Получено, что отклонение данных от закона Бенфорда является достаточным условием их компрометированности. Для центров здоровья, где основную часть некорректных данных составляли многократные измерения одного человека под видом разных, данные хорошо соответствовали закону Бенфорда. Если же в структуре некорректных данных преобладали измерения калибровочного блока, программные эмуляты измерений и выбросы, то использование закона Бенфорда позволяло эффективно ранжировать центры здоровья по уровню компрометированности данных.
Ключевые слова:центры здоровья, профилактический скрининг, большие данные, биоимпедансометрия, качество данных, алгоритм экспертной оценки качества, закон Бенфорда.
Материал поступил в редакцию 31.10.2021, 19.10.2022, опубликован 05.11.2022