Аннотация:
Решение задач на основе доступных научных данных, особенно в контексте открытой науки и исследовательских инфраструктур, должно обеспечивать возможность их многократного повторного использования. Показатели качества данных являются важными характеристиками, влияющими не только на точность методов при решении исследовательских задач, но и на оценку пригодности данных, возможность решения конкретных научных задач, выбор методов работы с данными, их совместимость, возможность отождествления объектов и другие аспекты повторного использования. При этом требуется оценка различных показателей качества данных на разных уровнях агрегации – от целых наборов данных до отдельных значений. В данном исследовании представлен подход к комплексному управлению качеством данных на основе их спецификаций, а также требований к качеству данных и метаданных. Обсуждаются различные показатели оценки качества данных, включая точность, полноту и происхождение. Разработанный подход применен на примере решения задач с использованием множественных источников данных в области звездной астрономии.
Ключевые слова:
качество данных, повторное использование данных, формальные спецификации, нефункциональные требования.
Статья представлена к публикации членом редколлегии:А. А. Галяев
Поступила в редакцию: 29.11.2024 После доработки: 10.01.2025 Принята к публикации: 14.01.2025