RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика и автоматизация // Архив

Тр. СПИИРАН, 2020, выпуск 19, том 4, страницы 855–879 (Mi trspy1119)

Эта публикация цитируется в 1 статье

Искусственный интеллект, инженерия данных и знаний

Минимальная структура базы для хранения данных о биологическом разнообразии организмов

А. М. Лях

Федеральное государственное бюджетное учреждение науки Федеральный исследовательский центр «Институт биологии южных морей имени А.О.Ковалевского РАН (ФИЦ ИнБЮМ)

Аннотация: К настоящему времени накоплено огромное количество данных о разнообразии организмов. Сохранить и использовать эти данные для решения научных задач помогают базы данных. В литературе описано несколько десятков баз, предназначенных для хранения данных о биоразнообразии. Каждая имеет оригинальную структуру, которая плохо согласуется со структурами других баз, что, в свою очередь, затрудняет обмен данными и формирование массивов больших данных о биоразнообразии.
Причиной сложившейся ситуации является отсутствие формальных определений универсальных компонент, из которых можно построить базу с любыми данными о разнообразии организмов. Анализ литературы и исследования авторов показывают, что универсальные компоненты есть в характеристиках любых организмов. Например, таксономическое название организма и место его поимки. Таких компонент шесть, и они отвечают на один из шести вопросов: что, где, когда, кто, откуда и куда. Первые три компоненты —что, где, когда — являются фундаментальными. Они составляют минимальную основу, которая описывает экземпляр таксона в пространственно-временных координатах. Каждой компоненте соответствует отдельная таблица базы данных. Эти таблицы связаны с таблицей данных об организме (особи) и не связаны между собой. Атрибуты связей между особью и таблицами компонент хранятся в промежуточных таблицах.
Процесс создания любой базы о разнообразии живых существ начинается с определения таблицы экземпляров организмов. Ее необходимо использовать, даже если нет явных данных об организмах. Тогда следует ввести виртуальные организмы и связать с ними остальные компоненты при помощи промежуточных таблиц. Последние состыковываются с прочими данными. Минимальные структуры всех таблиц, связи между ними и примеры построения баз данных описаны в настоящей работе.

Ключевые слова: компоненты данных, данные об организме, географическая точка, таксономическое название, библиографическая запись, биологическая коллекция, коллекционный экземпляр, метаданные.

УДК: 574.1+004.65

Поступила в редакцию: 06.06.2020

DOI: 10.15622/sp.2020.19.4.6



© МИАН, 2024