RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2015, том 25, выпуск 1, страницы 168–185 (Mi ssi400)

Технология предотвращения дублирования библиографических описаний в базе данных научных публикаций БИАС ИПИ РАН

М. Ю. Заикин, В. С. Долгополов, О. Л. Обухова, И. В. Соловьев

Институт проблем информатики Федерального исследовательского центра «Информатика и управление» Российской академии наук

Аннотация: Представлена технология предотвращения дублирования библиографических описаний (БО), разработанная для научной базы данных (БД) библиографической информационно-аналитической системы (БИАС) ИПИ РАН (с февраля 2015 г. — в составе ФИЦ ИУ РАН). Приведен анализ причин, порождающих дублирование записей. Разработанная технология опирается на применение программных модулей определения схожести, использующих методы нечеткого поиска по алгоритму Оливера, и средств визуализации полученных результатов, которые встроены в систему на уровне формирования контента БД. Введено понятие индекса схожести, используемое в алгоритмах поиска дублирующих БО. Представлена формальная модель данных, заложенная в основу построения БД, базирующаяся на принципах фасетной навигации, разработанной авторами. Исследование формальной модели позволило разработать алгоритмы, на которых строилась технология предотвращения дублирования БО. Применение разработанных программных средств дало возможность обнаружить и удалить дублирующие БО в БД научных публикаций БИАС ИПИ РАН.

Ключевые слова: программные модули определения схожести; индекс схожести; метод нечеткого поиска по алгоритму Оливера; фасетная навигация.

Поступила в редакцию: 16.12.2014

DOI: 10.14357/08696527150111



Реферативные базы данных:


© МИАН, 2024