Аннотация:
Представлена технология предотвращения дублирования библиографических описаний (БО), разработанная для научной базы данных (БД) библиографической информационно-аналитической системы (БИАС) ИПИ РАН (с февраля 2015 г. — в составе ФИЦ ИУ РАН). Приведен анализ причин, порождающих дублирование записей. Разработанная технология опирается на применение программных модулей определения схожести, использующих методы нечеткого поиска по алгоритму Оливера, и средств визуализации полученных результатов, которые встроены в систему на уровне формирования контента БД. Введено понятие индекса схожести, используемое в алгоритмах поиска дублирующих БО. Представлена формальная модель данных, заложенная в основу построения БД, базирующаяся на принципах фасетной навигации, разработанной авторами. Исследование формальной модели позволило разработать алгоритмы, на которых строилась технология предотвращения дублирования БО. Применение разработанных программных средств дало возможность обнаружить и удалить дублирующие БО в БД научных публикаций БИАС ИПИ РАН.
Ключевые слова:программные модули определения схожести; индекс схожести; метод нечеткого поиска по алгоритму Оливера; фасетная навигация.