RUS  ENG
Полная версия
ЖУРНАЛЫ // Системы и средства информатики // Архив

Системы и средства информ., 2014, том 24, выпуск 1, страницы 224–243 (Mi ssi339)

Эта публикация цитируется в 3 статьях

Задачи идентификации информационных объектов в распределенных массивах данных

М. М. Гершкович, Т. К. Бирюкова

Институт проблем информатики Российской академии наук

Аннотация: Предлагаются подходы к решению задачи идентификации информационных объектов (ИО) в автоматизированных информационных системах (АИС), предназначенных для сбора, хранения и обработки данных, имеющих большое количество узлов и получающих данные из различных источников. Массив данных в рассматриваемых информационных системах, как правило, представляет собой постоянно пополняемый журнал событий. Каждая запись о событии содержит характеристики участника события — ИО и обстоятельства события. Для решения аналитических задач, связанных с ИО, необходимо идентифицировать ИО, т. е. определить множество ИО, представляющих собой с некоторой вероятностью одну и ту же сущность. В работе сформулирована постановка задач идентификации информационных объектов, часто встречающихся на практике при создании больших информационных систем: слияние ИО и кластеризация ИО, т. е. составление совокупностей ИО, «похожих» по некоторому критерию. Отмечено, что с задачей идентификации тесно связана задача поиска связей между ИО, поскольку вероятность идентичности двух ИО повышается, если выявляется связь каждого из них, например, с некоторым третьим ИО. Указаны способы решения этих задач, отмечена специфика идентификации ИО в потоке событий, приведен метод корреляционного поиска для выявления связи между ИО. Приведены методы сравнения имен собственных с учетом возможных искажений в них — фонетических, транскрипционных, а также просто опечаток. Указана целесообразность использования при идентификации физических лиц (ФЛ) данных фамильно-именной группы и в кириллице, и в латинице.

Ключевые слова: идентификация информационных объектов; идентификация объектов; корреляционный поиск; поиск связей; идентичность объектов; слияние информационных объектов; слияние объектов; текстовые атрибуты; искажения данных; фонетические искажения; транскрипционные искажения; перевод из латиницы в кириллицу; Metaphone; расстояние Левенштейна; распределенные информационные системы.

Поступила в редакцию: 26.02.2014

DOI: 10.14357/08696527140114



Реферативные базы данных:


© МИАН, 2024