Аннотация:
Предлагаются подходы к решению задачи идентификации информационных объектов (ИО) в автоматизированных информационных системах (АИС), предназначенных для сбора, хранения и обработки данных, имеющих большое количество узлов и получающих данные из различных источников. Массив данных в рассматриваемых информационных системах, как правило, представляет собой постоянно пополняемый журнал событий. Каждая запись о событии содержит характеристики участника события — ИО и обстоятельства события. Для решения аналитических задач, связанных с ИО, необходимо идентифицировать ИО, т. е. определить множество ИО, представляющих собой с некоторой вероятностью одну и ту же сущность. В работе сформулирована постановка задач идентификации информационных объектов, часто встречающихся на практике при создании больших информационных систем: слияние ИО и кластеризация ИО, т. е. составление совокупностей ИО, «похожих» по некоторому критерию. Отмечено, что с задачей идентификации тесно связана задача поиска связей между ИО, поскольку вероятность идентичности двух ИО повышается, если выявляется связь каждого из них, например, с некоторым третьим ИО. Указаны способы решения этих задач, отмечена специфика идентификации ИО в потоке событий, приведен метод корреляционного поиска для выявления связи между ИО. Приведены методы сравнения имен собственных с учетом возможных искажений в них — фонетических, транскрипционных, а также просто опечаток. Указана целесообразность использования при идентификации физических лиц (ФЛ) данных фамильно-именной группы и в кириллице, и в латинице.
Ключевые слова:идентификация информационных объектов; идентификация объектов; корреляционный поиск; поиск связей; идентичность объектов; слияние информационных объектов; слияние объектов; текстовые атрибуты; искажения данных; фонетические искажения; транскрипционные искажения; перевод из латиницы в кириллицу; Metaphone; расстояние Левенштейна; распределенные информационные системы.