RUS  ENG
Полная версия
ЖУРНАЛЫ // Математическая биология и биоинформатика // Архив

Матем. биология и биоинформ., 2018, том 13, выпуск 1, страницы 38–49 (Mi mbb326)

Эта публикация цитируется в 2 статьях

Интеллектуальный анализ данных

Исправление диагностических ошибок в целевом признаке с помощью функции конкурентного сходства

И. А. Борисова, О. А. Кутненко

Институт математики им. С.Л. Соболева СО РАН, Новосибирск, Россия

Аннотация: В работе рассматривается задача цензурирования данных из области медицинской диагностики. Предполагается, что в анализируемой выборке могут встречаться ошибочно диагностированные объекты. Подобные объекты оказывают негативное влияние на процедуру анализа данных и поиск содержащихся в них закономерностей, что замедляет процесс получения результатов и ведет к их искажению. Предложенная процедура цензурирования позволяет отыскивать такие объекты и либо удалять их, либо исправлять ошибки в диагностическом (целевом) признаке. Исправление ошибок предпочтительнее в том случае, когда исходная выборка мала, так как это позволяет максимально сохранить полезную информацию, содержащуюся в выборке. Для решения поставленной задачи используется функция конкурентного сходства, с помощью которой оценивается локальное сходство объектов со своими ближайшими соседями. Будучи усредненными по всей выборке, величины локального сходства дают представление о том насколько сильно различаются классы объектов с разными диагнозами на основе имеющихся данных. При этом предполагается, что если в выборке присутствуют неверно диагностированные объекты, то их сходство с ближайшими аналогами из своего класса низкое, и их исключение или коррекция целевого признака позволит увеличить общую разделимость выборки. Процедура коррекции-фильтрации неверно диагностированных объектов основана на наблюдении за изменениями в оценке разделимости классов, вычисленной до и после внесения исправлений в выборку. Процесс цензурирования продолжается до достижения точки перегиба функции разделимости. Для тестирования предложенного метода использовался ряд модельных задач различной сложности. Кроме того этот метод применялся к задачам диагностики диабета, рака груди по результатам биопсии, болезни Паркинсона по нарушениям речи. Предложенный метод показал высокую чувствительность по отношению к ошибочно диагностированным объектам, а исправление таких ошибок позволило улучшить качество классификации при незначительном сокращении объема обучающей выборки.

Ключевые слова: распознавание образов, функция конкурентного сходства, компактность образов, разделимость классов, цензурирование объектов.

УДК: 519.95

Материал поступил в редакцию 31.01.2018, опубликован 27.03.2018

DOI: 10.17537/2018.13.38



© МИАН, 2024