И. А. Борисова, О. А. Кутненко, “Очистка данных от диагностических ошибок в признаковых пространствах большой размерности”, Матем. биология и биоинформ., 2019, том 14, выпуск 2,страницы 464

Информационные и вычислительные технологии в биологии и медицине

Очистка данных от диагностических ошибок в признаковых пространствах большой размерности

И. А. Борисова, О. А. Кутненко

Институт математики им. С.Л. Соболева Сибирского отделения Российской академии наук, Новосибирск, Россия

Аннотация: В статье предлагается новый подход к цензурированию данных, позволяющий очищать выборки от диагностических ошибок в целевом признаке в случае, когда эти выборки описаны в признаковых пространствах большой размерности. Рассмотрение данного случая как отдельной задачи объясняется тем, что в пространствах большой размерности перестают работать большинство методов цензурирования и очистки данных, как статистических, так и метрических. При этом для задач медицинской диагностики, учитывая сложность изучаемых объектов и явлений, большое количество описывающих характеристик является скорее нормой, чем исключением. Для решения поставленной задачи предложен подход, ориентированный на локальное сходство между собой объектов выборки и использующий в качестве меры сходства функцию конкурентного сходства (FRiS-функцию). В предложенном подходе для эффективной очистки данных от ошибок происходит выбор наиболее информативного и релевантного решаемой задаче признакового подпространства малой размерности, в котором разделимость классов после их корректировки будет максимальна. Под разделимостью классов понимается похожесть объектов одного класса друг на друга и их непохожесть на объекты другого классов. Очистка от ошибок может выражаться как в их исправлении, так и в удалении испорченных объектов из выборки. Описанный метод был реализован в виде алгоритма FRiS-LCFS (FRiS Local Censoring with Feature Selection) и протестирован на модельных и реальных биомедицинских задачах, в том числе и на задаче диагностики рака простаты по результатам измерения генной активности. Разработанный алгоритм показал свою конкурентоспособность по сравнению со стандартными методами, фильтрации данных в пространствах большой размерности.

Ключевые слова: распознавание образов, функция конкурентного сходства, компактность образов, разделимость классов, цензурирование объектов, выбор признаков.

УДК: 519.95

Материал поступил в редакцию 04.07.2019, 04.10.2019, опубликован 07.10.2019

DOI: 10.17537/2019.14.464