И. Ю. Торшин, “О порождении синтетических признаков на основе опорных цепей и произвольных метрик в рамках топологического подхода к анализу данных. Часть 2. Экспериментальная апробация на задачах фармакоинформатики”, Информ. и её примен., 2024, том 18, выпуск 2,страницы 47

О порождении синтетических признаков на основе опорных цепей и произвольных метрик в рамках топологического подхода к анализу данных. Часть 2. Экспериментальная апробация на задачах фармакоинформатики

И. Ю. Торшин

Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Аннотация: Рассмотрение прецедентных отношений между признаками и таргетной переменной в виде наборов элементов булевой решетки указывает на возможность порождения синтетических признаков с использованием метрических функций расстояния. Сформулированы подходы к (1) оценке релевантности («информативности») метрик по отношению к решаемым задачам, (2) порождению и (3) отбору синтетических признаков, более информативных, чем исходные признаковые описания. Представленные результаты топологического анализа 2400 выборок данных «молекула–свойство» из ProteomicsDB позволили получить достаточно эффективные алгоритмы прогнозирования свойств молекул (ранговая корреляция в кросс-валидации — 90$\pm$0,23). На данной выборке задач установлены метрики, которые наиболее часто порождают информативные синтетические признаки: максимальное уклонение Колмогорова, «косое» расстояние, метрики Lp, Реньи, фон Мизеса. Для решения изученного комплекса задач показано преимущество полиномных корректоров по сравнению с нейросетевыми и с корректорами типа «случайный лес».

Ключевые слова: топологический анализ данных, теория решеток, алгебраический подход Ю. И. Журавлёва, фармакоинформатика.

Поступила в редакцию: 09.04.2024

DOI: 10.14357/19922264240207