Информ. и её примен.,
2024, том 18, выпуск 2,страницы 47–53(Mi ia899)
О порождении синтетических признаков на основе опорных цепей и произвольных метрик в рамках топологического подхода к анализу данных. Часть 2. Экспериментальная апробация на задачах фармакоинформатики
Аннотация:
Рассмотрение прецедентных отношений между признаками и таргетной переменной в виде наборов элементов булевой решетки указывает на возможность порождения синтетических признаков с использованием метрических функций расстояния. Сформулированы подходы к (1) оценке релевантности («информативности») метрик по отношению к решаемым задачам, (2) порождению и (3) отбору синтетических признаков, более информативных, чем исходные признаковые описания. Представленные результаты топологического анализа 2400 выборок данных «молекула–свойство» из ProteomicsDB позволили получить достаточно эффективные алгоритмы прогнозирования свойств молекул (ранговая корреляция в кросс-валидации — 90$\pm$0,23). На данной выборке задач установлены метрики, которые наиболее часто порождают информативные синтетические признаки: максимальное уклонение Колмогорова, «косое» расстояние, метрики Lp, Реньи, фон Мизеса. Для решения изученного комплекса задач показано преимущество полиномных корректоров по сравнению с нейросетевыми и с корректорами типа «случайный лес».
Ключевые слова:топологический анализ данных, теория решеток, алгебраический подход Ю. И. Журавлёва, фармакоинформатика.