СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ
RES-LT: извлечение топологических признаков высокого порядка из белковых языковых моделей для улучшенной классификации на уровне аминокислотных остатков
Аннотация:
Мы представляем RES-LT (Residual Local Topology), новый подход к топологическому анализу данных, который извлекает топологические признаки высокого порядка из основанных на архитектуре “Трансформер” белковых языковых моделей. RES-LT использует как персистентные гомологии нулевого порядка (H0), так и первого порядка (H1) для характеристики взаимодействий между остатками в белках через матрицы внимания белковых языковых моделей, генерируя биологически значимые признаки для классификации на уровне отдельного аминокислотного остатка. Реализованный на семействе белковых языковых моделей ESM-2 наш подход интегрирует топологические признаки H0 и H1 со стандартными эмбеддингами для создания мощного гибридного представления. Обширные эксперименты демонстрируют, что RES-LT достигает уровня эффективности самых современных передовых моделей в прогнозировании консервативности и значительно превосходит как традиционные подходы, так и сопоставимые методы, основанные на трансформерах, в задачах идентификации сайтов связывания.
Ключевые слова:
топологический анализ данных, персистентная гомология, белковые языковые модели, матрицы внимания, прогнозирование на уровне остатка, идентификация сайтов связывания, прогнозирование консервативности, прогнозирование вторичной структуры.
УДК:
576.8
Поступило: 21.08.2025 Принято к публикации: 22.09.2025