RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2025, том 527, страницы 367–377 (Mi danma694)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

RES-LT: извлечение топологических признаков высокого порядка из белковых языковых моделей для улучшенной классификации на уровне аминокислотных остатков

М. П. Ивановаa, И. Е. Трофимовa, А. В. Мироненкоa, П. В. Страшновb, М. К. Кравченкоa, С. А. Баранниковac, Е. В. Бурнаевab

a Сколковский институт науки и технологий, Москва, Россия
b Институт искусственного интеллекта AIRI, Москва, Россия
c CNRS, IMI, Парижский университет Cité, Париж, Франция

Аннотация: Мы представляем RES-LT (Residual Local Topology), новый подход к топологическому анализу данных, который извлекает топологические признаки высокого порядка из основанных на архитектуре “Трансформер” белковых языковых моделей. RES-LT использует как персистентные гомологии нулевого порядка (H0), так и первого порядка (H1) для характеристики взаимодействий между остатками в белках через матрицы внимания белковых языковых моделей, генерируя биологически значимые признаки для классификации на уровне отдельного аминокислотного остатка. Реализованный на семействе белковых языковых моделей ESM-2 наш подход интегрирует топологические признаки H0 и H1 со стандартными эмбеддингами для создания мощного гибридного представления. Обширные эксперименты демонстрируют, что RES-LT достигает уровня эффективности самых современных передовых моделей в прогнозировании консервативности и значительно превосходит как традиционные подходы, так и сопоставимые методы, основанные на трансформерах, в задачах идентификации сайтов связывания.

Ключевые слова: топологический анализ данных, персистентная гомология, белковые языковые модели, матрицы внимания, прогнозирование на уровне остатка, идентификация сайтов связывания, прогнозирование консервативности, прогнозирование вторичной структуры.

УДК: 576.8

Поступило: 21.08.2025
Принято к публикации: 22.09.2025

DOI: 10.7868/S268695432507032X



Реферативные базы данных:


© МИАН, 2025