Аннотация:
Задачи, связанные с классификацией последовательностей символов некоторого
алфавита, часто возникают в таких областях, как биоинформатика и обработка
естественного языка. Методы глубокого обучения, в особенности модели на основе
рекуррентных нейронных сетей, в последние несколько лет зарекомендовали себя
как наиболее эффективный способ решения подобных задач. Однако существующие
подходы имеют серьезный недостаток — низкую интерпретируемость получаемых
результатов. Крайне сложно установить какие именно свойства входной
последовательности ответственны за её принадлежность к тому или иному классу.
Упрощение же таких моделей с целью повышения их интерпретируемости, в свою
очередь, приводит к снижению качества классификации. Такие недостатки
ограничивают применение современных методов машинного обучения во многих
предметных областях. В настоящей работе мы представляем принципиально новую,
интерпретируемую архитектуру нейронных сетей, основанную на поиске набора
коротких подпоследовательностей — мотивов, наличие которых влияет на
принадлежность последовательности к определенному классу. Ключевой составляющей
предлагаемого решения является разработанный нами алгоритм дифференцируемого
выравнивания, являющийся дифференцируемым аналогом таких классических способов
сравнения строк, как редакционное расстояние Левенштейна и алгоритм
Смита–Ватермана. В отличие от предыдущих работ, посвященных классификации
последовательностей на основе мотивов, новый метод позволяет не только
выполнять поиск в произвольной части строки, но и учитывать возможные вставки.