Аннотация:
В данной работе описано использование аппарата вероятностных нейронных сетей для решения проблем биоинформатики на примере задачи определения локализации белков по их первичной структуре. В качестве исходных данных использованы наборы характеристик аминокислотных последовательностей белков, полученные различными программными средствами, нацеленными на поиск специфических сигнальных последовательностей, а также данные о том, где в клетке локализуются эти белки в клетках двух микроорганизмов – бактерии E. coli и дрожжей S. cerevisiae. Источник данных – UCI Machine Learning Repository (http://archive.ics.uci.edu/ml/datasets). Показана возможность применения вероятностных нейронных сетей для решения данной задачи, так как получена точность классификации 57.5 % и 85.0 % для дрожжевых и бактериальных клеток соответственно. Полученные показатели точности классификации использованных данных превышают, те, которые по данным литературы были достигнуты при применении других методов распознавания. Отмечено, что высокая скорость обучения и возможность модификации делает вероятностные нейронные сети перспективным инструментом для анализа данных биоинформатики.
Ключевые слова:вероятностные нейронные сети, сайты связывания белков, классификация данных, машинное обучение, протеомные базы данных.
УДК:
004.891.3
Материал поступил в редакцию 29.11.2018, 17.05.2019, опубликован 23.05.2019