Научный отдел
Информатика
Классификация и распознавание структур генетических последовательностей
В. А. Твердохлебовa,
Д. А. Карякинb a Институт проблем точной механики и управления РАН, Россия, 410028,
г. Саратов, ул. Рабочая, д. 24
b Саратовский национальный исследовательский
государственный университет имени Н. Г. Чернышевского, Россия, 410012, г. Саратов,
ул. Астраханская, д. 83
Аннотация:
Для решения проблемы определения связей свойств организмов
со свойствами соответствующих им генетических последовательностей
в статье рассматривается метод классификации последовательностей
и распознавание принадлежности исследуемой последовательности
конкретному классу.
Впервые предлагается классификация последовательностей
на основе числовых показателей рекуррентных и
$Z$-рекуррентных форм,
определяющих структуры функциональных связей элементов
последовательностей.
Для числовых показателей рекуррентных и
$Z$-рекуррентных форм вводится
классификация, которая распространяется на классификацию генетических
последовательностей.
Каждому рассматриваемому в задаче распознавания классу последовательностей,
имеющему содержательную интерпретацию в приложениях, сопоставляется
числовая характеристика, обобщающая числовые показатели
рекуррентной или
$Z$-рекуррентной формы, определяющих структуру последовательностей
класса.
При распознавании полученная числовая характеристика класса сравнивается с числовой
характеристикой рекуррентной или
$Z$-рекуррентной формы, соответствующей исследуемой
генетической последовательности.
При классификации последовательностей на основе числовых показателей
рекуррентной и
$Z$-рекуррентной форм, определяющих структуры
функциональных связей элементов в последовательностях,
причинно-следственные связи в генетических последовательностях, заменяются
формальными функциональными зависимостями между элементами последовательностей.
Задача распознавания рассматривается в двух формах:
в форме принадлежности последовательности заданному конкретному классу
последовательностей
и в форме определения, какому из заданных классов последовательностей
принадлежит исследуемая последовательность.
Основные математические трудности при решении указанных задач
распознавания связаны с определением рекуррентных и
$Z$-рекуррентных форм,
по числовым показателям которых исследуемая последовательность и классы
последовательностей различаются.
Для преодоления этих трудностей разработан спектр числовых показателей
рекуррентных и
$Z$-рекуррентных форм, с использованием которого рекуррентно и
$Z$-рекуррентно определены последовательности.
Классификация и распознавание иллюстрируются примером,
в котором рассматриваются три класса генетических кодов организмов,
каждый из которых представлен пятью генетическими последовательностями.
Для уточнения и расширения классификации последовательностей
и повышения эффективности методов распознавания вводится
$Z$-рекуррентное определение последовательностей.
Ключевые слова:
последовательность, генетическая последовательность, рекуррентное определение последовательности, $Z$-рекуррентное определение последовательности, рекуррентная форма, $Z$-рекуррентная форма, классификация последовательностей, распознавание последовательностей.
УДК:
501.1
Поступила в редакцию: 12.04.2018
Принята в печать: 22.02.2019
DOI:
10.18500/1816-9791-2019-19-3-338-350