Аннотация:
В статье предложен метод поиска потенциальных сдвигов рамки считывания в генах, основанный на обнаружении точек разладки в распределении частот триплетов. Оценка статистической значимости разладки проводилась с помощью метода Монте-Карло. Корректность разработанного метода была продемонстрирована на последовательностях ДНК, содержащих искусственно внесенные в последовательность вставки. На предмет присутствия точек разладки были проанализированы последовательности банка данных KEGG GENES. На уровне значимости 6 % было обнаружено, что более 140 тыс. последовательностей содержат точки разладки. Была проведена классификация последовательностей, имеющих точки разладки, по полю description в банке данных KEGG GENES. Оказалось, что большое число этих последовательностей являются псевдогенами, а во многих из них ранее были выявлены сдвиги рамки считывания. Наряду с этими последовательностями точки разладки были идентифицированы в генах, кодирующих PE-PGRS, cation channel family protein, PPE family protein и многие другие белки. Обсуждается связь между наличием в последовательности ДНК точки разладки и сдвигом рамки считывания.
Ключевые слова:последовательность ДНК, рамка считывания, сдвиг рамки считывания, точка разладки, метод Монте-Карло.
УДК:
577.212.2+577.214
Материал поступил в редакцию 29.03.2011, опубликован 16.05.2011