Аннотация:
В настоящее время в публикациях специалистов по анализу массивов
естественно упорядоченных данных различной природы (в том числе символьных
последовательностей) не имеют широкого распространения математические средства,
адекватно учитывающие расположение компонентов. Поэтому затруднены или невозможны
измерение и сравнение порядка следования сообщений, выделенных в длинных
информационных цепях. Основные подходы при сравнении символьных последовательностей
используют вероятностные модели и статистический инструментарий, попарное и
множественное выравнивание, позволяющее определить степень сходства цепей с помощью
мер редакционного расстояния. Отмеченные подходы почти не уделяют внимания
исследованию и обнаружению закономерностей конкретного расположения всех знаков, слов,
компонентов массивов данных, составляющих отдельную целостную последовательность.
Объектом исследования в наших работах является специальным образом организованный
числовой кортеж — расположение компонентов (строй) в символьных или числовых
последовательностях. При этом в качестве основы для количественного отображения
строя цепи используются интервалы между ближайшими одинаковыми ее компонентами.
Перемножение всех интервалов или суммирование их логарифмов позволяет получить
числа, которые однозначно отображают расположение компонентов в конкретной
последовательности. Эти числа, в свою очередь, позволяют получить целый набор
нормированных характеристик строя, среди которых средний геометрический интервал
и его логарифм. В данной работе представлен подход для количественного сравнения
построений массивов естественно упорядоченных данных (информационных цепей)
произвольной природы. Предложены меры сходства-расхождения и процедура сравнения
строя цепей, основанные на выделении списка совпадающих и сходных по характеристикам
строя подпоследовательностей. При этом для быстрого выделения списка совпадающих
компонентов используются ранговые распределения. В работе представлен инструментарий
для сравнения построений информационных цепей и продемонстрированы некоторые его
возможности при исследовании строя нуклеотидных последовательностей.
Ключевые слова:знаковая последовательность, информационная цепь, строй цепи, глубина строя, средняя удаленность, нуклеотидная последовательность, меры сходства-расхождения, матрица сходства, alignment-free genome comparison, межнуклеотидное расстояние.