RUS  ENG
Полная версия
ЖУРНАЛЫ // Математическая биология и биоинформатика // Архив

Матем. биология и биоинформ., 2016, том 11, выпуск 1, страницы 114–126 (Mi mbb254)

Эта публикация цитируется в 3 статьях

Интеллектуальный анализ данных

Энтропийный подход к построению меры символьного разнообразия слов и его применение к кластеризации геномов растений

Ю. Г. Сметанинa, М. В. Ульяновbc, А. С. Пестоваd

a ФИЦ «Информатика и управление» РАН, г. Москва
b ИПУ им В.А. Трапезникова РАН, г. Москва
c МГУ им. М.В. Ломоносова, факультет ВМК, г. Москва
d ФКН НИУ ВШЭ, г. Москва

Аннотация: В статье рассматривается подход к анализу информации, представленной словами конечной длины над конечным алфавитом. Предложен метод построения меры символьного разнообразия слов, основанный на пиковых характеристиках функции энтропии сдвигов. Собственно функция энтропии сдвигов формализована на основе оператора сдвига один и понятия энтропии дискретных распределений. Приводятся модельный пример и результаты применения предложенной меры к кластеризации семейств растений на основе анализа геномов их представителей.

Ключевые слова: энтропия сдвигов, мера символьного разнообразия, кластеризация геномов растений.

УДК: 51-76: 57.087

Материал поступил в редакцию 05.04.2016, опубликован 25.05.2016

DOI: 10.17537/2016.11.114



© МИАН, 2024