Аннотация:
Рассмотрена задача сокращения размерности пространства признаков экзонов человека с целью определить их генную принадлежность. Для оценки эффективности алгоритмов отбора признаков проведены вычислительные эксперименты на примерах экзонов 14 известных генов человека. Установлено, что экзоны четко разделимы относительно генной принадлежности. Алгоритмы автоматического отбора чувствительны к шумовым признакам и позволяют оценить количество таких признаков. Сокращение числа последних улучшает производительность вычислений и потребление памяти, а также позволяет получать значительно более простые прогностические модели и повышает их интерпретируемость. Показано, что тренировка алгоритмов индуктивного обучения на признаках фланкирующих интронов обеспечивает более высокую предсказательную способность в сравнении с обучением алгоритмов на признаках экзонов. Результаты представленной работы открывают новые возможности для изучения организации генов человека с помощью алгоритмов машинного обучения.
Ключевые слова:экзон; интрон; биоинформатика; отбор признаков; имитационное моделирование; алгоритм классификации.