RUS  ENG
Полная версия
ЖУРНАЛЫ // Математическая биология и биоинформатика // Архив

Матем. биология и биоинформ., 2017, том 12, выпуск 1, страницы 102–119 (Mi mbb283)

Эта публикация цитируется в 7 статьях

Информационные и вычислительные технологии в биологии и медицине

Большие данные в биоинформатике

Н. Н. Назиповаa, Е. А. Исаевb, В. В. Корниловb, Д. В. Первухинb, А. А. Морозоваc, А. А. Горбуновb, М. Н. Устининa

a Институт математических проблем биологии РАН – филиал Федерального государственного учреждения "Федеральный исследовательский центр Институт прикладной математики им. М.В. Келдыша Российской академии наук", Пущино
b Национальный исследовательский университет «Высшая школа экономики», Москва
c Союз предприятий Центральное научно-производственное объединение «КАСКАД», Москва

Аннотация: Секвенирование человеческого генома началось в 1994 году. Понадобилось 10 лет работы многих научных коллективов для того, чтобы получить черновую последовательность ДНК человека. Современные технологии секвенирования позволяют получать геном конкретного человека за несколько дней. Обсуждаются успехи современной биоинформатики, связанные с появлением высокопроизводительных платформ секвенирования, которые не только способствовали расширению возможностей различных направлений биологии и других смежных наук, но и породили феномен больших данных. Обосновывается необходимость разработки новых технологий и методов для организации хранения, управления, анализа и визуализации больших данных. Современная биоинформатика столкнулась не только с проблемой больших данных, но и с огромным разнообразием методов обработки и представления, одновременным существованием различных программных средств и форматов данных. Обсуждаются пути решения возникших проблем, в частности путем использования наработок работы с большими данными из других областей современной жизни, таких как сетевой анализ и анализ деловых данных. Новые системы управления базами данных, отличные от реляционных, помогут решить проблему хранения больших данных и обеспечения приемлемого времени выполнения поисковых запросов. Новые технологии программирования, такие, как обобщенное программирование и визуальное программирование призваны решить проблему разнообразия форматов геномных данных и обеспечить возможность оперативного создания собственных скриптов для обработки данных.

Ключевые слова: большие данные, Big Data, NGS, секвенирование генома, IT-технологии, биоинформатика, обобщенное программирование, визуальное программирование, нереляционные системы управления базами данных, NoSQL системы, Hadoop, MapReduce.

УДК: 004.9:004.9:004.8:577.21

Материал поступил в редакцию 21.12.2016, опубликован 10.03.2017

DOI: 10.17537/2017.12.102



© МИАН, 2024