RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2020, том 32, выпуск 5, страницы 111–120 (Mi tisp547)

Application of HDBSCAN method for clustering scRNA-seq data

[Применение метода HDBSСAN для кластеризации данных scRNA-seq]

M. A. Akimenkovaab, A. A. Mazninaa, A. Y. Naumovb, E. A. Karpulevitchba

a Moscow Institute of Physics and Technology
b Ivannikov Institute for System Programming of the Russian Academy of Sciences

Аннотация: Одной из основных задач при анализе данных РНК-секвенирования единичных клеток является идентификация типов и подтипов клеток, которая обычно основана на каком-либо методе кластеризации. Существует ряд общепринятых подходов к решению проблемы кластеризации, один из которых реализован в пакете Seurat. На качество кластеризации, помимо прочего, влияет использование алгоритмов предварительной обработки, таких как импутация, уменьшение размерности, отбор признаков и т. д. В статье для кластеризации данных scRNA-seq используется метод иерархической кластеризации HDBSCAN. Для более полного сравнения эксперименты и сравнения проводились на двух размеченных наборах данных: Zeisel (3005 клеток) и Romanov (2881 клетка). Для сравнения качества кластеризации использовались две внешние метрики: скорректированный индекс Рэнда и V-мера. Эксперименты продемонстрировали более высокое качество кластеризации методом HDBSCAN на наборе данных Zeisel и более низкое качество на наборе данных Romanov.

Ключевые слова: hdbscan, кластеризация данных РНК-секвенирования единичных клеток, шумоподавляющий автокодировщик.

Язык публикации: английский

DOI: 10.15514/ISPRAS-2020-32(5)-8



© МИАН, 2024