Аннотация:
Рассматриваются вопросы эффективности методов классификации неполных клинических данных. Обучение байесовского классификатора проводится методом максимального правдоподобия (МП) для модели смеси нормальных распределений. Строгий вывод формул, обеспечивающих реализацию шагов EM (expectation-maximization) алгоритма, позволил корректно применять итерационный процесс получения оценок параметров смеси. Для неполных данных предлагаются приемы выбора начальных значений и коррекции вырождающихся ковариационных матриц элементов смеси. Экспериментальная часть работы заключалась в анализе зависимости качества классификации от степени пропуска отдельных значений, для этого использовались данные о ферментах, полученные для пациентов с заболеваниями печени. Обработка реальных данных продемонстрировала практически идентичные ошибки классификации при применении простых и сложных методов обработки пропусков в случае невысокой степени случайного пропуска отдельных значений.