Аннотация:
Рассмотрена задача моделирования референсных значений — результатов наблюдения определенного типа величин, полученных от одного лица или группы лиц, в соответствии с заявленным описанием. Для этих целей предлагается использовать смесь нормальных распределений, которая может эффективно служить как средство аппроксимации реальных данных и при этом быть доступной с точки зрения теоретического анализа. При оценивании параметров компонентов смеси распределений главную роль играет метод максимального правдоподобия и его воплощение в виде EM (expectation-maximization) алгоритма. Для подбора числа компонентов смеси предлагается использовать критерий отношения правдоподобия и метод на основе расстояния между распределениями типа хи-квадрат. Их свойства исследуются с помощью бутстреп-метода. В качестве экспериментов рассматривается описание эмпирического распределения данных о пациентах, включающих возраст и измерения PSA (Prostate-Specific Antigen). Предложенные решения имеют явные преимущества: высокую детализацию по возрастам, сглаживание результатов наблюдений для различных по объему возрастных групп, возможность формировать предположения о характере зависимости между возрастом и уровнем PSA.
Ключевые слова:смесь нормальных распределений; оценивание числа компонентов смеси; референсные значения.