Аннотация:
Расчет размера выборки – одна из базовых задач в области корректного и объективного тестирования алгоритмов искусственного интеллекта (ИИ). Существующие подходы, несмотря на исчерпывающее теоретическое обоснование, при одинаковых начальных условиях могут давать результаты, отличающиеся на порядок. Большинство вводных параметров для таких методов определяются исследователем интуитивно либо на основании релевантных литературных данных в предметной области. Подобная неопределенность на этапе планирования исследования сопряжена с высоким риском получения необъективных результатов, что особенно важно учитывать при использовании алгоритмов ИИ для задач медицинской диагностики. В рамках данной работы проведено эмпирическое исследование значения минимально необходимого размера выборки лучевых диагностических исследований для получения объективного значения метрики AUROC. Разработан и реализован в формате программного обеспечения алгоритм расчета порогового значения размера выборки по критерию отсутствия статистически значимых изменений значения метрики в случае увеличения этого размера. С использованием наборов данных, содержащих результаты тестирования алгоритмов ИИ на маммографических и рентгенографических исследованиях общим объемом более 300 тыс., проведен расчет эмпирического порога для размера выборки от 30 до 25 тыс. исследований при различном относительном содержании патологии – от 10 до 90%. Предложенный алгоритм позволяет получить результаты, инвариантные к балансу классов в выборке, целевому значению AUROC, модальности исследований и алгоритму ИИ. Эмпирическое значение минимально достаточного размера выборки для тестирования ИИ-алгоритма бинарной классификации, полученное при анализе свыше 2 млн расчетных значений, составляет 400 исследований. Полученные результаты могут быть использованы для решения задач разработки и тестирования диагностических инструментов, в т.ч. алгоритмов ИИ.