ЧИСЛЕННЫЕ МЕТОДЫ И ОСНОВЫ ИХ РЕАЛИЗАЦИИ
Свойства алгоритмов поиска оптимальных порогов для задач многозначной классификации
А. И. Бергер,
С. А. Гуда Южный федеральный университет,
Россия, 344006, г. Ростов-на-Дону, ул. Большая Садовая, 105/42
Аннотация:
Модели многозначной классификации возникают в различных сферах современной жизни, что объясняется всё большим количеством информации, требующей оперативного анализа. Одним из математических методов решения этой задачи является модульный метод, на первом этапе которого для каждого класса строится некоторая ранжирующая функция, упорядочивающая некоторым образом все объекты, а на втором этапе для каждого класса выбирается оптимальное значение порога, объекты с одной стороны которого относят к текущему классу, а с другой — нет. Пороги подбираются так, чтобы максимизировать целевую метрику качества. Алгоритмы, свойства которых изучаются в настоящей статье, посвящены второму этапу модульного подхода — выбору оптимального вектора порогов. Этот этап становится нетривиальным в случае использования в качестве целевой метрики качества
$F$-меры от средней точности и полноты, так как она не допускает независимую оптимизацию порога в каждом классе. В задачах экстремальной многозначной классификации число классов может достигать сотен тысяч, поэтому исходная оптимизационная задача сводится к задаче поиска неподвижной точки специальным образом введенного отображения
V, определенного на единичном квадрате на плоскости средней точности
$P$ и полноты
$R$. Используя это отображение, для оптимизации предлагаются два алгоритма: метод линеаризации
$F$-меры и метод анализа области определения отображения
V. На наборах данных многозначной классификации разного размера и природы исследуются свойства алгоритмов, в частности зависимость погрешности от числа классов, от параметра
$F$-меры и от внутренних параметров методов. Обнаружена особенность работы обоих алгоритмов для задач с областью определения отображения
V, содержащей протяженные линейные участки границ. В случае когда оптимальная точка расположена в окрестности этих участков, погрешности обоих методов не уменьшаются с увеличением количества классов. При этом метод линеаризации достаточно точно определяет аргумент оптимальной точки, а метод анализа области определения отображения
V — полярный радиус.
Ключевые слова:
многозначная классификация, экстремальная классификация, $F$-мера, метод линеаризации, метод анализа области определения.
УДК:
519.8 Поступила в редакцию: 24.02.2022
Исправленный вариант: 09.06.2022
Принята в печать: 08.09.2022
DOI:
10.20537/2076-7633-2022-14-6-1221-1238