Аннотация:
Кластеризация объектов является одной из основных задач машинного обучения. Она нашла широкое применение в различных предметных областях: маркетинге, социологии, психологии и пр. В основе алгоритмов кластеризации, как правило, лежит метрика, отражающая расстояние между объектами. Однако в ряде случаев пользоваться расстоянием между объектами нецелесообразно. В определенных ситуациях можно говорить о том, что один объект похож на второй, притом что второй объект не похож на первый. Такими объектами могут являться, например, оригинал картины и ее копия. Для подобных случаев в работе предложена мера схожести объектов, которая отражает, какая часть признаков одного объекта содержится в другом. На основании данной меры строится матрица схожести, анализ которой позволяет выявлять кластеры взаимно схожих объектов. При проведении апробации предложенного метода кластеризации индекс Рэнда (доля корректно связанных или не связанных между собой объектов) составил 0,93. Предложен алгоритм, позволяющий формировать множество максимально различающихся между собой объектов. Множество объектов, сформированное подобным образом, может в дальнейшем стать обучающим множеством для классификаторов и повысить верность их распознавания.