Аннотация:
В работе представлен метод сокращения пространства поиска параметров кластеризации. Это достигается за счет выбора наиболее подходящих способов преобразования данных и мер различия на этапе, предваряющем выполнение непосредственно кластеризации. Для сравнения выбранных способов предлагается использовать коэффициент силуэта, который рассматривает метки классов из небольшого размеченного набора данных как метки кластеров. Приведены результаты экспериментальной проверки предложенного подхода для кластеризации текстов новостей.
Ключевые слова:кластеризация, поиск параметров, сокращение пространства поиска, меры различия, машинное обучение.