Аннотация:
Проведен кластерный анализ внешних ресурсов сайтов крупных университетов. В качестве исследуемых объектов выбраны сайты университетов России, США и Великобритании, занимающие в своих регионах ведущие позиции в вебометрическом рейтинге. Цель работы – в выявлении для каждого сайта университета групп внешних веб-ресурсов с одинаковым родом деятельности. Проведен анализ найденных групп: определена степень влияния количества и размеров этих групп на вебометрический рейтинг сайтов университетов. Разработан алгоритм кластеризации, основанный на вероятностном методе понижения размерности многомерных данных (Locality-Sensitive Hashing – LSH). Поставлен эксперимент, в котором на тестовых данных показано, что алгоритм позволяет с высокой скоростью и допустимой точностью проводить кластеризацию большого объема данных. Приведены основные результаты исследования.
Ключевые слова:вебометрика, веб-сайты университетов, кластерный анализ, locality-sensitive hashing, min hashing, кластеризация внешних веб-ресурсов, анализ гиперссылок.