RUS  ENG
Полная версия
ЖУРНАЛЫ // Информатика, телекоммуникации и управление // Архив

Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление, 2015, выпуск 5(229), страницы 79–87 (Mi ntitu128)

Интеллектуальные системы и технологии

Применение модифицированного алгоритма LSH для кластеризации внешнего окружения веб-пространства университетов

В. Н. Корелин, И. С. Блеканов, С. Л. Сергеев

Санкт-Петербургский государственный университет

Аннотация: Проведен кластерный анализ внешних ресурсов сайтов крупных университетов. В качестве исследуемых объектов выбраны сайты университетов России, США и Великобритании, занимающие в своих регионах ведущие позиции в вебометрическом рейтинге. Цель работы – в выявлении для каждого сайта университета групп внешних веб-ресурсов с одинаковым родом деятельности. Проведен анализ найденных групп: определена степень влияния количества и размеров этих групп на вебометрический рейтинг сайтов университетов. Разработан алгоритм кластеризации, основанный на вероятностном методе понижения размерности многомерных данных (Locality-Sensitive Hashing – LSH). Поставлен эксперимент, в котором на тестовых данных показано, что алгоритм позволяет с высокой скоростью и допустимой точностью проводить кластеризацию большого объема данных. Приведены основные результаты исследования.

Ключевые слова: вебометрика, веб-сайты университетов, кластерный анализ, locality-sensitive hashing, min hashing, кластеризация внешних веб-ресурсов, анализ гиперссылок.

УДК: 025.4, 004

DOI: 10.5862/JCSTCS.229.8



© МИАН, 2024