RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2021, том 33, выпуск 3, страницы 87–100 (Mi tisp601)

High performance distributed web-scraper

[Высокопроизводительный распределенный веб-скрапер]

D. S. Eyzenakh, A. S. Rameykov, I. V. Nikiforov

Peter the Great St.Petersburg Polytechnic University

Аннотация: За последнее десятилетие Интернет стал гигантским и богатейшим источником данных. Данные используются для извлечения знаний путем выполнения машинного анализа. Чтобы выполнить интеллектуальный анализ данных веб-информации, данные должны быть извлечены из источника и помещены в аналитическое хранилище. Это ETL-процесс. Разные веб-источники имеют разные способы доступа к своим данным: либо API по протоколу HTTP, либо парсинг исходного кода HTML. Статья посвящена подходу к высокопроизводительному извлечению данных из источников, не имеющих API для доступа к данным. Отличительными особенностями предлагаемого подхода являются: балансировка нагрузки, двухуровневая подсистема данных и отделение процесса загрузки файлов от процесса парсинга. Подход реализован в решении со следующими технологиями: Docker, Kubernetes, Scrapy, Python, MongoDB, Redis Cluster и СephFS. Результаты тестирования решения также описаны в этой статье.

Ключевые слова: веб-скрапинг, веб-краулинг, распределенный сбор данных, распределенный анализ данных.

Язык публикации: английский

DOI: 10.15514/ISPRAS-2021-33(3)-7



© МИАН, 2024