RUS  ENG
Полная версия
ЖУРНАЛЫ // Препринты Института прикладной математики им. М. В. Келдыша РАН // Архив

Препринты ИПМ им. М. В. Келдыша, 2019, 020, 31 стр. (Mi ipmp2658)

Эта публикация цитируется в 1 статье

Скрейпинг «на лету» внешних веб ресурсов, управляемый разметкой HTML страницы

Е. Л. Китаев, Р. Ю. Скорнякова


Аннотация: В работе изложен подход к отображению на веб страницах данных из кросс доменных ресурсов с использованием REST API и описан созданный на основе этого подхода инструмент, позволяющий извлекать и показывать на веб странице метаданные размещенных в интернете html документов, pdf файлов и документов Word, а также микроданные и данные в формате JSON LD. Инструмент включает в себя REST API на веб сервере IIS и скрипты на языке JavaScript. Приведены примеры использования этого инструмента для создания списка организаций, веб страницы с ценами на один и тот же товар в разных интернет магазинах, списка научных статей. Созданный REST API допускает кросс доменный доступ (CORS) и может быть использован при запросах из веб страниц любых доменов.

Ключевые слова: веб-скрейпинг, микроразметка, семантическая разметка, микроданные, JSON-LD, REST API, CORS.

DOI: 10.20948/prepr-2019-20



Реферативные базы данных:


© МИАН, 2024