А. М. Андреев, Д. В. Березкин, И. А. Козлов, К. В. Симаков, “Подход к автоматизированному контролю работы системы извлечения данных с веб-сайтов”, Информ. и её примен., 2013, том 7, выпуск 3,страницы 2

Эта публикация цитируется в 1 статье

Подход к автоматизированному контролю работы системы извлечения данных с веб-сайтов

А. М. Андреев, Д. В. Березкин, И. А. Козлов, К. В. Симаков

Московский государственный технический университет им. Н. Э. Баумана

Аннотация: Системы извлечения данных с веб-сайтов используют информацию о разметке HTML-страниц. Для обеспечения бесперебойной работы таких систем необходимо решить проблему своевременного обнаружения изменений структуры веб-сайтов. В статье предложен подход к решению этой проблемы, предполагающий наличие двух этапов детектирования изменений верстки: оперативного и отложенного. В основе первого из них лежит кластеризация, при этом HTML-документ рассматривается как вектор некоторых характеристик. Второй этап основан на сравнении распределений этих характеристик для эталонного и тестового наборов документов. Проведена экспериментальная оценка предложенного подхода, демонстрирующая его практическую применимость.

Ключевые слова: сбор текстовой информации; парсинг веб-сайтов; кластеризация; статистический анализ HTML-верстки.

DOI: 10.14357/19922264130301