Аннотация:
Данные из интернета служат основой для решения широкого круга задач, от информационного поиска до аналитической обработки. Рост объёмов данных повышает важность эффективного извлечения описательных сведений о документах (метаданные – заголовки, имена авторов, даты публикации и так далее) с научных и образовательных сайтов (веб-ресурсов). Традиционные методы сбора и извлечения информации на основе статических шаблонов малоэффективны при обработке веб-страниц с динамически формируемым содержанием. В работе предложена архитектура адаптивной системы сбора и извлечения информации, сочетающая стандартные методы извлечения данных с технологиями машинного обучения. Система имеет модульную структуру, включающую подсистемы управления заданиями, мониторинга и журналирования, краулинга (робота сбора информации), управления ссылками, извлечения метаданных. Подсистема краулинга обрабатывает как статически, так и динамически формируемое содержание через имитацию работы прикладного программного обеспечения для просмотра веб-страниц. Для извлечения метаданных применяется комбинированный подход, совмещающий структурированные правила и машинное обучение. Эксперименты показали успешное извлечение метаданных из различных веб-ресурсов, включая страницы с динамически формируемым содержанием и сложными структурами. Система обладает высокой точностью и устойчивостью к изменениям форматов данных, при этом строго соблюдаются этические нормы сбора данных, включая обязательное выполнение инструкций и применение разумных интервалов между запросами.
Ключевые слова:
интеллектуальные поисково-аналитические системы, система сбора и извлечения информации, извлечение метаданных, веб-краулинг, динамический контент, машинное обучение, автоматизация сбора данных, браузерная эмуляция, MarkupLM.