Д. С. Серенко, Е. Д. Терентьев, Д. В. Зубарев, И. В. Соченков, “Архитектура системы сбора и извлечения информации для интеллектуальной поисково-аналитической системы”, Труды ИСП РАН, 2025, том 37, выпуск 2,страницы 263

Архитектура системы сбора и извлечения информации для интеллектуальной поисково-аналитической системы

Д. С. Серенко^ab, Е. Д. Терентьев^ab, Д. В. Зубарев^a, И. В. Соченков^cdb

^a Федеральный исследовательский центр «Информатика и управление» Российской академии наук
^b Российский университет дружбы народов имени Патриса Лумумбы
^c Институт проблем передачи информации им. А. А. Харкевича Российской академии наук
^d Институт системного программирования им. В.П. Иванникова РАН

Аннотация: Данные из интернета служат основой для решения широкого круга задач, от информационного поиска до аналитической обработки. Рост объёмов данных повышает важность эффективного извлечения описательных сведений о документах (метаданные – заголовки, имена авторов, даты публикации и так далее) с научных и образовательных сайтов (веб-ресурсов). Традиционные методы сбора и извлечения информации на основе статических шаблонов малоэффективны при обработке веб-страниц с динамически формируемым содержанием. В работе предложена архитектура адаптивной системы сбора и извлечения информации, сочетающая стандартные методы извлечения данных с технологиями машинного обучения. Система имеет модульную структуру, включающую подсистемы управления заданиями, мониторинга и журналирования, краулинга (робота сбора информации), управления ссылками, извлечения метаданных. Подсистема краулинга обрабатывает как статически, так и динамически формируемое содержание через имитацию работы прикладного программного обеспечения для просмотра веб-страниц. Для извлечения метаданных применяется комбинированный подход, совмещающий структурированные правила и машинное обучение. Эксперименты показали успешное извлечение метаданных из различных веб-ресурсов, включая страницы с динамически формируемым содержанием и сложными структурами. Система обладает высокой точностью и устойчивостью к изменениям форматов данных, при этом строго соблюдаются этические нормы сбора данных, включая обязательное выполнение инструкций и применение разумных интервалов между запросами.

Ключевые слова: интеллектуальные поисково-аналитические системы, система сбора и извлечения информации, извлечение метаданных, веб-краулинг, динамический контент, машинное обучение, автоматизация сбора данных, браузерная эмуляция, MarkupLM.

DOI: 10.15514/ISPRAS-2025-37(2)-20