RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2025, том 37, выпуск 2, страницы 263–280 (Mi tisp981)

Архитектура системы сбора и извлечения информации для интеллектуальной поисково-аналитической системы

Д. С. Серенкоab, Е. Д. Терентьевab, Д. В. Зубаревa, И. В. Соченковcdb

a Федеральный исследовательский центр «Информатика и управление» Российской академии наук
b Российский университет дружбы народов имени Патриса Лумумбы
c Институт проблем передачи информации им. А. А. Харкевича Российской академии наук
d Институт системного программирования им. В.П. Иванникова РАН

Аннотация: Данные из интернета служат основой для решения широкого круга задач, от информационного поиска до аналитической обработки. Рост объёмов данных повышает важность эффективного извлечения описательных сведений о документах (метаданные – заголовки, имена авторов, даты публикации и так далее) с научных и образовательных сайтов (веб-ресурсов). Традиционные методы сбора и извлечения информации на основе статических шаблонов малоэффективны при обработке веб-страниц с динамически формируемым содержанием. В работе предложена архитектура адаптивной системы сбора и извлечения информации, сочетающая стандартные методы извлечения данных с технологиями машинного обучения. Система имеет модульную структуру, включающую подсистемы управления заданиями, мониторинга и журналирования, краулинга (робота сбора информации), управления ссылками, извлечения метаданных. Подсистема краулинга обрабатывает как статически, так и динамически формируемое содержание через имитацию работы прикладного программного обеспечения для просмотра веб-страниц. Для извлечения метаданных применяется комбинированный подход, совмещающий структурированные правила и машинное обучение. Эксперименты показали успешное извлечение метаданных из различных веб-ресурсов, включая страницы с динамически формируемым содержанием и сложными структурами. Система обладает высокой точностью и устойчивостью к изменениям форматов данных, при этом строго соблюдаются этические нормы сбора данных, включая обязательное выполнение инструкций и применение разумных интервалов между запросами.

Ключевые слова: интеллектуальные поисково-аналитические системы, система сбора и извлечения информации, извлечение метаданных, веб-краулинг, динамический контент, машинное обучение, автоматизация сбора данных, браузерная эмуляция, MarkupLM.

DOI: 10.15514/ISPRAS-2025-37(2)-20



© МИАН, 2025