Аннотация:
В данной работе представлен метод автоматической генерации правил извлечения информации (карт сбора) для новостных веб-сайтов. Данный подход по набору новостных страниц одного сайта генерирует карту сбора, позволяющую извлекать атрибуты из произвольных новостных страниц этого сайта. В основе метода лежит применение дообученной нейросетевой модели MarkupLM для извлечения информации из веб-страниц. Предложенный метод обобщает предсказания модели на уровне сайта, создавая универсальные правила извлечения атрибутов. Проведённые эксперименты показали, что использование карт сбора, сформированных на основе дообученной модели, превосходит по качеству как существующие открытые инструменты, так и дообученный MarkupLM на уровне отдельных страниц. Разработанный метод может быть обобщён на другие предметные области при наличии релевантных данных для дообучения модели.
Ключевые слова:
извлечение информации, сбор данных из глобальной сети, новостные веб-сайты, нейронные сети.