RUS  ENG
Полная версия
ЖУРНАЛЫ // Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика» // Архив

Вестн. ЮУрГУ. Сер. Выч. матем. информ., 2023, том 12, выпуск 1, страницы 28–45 (Mi vyurv291)

Эта публикация цитируется в 1 статье

A method for creating structural models of text documents using neural networks

[Метод создания структурных моделей текстовых документов с использованием нейронных сетей]

D. V. Berezkin, I. A. Kozlov, P. A. Martynyuk, A. M. Panfilkin

Bauman Moscow State Technical University (st. 2nd Baumanskaya 5/1, Moscow, 105005 Russian Federation)

Аннотация: В статье описываются современные нейросетевые модели на основе BERT и рассматривается их применение для задач обработки естественного языка (NLP), таких как ответы на вопросы и распознавание именованных сущностей. В статье представлен метод решения задачи автоматического создания структурных моделей текстовых документов. Предлагаемый метод является гибридным и основан на совместном использовании нескольких моделей NLP. Метод строит структурную модель документа, извлекая предложения, соответствующие различным аспектам документа. Извлечение информации осуществляется с использованием вопросно-ответной модели BERT с вопросами, подготовленными отдельно для каждого аспекта. Ответы фильтруются с помощью модели распознавания именованных сущностей BERT и используются для формирования содержимого каждого поля структурной модели. В статье предложены два алгоритма формирования содержимого поля — алгоритм выбора исключающего ответа и алгоритм формирования обобщающего ответа, которые используются для коротких и объемных полей соответственно. В статье также описывается программная реализация предлагаемого метода и обсуждаются результаты экспериментов, проведенных для оценки качества метода.

Ключевые слова: извлечение информации, нейронная сеть, распознавание именованных сущностей, вопросно-ответная система.

УДК: 004.89

Поступила в редакцию: 03.11.2022

Язык публикации: английский

DOI: 10.14529/cmse230102



© МИАН, 2024