RUS  ENG
Полная версия
ЖУРНАЛЫ // Программные системы: теория и приложения // Архив

Программные системы: теория и приложения, 2023, том 14, выпуск 1, страницы 95–123 (Mi ps418)

Информационные системы в медицине

Система извлечения упоминаний симптомов из текстов на естественном языке с помощью нейронных сетей

Ю. П. Сердюк, Н. А. Власова, С. Р. Момот

Институт программных систем им. А. К. Айламазяна РАН, Веськово, Россия

Аннотация: В статье представлена система для извлечения упоминаний симптомов из медицинских текстов на естественном (русском) языке. Система осуществляет нахождение симптомов в тексте, их нормализацию (приведение к стандартной форме) и отождествление — отнесение найденного симптома к группе однотипных симптомов. Каждый этап обработки реализуется с помощью отдельной нейронной сети. Состав извлекаемых симптомов ограничен тремя видами заболеваний — аллергические и пульмонологические заболевания, а также коронавирусная инфекция (COVID-19). Представлен и описан аннотированный корпус предложений, использованный для обучения нейросети нахождению упоминаний симптомов, относящихся к этим трем заболеваниям. При разметке корпуса был использован простой XML-подобный язык. Для представления предложений, непосредственно поступающих на вход нейросети, предложен расширенный BIO-формат разметки. Для каждого этапа приведены оценки точности (для первого этапа точность оценивалась при строгом и гибком тестировании). Описаны подходы и реализация приведения к стандартной форме и отождествления упоминаний симптомов. Даны сравнения с аналогичными работами по извлечению симптомов из медицинских текстов на разных языках, а также показано место данной системы в системах поддержки принятия клинических решений.

Ключевые слова и фразы: автоматическая обработка языка, нейронные сети, автоматическое извлечение информации, аннотированный корпус, упоминания симптомов, BERT-модели, Covid-19.

УДК: 81’322+61

MSC: Primary 68T07; Secondary 68T50

Поступила в редакцию: 26.12.2022
29.01.2023
Подписана в печать : 29.01.2023

DOI: 10.25209/2079-3316-2023-14-1-95-123



© МИАН, 2024