Аннотация:
В статье представлена система для извлечения упоминаний
симптомов из медицинских текстов на естественном (русском) языке. Система
осуществляет нахождение симптомов в тексте, их нормализацию (приведение
к стандартной форме) и отождествление — отнесение найденного симптома
к группе однотипных симптомов. Каждый этап обработки реализуется с помощью
отдельной нейронной сети. Состав извлекаемых симптомов ограничен тремя
видами заболеваний — аллергические и пульмонологические заболевания, а также
коронавирусная инфекция (COVID-19). Представлен и описан аннотированный
корпус предложений, использованный для обучения нейросети нахождению
упоминаний симптомов, относящихся к этим трем заболеваниям. При разметке
корпуса был использован простой XML-подобный язык. Для представления
предложений, непосредственно поступающих на вход нейросети, предложен
расширенный BIO-формат разметки. Для каждого этапа приведены оценки
точности (для первого этапа точность оценивалась при строгом и гибком
тестировании). Описаны подходы и реализация приведения к стандартной форме
и отождествления упоминаний симптомов. Даны сравнения с аналогичными
работами по извлечению симптомов из медицинских текстов на разных языках,
а также показано место данной системы в системах поддержки принятия
клинических решений.
Ключевые слова и фразы:автоматическая обработка языка, нейронные сети,
автоматическое извлечение информации, аннотированный корпус, упоминания
симптомов, BERT-модели, Covid-19.