Труды ИСП РАН,
2025, том 37, выпуск 2,страницы 217–236(Mi tisp977)
Поиск именованных сущностей в инструкциях по медицинскому применению лекарственных средств с использованием глубокого обучения и методов обработки естественного языка
Аннотация:
В рамках работы создан специализированный словарь для поиска ключевых терминов в текстах медицинских инструкций, с использованием данных из глобальной базы данных VigiAccess, классификации МКБ-10 и ресурса rlsnet.ru. Текстовый корпус был предварительно очищен и приведён к единому формату для улучшения качества обучения модели. В дальнейшем планируется использовать источник grls.rosminzdrav.ru, как более авторитетный и полный, для получения информации о зарегистрированных лекарственных средствах. Для автоматизации аннотации данных разработан алгоритм, который выполняет поиск и разметку терминов из словаря в формате BIO (Begin, Inside, Outside), обеспечивая структурированную разметку для обучения моделей. Модель на основе глубоких нейронных сетей продемонстрировала высокую эффективность в распознавании именованных сущностей благодаря учёту контекстных зависимостей. Построение семантического графа лекарственных средств осуществлялось с помощью алгоритмов нахождения связей между именованными сущностями. Однако автоматическое выявление более глубоких связей между узлами графа затруднено и требует ручной доразметки данных для учёта сложных грамматических структур, что позволит улучшить анализ взаимодействий в текстах медицинских инструкций.
Ключевые слова:
машинное обучение, глубокое обучение, нейронные сети, обработка естественного языка NLP, инструкции к лекарственным средствам, семантический граф