RUS  ENG
Полная версия
ЖУРНАЛЫ // Труды института системного программирования РАН // Архив

Труды ИСП РАН, 2025, том 37, выпуск 2, страницы 217–236 (Mi tisp977)

Поиск именованных сущностей в инструкциях по медицинскому применению лекарственных средств с использованием глубокого обучения и методов обработки естественного языка

Ю. П. Титов, Н. В. Кильмишкин, Д. Д. Кубраков, П. М. Иванова

Российский экономический университет им. Г. В. Плеханова

Аннотация: В рамках работы создан специализированный словарь для поиска ключевых терминов в текстах медицинских инструкций, с использованием данных из глобальной базы данных VigiAccess, классификации МКБ-10 и ресурса rlsnet.ru. Текстовый корпус был предварительно очищен и приведён к единому формату для улучшения качества обучения модели. В дальнейшем планируется использовать источник grls.rosminzdrav.ru, как более авторитетный и полный, для получения информации о зарегистрированных лекарственных средствах. Для автоматизации аннотации данных разработан алгоритм, который выполняет поиск и разметку терминов из словаря в формате BIO (Begin, Inside, Outside), обеспечивая структурированную разметку для обучения моделей. Модель на основе глубоких нейронных сетей продемонстрировала высокую эффективность в распознавании именованных сущностей благодаря учёту контекстных зависимостей. Построение семантического графа лекарственных средств осуществлялось с помощью алгоритмов нахождения связей между именованными сущностями. Однако автоматическое выявление более глубоких связей между узлами графа затруднено и требует ручной доразметки данных для учёта сложных грамматических структур, что позволит улучшить анализ взаимодействий в текстах медицинских инструкций.

Ключевые слова: машинное обучение, глубокое обучение, нейронные сети, обработка естественного языка NLP, инструкции к лекарственным средствам, семантический граф

DOI: 10.15514/ISPRAS-2025-37(2)-16



© МИАН, 2025