RUS  ENG
Полная версия
ЖУРНАЛЫ // Моделирование и анализ информационных систем // Архив

Модел. и анализ информ. систем, 2023, том 30, номер 4, страницы 382–393 (Mi mais810)

Artificial intelligence

Извлечение именованных сущностей из русскоязычных документов с различной выраженностью структуры

М. Д. Аверина, О. А. Леванова

Ярославский государственный университет им. П.Г. Демидова, ул. Советская, д. 14, г. Ярославль, 150003 Россия

Аннотация: Данная работа посвящена решению задачи распознавания именованных сущностей для русскоязычных текстов на основе модели CRF. Рассмотрены два набора данных: документы о рефинансировании с хорошей структурой документа, слабоструктурированные тексты судебных протоколов. Было проведено тестирование модели при различных наборах текстовых признаков и параметрах CRF (алгоритмов оптимизации). В среднем по всем сущностям лучшее значение F-меры для структурированных документов составило 0.99, а для слабоструктурированных 0.86.

Ключевые слова: извлечение именованных сущностей, CRF.

УДК: 004.912

MSC: 68T50

Поступила в редакцию: 13.10.2023
Исправленный вариант: 10.11.2023
Принята в печать: 15.11.2023

DOI: 10.18255/1818-1015-2023-4-382-393



© МИАН, 2024