RUS  ENG
Полная версия
ЖУРНАЛЫ // Интеллектуальные системы. Теория и приложения // Архив

Интеллектуальные системы. Теория и приложения, 2021, том 25, выпуск 4, страницы 243–249 (Mi ista457)

Часть 4. Обработка естественного языка

NEREL: Набор данных на русском языке с вложенными именованными сущностями и отношениями

И. В. Денисов, И. С. Рожков, Н. В. Лукашевич

МГУ

Аннотация: NEREL - русский публично доступный набор данных для решения задачи извлечения именованных сущностей и задачи извлечения отношений. Датасет содержит более 56K размеченных сущностей и более 39K отношений. Важным отличием NEREL от предыдущих датасетов является наличие разметки для вложенных именованных сущностей. Методы извлечения вложенных именованных сущностей отличаются от методов извлечения "плоских" именованных сущностей в первую очередь архитектурой решения. Поскольку NEREL предоставляет аннотации для вложенных сущностей, в работе было проведено сравнение различных подходов к решению этой задачи с переносом на тексты русского языка.

Ключевые слова: извлечение именованных сущностей, извлечение вложенных именованных сущностей, датасет, набор данных, извлечение именованных сущностей, извлечение вложенных именованных сущностей, датасет, набор данных.



© МИАН, 2024