RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2021, том 499, страницы 222–235 (Mi znsl7050)

II. Информатика

Named entity recognition in Russian using multi-task LSTM-CRF

[Распознавание именованных сущностей для русского языка при помощи мультизадачной модели LSTM-CRF]

D. Mazitova, I. Alimovaa, E. Tutubalinab

a Kazan Federal University, Kazan, Russia, 420008
b Lomonosov Moscow State University, Kolmogorova str., 1, Moscow 119991, Russia

Аннотация: Цель распознавания именованных сущностей (named entity recognition, NER) – получить важную информацию из неструктурированных данных, представленных в виде текста на естественном языке. В настоящей работе мы исследуем эффективность современного мультизадачного подхода к NER на русскоязычных корпусах с использованием нескольких различных наборов данных для NER и набора данных частеречной разметки (part-of-speech tagging, POS). Мы применяем современную нейросетевую архитектуру, основанную на двунаправленных LSTM и условных случайных полях (CRF). Свёрточные нейронные сети использовались для обучения признаков на уровне отдельных букв. Мы представляем обширное экспериментальное исследование на трёх стандартных русскоязычных новостных наборах данных. Предлагаемая мультизадачная модель улучшает известные ранее результаты, достигая F1-меры 88.04% на датасете Гареева и F1-меры 99.49% на датасете Person-1000. Библ. – 37 назв.

Ключевые слова: распознавание именованных сущностей, обработка естественных языков, рекуррентные нейронные сети.

УДК: 004.85

Поступило: 14.01.2019

Язык публикации: английский



© МИАН, 2024