Аннотация:
Цель распознавания именованных сущностей (named entity recognition, NER) – получить важную информацию из неструктурированных данных, представленных в виде текста на естественном языке. В настоящей работе мы исследуем эффективность современного мультизадачного подхода к NER на русскоязычных корпусах с использованием нескольких различных наборов данных для NER и набора данных частеречной разметки (part-of-speech tagging, POS). Мы применяем современную нейросетевую архитектуру, основанную на двунаправленных LSTM и условных случайных полях (CRF). Свёрточные нейронные сети использовались для обучения признаков на уровне отдельных букв. Мы представляем обширное экспериментальное исследование на трёх стандартных русскоязычных новостных наборах данных. Предлагаемая мультизадачная модель улучшает известные ранее результаты, достигая F1-меры 88.04% на датасете Гареева и F1-меры 99.49% на датасете Person-1000. Библ. – 37 назв.
Ключевые слова:распознавание именованных сущностей, обработка естественных языков, рекуррентные нейронные сети.