RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2021, том 499, страницы 248–266 (Mi znsl7052)

II. Информатика

Robust word vectors: context-informed embeddings for noisy texts

[Робастные векторы слов: распределённые представления для зашумленных текстов с учётом контекста]

T. Khakhulina, V. Logachevab, V. Malykhcbd

a Skolkovo Institute of Science and Technology, Nobelya Ulitsa, 3, 121205, Moscow, Russia
b Moscow Institute of Physics and Technology, 9 Institutskiy per., Dolgoprudny, Moscow Region
c Steklov Institute of Mathematics at St. Petersburg, nab. r. Fontanki, 27, 191023, St. Petersburg
d Institute for Systems Analysis, Federal Research Center “Computer Science and Control” of Russian Academy of Sciences, pr. 60-letiya Oktyabrya, 9, 117312, Moscow

Аннотация: Мы представляем новую языконезависимую архитектуру робастных векторов слов (robust word vectors, RoVe). Её задача – решить проблему опечаток и орфографических ошибок, которыми изобилует практически любой порождённый пользователями контент и которые при этом осложняют автоматическую обработку текстов. Наша модель мотивирована морфологически, что позволяет ей обрабатывать ранее не виденные формы слов в морфологически богатых языках. Мы представляем результаты для нескольких задач обработки естественных языков на нескольких языках для нескольких родственных нейросетевых архитектур, показывая, что предлагаемая архитектура устойчива к опечаткам. Библ. – 38 назв.

Ключевые слова: векторы слов, распределённые представления, обработка естественных языков.

УДК: 004.85

Поступило: 14.01.2019

Язык публикации: английский



© МИАН, 2024