V. Malykh, V. Lyalin, “Improving classification robustness for noisy texts with robust word vectors”, Зап. научн. сем. ПОМИ, 2021, том 499,страницы 236

II. Информатика

Improving classification robustness for noisy texts with robust word vectors

[Улучшение устойчивости классификации зашумленных текстов при помощи робастных векторов слов]

V. Malykh^abc, V. Lyalin^b

^a St. Petersburg Department of Steklov Institute of Mathematics, nab. r. Fontanki, 27, 191023, St. Petersburg, Russia
^b Moscow Institute of Physics and Technology, 9 Institutskiy per., 141701, Dolgoprudny, Russia
^c Institute for Systems Analysis, pr. 60-letiya Oktyabrya, 9, 117312, Moscow, Russia

Аннотация: Классификация текстов – одна из фундаментальных задач в обработке естественных языков, и ей посвящён огромный объём работ. Однако до настоящего времени было сравнительно мало исследований устойчивости разрабатываемых подходов к шуму в текстах. В этой работе мы заполняем этот пробел и представляем результаты тестирования устойчивости к шуму современных архитектур классификации текстов для английского и русского языков. Мы проводим эксперименты для моделей CharCNN и SentenceCNN, а также вводим новую модель RoVe, которая в наших экспериментах оказывается наиболее устойчива к шуму. Библ. – 18 назв.

Ключевые слова: векторы слов, распределённые представления, обработка естественных языков.

УДК: 004.85

Поступило: 12.01.2019

Язык публикации: английский