RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2021, том 499, страницы 236–247 (Mi znsl7051)

II. Информатика

Improving classification robustness for noisy texts with robust word vectors

[Улучшение устойчивости классификации зашумленных текстов при помощи робастных векторов слов]

V. Malykhabc, V. Lyalinb

a St. Petersburg Department of Steklov Institute of Mathematics, nab. r. Fontanki, 27, 191023, St. Petersburg, Russia
b Moscow Institute of Physics and Technology, 9 Institutskiy per., 141701, Dolgoprudny, Russia
c Institute for Systems Analysis, pr. 60-letiya Oktyabrya, 9, 117312, Moscow, Russia

Аннотация: Классификация текстов – одна из фундаментальных задач в обработке естественных языков, и ей посвящён огромный объём работ. Однако до настоящего времени было сравнительно мало исследований устойчивости разрабатываемых подходов к шуму в текстах. В этой работе мы заполняем этот пробел и представляем результаты тестирования устойчивости к шуму современных архитектур классификации текстов для английского и русского языков. Мы проводим эксперименты для моделей CharCNN и SentenceCNN, а также вводим новую модель RoVe, которая в наших экспериментах оказывается наиболее устойчива к шуму. Библ. – 18 назв.

Ключевые слова: векторы слов, распределённые представления, обработка естественных языков.

УДК: 004.85

Поступило: 12.01.2019

Язык публикации: английский



© МИАН, 2024