Аннотация:
Классификация текстов – одна из фундаментальных задач в обработке естественных языков, и ей посвящён огромный объём работ. Однако до настоящего времени было сравнительно мало исследований устойчивости разрабатываемых подходов к шуму в текстах. В этой работе мы заполняем этот пробел и представляем результаты тестирования устойчивости к шуму современных архитектур классификации текстов для английского и русского языков. Мы проводим эксперименты для моделей CharCNN и SentenceCNN, а также вводим новую модель RoVe, которая в наших экспериментах оказывается наиболее устойчива к шуму. Библ. – 18 назв.
Ключевые слова:векторы слов, распределённые представления, обработка естественных языков.