Аннотация:
Большие модели глубокого обучения, в том числе модели для обработки естественных языков, требуют больших наборов данных для обучения. Такие наборы могут оказаться недоступны для относительно редких языков или для отдельных предметных областей. Мы рассматриваем подход к решению проблемы низкой вариативности и малого размера доступных для обучения NLP моделей наборов данных на основе аугментации данных при помощи синонимов. Мы представляем новую схему аугментации, которая включает замену слов на синонимы и изменение порядка слов, применяем её к русскому языку и получаем улучшенные результаты для задачи анализа тональности. Библ. – 46 назв.
Ключевые слова:глубокое обучение, обработка естественных языков, аугментация данных, анализ тональности.