RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2021, том 499, страницы 206–221 (Mi znsl7060)

II. Информатика

Word-based russian text augmentation for character-level models

[Пословная аугментация для обучения посимвольных моделей на русскоязычных текстах]

R. B. Galinskya, A. M. Alekseevba, S. I. Nikolenkoab

a St. Petersburg Department of Steklov Mathematical Institute of Russian Academy of Sciences
b Saint Petersburg State University

Аннотация: Большие модели глубокого обучения, в том числе модели для обработки естественных языков, требуют больших наборов данных для обучения. Такие наборы могут оказаться недоступны для относительно редких языков или для отдельных предметных областей. Мы рассматриваем подход к решению проблемы низкой вариативности и малого размера доступных для обучения NLP моделей наборов данных на основе аугментации данных при помощи синонимов. Мы представляем новую схему аугментации, которая включает замену слов на синонимы и изменение порядка слов, применяем её к русскому языку и получаем улучшенные результаты для задачи анализа тональности. Библ. – 46 назв.

Ключевые слова: глубокое обучение, обработка естественных языков, аугментация данных, анализ тональности.

Поступило: 02.10.2020

Язык публикации: английский



© МИАН, 2024