N. Rusnachenko, The Anh Le, Ngoc Diep Nguyen, “Pre-training longt5 for vietnamese mass-media multi-document summarization”, Зап. научн. сем. ПОМИ, 2023, том 529,страницы 123

Pre-training longt5 for vietnamese mass-media multi-document summarization

[Предобучение модели LongT5 для многодокументного реферирования масс-медиа документов на вьетнамском языке]

N. Rusnachenko^a, The Anh Le^b, Ngoc Diep Nguyen^c

^a Bauman Moscow State Technical University
^b FPT University, Can Tho, Viet Nam
^c CyberIntellect, Moscow, Russia

Аннотация: Реферирование (summarization) нескольких документов – это задача, направленная на извлечение наиболее важной информации из набора входных документов. Одной из основных проблем в этой задаче является проблема долгосрочных зависимостей. Когда мы имеем дело с текстами, написанными на вьетнамском языке, это также сопровождается специфическим слоговым представлением текста и отсутствием размеченных наборов данных. Недавние достижения в области машинного перевода привели к значительному росту использования архитектуры, известной как Transformer. После предварительного обучения на больших объемах необработанных текстов трансформеры позволяют получить глубокие знания о текстах на естественном языке. В настоящей работе мы рассматриваем результаты применения языковых моделей для решения задач реферирования текста, включая важные модели реферирования текстов на вьетнамском языке. Мы используем модель LongT5 для предварительного обучения, а затем дообучаем её для задачи реферирования текста из нескольких документов на вьетнамском языке. Мы анализируем полученную модель и экспериментируем с многодокументными наборами данных на вьетнамском языке, включая ViMs, VMDS и VLSP2022. В результате мы приходим к выводу о том, что использование модели на основе Transformer, предварительно обученной на большом количестве неразмеченных вьетнамских текстов, позволяет нам достичь многообещающих результатов с дальнейшим улучшением за счет дообучения в пределах небольшого количества реферированных вручную текстов. Предварительно обученная модель, используемая в разделе экспериментов, доступна онлайн по адресу https://github.com/nicolay-r/ViLongT5. Библ. – 33 назв.

Ключевые слова: многодокументное реферирование на вьетнамском языке, реферирование текстов, трансформеры, языковые модели.

УДК: 81.322.2

Поступило: 06.09.2023

Язык публикации: английский