RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2023, том 529, страницы 123–139 (Mi znsl7423)

Pre-training longt5 for vietnamese mass-media multi-document summarization

[Предобучение модели LongT5 для многодокументного реферирования масс-медиа документов на вьетнамском языке]

N. Rusnachenkoa, The Anh Leb, Ngoc Diep Nguyenc

a Bauman Moscow State Technical University
b FPT University, Can Tho, Viet Nam
c CyberIntellect, Moscow, Russia

Аннотация: Реферирование (summarization) нескольких документов – это задача, направленная на извлечение наиболее важной информации из набора входных документов. Одной из основных проблем в этой задаче является проблема долгосрочных зависимостей. Когда мы имеем дело с текстами, написанными на вьетнамском языке, это также сопровождается специфическим слоговым представлением текста и отсутствием размеченных наборов данных. Недавние достижения в области машинного перевода привели к значительному росту использования архитектуры, известной как Transformer. После предварительного обучения на больших объемах необработанных текстов трансформеры позволяют получить глубокие знания о текстах на естественном языке. В настоящей работе мы рассматриваем результаты применения языковых моделей для решения задач реферирования текста, включая важные модели реферирования текстов на вьетнамском языке. Мы используем модель LongT5 для предварительного обучения, а затем дообучаем её для задачи реферирования текста из нескольких документов на вьетнамском языке. Мы анализируем полученную модель и экспериментируем с многодокументными наборами данных на вьетнамском языке, включая ViMs, VMDS и VLSP2022. В результате мы приходим к выводу о том, что использование модели на основе Transformer, предварительно обученной на большом количестве неразмеченных вьетнамских текстов, позволяет нам достичь многообещающих результатов с дальнейшим улучшением за счет дообучения в пределах небольшого количества реферированных вручную текстов. Предварительно обученная модель, используемая в разделе экспериментов, доступна онлайн по адресу https://github.com/nicolay-r/ViLongT5. Библ. – 33 назв.

Ключевые слова: многодокументное реферирование на вьетнамском языке, реферирование текстов, трансформеры, языковые модели.

УДК: 81.322.2

Поступило: 06.09.2023

Язык публикации: английский



© МИАН, 2024