Аннотация:
Реферирование (summarization) нескольких документов – это задача, направленная на извлечение наиболее важной информации из набора входных документов. Одной из основных проблем в этой задаче является проблема долгосрочных зависимостей. Когда мы имеем дело с текстами, написанными на вьетнамском языке, это также сопровождается специфическим слоговым представлением текста и отсутствием размеченных наборов данных. Недавние достижения в области машинного перевода привели к значительному росту использования архитектуры, известной как Transformer. После предварительного обучения на больших объемах необработанных текстов трансформеры позволяют получить глубокие знания о текстах на естественном языке. В настоящей работе мы рассматриваем результаты применения языковых моделей для решения задач реферирования текста, включая важные модели реферирования текстов на вьетнамском языке. Мы используем модель LongT5 для предварительного обучения, а затем дообучаем её для задачи реферирования текста из нескольких документов на вьетнамском языке. Мы анализируем полученную модель и экспериментируем с многодокументными наборами данных на вьетнамском языке, включая ViMs, VMDS и VLSP2022. В результате мы приходим к выводу о том, что использование модели на основе Transformer, предварительно обученной на большом количестве неразмеченных вьетнамских текстов, позволяет нам достичь многообещающих результатов с дальнейшим улучшением за счет дообучения в пределах небольшого количества реферированных вручную текстов. Предварительно обученная модель, используемая в разделе экспериментов, доступна онлайн по адресу https://github.com/nicolay-r/ViLongT5. Библ. – 33 назв.
Ключевые слова:многодокументное реферирование на вьетнамском языке, реферирование текстов, трансформеры, языковые модели.