А. И. Егунова, Р. С. Комаров, Ю. С. Вечканова, О. И. Егунова, Д. П. Сидоров, С. Д. Шибайкин, В. В. Никулин, “Анализ алгоритмов и решений для автоматической генерации подводок новостных статей в соцсетях с использованием искусственного интеллекта”, Вестн. Астрахан. гос. техн. ун-та. Сер. управление, вычисл. техн. информ., 2023, номер 1,страницы 25

КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

Анализ алгоритмов и решений для автоматической генерации подводок новостных статей в соцсетях с использованием искусственного интеллекта

А. И. Егунова, Р. С. Комаров, Ю. С. Вечканова, О. И. Егунова, Д. П. Сидоров, С. Д. Шибайкин, В. В. Никулин

Национальный исследовательский Мордовский государственный университет им Н. П. Огарева, Саранск, Россия

Аннотация: При публикации статей в социальных сетях редакциям новостных порталов необходимо сформировать краткий реферат каждой статьи, затратив на это минимум времени. Оперативному и одновременному размещению публикации на всех зарегистрированных ресурсах способствует автоматическая генерация подводок. Предлагается использование алгоритмов искусственного интеллекта, обученных на корпусах русских текстов. Известны три подхода к реферированию текста для автоматизированного формирования подводок статей: экстрактивный, абстрактивный и комбинированный. Проводится сравнительный анализ методов экстрактивного и абстрактивного подходов в рамках решения задачи автоматической генерации подводок с помощью применения нейросетевых моделей машинного обучения. Проанализированы различные этапы экстрактивного реферирования с помощью как простых, так и более сложных методов: LexRank, TextRank и на основе Deep Learning. Путем сравнения выбраны абстрактивные модели как наиболее подходящие для выполнения суммаризации новостных статей, на основе модификации модели BERT. Более сложные генерирующие тексты обрабатывают тексты параллельно, что ускоряет обработку, но требует предобучения на больших корпусах новостных документов. При использовании абстрактивных моделей Pointer General Network и MBART сокращается время обработки информации, повышается эффективность работы.

Ключевые слова: суммаризация, реферирование, вектор, токен, кодирование, декодирование, генерация.

УДК: 004.912

Поступила в редакцию: 19.09.2022
Принята в печать: 12.01.2023

DOI: 10.24143/2072-9502-2023-1-25-35