RUS  ENG
Полная версия
ЖУРНАЛЫ // Доклады Российской академии наук. Математика, информатика, процессы управления // Архив

Докл. РАН. Матем., информ., проц. упр., 2023, том 514, номер 2, страницы 375–384 (Mi danma481)

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке

Т. Е. Горбачева, И. Ю. Бондаренко

Новосибирский государственный университет, Новосибирск, Россия

Аннотация: В данной работе проводится сравнение предварительного обучения трансформера на текстах естественного языка и на предложениях синтетического псевдоязыка. Искусственные тексты были автоматически сгенерированы по написанным нами правилам в контекстно-свободной грамматике. Результаты дообучения на выполнение заданий проекта RussianSuperGLUE статистически достоверно показали, что модели имеют одинаковые оценки, т.е. можно считать, что использование искусственных данных дает преимущество для “безопасности” искусственного интеллекта за счет возможности полностью контролировать состав выборки. Также мы можем говорить о том, что на этапе предобучения модели типа RoBERTa достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.

Ключевые слова: методы глубокого обучения, трансформеры, предварительное обучение, автоматическое создание текста, глубокие языковые модели, синтетические данные, “безопасность” нейросети.

УДК: 004.8

Статья представлена к публикации: А. Л. Семёнов
Поступило: 03.09.2023
После доработки: 15.09.2023
Принято к публикации: 24.10.2023

DOI: 10.31857/S2686954323601860


 Англоязычная версия: Doklady Mathematics, 2023, 108:suppl. 2, S494–S502

Реферативные базы данных:


© МИАН, 2024