Т. Е. Горбачева, И. Ю. Бондаренко, “Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке”, Докл. РАН. Матем., информ., проц. упр., 2023, том 514, номер 2,страницы 375

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Безопасное предобучение глубоких языковых моделей на синтетическом псевдоязыке

Т. Е. Горбачева, И. Ю. Бондаренко

Новосибирский государственный университет, Новосибирск, Россия

Аннотация: В данной работе проводится сравнение предварительного обучения трансформера на текстах естественного языка и на предложениях синтетического псевдоязыка. Искусственные тексты были автоматически сгенерированы по написанным нами правилам в контекстно-свободной грамматике. Результаты дообучения на выполнение заданий проекта RussianSuperGLUE статистически достоверно показали, что модели имеют одинаковые оценки, т.е. можно считать, что использование искусственных данных дает преимущество для “безопасности” искусственного интеллекта за счет возможности полностью контролировать состав выборки. Также мы можем говорить о том, что на этапе предобучения модели типа RoBERTa достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.

Ключевые слова: методы глубокого обучения, трансформеры, предварительное обучение, автоматическое создание текста, глубокие языковые модели, синтетические данные, “безопасность” нейросети.

УДК: 004.8

Статья представлена к публикации: А. Л. Семёнов
Поступило: 03.09.2023
После доработки: 15.09.2023
Принято к публикации: 24.10.2023

DOI: 10.31857/S2686954323601860