Г. М. Грицай, А. В. Грабовой, А. С. Кильдяков, Ю. В. Чехович, “Поиск искусственно сгенерированных текстовых фрагментов в научных документах”, Докл. РАН. Матем., информ., проц. упр., 2023, том 514, номер 2,страницы 308

Эта публикация цитируется в 12 статьях

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

Поиск искусственно сгенерированных текстовых фрагментов в научных документах

Г. М. Грицай^ab, А. В. Грабовой^abc, А. С. Кильдяков^a, Ю. В. Чехович^ac

^a Компания Антиплагиат, Москва, Россия
^b Московский физико-технический институт (национальный исследовательский университет), Москва, Россия
^c Федеральный исследовательский центр «Информатика и управление» Российской академии наук, Москва, Россия

Аннотация: Недавние достижения в области текстовых генеративных моделей позволяют получать искусственные тексты, едва отличимые от написанных человеком при беглом прочтении. Прогресс подобных моделей ставит новые задачи перед научным сообществом, ведь их развитие влечет за собой появление и распространение ложной информации, спама, способствует распространению неэтичных практик. В области обработки естественного языка уже разработано большое количество методов для детектирования текстов, полученных при помощи моделей машинного обучения, включая большие языковые модели. Однако улучшению методов выявления искусственных текстов происходит одновременно с улучшением методов генерации текстов, поэтому требуется изучение появляющихся моделей, искусственных текстов – результатов их работы и модернизации существующих подходов к детекции. В настоящей работе представлен детальный анализ ранее созданных методов детекции, а также исследование лексических, синтаксических и стилистических особенностей генерируемых фрагментов. В вычислительном эксперименте сравниваются различные методы детектирования машинной генерации в документах с точки зрения их дальнейшего применения для научных и учебных текстов. Эксперименты проводились для русского и английского языков на собранных авторами наборах данных. Разработанные методы позволили довести качество детектирования до значения 0.968 по метрике F1-score для русского и до 0.825 для английского языков соответственно. Созданные методы используются в практических системах для выявления сгенерированных фрагментов в научных, исследовательских и выпускных работах.

Ключевые слова: машинно-сгенерированный текст, обработка естественного языка, множественная проверка гипотез, перефразирование, детекция сгенерированных текстов.

УДК: 004.89

Статья представлена к публикации: А. Л. Семёнов
Поступило: 02.09.2023
После доработки: 15.09.2023
Принято к публикации: 18.10.2023

DOI: 10.31857/S2686954323601677