Д. А. Григорьев, Д. И. Чернышев, “RuWikiBench: оценка больших языковых моделей посредством воспроизведения энциклопедических статей”, Докл. РАН. Матем., информ., проц. упр., 2025, том 527,страницы 171

СПЕЦИАЛЬНЫЙ ВЫПУСК: ТЕХНОЛОГИИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА И МАШИННОГО ОБУЧЕНИЯ

RuWikiBench: оценка больших языковых моделей посредством воспроизведения энциклопедических статей

Д. А. Григорьев, Д. И. Чернышев

Научно-исследовательский вычислительный центр Московского государственного университета имени М. В. Ломоносова, Москва, Россия

Аннотация: В связи с растущим интересом к использованию больших языковых моделей (LLM) в качестве инструментов для генерации научных текстов оценка их способностей к созданию энциклопедического контента становится все более актуальной. Однако для русскоязычных материалов этот вопрос изучен недостаточно, а существующие бенчмарки не охватывают ключевые аспекты аналитической работы с источниками. В данной работе представлен RuWikiBench – открытый бенчмарк на основе “Рувики” для оценки способностей больших языковых моделей воспроизводить статьи в стиле Википедии, основанный на трех задачах: отбор релевантных источников, построение структуры статьи и генерация секций. Результаты тестирования популярных открытых LLM показывают, что даже в идеальных условиях лучшие модели не всегда следуют экспертной логике составления энциклопедических материалов: даже при совершенной работе системы подбора материалов модели не могут воспроизвести эталонное оглавление, а качество генерации секций практически не зависит от числа параметров.

Ключевые слова: бенчмарк, википедия, рувики, большие языковые модели.

УДК: 004.8

Поступило: 19.08.2025
Принято к публикации: 22.09.2025

DOI: 10.7868/S2686954325070148