Аннотация:
В связи с растущим интересом к использованию больших языковых моделей (LLM) в качестве инструментов для генерации научных текстов оценка их способностей к созданию энциклопедического контента становится все более актуальной. Однако для русскоязычных материалов этот вопрос изучен недостаточно, а существующие бенчмарки не охватывают ключевые аспекты аналитической работы с источниками. В данной работе представлен RuWikiBench – открытый бенчмарк на основе “Рувики” для оценки способностей больших языковых моделей воспроизводить статьи в стиле Википедии, основанный на трех задачах: отбор релевантных источников, построение структуры статьи и генерация секций. Результаты тестирования популярных открытых LLM показывают, что даже в идеальных условиях лучшие модели не всегда следуют экспертной логике составления энциклопедических материалов: даже при совершенной работе системы подбора материалов модели не могут воспроизвести эталонное оглавление, а качество генерации секций практически не зависит от числа параметров.
Ключевые слова:
бенчмарк, википедия, рувики, большие языковые модели.
УДК:
004.8
Поступило: 19.08.2025 Принято к публикации: 22.09.2025