Аннотация:
Большим языковым моделям (LLM) находят применение в самых различных областях благодаря растущим способностям в задачах обработки естественного языка. Внедрение LLM в системы, ошибки которых могут нести негативные последствия, требует всестороннего изучения достоверности их работы. Оценка фактуальности LLM позволяет понять, насколько сгенерированный текст соответствует реальным фактам. Существует множество фактологических систем сравнения, но лишь небольшая их часть проверяет знания моделей в российской доменной области. В подобных оценочных стандартах избегают дискуссионных и чувствительных тем, в отношении которых у России существует вполне сформированная позиция. Для преодоления проблемы неполноты чувствительных оценок нами был разработан бенчмарк SLAVA, состоящий из четырнадцати тысяч вопросов в российском домене, представляющих различные области знания. При оценке фактуальности для каждого вопроса измерялось свойство провокативности, определяющее степень чувствительности респондента к запрашиваемой теме. Результаты исследования позволили сформировать рейтинг мультиязычных LLM по ответам на вопросы значимых тематик: истории, политологии, социологии и географии. Проведенное исследование может стимулировать появление новых фактологических систем сравнения, которые будут способствовать гармонизации инфопространства, формированию мировоззренческого суверенитета.
Ключевые слова:
система сравнения (бенчмарк), оценка достоверности, фактологичность больших языковых моделей.