RUS  ENG
Полная версия
ЖУРНАЛЫ // Записки научных семинаров ПОМИ // Архив

Зап. научн. сем. ПОМИ, 2025, том 546, страницы 105–124 (Mi znsl7633)

When an LLM is apprehensive about its answers – and when its uncertainty is justified

[Когда большие языковые модели не уверены в своих ответах – и когда их неуверенность оправдана]

P. Sychevab, A. Goncharova, D. Vyazhevab, E. Khalafyanab, A. Zaytseva

a Skolkovo Institute of Science and Technology (Skoltech) Moscow, Russia
b National Research University Higher School of Economics Moscow, Russia

Аннотация: Оценка неопределенности имеет решающее значение для оценки больших языковых моделей (LLM), особенно в областях с высоким риском, где неверные ответы приводят к значительным последствиям. Многочисленные подходы рассматривают эту проблему, фокусируясь на определенном типе неопределенности, игнорируя другие.
Мы исследуем какие оценки, в частности энтропия по токенам и модель-как-судью (MASJ) будут использоваться для задач с ответами на вопросы с множественным выбором для разных доменов вопросов. В наших экспериментах рассматриваются три LLM: Phi-4, Mistral и Qwen разных размеров от 1,5B до 72B для $14$ разных тем. В то время как MASJ работает аналогично случайному предиктору ошибок, энтропия ответа предсказывает ошибку модели в областях, зависящих от знаний, и служит эффективным индикатором сложности вопроса: для биологии ROC-AUC составляет $0,73$. Эта корреляция исчезает для областей, зависящих от рассуждений: например, для математических вопросов ROC-AUC составляет $0,55$. Более принципиально, мы обнаружили, что энтропия больше при большом количестве рассуждений. Таким образом, энтропия, основанная на неопределенности данных, должна быть интегрирована в рамки оценок неопределенности, в то время как MASJ требует уточнения. Более того, существующие выборки MMLU-Pro предвзяты и должны сбалансировать необходимое количество рассуждений для различных поддоменов, чтобы обеспечить более справедливую оценку производительности LLM. Библ. – 28 назв.

Ключевые слова: вопросы-ответы, сложность, LLM, неопределенность, энтропия.

УДК: 004.912

Поступило: 19.02.2025

Язык публикации: английский



© МИАН, 2026