P. Sychev, A. Goncharov, D. Vyazhev, E. Khalafyan, A. Zaytsev, “When an LLM is apprehensive about its answers – and when its uncertainty is justified”, Зап. научн. сем. ПОМИ, 2025, том 546,страницы 105

When an LLM is apprehensive about its answers – and when its uncertainty is justified

[Когда большие языковые модели не уверены в своих ответах – и когда их неуверенность оправдана]

P. Sychev^ab, A. Goncharov^a, D. Vyazhev^ab, E. Khalafyan^ab, A. Zaytsev^a

^a Skolkovo Institute of Science and Technology (Skoltech) Moscow, Russia
^b National Research University Higher School of Economics Moscow, Russia

Аннотация: Оценка неопределенности имеет решающее значение для оценки больших языковых моделей (LLM), особенно в областях с высоким риском, где неверные ответы приводят к значительным последствиям. Многочисленные подходы рассматривают эту проблему, фокусируясь на определенном типе неопределенности, игнорируя другие.
Мы исследуем какие оценки, в частности энтропия по токенам и модель-как-судью (MASJ) будут использоваться для задач с ответами на вопросы с множественным выбором для разных доменов вопросов. В наших экспериментах рассматриваются три LLM: Phi-4, Mistral и Qwen разных размеров от 1,5B до 72B для $14$ разных тем. В то время как MASJ работает аналогично случайному предиктору ошибок, энтропия ответа предсказывает ошибку модели в областях, зависящих от знаний, и служит эффективным индикатором сложности вопроса: для биологии ROC-AUC составляет $0,73$. Эта корреляция исчезает для областей, зависящих от рассуждений: например, для математических вопросов ROC-AUC составляет $0,55$. Более принципиально, мы обнаружили, что энтропия больше при большом количестве рассуждений. Таким образом, энтропия, основанная на неопределенности данных, должна быть интегрирована в рамки оценок неопределенности, в то время как MASJ требует уточнения. Более того, существующие выборки MMLU-Pro предвзяты и должны сбалансировать необходимое количество рассуждений для различных поддоменов, чтобы обеспечить более справедливую оценку производительности LLM. Библ. – 28 назв.

Ключевые слова: вопросы-ответы, сложность, LLM, неопределенность, энтропия.

УДК: 004.912

Поступило: 19.02.2025

Язык публикации: английский