When an LLM is apprehensive about its answers – and when its uncertainty is justified
[Когда большие языковые модели не уверены в своих ответах – и когда их неуверенность оправдана]
P. Sychevab,
A. Goncharova,
D. Vyazhevab,
E. Khalafyanab,
A. Zaytseva a Skolkovo Institute of Science and Technology (Skoltech) Moscow, Russia
b National Research University Higher School of Economics Moscow, Russia
Аннотация:
Оценка неопределенности имеет решающее значение для оценки больших языковых моделей (LLM), особенно в областях с высоким риском, где неверные ответы приводят к значительным последствиям. Многочисленные подходы рассматривают эту проблему, фокусируясь на определенном типе неопределенности, игнорируя другие.
Мы исследуем какие оценки, в частности энтропия по токенам и модель-как-судью (MASJ) будут использоваться для задач с ответами на вопросы с множественным выбором для разных доменов вопросов. В наших экспериментах рассматриваются три LLM: Phi-4, Mistral и Qwen разных размеров от 1,5B до 72B для
$14$ разных тем. В то время как MASJ работает аналогично случайному предиктору ошибок, энтропия ответа предсказывает ошибку модели в областях, зависящих от знаний, и служит эффективным индикатором сложности вопроса: для биологии ROC-AUC составляет
$0,73$. Эта корреляция исчезает для областей, зависящих от рассуждений: например, для математических вопросов ROC-AUC составляет
$0,55$. Более принципиально, мы обнаружили, что энтропия больше при большом количестве рассуждений. Таким образом, энтропия, основанная на неопределенности данных, должна быть интегрирована в рамки оценок неопределенности, в то время как MASJ требует уточнения. Более того, существующие выборки MMLU-Pro предвзяты и должны сбалансировать необходимое количество рассуждений для различных поддоменов, чтобы обеспечить более справедливую оценку производительности LLM. Библ. – 28 назв.
Ключевые слова:
вопросы-ответы, сложность, LLM, неопределенность, энтропия.
УДК:
004.912
Поступило: 19.02.2025
Язык публикации: английский