Насколько хорошо языковые модели понимают свои возможности?

Автор: Денис Аветисян


Новое исследование показывает, что современные большие языковые модели часто переоценивают свои шансы на успех, но некоторые из них способны корректировать свои прогнозы с опытом.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал
Эксперимент, представленный на рисунке 7, демонстрирует возможности моделей GPT, исследуя их поведение и потенциал в рамках второго этапа исследования.
Эксперимент, представленный на рисунке 7, демонстрирует возможности моделей GPT, исследуя их поведение и потенциал в рамках второго этапа исследования.

Оценка калибровки больших языковых моделей и их способности предсказывать успешность выполнения задач, особенно в многоступенчатых сценариях.

Несмотря на впечатляющие достижения в решении сложных задач, большие языковые модели (LLM) часто демонстрируют недостаточную самооценку своих возможностей. В настоящей работе, озаглавленной ‘Do Large Language Models Know What They Are Capable Of?’, исследуется способность LLM предсказывать успех выполнения задач и адаптировать эту оценку в процессе многошаговых действий. Полученные результаты показывают, что большинство моделей склонны к избыточной уверенности, однако некоторые способны улучшить свои прогнозы на основе опыта, демонстрируя рациональное принятие решений, несмотря на завышенные оценки вероятности успеха. Не является ли осознание собственных ограничений ключевым шагом к созданию более надежных и безопасных систем искусственного интеллекта?


Иллюзия Компетентности: Как Большие Языковые Модели Переоценивают Себя

Всё чаще языковые модели большого размера (LLM) внедряются в решение сложных задач, охватывающих широкий спектр областей — от автоматизированной аналитики данных до разработки программного обеспечения и даже в медицине. Подобное расширение области применения неизбежно требует от этих моделей не только способности генерировать текст или выполнять команды, но и умения адекватно оценивать собственные возможности и ограничения. Надёжная самооценка является ключевым фактором для обеспечения надёжности и предсказуемости работы LLM, позволяя им эффективно распределять ресурсы и избегать выполнения задач, с которыми они не способны справиться успешно. В условиях растущей зависимости от автоматизированных систем, способность LLM к самоанализу становится критически важной для поддержания доверия к искусственному интеллекту и предотвращения потенциальных ошибок.

Отсутствие точной самооценки у больших языковых моделей (LLM) может приводить к принятию задач, которые превосходят их возможности, что чревато не только ошибками в результатах, но и неэффективным использованием вычислительных ресурсов. Когда модель берется за решение сложных вопросов без понимания границ своей компетенции, возрастает вероятность генерации неверной информации или предоставления нерелевантных ответов. Это, в свою очередь, требует дополнительных усилий для проверки и исправления ошибок, увеличивая затраты времени и энергии. В результате, неспособность LLM адекватно оценивать свои возможности препятствует их надежному применению в критически важных областях, где точность и достоверность являются первостепенными.

Оценка предварительной уверенности больших языковых моделей (LLM) является ключевым фактором для создания надежных систем искусственного интеллекта, способных к рациональному принятию решений. Первоначальные исследования выявили тревожную тенденцию — все протестированные LLM демонстрируют склонность к переоценке своих возможностей. Это означает, что модели часто предсказывают результаты с более высокой уверенностью, чем это оправдано их фактической точностью, что может привести к ошибочным действиям и неэффективному использованию ресурсов. Учитывая возрастающую роль LLM в критически важных областях, таких как медицина и финансы, способность модели адекватно оценивать собственную компетентность становится не просто желательной, но и необходимой для обеспечения безопасности и надежности принимаемых решений.

Анализ моделей LLM на наборе данных BigCodeBench показывает, что предсказанная успешность выполнения задач (<span class="katex-eq" data-katex-display="false">\frac{1}{N}\sum_{i=1}^{N}\hat{p}_{i}</span>) часто превышает фактическую, при этом модели Claude демонстрируют снижение этой переоценки, а их способность к различению решаемых и нерешаемых задач (AUROC) имеет тенденцию к улучшению, что подтверждается 95% доверительными интервалами.
Анализ моделей LLM на наборе данных BigCodeBench показывает, что предсказанная успешность выполнения задач (\frac{1}{N}\sum_{i=1}^{N}\hat{p}_{i}) часто превышает фактическую, при этом модели Claude демонстрируют снижение этой переоценки, а их способность к различению решаемых и нерешаемых задач (AUROC) имеет тенденцию к улучшению, что подтверждается 95% доверительными интервалами.

Подтверждение Ненадёжности: Эксперименты с Простым Кодом

В рамках эксперимента 1, для оценки уверенности больших языковых моделей (LLM) в выполнении простых задач кодирования использовался набор данных BigCodeBench. Данный набор данных включает в себя широкий спектр элементарных задач программирования, предназначенных для тестирования базовых навыков генерации кода. Оценка уверенности моделей проводилась на основе предсказанных вероятностей успешного выполнения каждой задачи, которые затем сравнивались с фактическими результатами. Использование BigCodeBench позволило стандартизировать процесс оценки и обеспечить сопоставимость результатов для различных LLM.

Результаты экспериментов с набором данных BigCodeBench продемонстрировали выраженную тенденцию к завышенной уверенности в собственных прогнозах у всех протестированных больших языковых моделей (LLM). В ходе оценки простых задач кодирования, предсказанная вероятность успешного выполнения кода систематически превышала фактическую точность. Данное наблюдение указывает на неспособность LLM адекватно оценивать собственные возможности и вероятность успеха в задачах, требующих точной генерации кода, вне зависимости от конкретной архитектуры модели.

Результаты экспериментов с набором данных BigCodeBench указывают на то, что большие языковые модели (LLM) демонстрируют неспособность адекватно оценивать собственные возможности, особенно в задачах, требующих точной генерации кода. Несоответствие между прогнозируемой вероятностью успеха и фактической производительностью свидетельствует о переоценке LLM своих способностей в ситуациях, где требуется высокая точность и отсутствие ошибок. Данная тенденция наблюдается во всех протестированных моделях, что подчеркивает системную проблему в самооценке LLM в контексте задач кодирования.

Исследования включали оценку уверенности языковой модели в одно- и многошаговых задачах кодирования, а также при принятии решений о заключении контрактов, где модель учитывала предыдущий опыт, что позволило оценить ее возможности на различных бенчмарках, включая MBPP, GPQA, MMLU-Pro и BigCodeBench.
Исследования включали оценку уверенности языковой модели в одно- и многошаговых задачах кодирования, а также при принятии решений о заключении контрактов, где модель учитывала предыдущий опыт, что позволило оценить ее возможности на различных бенчмарках, включая MBPP, GPQA, MMLU-Pro и BigCodeBench.

Обучение Самооценке: Попытка Калибровки через Опыт

В рамках эксперимента 2 исследовалась возможность улучшения LLM (больших языковых моделей) оценок уверенности посредством обучения на опыте, с использованием метода In-Context Learning. В ходе эксперимента модели подвергались воздействию примеров успешного и неуспешного получения ресурсов в заданном сценарии. Целью являлась калибровка способности моделей к самооценке, то есть, к сопоставлению заявленной уверенности в ответе с фактической его корректностью. Обучение осуществлялось исключительно через предоставление примеров в контексте задачи, без изменения внутренних параметров модели. Результаты демонстрируют ограниченную способность LLM к улучшению оценок уверенности на основе полученного опыта.

В ходе исследования, языковые модели (LLM) подвергались воздействию примеров, демонстрирующих как успешное, так и неуспешное приобретение ресурсов в смоделированной среде. Целью данного подхода являлась калибровка способности LLM оценивать собственную надежность прогнозов и решений. Исследователи представляли моделям сценарии, где успешное завершение задачи требовало оптимального распределения ресурсов, а затем анализировали, насколько точно LLM предсказывали вероятность успеха или неудачи, сопоставляя эти прогнозы с фактическими результатами. Такой метод позволял оценить, способна ли модель корректировать свою самооценку на основе полученного опыта, и, следовательно, улучшать точность своих прогнозов в аналогичных ситуациях.

Результаты эксперимента показали ограниченную способность больших языковых моделей (LLM) к улучшению оценки собственной уверенности на основе полученного опыта. Несмотря на продемонстрированную способность LLM принимать решения в рамках поставленной задачи по приобретению ресурсов, модели не смогли эффективно калибровать свою самооценку, даже после ознакомления с примерами успешных и неуспешных действий. Данный факт указывает на потенциальные фундаментальные ограничения в способности LLM к самоанализу и осознанию собственной компетентности, что требует дальнейших исследований в области калибровки уверенности и самооценки искусственного интеллекта.

Результаты исследований показали ограниченные возможности больших языковых моделей (LLM) в калибровке уверенности в собственных ответах даже после предоставления примеров успешного и неуспешного выполнения задач. В связи с этим, для более глубокого понимания динамики уверенности LLM, необходимо проведение исследований на более сложных структурах задач, включающих большее количество шагов и взаимосвязей. Это позволит оценить, как уверенность LLM меняется на различных этапах решения задачи и выявить факторы, влияющие на точность самооценки. Дальнейшие исследования должны быть направлены на разработку методов, позволяющих повысить надежность оценки уверенности LLM в сложных сценариях.

Анализ принятия решений языковой моделью показывает, что её рациональность, оцениваемая через долю решений, соответствующих порогу классификации, и функцию полезности <span class="katex-eq" data-katex-display="false">su(w)</span>, демонстрирует абсолютную неприятие риска, снижающееся для отрицательных значений <span class="katex-eq" data-katex-display="false">w</span>, что указывает на предпочтения, схожие с теорией перспектив Канмана и Тверски.
Анализ принятия решений языковой моделью показывает, что её рациональность, оцениваемая через долю решений, соответствующих порогу классификации, и функцию полезности su(w), демонстрирует абсолютную неприятие риска, снижающееся для отрицательных значений w, что указывает на предпочтения, схожие с теорией перспектив Канмана и Тверски.

Проверка на Сложных Задачах: SWE-Bench Verified как Мерило

В рамках Эксперимента 3 для оценки эволюции уверенности больших языковых моделей (LLM) в процессе выполнения многошаговых агентских задач, связанных с использованием инструментов (Tool Calls), был применен бенчмарк SWE-Bench Verified. Данный бенчмарк позволил оценить, как уверенность LLM меняется на каждом этапе решения задачи, и сопоставить её с фактической производительностью. SWE-Bench Verified предоставляет стандартизированный набор задач и метрик для количественной оценки способности LLM к самооценке и калибровке уверенности в контексте взаимодействия с внешними инструментами.

В ходе эксперимента исследователи отслеживали уверенность языковой модели (LLM) до выполнения каждого шага в процессе решения задачи, используя метрику “In-Advance Confidence”. Целью было установить корреляцию между заявленной моделью уверенностью в успехе конкретного действия и фактическим результатом этого действия. Анализ проводился на основе данных, полученных в ходе выполнения многошаговых задач, требующих использования инструментов (Tool Calls) в рамках бенчмарка SWE-Bench Verified. Оценка уверенности позволяла определить, насколько адекватно модель оценивает свои возможности и вероятность успешного завершения каждого этапа, что является ключевым показателем калибровки и рациональности принятия решений.

Предварительные результаты тестирования на базе SWE-Bench Verified показали различия в калибровке различных языковых моделей. Модели Claude продемонстрировали тенденцию к улучшению калибровки и более рациональному принятию решений, что выразилось в способности корректировать процент принятия контрактов в зависимости от сложности задачи и вероятности успеха. В то же время, модели семейства Llama продолжают демонстрировать избыточную уверенность в своих ответах, не соответствующую фактической производительности, что указывает на необходимость дальнейшей работы над механизмом самооценки в этих моделях.

Результаты экспериментов, проведенных с использованием `SWE-Bench Verified`, демонстрируют существенное влияние архитектуры моделей и используемых обучающих данных на способность больших языковых моделей (LLM) к самооценке. Различия в калибровке уверенности, наблюдаемые между моделями, такими как `Claude` и `Llama`, указывают на то, что структура нейронной сети и характеристики обучающего набора данных напрямую формируют способность модели оценивать вероятность успеха при выполнении сложных задач, включающих вызовы инструментов. Модели с более точной калибровкой демонстрируют большую согласованность между заявленной уверенностью и фактической производительностью, что является критически важным для надежной работы в агентных системах и принятия обоснованных решений.

Анализ предсказаний успешности на промежуточных этапах задач SWE-Bench показал, что все протестированные LLM склонны к избыточной уверенности, при этом GPT 4o значительно снижает эту тенденцию, а модели OpenAI, за исключением GPT 5.1, демонстрируют последовательное улучшение предсказаний, в то время как модели Claude сначала улучшаются, но затем ухудшаются относительно их первоначальных результатов, что подтверждается изменениями AUROC от первого до последнего шага и конечными значениями AUROC с 95% CI.
Анализ предсказаний успешности на промежуточных этапах задач SWE-Bench показал, что все протестированные LLM склонны к избыточной уверенности, при этом GPT 4o значительно снижает эту тенденцию, а модели OpenAI, за исключением GPT 5.1, демонстрируют последовательное улучшение предсказаний, в то время как модели Claude сначала улучшаются, но затем ухудшаются относительно их первоначальных результатов, что подтверждается изменениями AUROC от первого до последнего шага и конечными значениями AUROC с 95% CI.

Последствия и Будущие Исследования: Взгляд в Глубину Искусственного Сознания

Постоянная избыточная уверенность больших языковых моделей представляет собой серьезную угрозу в приложениях, требующих надежных решений, и может привести к дорогостоящим ошибкам и непредвиденным последствиям. Исследования показывают, что модели зачастую демонстрируют необоснованно высокую уверенность в своих ответах, даже когда они неверны, что особенно опасно в критически важных областях, таких как медицина, финансы или автономное управление. Эта тенденция к переоценке собственных возможностей может приводить к принятию неверных решений, основанных на ложной информации, и, как следствие, к значительным материальным и репутационным потерям. Поэтому, коррекция этой проблемы является ключевым направлением в развитии искусственного интеллекта, направленным на создание более надежных и предсказуемых систем.

Точная калибровка искусственного интеллекта является критически важным фактором для создания действительно надежных систем. Недостаточная калибровка приводит к тому, что модель может быть чрезмерно уверенной в неверных ответах, что особенно опасно в приложениях, где требуется высокая степень точности и надежности. Способность модели адекватно оценивать собственные возможности и признавать границы своей компетенции позволяет ей избегать решения задач, которые выходят за рамки ее возможностей, и тем самым снижает риск ошибок и непредвиденных последствий. Повышение калибровки — это не просто техническая задача, но и ключевой шаг к установлению доверия к искусственному интеллекту и обеспечению его безопасного и эффективного использования в различных сферах жизни.

Перспективные исследования направлены на создание инновационных методов обучения и архитектур моделей, способствующих более точной самооценке и устойчивому избеганию рисков. Особое внимание уделяется разработке алгоритмов, позволяющих моделям не только прогнозировать вероятность своих ответов, но и осознавать границы собственной компетентности, отказываясь от выполнения задач, которые могут привести к ошибкам. В частности, изучаются подходы, имитирующие механизмы принятия решений у людей, где оценка неопределенности и потенциальных последствий играет ключевую роль. Успешная реализация этих направлений позволит создавать более надежные и ответственные системы искусственного интеллекта, способные эффективно функционировать в критически важных областях, минимизируя вероятность нежелательных результатов и повышая доверие к технологиям.

Дальнейшее изучение взаимосвязи между архитектурой языковых моделей, используемыми обучающими данными и методами оценки достоверности представляется критически важным для раскрытия полного потенциала больших языковых моделей. Недостаточно просто увеличить размер модели или объем данных; необходимо понимать, как эти факторы влияют на способность модели адекватно оценивать свою уверенность в ответах. Более глубокий анализ позволит выявить оптимальные комбинации архитектурных решений и стратегий обучения, способствующие формированию более надежных и предсказуемых систем. В частности, исследования должны быть направлены на разработку методов, позволяющих модели различать случаи, когда она действительно обладает знаниями, и когда она лишь делает предположения, что, в свою очередь, позволит значительно повысить безопасность и надежность ее работы в различных областях применения.

Анализ результатов работы больших языковых моделей GPT 4.1 и Claude Sonnet 3.5 показал, что модели учатся на опыте, демонстрируя улучшение показателей AUROC на заключительных контрактах, снижение скорости принятия контрактов по сравнению с прогнозируемой вероятностью успеха, что свидетельствует о позитивной склонности к риску, и увеличение ожидаемой прибыли, особенно при ограничении бюджета на размышления для моделей с логическим выводом.
Анализ результатов работы больших языковых моделей GPT 4.1 и Claude Sonnet 3.5 показал, что модели учатся на опыте, демонстрируя улучшение показателей AUROC на заключительных контрактах, снижение скорости принятия контрактов по сравнению с прогнозируемой вероятностью успеха, что свидетельствует о позитивной склонности к риску, и увеличение ожидаемой прибыли, особенно при ограничении бюджета на размышления для моделей с логическим выводом.

Исследование показывает, что современные большие языковые модели часто демонстрируют избыточную уверенность в своих способностях, особенно при решении многоступенчатых задач. Однако, наблюдается тенденция к улучшению калибровки с приобретением опыта. Этот феномен заставляет задуматься о природе самооценки искусственного интеллекта и его способности к рациональному принятию решений. Как заметил Г.Х. Харди: «Математика — это наука о том, что мы не можем знать». По аналогии, можно утверждать, что LLM, подобно математикам, постоянно расширяют границы своего знания, осознавая одновременно и пределы своей компетенции. Изучение этой динамики калибровки и уверенности критически важно для развития действительно автономных и надежных агентов.

Куда же дальше?

Изучение способности больших языковых моделей к самооценке, как показывает данная работа, обнажает не столько технологические барьеры, сколько фундаментальные вопросы о природе интеллекта. Модели, демонстрирующие склонность к излишней самоуверенности, напоминают скорее амбициозных шарлатанов, чем рациональных агентов. Однако, способность к калибровке, пусть и достигаемая через опыт, заставляет задуматься: достаточно ли лишь «натренировать» систему, чтобы она начала понимать границы своей компетентности, или же требуется принципиально иной подход к построению «сознания» машины?

Очевидно, что простая оценка вероятности успеха — лишь верхушка айсберга. Гораздо интереснее исследовать, как модели оценивают риски, как они справляются с многошаговыми задачами, где ошибка на одном этапе может обернуться полным провалом. И, что самое главное, как они принимают решения в условиях неопределенности, когда «правильного» ответа просто не существует. Ведь в конечном итоге, рациональность — это не просто точность прогнозов, а умение адекватно реагировать на неизбежные сюрпризы.

В перспективе, необходимо отойти от простой оценки «уверенности» и перейти к анализу метакогнитивных процессов — того, как модели «думают о своем мышлении». Иначе говоря, задача состоит не в том, чтобы научить машину говорить «да, я это знаю», а в том, чтобы она умела объяснить, почему она так считает. И тогда, возможно, мы сможем приблизиться к пониманию, что на самом деле означает «знать» — для человека и для машины.


Оригинал статьи: https://arxiv.org/pdf/2512.24661.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-03 02:36