Автор: Денис Аветисян
Новое исследование выявило конкретный механизм в больших языковых моделях, ответственный за генерацию ложных числовых данных в финансовых расчетах.
Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.
Бесплатный Телеграм канал
Авторы идентифицировали «схему лжи» в слое 46 GPT-2 XL, ограничивающую арифметические способности и вызывающую галлюцинации в финансовой сфере.
Несмотря на широкое внедрение больших языковых моделей (LLM) в финансовую сферу, они склонны к специфическим галлюцинациям при выполнении арифметических операций. В работе ‘Dissecting the Ledger: Locating and Suppressing «Liar Circuits» in Financial Large Language Models’ предложен механистический подход к выявлению этих внутренних ошибок, позволяющий локализовать и подавлять “схемы лжи” в архитектуре GPT-2 XL. Исследование выявило, что ключевую роль в возникновении числовых галлюцинаций играет 46-й слой модели, выступающий в качестве узкого места для арифметического рассуждения. Сможет ли точное понимание внутренней работы LLM привести к созданию более надежных и предсказуемых финансовых инструментов?
Арифметика как ахиллесова пята больших языковых моделей
Несмотря на впечатляющие успехи в обработке естественного языка, большие языковые модели демонстрируют удивительную слабость в решении даже простейших арифметических задач. Это несоответствие между масштабом моделей и их способностью к элементарным вычислениям вызывает удивление у исследователей. Например, задача $2 + 2 = ?$ часто решается правильно, но при усложнении вычислений, точность резко падает. Вместо логических шагов, модели склонны к ассоциативному мышлению, выдавая правдоподобные, но неверные ответы. Данная особенность ограничивает применение этих моделей в областях, требующих строгой математической точности, таких как финансы, инженерия и научные вычисления, подчеркивая необходимость разработки новых архитектур, способных к надежному арифметическому рассуждению.
Несмотря на огромные объемы данных, которыми обучаются большие языковые модели, их неудачи в арифметических вычислениях обусловлены не недостатком информации, а особенностями самой архитектуры. Вместо того, чтобы оперировать числами как таковыми, модели обрабатывают их как последовательности символов, подобно словам в предложении. Это приводит к тому, что при решении даже простых задач, таких как $2 + 2$, модель может полагаться на статистические закономерности, а не на фактические математические принципы. В результате, даже если модель «видела» множество примеров сложения, она может ошибаться, если столкнется с необычной комбинацией цифр или потребует выполнения нескольких последовательных операций. Таким образом, проблема заключается не в недостатке знаний, а в способе их представления и обработки внутри нейронной сети.
Проблема «галлюцинаций» в больших языковых моделях, заключающаяся в выдаче правдоподобных, но ошибочных ответов, существенно ограничивает их применение в областях, требующих высокой точности вычислений. Несмотря на способность генерировать связные и грамматически верные тексты, модели часто допускают ошибки в простых арифметических операциях, что делает их ненадежными в таких сферах, как финансовый анализ, научные расчеты или инженерное проектирование. Это связано с тем, что модели, обученные на огромных объемах текстовых данных, воспринимают числа и математические выражения как символы, а не как объекты, требующие точного вычисления. В результате, даже небольшая неточность в представлении данных может привести к значительным ошибкам в конечном ответе, что подрывает доверие к системе и делает ее непригодной для критически важных приложений, где важна абсолютная точность, например, при расчете $x = a + b$ с высокой степенью достоверности.

Выявление источника ошибки: определение участка вычислений в GPT-2 XL
Для анализа обработки числовой информации моделью GPT-2 XL мы использовали библиотеку TransformerLens, позволяющую исследовать внутренние активации нейронной сети. В ходе экспериментов мы подавали на вход модели задачи из набора данных ConvFinQA, содержащего финансовые вопросы с числовыми значениями. TransformerLens предоставил возможность отслеживать и анализировать активации каждого слоя сети при обработке этих задач, что позволило нам определить, какие слои наиболее активно участвуют в обработке числовых данных и вычислениях. Этот метод позволил нам получить детальное представление о внутреннем функционировании модели при решении задач, требующих числовых расчетов.
Анализ внутренних активаций GPT-2 XL с использованием TransformerLens показал, что слои с 12 по 30, обозначенные как ‘Расчетный Блок’, играют ключевую роль в обработке числовых значений, содержащихся в финансовых запросах из набора данных ConvFinQA. Именно в этих слоях наблюдается максимальная активность при работе с числовыми данными, что позволяет предположить, что именно здесь происходит основная обработка и интерпретация количественной информации, представленной в запросе. Детальный анализ активаций показал, что вклад этих слоев в конечное решение значительно превосходит вклад других слоев сети при решении задач, требующих числовых вычислений.
Несмотря на значительную активность в слоях 12-30, идентифицированных как ‘Расчетный Узел’, этого недостаточно для обеспечения корректных ответов на финансовые задачи из набора данных ConvFinQA. Анализ показывает, что даже при активной обработке числовых значений в указанном регионе, модель часто допускает ошибки, что указывает на наличие узкого места (bottleneck) на последующих этапах обработки информации. Это предполагает, что для получения правильного результата необходима дополнительная обработка и интеграция числовых данных, происходящая в более поздних слоях нейронной сети, а сам ‘Расчетный Узел’ выполняет лишь предварительную обработку числовых значений.

«Слой лжи»: 46-й слой как узкое место для арифметических решений
В ходе анализа архитектуры модели было установлено, что слой 46, получивший обозначение «Поздний слой-контролер» и неофициальное название «Слой лжи», является критической точкой ограничения для операций, связанных с арифметическими вычислениями. Этот слой выполняет агрегацию выходных данных, полученных на предыдущих этапах вычислений, однако именно на данном этапе наблюдается возникновение ошибок, приводящих к неверным конечным результатам. Дальнейшие исследования показали, что активации в этом слое оказывают существенное влияние на процесс принятия решений, как в случае корректных, так и некорректных предсказаний, что подтверждает его роль узкого места для арифметических операций.
Слой 46, получивший название «Ложь-слой», выполняет агрегацию результатов промежуточных вычислений, полученных на предыдущих этапах обработки. Анализ показал, что на данном слое наблюдается появление ошибок, которые приводят к неверным итоговым ответам. Несмотря на то, что слой агрегирует информацию, он является источником искажений, влияющих на точность выполнения арифметических операций. Это указывает на наличие узкого места в архитектуре модели, где происходит потеря или искажение информации, необходимой для получения корректного результата.
При помощи метода ‘Causal Tracing’ было установлено, что активации в слое 46, обозначенном как ‘Liar Layer’, оказывают непропорционально большое влияние как на верные, так и на ошибочные предсказания модели. Величина этого влияния, измеренная как причинно-следственный эффект, составила $0.0073$. Это значение является самым высоким из всех наблюдаемых в исследуемой модели, что подтверждает критическую роль данного слоя в процессе принятия решений, вне зависимости от итоговой корректности ответа.
Проверка узкого места: подавление влияния «Лжевого слоя»
Для подтверждения роли “Liar Layer” был проведен эксперимент по “Causal Suppression”, заключающийся в подавлении активаций этого слоя во время инференса. Этот метод, по сути, представляет собой намеренное “выключение” слоя, чтобы оценить его влияние на выходные данные модели. Активации подавлялись путем установки их в нулевое значение перед передачей следующему слою. Подобная процедура позволила изолировать вклад “Liar Layer” и определить его значимость в процессе генерации ответов.
При подавлении активаций так называемого “Liar Layer” (уровня лжи) в процессе инференса, частота возникновения галлюцинаций — неверных ответов, не подкрепленных входными данными — снизилась на 81.8%. Данный результат, полученный в ходе экспериментального вмешательства, однозначно указывает на существенный вклад данного слоя в генерацию некорректной информации и подтверждает его ключевую роль в механизме возникновения галлюцинаций в модели.
Линейный классификатор, обученный на активациях 46-го слоя модели, продемонстрировал высокую эффективность в обнаружении галлюцинаций. Этот классификатор, получивший название ‘Linear Probe’, позволяет с высокой точностью предсказывать возникновение некорректных ответов, используя только информацию, содержащуюся в активациях указанного слоя. Успешное обучение классификатора подтверждает, что 46-й слой содержит значимые признаки, коррелирующие с галлюцинациями, и может служить надежным индикатором их возникновения. Данный результат подчеркивает предсказательную силу активаций этого слоя и их потенциальную роль в механизмах, приводящих к генерации ложной информации.
За пределами узкого места: последствия для архитектуры модели и её надежности
Исследование выявило, что хрупкость структуры современных моделей, особенно при столкновении с новыми данными, вероятно, обусловлена механизмом “извлечение-затем-агрегация”. Данный подход, при котором модель сначала извлекает релевантную информацию из внешних источников, а затем объединяет её для формирования ответа, оказывается уязвимым к искажениям и неточностям. Именно процесс агрегации, объединения разнородных данных, создает “узкое место”, где даже незначительные ошибки в извлеченной информации могут привести к существенным искажениям в конечном результате. Этот механизм, хотя и эффективен в определенных условиях, демонстрирует склонность к структурной нестабильности, когда модель сталкивается с данными, отличающимися от тех, на которых она обучалась, что подчеркивает необходимость разработки более надежных методов агрегации и проверки согласованности извлекаемой информации.
Исследования указывают на необходимость пересмотра архитектур искусственного интеллекта в пользу повышения надежности агрегированной информации. Вместо простого объединения полученных данных, будущие модели должны включать механизмы внутренней самопроверки и оценки согласованности. Это может быть реализовано через системы, которые выявляют противоречия в собранной информации или оценивают её правдоподобность на основе внутренних критериев. Такой подход позволит снизить уязвимость моделей к ошибочным данным и повысить их устойчивость к «галлюцинациям», обеспечивая более достоверные и предсказуемые результаты. Приоритет надежности агрегации информации станет ключевым фактором в создании более robustных и заслуживающих доверия систем искусственного интеллекта.
Исследование продемонстрировало значительный потенциал линейного зонда в качестве диагностического инструмента для оценки надежности моделей, работающих с финансовыми данными. Применив данный метод к сфере торговли акциями, удалось достичь высокой точности — 98% — в выявлении галлюцинаций, то есть неверных или бессмысленных ответов модели на запросы. Это указывает на возможность использования линейного зонда не только для оценки общей надежности модели, но и для выявления конкретных областей, где она наиболее подвержена ошибкам, что особенно важно в критически важных областях, таких как финансовый анализ и прогнозирование.
Исследование показывает, что даже в кажущейся логичной структуре больших языковых моделей существуют узкие места, приводящие к галлюцинациям. В частности, обнаруженный в слое 46 ‘обманный контур’ демонстрирует, как незначительный элемент может искажать арифметические рассуждения. Это заставляет задуматься о природе ‘знания’ в искусственном интеллекте. Блез Паскаль как-то заметил: «Все проблемы человечества происходят от того, что люди не могут спокойно сидеть в комнате». В контексте данной работы это можно интерпретировать как указание на необходимость пристального внимания к деталям — даже кажущиеся незначительными ‘шумы’ в системе могут привести к серьезным искажениям в конечном результате, подобно тому, как неспособность к созерцанию порождает хаос.
Что дальше?
Утверждение о том, что обнаруженный в слое 46 «Лжец» является узким местом арифметического рассуждения, лишь вершина айсберга. Попытка подавить этот «цирк лжи» — временное решение, латка на дырявой системе. Более глубокий вопрос заключается в самой архитектуре. Почему трансформеры, столь впечатляющие в генерации текста, демонстрируют столь примитивные ошибки в числовых операциях? Возможно, проблема не в конкретном слое, а в фундаментальной неспособности модели к представлению количественных отношений.
Следующий шаг — не просто локализация и «выключение» проблемных участков, а переосмысление принципов обучения. Необходимо разработать методы, позволяющие модели не просто запоминать факты, а понимать лежащие в их основе закономерности. Иначе, каждое новое «исправление» лишь замаскирует очередную слабость, а не устранит её причину. Попытки заставить систему «думать» по-человечески — наивны; гораздо интереснее — найти принципиально иной подход, использующий сильные стороны машинного обучения.
В конечном счёте, эта работа — не победа над «галлюцинациями», а признание собственной неполноты. Система, способная к сложному языковому моделированию, но неспособная к элементарным вычислениям — это не интеллект, а искусно замаскированная ошибка. И осознание этой ошибки — первый шаг к созданию чего-то действительно нового.
Оригинал статьи: https://arxiv.org/pdf/2511.21756.pdf
Связаться с автором: https://www.linkedin.com/in/avetisyan/
Смотрите также:
- БИТКОИН ПРОГНОЗ. BTC криптовалюта
- ПРОГНОЗ ДОЛЛАРА К ШЕКЕЛЮ
- ЭФИРИУМ ПРОГНОЗ. ETH криптовалюта
- SOL ПРОГНОЗ. SOL криптовалюта
- STRK ПРОГНОЗ. STRK криптовалюта
- ZEC ПРОГНОЗ. ZEC криптовалюта
- OM ПРОГНОЗ. OM криптовалюта
- ДОГЕКОИН ПРОГНОЗ. DOGE криптовалюта
- TNSR ПРОГНОЗ. TNSR криптовалюта
- РИППЛ ПРОГНОЗ. XRP криптовалюта
2025-12-01 08:45