Раскрытие обмана: Как нейросети «придумывают» цифры в финансах

Автор: Денис Аветисян

Новое исследование выявило конкретный механизм в больших языковых моделях, ответственный за генерацию ложных числовых данных в финансовых расчетах.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Анализ активаций 46-го слоя демонстрирует, что даже при столкновении с незнакомыми темами (треугольниками), внутренняя репрезентация модели чётко разделяется на кластеры «Истина» (зелёный) и «Галлюцинация» (красный) вдоль единого линейного направления, указывая на внутреннюю структуру различения правды и вымысла.

Авторы идентифицировали «схему лжи» в слое 46 GPT-2 XL, ограничивающую арифметические способности и вызывающую галлюцинации в финансовой сфере.

Несмотря на широкое внедрение больших языковых моделей (LLM) в финансовую сферу, они склонны к специфическим галлюцинациям при выполнении арифметических операций. В работе ‘Dissecting the Ledger: Locating and Suppressing «Liar Circuits» in Financial Large Language Models’ предложен механистический подход к выявлению этих внутренних ошибок, позволяющий локализовать и подавлять “схемы лжи” в архитектуре GPT-2 XL. Исследование выявило, что ключевую роль в возникновении числовых галлюцинаций играет 46-й слой модели, выступающий в качестве узкого места для арифметического рассуждения. Сможет ли точное понимание внутренней работы LLM привести к созданию более надежных и предсказуемых финансовых инструментов?

Арифметика как ахиллесова пята больших языковых моделей

Несмотря на впечатляющие успехи в обработке естественного языка, большие языковые модели демонстрируют удивительную слабость в решении даже простейших арифметических задач. Это несоответствие между масштабом моделей и их способностью к элементарным вычислениям вызывает удивление у исследователей. Например, задача $2 + 2 = ?$ часто решается правильно, но при усложнении вычислений, точность резко падает. Вместо логических шагов, модели склонны к ассоциативному мышлению, выдавая правдоподобные, но неверные ответы. Данная особенность ограничивает применение этих моделей в областях, требующих строгой математической точности, таких как финансы, инженерия и научные вычисления, подчеркивая необходимость разработки новых архитектур, способных к надежному арифметическому рассуждению.

Несмотря на огромные объемы данных, которыми обучаются большие языковые модели, их неудачи в арифметических вычислениях обусловлены не недостатком информации, а особенностями самой архитектуры. Вместо того, чтобы оперировать числами как таковыми, модели обрабатывают их как последовательности символов, подобно словам в предложении. Это приводит к тому, что при решении даже простых задач, таких как $2 + 2$, модель может полагаться на статистические закономерности, а не на фактические математические принципы. В результате, даже если модель «видела» множество примеров сложения, она может ошибаться, если столкнется с необычной комбинацией цифр или потребует выполнения нескольких последовательных операций. Таким образом, проблема заключается не в недостатке знаний, а в способе их представления и обработки внутри нейронной сети.

Проблема «галлюцинаций» в больших языковых моделях, заключающаяся в выдаче правдоподобных, но ошибочных ответов, существенно ограничивает их применение в областях, требующих высокой точности вычислений. Несмотря на способность генерировать связные и грамматически верные тексты, модели часто допускают ошибки в простых арифметических операциях, что делает их ненадежными в таких сферах, как финансовый анализ, научные расчеты или инженерное проектирование. Это связано с тем, что модели, обученные на огромных объемах текстовых данных, воспринимают числа и математические выражения как символы, а не как объекты, требующие точного вычисления. В результате, даже небольшая неточность в представлении данных может привести к значительным ошибкам в конечном ответе, что подрывает доверие к системе и делает ее непригодной для критически важных приложений, где важна абсолютная точность, например, при расчете $x = a + b$ с высокой степенью достоверности.

Анализ устойчивости показывает, что слой 46 остается структурным узким местом для арифметических вычислений, независимо от разнообразия финансовых запросов.

Выявление источника ошибки: определение участка вычислений в GPT-2 XL

Для анализа обработки числовой информации моделью GPT-2 XL мы использовали библиотеку TransformerLens, позволяющую исследовать внутренние активации нейронной сети. В ходе экспериментов мы подавали на вход модели задачи из набора данных ConvFinQA, содержащего финансовые вопросы с числовыми значениями. TransformerLens предоставил возможность отслеживать и анализировать активации каждого слоя сети при обработке этих задач, что позволило нам определить, какие слои наиболее активно участвуют в обработке числовых данных и вычислениях. Этот метод позволил нам получить детальное представление о внутреннем функционировании модели при решении задач, требующих числовых расчетов.

Анализ внутренних активаций GPT-2 XL с использованием TransformerLens показал, что слои с 12 по 30, обозначенные как ‘Расчетный Блок’, играют ключевую роль в обработке числовых значений, содержащихся в финансовых запросах из набора данных ConvFinQA. Именно в этих слоях наблюдается максимальная активность при работе с числовыми данными, что позволяет предположить, что именно здесь происходит основная обработка и интерпретация количественной информации, представленной в запросе. Детальный анализ активаций показал, что вклад этих слоев в конечное решение значительно превосходит вклад других слоев сети при решении задач, требующих числовых вычислений.

Несмотря на значительную активность в слоях 12-30, идентифицированных как ‘Расчетный Узел’, этого недостаточно для обеспечения корректных ответов на финансовые задачи из набора данных ConvFinQA. Анализ показывает, что даже при активной обработке числовых значений в указанном регионе, модель часто допускает ошибки, что указывает на наличие узкого места (bottleneck) на последующих этапах обработки информации. Это предполагает, что для получения правильного результата необходима дополнительная обработка и интеграция числовых данных, происходящая в более поздних слоях нейронной сети, а сам ‘Расчетный Узел’ выполняет лишь предварительную обработку числовых значений.

Тепловая карта причинно-следственной связи показывает, что влияние входных токенов распределено по средним слоям (L12-L30), а наибольшее влияние на финальный токен приходится на слой 46.

«Слой лжи»: 46-й слой как узкое место для арифметических решений

В ходе анализа архитектуры модели было установлено, что слой 46, получивший обозначение «Поздний слой-контролер» и неофициальное название «Слой лжи», является критической точкой ограничения для операций, связанных с арифметическими вычислениями. Этот слой выполняет агрегацию выходных данных, полученных на предыдущих этапах вычислений, однако именно на данном этапе наблюдается возникновение ошибок, приводящих к неверным конечным результатам. Дальнейшие исследования показали, что активации в этом слое оказывают существенное влияние на процесс принятия решений, как в случае корректных, так и некорректных предсказаний, что подтверждает его роль узкого места для арифметических операций.

Слой 46, получивший название «Ложь-слой», выполняет агрегацию результатов промежуточных вычислений, полученных на предыдущих этапах обработки. Анализ показал, что на данном слое наблюдается появление ошибок, которые приводят к неверным итоговым ответам. Несмотря на то, что слой агрегирует информацию, он является источником искажений, влияющих на точность выполнения арифметических операций. Это указывает на наличие узкого места в архитектуре модели, где происходит потеря или искажение информации, необходимой для получения корректного результата.

При помощи метода ‘Causal Tracing’ было установлено, что активации в слое 46, обозначенном как ‘Liar Layer’, оказывают непропорционально большое влияние как на верные, так и на ошибочные предсказания модели. Величина этого влияния, измеренная как причинно-следственный эффект, составила $0.0073$. Это значение является самым высоким из всех наблюдаемых в исследуемой модели, что подтверждает критическую роль данного слоя в процессе принятия решений, вне зависимости от итоговой корректности ответа.

Проверка узкого места: подавление влияния «Лжевого слоя»

Для подтверждения роли “Liar Layer” был проведен эксперимент по “Causal Suppression”, заключающийся в подавлении активаций этого слоя во время инференса. Этот метод, по сути, представляет собой намеренное “выключение” слоя, чтобы оценить его влияние на выходные данные модели. Активации подавлялись путем установки их в нулевое значение перед передачей следующему слою. Подобная процедура позволила изолировать вклад “Liar Layer” и определить его значимость в процессе генерации ответов.

При подавлении активаций так называемого “Liar Layer” (уровня лжи) в процессе инференса, частота возникновения галлюцинаций — неверных ответов, не подкрепленных входными данными — снизилась на 81.8%. Данный результат, полученный в ходе экспериментального вмешательства, однозначно указывает на существенный вклад данного слоя в генерацию некорректной информации и подтверждает его ключевую роль в механизме возникновения галлюцинаций в модели.

Линейный классификатор, обученный на активациях 46-го слоя модели, продемонстрировал высокую эффективность в обнаружении галлюцинаций. Этот классификатор, получивший название ‘Linear Probe’, позволяет с высокой точностью предсказывать возникновение некорректных ответов, используя только информацию, содержащуюся в активациях указанного слоя. Успешное обучение классификатора подтверждает, что 46-й слой содержит значимые признаки, коррелирующие с галлюцинациями, и может служить надежным индикатором их возникновения. Данный результат подчеркивает предсказательную силу активаций этого слоя и их потенциальную роль в механизмах, приводящих к генерации ложной информации.

За пределами узкого места: последствия для архитектуры модели и её надежности

Исследование выявило, что хрупкость структуры современных моделей, особенно при столкновении с новыми данными, вероятно, обусловлена механизмом “извлечение-затем-агрегация”. Данный подход, при котором модель сначала извлекает релевантную информацию из внешних источников, а затем объединяет её для формирования ответа, оказывается уязвимым к искажениям и неточностям. Именно процесс агрегации, объединения разнородных данных, создает “узкое место”, где даже незначительные ошибки в извлеченной информации могут привести к существенным искажениям в конечном результате. Этот механизм, хотя и эффективен в определенных условиях, демонстрирует склонность к структурной нестабильности, когда модель сталкивается с данными, отличающимися от тех, на которых она обучалась, что подчеркивает необходимость разработки более надежных методов агрегации и проверки согласованности извлекаемой информации.

Исследования указывают на необходимость пересмотра архитектур искусственного интеллекта в пользу повышения надежности агрегированной информации. Вместо простого объединения полученных данных, будущие модели должны включать механизмы внутренней самопроверки и оценки согласованности. Это может быть реализовано через системы, которые выявляют противоречия в собранной информации или оценивают её правдоподобность на основе внутренних критериев. Такой подход позволит снизить уязвимость моделей к ошибочным данным и повысить их устойчивость к «галлюцинациям», обеспечивая более достоверные и предсказуемые результаты. Приоритет надежности агрегации информации станет ключевым фактором в создании более robustных и заслуживающих доверия систем искусственного интеллекта.

Исследование продемонстрировало значительный потенциал линейного зонда в качестве диагностического инструмента для оценки надежности моделей, работающих с финансовыми данными. Применив данный метод к сфере торговли акциями, удалось достичь высокой точности — 98% — в выявлении галлюцинаций, то есть неверных или бессмысленных ответов модели на запросы. Это указывает на возможность использования линейного зонда не только для оценки общей надежности модели, но и для выявления конкретных областей, где она наиболее подвержена ошибкам, что особенно важно в критически важных областях, таких как финансовый анализ и прогнозирование.

Исследование показывает, что даже в кажущейся логичной структуре больших языковых моделей существуют узкие места, приводящие к галлюцинациям. В частности, обнаруженный в слое 46 ‘обманный контур’ демонстрирует, как незначительный элемент может искажать арифметические рассуждения. Это заставляет задуматься о природе ‘знания’ в искусственном интеллекте. Блез Паскаль как-то заметил: «Все проблемы человечества происходят от того, что люди не могут спокойно сидеть в комнате». В контексте данной работы это можно интерпретировать как указание на необходимость пристального внимания к деталям — даже кажущиеся незначительными ‘шумы’ в системе могут привести к серьезным искажениям в конечном результате, подобно тому, как неспособность к созерцанию порождает хаос.

Что дальше?

Утверждение о том, что обнаруженный в слое 46 «Лжец» является узким местом арифметического рассуждения, лишь вершина айсберга. Попытка подавить этот «цирк лжи» — временное решение, латка на дырявой системе. Более глубокий вопрос заключается в самой архитектуре. Почему трансформеры, столь впечатляющие в генерации текста, демонстрируют столь примитивные ошибки в числовых операциях? Возможно, проблема не в конкретном слое, а в фундаментальной неспособности модели к представлению количественных отношений.

Следующий шаг — не просто локализация и «выключение» проблемных участков, а переосмысление принципов обучения. Необходимо разработать методы, позволяющие модели не просто запоминать факты, а понимать лежащие в их основе закономерности. Иначе, каждое новое «исправление» лишь замаскирует очередную слабость, а не устранит её причину. Попытки заставить систему «думать» по-человечески — наивны; гораздо интереснее — найти принципиально иной подход, использующий сильные стороны машинного обучения.

В конечном счёте, эта работа — не победа над «галлюцинациями», а признание собственной неполноты. Система, способная к сложному языковому моделированию, но неспособная к элементарным вычислениям — это не интеллект, а искусно замаскированная ошибка. И осознание этой ошибки — первый шаг к созданию чего-то действительно нового.

Оригинал статьи: https://arxiv.org/pdf/2511.21756.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-01 08:45