Раскрытие обмана: Как нейросети «придумывают» цифры в финансах

Автор: Денис Аветисян


Новое исследование выявило конкретный механизм в больших языковых моделях, ответственный за генерацию ложных числовых данных в финансовых расчетах.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
Анализ активаций 46-го слоя демонстрирует, что даже при столкновении с незнакомыми темами (треугольниками), внутренняя репрезентация модели чётко разделяется на кластеры
Анализ активаций 46-го слоя демонстрирует, что даже при столкновении с незнакомыми темами (треугольниками), внутренняя репрезентация модели чётко разделяется на кластеры «Истина» (зелёный) и «Галлюцинация» (красный) вдоль единого линейного направления, указывая на внутреннюю структуру различения правды и вымысла.

Авторы идентифицировали «схему лжи» в слое 46 GPT-2 XL, ограничивающую арифметические способности и вызывающую галлюцинации в финансовой сфере.

Несмотря на широкое внедрение больших языковых моделей (LLM) в финансовую сферу, они склонны к специфическим галлюцинациям при выполнении арифметических операций. В работе ‘Dissecting the Ledger: Locating and Suppressing «Liar Circuits» in Financial Large Language Models’ предложен механистический подход к выявлению этих внутренних ошибок, позволяющий локализовать и подавлять “схемы лжи” в архитектуре GPT-2 XL. Исследование выявило, что ключевую роль в возникновении числовых галлюцинаций играет 46-й слой модели, выступающий в качестве узкого места для арифметического рассуждения. Сможет ли точное понимание внутренней работы LLM привести к созданию более надежных и предсказуемых финансовых инструментов?


Арифметика как ахиллесова пята больших языковых моделей

Несмотря на впечатляющие успехи в обработке естественного языка, большие языковые модели демонстрируют удивительную слабость в решении даже простейших арифметических задач. Это несоответствие между масштабом моделей и их способностью к элементарным вычислениям вызывает удивление у исследователей. Например, задача $2 + 2 = ?$ часто решается правильно, но при усложнении вычислений, точность резко падает. Вместо логических шагов, модели склонны к ассоциативному мышлению, выдавая правдоподобные, но неверные ответы. Данная особенность ограничивает применение этих моделей в областях, требующих строгой математической точности, таких как финансы, инженерия и научные вычисления, подчеркивая необходимость разработки новых архитектур, способных к надежному арифметическому рассуждению.

Несмотря на огромные объемы данных, которыми обучаются большие языковые модели, их неудачи в арифметических вычислениях обусловлены не недостатком информации, а особенностями самой архитектуры. Вместо того, чтобы оперировать числами как таковыми, модели обрабатывают их как последовательности символов, подобно словам в предложении. Это приводит к тому, что при решении даже простых задач, таких как $2 + 2$, модель может полагаться на статистические закономерности, а не на фактические математические принципы. В результате, даже если модель «видела» множество примеров сложения, она может ошибаться, если столкнется с необычной комбинацией цифр или потребует выполнения нескольких последовательных операций. Таким образом, проблема заключается не в недостатке знаний, а в способе их представления и обработки внутри нейронной сети.

Проблема «галлюцинаций» в больших языковых моделях, заключающаяся в выдаче правдоподобных, но ошибочных ответов, существенно ограничивает их применение в областях, требующих высокой точности вычислений. Несмотря на способность генерировать связные и грамматически верные тексты, модели часто допускают ошибки в простых арифметических операциях, что делает их ненадежными в таких сферах, как финансовый анализ, научные расчеты или инженерное проектирование. Это связано с тем, что модели, обученные на огромных объемах текстовых данных, воспринимают числа и математические выражения как символы, а не как объекты, требующие точного вычисления. В результате, даже небольшая неточность в представлении данных может привести к значительным ошибкам в конечном ответе, что подрывает доверие к системе и делает ее непригодной для критически важных приложений, где важна абсолютная точность, например, при расчете $x = a + b$ с высокой степенью достоверности.

Анализ устойчивости показывает, что слой 46 остается структурным узким местом для арифметических вычислений, независимо от разнообразия финансовых запросов.
Анализ устойчивости показывает, что слой 46 остается структурным узким местом для арифметических вычислений, независимо от разнообразия финансовых запросов.

Выявление источника ошибки: определение участка вычислений в GPT-2 XL

Для анализа обработки числовой информации моделью GPT-2 XL мы использовали библиотеку TransformerLens, позволяющую исследовать внутренние активации нейронной сети. В ходе экспериментов мы подавали на вход модели задачи из набора данных ConvFinQA, содержащего финансовые вопросы с числовыми значениями. TransformerLens предоставил возможность отслеживать и анализировать активации каждого слоя сети при обработке этих задач, что позволило нам определить, какие слои наиболее активно участвуют в обработке числовых данных и вычислениях. Этот метод позволил нам получить детальное представление о внутреннем функционировании модели при решении задач, требующих числовых расчетов.

Анализ внутренних активаций GPT-2 XL с использованием TransformerLens показал, что слои с 12 по 30, обозначенные как ‘Расчетный Блок’, играют ключевую роль в обработке числовых значений, содержащихся в финансовых запросах из набора данных ConvFinQA. Именно в этих слоях наблюдается максимальная активность при работе с числовыми данными, что позволяет предположить, что именно здесь происходит основная обработка и интерпретация количественной информации, представленной в запросе. Детальный анализ активаций показал, что вклад этих слоев в конечное решение значительно превосходит вклад других слоев сети при решении задач, требующих числовых вычислений.

Несмотря на значительную активность в слоях 12-30, идентифицированных как ‘Расчетный Узел’, этого недостаточно для обеспечения корректных ответов на финансовые задачи из набора данных ConvFinQA. Анализ показывает, что даже при активной обработке числовых значений в указанном регионе, модель часто допускает ошибки, что указывает на наличие узкого места (bottleneck) на последующих этапах обработки информации. Это предполагает, что для получения правильного результата необходима дополнительная обработка и интеграция числовых данных, происходящая в более поздних слоях нейронной сети, а сам ‘Расчетный Узел’ выполняет лишь предварительную обработку числовых значений.

Тепловая карта причинно-следственной связи показывает, что влияние входных токенов распределено по средним слоям (L12-L30), а наибольшее влияние на финальный токен приходится на слой 46.
Тепловая карта причинно-следственной связи показывает, что влияние входных токенов распределено по средним слоям (L12-L30), а наибольшее влияние на финальный токен приходится на слой 46.

«Слой лжи»: 46-й слой как узкое место для арифметических решений

В ходе анализа архитектуры модели было установлено, что слой 46, получивший обозначение «Поздний слой-контролер» и неофициальное название «Слой лжи», является критической точкой ограничения для операций, связанных с арифметическими вычислениями. Этот слой выполняет агрегацию выходных данных, полученных на предыдущих этапах вычислений, однако именно на данном этапе наблюдается возникновение ошибок, приводящих к неверным конечным результатам. Дальнейшие исследования показали, что активации в этом слое оказывают существенное влияние на процесс принятия решений, как в случае корректных, так и некорректных предсказаний, что подтверждает его роль узкого места для арифметических операций.

Слой 46, получивший название «Ложь-слой», выполняет агрегацию результатов промежуточных вычислений, полученных на предыдущих этапах обработки. Анализ показал, что на данном слое наблюдается появление ошибок, которые приводят к неверным итоговым ответам. Несмотря на то, что слой агрегирует информацию, он является источником искажений, влияющих на точность выполнения арифметических операций. Это указывает на наличие узкого места в архитектуре модели, где происходит потеря или искажение информации, необходимой для получения корректного результата.

При помощи метода ‘Causal Tracing’ было установлено, что активации в слое 46, обозначенном как ‘Liar Layer’, оказывают непропорционально большое влияние как на верные, так и на ошибочные предсказания модели. Величина этого влияния, измеренная как причинно-следственный эффект, составила $0.0073$. Это значение является самым высоким из всех наблюдаемых в исследуемой модели, что подтверждает критическую роль данного слоя в процессе принятия решений, вне зависимости от итоговой корректности ответа.

Проверка узкого места: подавление влияния «Лжевого слоя»

Для подтверждения роли “Liar Layer” был проведен эксперимент по “Causal Suppression”, заключающийся в подавлении активаций этого слоя во время инференса. Этот метод, по сути, представляет собой намеренное “выключение” слоя, чтобы оценить его влияние на выходные данные модели. Активации подавлялись путем установки их в нулевое значение перед передачей следующему слою. Подобная процедура позволила изолировать вклад “Liar Layer” и определить его значимость в процессе генерации ответов.

При подавлении активаций так называемого “Liar Layer” (уровня лжи) в процессе инференса, частота возникновения галлюцинаций — неверных ответов, не подкрепленных входными данными — снизилась на 81.8%. Данный результат, полученный в ходе экспериментального вмешательства, однозначно указывает на существенный вклад данного слоя в генерацию некорректной информации и подтверждает его ключевую роль в механизме возникновения галлюцинаций в модели.

Линейный классификатор, обученный на активациях 46-го слоя модели, продемонстрировал высокую эффективность в обнаружении галлюцинаций. Этот классификатор, получивший название ‘Linear Probe’, позволяет с высокой точностью предсказывать возникновение некорректных ответов, используя только информацию, содержащуюся в активациях указанного слоя. Успешное обучение классификатора подтверждает, что 46-й слой содержит значимые признаки, коррелирующие с галлюцинациями, и может служить надежным индикатором их возникновения. Данный результат подчеркивает предсказательную силу активаций этого слоя и их потенциальную роль в механизмах, приводящих к генерации ложной информации.

За пределами узкого места: последствия для архитектуры модели и её надежности

Исследование выявило, что хрупкость структуры современных моделей, особенно при столкновении с новыми данными, вероятно, обусловлена механизмом “извлечение-затем-агрегация”. Данный подход, при котором модель сначала извлекает релевантную информацию из внешних источников, а затем объединяет её для формирования ответа, оказывается уязвимым к искажениям и неточностям. Именно процесс агрегации, объединения разнородных данных, создает “узкое место”, где даже незначительные ошибки в извлеченной информации могут привести к существенным искажениям в конечном результате. Этот механизм, хотя и эффективен в определенных условиях, демонстрирует склонность к структурной нестабильности, когда модель сталкивается с данными, отличающимися от тех, на которых она обучалась, что подчеркивает необходимость разработки более надежных методов агрегации и проверки согласованности извлекаемой информации.

Исследования указывают на необходимость пересмотра архитектур искусственного интеллекта в пользу повышения надежности агрегированной информации. Вместо простого объединения полученных данных, будущие модели должны включать механизмы внутренней самопроверки и оценки согласованности. Это может быть реализовано через системы, которые выявляют противоречия в собранной информации или оценивают её правдоподобность на основе внутренних критериев. Такой подход позволит снизить уязвимость моделей к ошибочным данным и повысить их устойчивость к «галлюцинациям», обеспечивая более достоверные и предсказуемые результаты. Приоритет надежности агрегации информации станет ключевым фактором в создании более robustных и заслуживающих доверия систем искусственного интеллекта.

Исследование продемонстрировало значительный потенциал линейного зонда в качестве диагностического инструмента для оценки надежности моделей, работающих с финансовыми данными. Применив данный метод к сфере торговли акциями, удалось достичь высокой точности — 98% — в выявлении галлюцинаций, то есть неверных или бессмысленных ответов модели на запросы. Это указывает на возможность использования линейного зонда не только для оценки общей надежности модели, но и для выявления конкретных областей, где она наиболее подвержена ошибкам, что особенно важно в критически важных областях, таких как финансовый анализ и прогнозирование.

Исследование показывает, что даже в кажущейся логичной структуре больших языковых моделей существуют узкие места, приводящие к галлюцинациям. В частности, обнаруженный в слое 46 ‘обманный контур’ демонстрирует, как незначительный элемент может искажать арифметические рассуждения. Это заставляет задуматься о природе ‘знания’ в искусственном интеллекте. Блез Паскаль как-то заметил: «Все проблемы человечества происходят от того, что люди не могут спокойно сидеть в комнате». В контексте данной работы это можно интерпретировать как указание на необходимость пристального внимания к деталям — даже кажущиеся незначительными ‘шумы’ в системе могут привести к серьезным искажениям в конечном результате, подобно тому, как неспособность к созерцанию порождает хаос.

Что дальше?

Утверждение о том, что обнаруженный в слое 46 «Лжец» является узким местом арифметического рассуждения, лишь вершина айсберга. Попытка подавить этот «цирк лжи» — временное решение, латка на дырявой системе. Более глубокий вопрос заключается в самой архитектуре. Почему трансформеры, столь впечатляющие в генерации текста, демонстрируют столь примитивные ошибки в числовых операциях? Возможно, проблема не в конкретном слое, а в фундаментальной неспособности модели к представлению количественных отношений.

Следующий шаг — не просто локализация и «выключение» проблемных участков, а переосмысление принципов обучения. Необходимо разработать методы, позволяющие модели не просто запоминать факты, а понимать лежащие в их основе закономерности. Иначе, каждое новое «исправление» лишь замаскирует очередную слабость, а не устранит её причину. Попытки заставить систему «думать» по-человечески — наивны; гораздо интереснее — найти принципиально иной подход, использующий сильные стороны машинного обучения.

В конечном счёте, эта работа — не победа над «галлюцинациями», а признание собственной неполноты. Система, способная к сложному языковому моделированию, но неспособная к элементарным вычислениям — это не интеллект, а искусно замаскированная ошибка. И осознание этой ошибки — первый шаг к созданию чего-то действительно нового.


Оригинал статьи: https://arxiv.org/pdf/2511.21756.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-01 08:45