Что думают нейросети об инфляции?

Автор: Денис Аветисян


Новое исследование показывает, как большие языковые модели воспроизводят ожидания потребителей относительно роста цен, выявляя при этом систематические искажения и требуя этической оценки.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
Динамика ожиданий по инфляции, полученная с помощью различных GPT-моделей, демонстрирует тенденции, рассчитанные на основе усредненных ответов подвыборки из 200 респондентов для девяти вариантов ответа для каждой модели, при этом модели с датой обрезания знаний в сентябре 2021 года отмечены точками.
Динамика ожиданий по инфляции, полученная с помощью различных GPT-моделей, демонстрирует тенденции, рассчитанные на основе усредненных ответов подвыборки из 200 респондентов для девяти вариантов ответа для каждой модели, при этом модели с датой обрезания знаний в сентябре 2021 года отмечены точками.

В работе исследуется способность большой языковой модели моделировать восприятие и ожидания инфляции, с использованием методов анализа влияния Шейпли и симуляции опросов.

Несмотря на растущую роль больших языковых моделей (LLM) в различных областях, их способность к моделированию сложных экономических явлений, таких как инфляционные ожидания, остается малоизученной. В работе ‘Inflation Attitudes of Large Language Models’ исследуется, насколько точно LLM, в частности GPT-3.5-turbo, способны формировать представления об инфляции на основе макроэкономических сигналов. Полученные результаты демонстрируют, что модель способна воспроизводить ключевые характеристики инфляционных ожиданий, наблюдаемые в данных социологических опросов, однако проявляет определенные систематические ошибки и непоследовательность. Возможно ли использовать LLM для более глубокого понимания формирования инфляционных ожиданий и повышения точности экономических прогнозов?


Понимание Инфляционных Ожиданий: Новый Взгляд на Моделирование

Понимание общественной реакции на инфляцию имеет решающее значение для формирования эффективной экономической политики, однако традиционные методы опросов населения зачастую ограничены как в объеме охвата, так и в оперативности получения данных. Эти ограничения связаны с высокой стоимостью проведения масштабных исследований, сложностью обеспечения репрезентативности выборки и задержками в обработке результатов. Кроме того, стандартные опросы могут не отражать весь спектр мнений и ожиданий, поскольку респонденты склонны упрощать свои ответы или подвержены влиянию текущих новостей и настроений. В результате, принимаемые на основе таких данных решения могут оказаться неэффективными или даже контрпродуктивными, что подчеркивает необходимость разработки более точных и своевременных инструментов для оценки инфляционных ожиданий населения.

Современные большие языковые модели (LLM) представляют собой инновационный подход к моделированию экономических агентов и фиксации их ожиданий относительно инфляции. В отличие от традиционных методов, таких как опросы, LLM способны улавливать тонкие нюансы в восприятии экономических процессов, основываясь на анализе огромных объемов текстовых данных. Данный подход позволяет не только симулировать поведение экономических субъектов, но и углубленно анализировать данные существующих опросов, выявляя скрытые закономерности и факторы, влияющие на инфляционные ожидания. В рамках проведенного исследования, LLM продемонстрировали потенциал превосходить традиционные методы в точности прогнозирования и понимании динамики инфляционных процессов, открывая новые возможности для разработки более эффективной экономической политики.

Сравнение гистограмм восприятия инфляции людьми (бежевый цвет) и моделью GPT (синий цвет) для момента времени T=0 (верхний график) и T=1.5 (нижний график) показывает различия в оценках инфляционных ожиданий, основанные на данных IAS, ONS и расчетах авторов.
Сравнение гистограмм восприятия инфляции людьми (бежевый цвет) и моделью GPT (синий цвет) для момента времени T=0 (верхний график) и T=1.5 (нижний график) показывает различия в оценках инфляционных ожиданий, основанные на данных IAS, ONS и расчетах авторов.

Экономическая Подготовка LLM: Корректировка Реальностью

Для точного моделирования экономических агентов, большие языковые модели (LLM) требуют “экономической подготовки” посредством включения релевантных данных, таких как Индекс потребительских цен, включающий стоимость владения жильем (CPIH). CPIH, в отличие от традиционного CPI, учитывает расходы на содержание и ремонт собственного жилья, что обеспечивает более полное отражение инфляционных процессов, влияющих на потребительские расходы. Использование CPIH в качестве входных данных позволяет LLM формировать более реалистичные прогнозы и оценки текущих и будущих уровней цен, а также согласовывать генерируемые ответы с официальной статистической информацией, предоставляемой государственными органами.

Предоставление языковым моделям (LLM) данных об экономической ситуации, включая индексы цен, такие как ИПЦ с учетом затрат на владение жильем (CPIH), позволяет им генерировать более реалистичные и обоснованные прогнозы относительно текущего и будущего уровней цен. Это обеспечивает согласованность выходных данных модели с официальной статистикой, что критически важно для точного моделирования экономических агентов и прогнозирования рыночных тенденций. Использование актуальных экономических данных позволяет LLM учитывать факторы, влияющие на инфляцию и ценообразование, тем самым повышая достоверность и практическую ценность генерируемых ответов.

Параметр “Temperature” в больших языковых моделях (LLM) играет ключевую роль в управлении случайностью выходных данных и, следовательно, влияет на разнообразие ответов, имитирующих поведение экономических агентов. Анализ чувствительности моделей демонстрирует, что изменения в экономических компонентах, вводимых в LLM, приводят к количественно измеримым изменениям в прогнозах. Более высокие значения параметра “Temperature” увеличивают вероятность выбора менее вероятных токенов, что приводит к более разнообразным, но потенциально менее точным ответам, в то время как более низкие значения фокусируют модель на наиболее вероятных токенах, обеспечивая более предсказуемые и консервативные прогнозы. Таким образом, точная настройка этого параметра критически важна для достижения желаемого баланса между разнообразием и точностью в моделировании экономических сценариев.

Анализ чувствительности показал, что восприятие инфляции GPT (при T=0) существенно зависит от колебаний цен на продукты питания и услуги общественного питания (верхний график), энергоносители (средний график) и прочие компоненты, при этом заштрихованная область отражает разброс данных до октября 2021 года, а пунктирная линия - экономические условия, использованные в основном эксперименте.
Анализ чувствительности показал, что восприятие инфляции GPT (при T=0) существенно зависит от колебаний цен на продукты питания и услуги общественного питания (верхний график), энергоносители (средний график) и прочие компоненты, при этом заштрихованная область отражает разброс данных до октября 2021 года, а пунктирная линия — экономические условия, использованные в основном эксперименте.

Проверка Надежности LLM: Подтверждение Эффективности

Тщательная оценка производительности языковой модели (LLM) критически важна для обеспечения надежности и обобщающей способности. Для этого используются методы перекрестной проверки (CrossValidation) и оценки на независимой выборке (OutofSampleEvaluation). Перекрестная проверка предполагает разделение имеющихся данных на несколько подмножеств, последовательное обучение модели на части подмножеств и тестирование на оставшихся, что позволяет оценить устойчивость модели к различным данным. Оценка на независимой выборке подразумевает тестирование модели на данных, которые не использовались при обучении, обеспечивая объективную оценку ее способности к прогнозированию на новых, ранее не встречавшихся данных. Комбинация этих методов позволяет получить более полное представление о реальной производительности LLM и выявить потенциальные проблемы с обобщающей способностью.

Архитектура GPT, лежащая в основе языковой модели, играет ключевую роль в её способности точно моделировать восприятие и ожидания инфляции. В частности, использование механизма внимания (attention) позволяет модели учитывать сложные взаимосвязи между различными экономическими факторами и новостными событиями, влияющими на инфляционные процессы. Трансформерная структура GPT обеспечивает эффективную обработку последовательностей данных, что критически важно для анализа временных рядов, характерных для данных об инфляции. Глубина и ширина сети, а также количество параметров, непосредственно влияют на способность модели захватывать нюансы и нелинейности в формировании инфляционных ожиданий, что, в свою очередь, обеспечивает более высокую точность прогнозирования по сравнению с традиционными статистическими моделями.

Для снижения вероятности предвзятых результатов и повышения точности моделирования, были внедрены методы коррекции смещений (BiasCorrection). Эти методы включают в себя алгоритмы, направленные на выявление и нейтрализацию систематических ошибок в выходных данных модели. Валидация производительности модели проводилась путем сопоставления ее результатов с откликами людей и данными, полученными с использованием регрессионных моделей. Такое сравнение позволило оценить степень соответствия модели реальным данным и подтвердить снижение предвзятости в ее прогнозах, обеспечивая более справедливые и достоверные симуляции.

Сравнение гистограмм оценок инфляции, полученных от людей и GPT, в ходе кросс-валидации (ноябрь 2022 г.) показывает различия в восприятии инфляции в краткосрочной (T=0) и среднесрочной (T=1.5) перспективе.
Сравнение гистограмм оценок инфляции, полученных от людей и GPT, в ходе кросс-валидации (ноябрь 2022 г.) показывает различия в восприятии инфляции в краткосрочной (T=0) и среднесрочной (T=1.5) перспективе.

Выявление Драйверов Прогнозов LLM: Понимание Логики Модели

Понимание факторов, определяющих прогнозы больших языковых моделей (LLM) в экономических симуляциях, имеет первостепенное значение для формирования доверия к этим инструментам. Отсутствие прозрачности в процессах принятия решений LLM может привести к необоснованным выводам и неверным стратегическим решениям. Поэтому, критически важно выявлять, какие конкретно переменные и входные данные оказывают наибольшее влияние на результаты моделирования. Именно анализ определяющих факторов позволяет оценить надежность и обоснованность прогнозов, а также выявить потенциальные смещения или зависимости, которые могут исказить результаты. Без четкого понимания логики работы модели, сложно адекватно интерпретировать ее прогнозы и использовать их в практических приложениях, что подчеркивает необходимость разработки методов, обеспечивающих объяснимость и прозрачность LLM в контексте экономических симуляций.

Метод Шэпли, являясь ключевым инструментом в области объяснимого искусственного интеллекта, предоставляет возможность количественно оценить вклад каждой входной характеристики — будь то индекс потребительских цен (CPIH), данные о демографии или другие экономические показатели — в итоговый прогноз, генерируемый большой языковой моделью. Этот подход, основанный на принципах коалиционной игры, позволяет определить, насколько изменение конкретного параметра влияет на предсказание модели, учитывая все возможные комбинации с другими входными данными. По сути, значение Шэпли представляет собой средний вклад характеристики во все возможные подгруппы входных данных, обеспечивая справедливую и непротиворечивую оценку её значимости. Благодаря этому, становится возможным не только выявить наиболее влиятельные факторы, определяющие поведение модели, но и понять, каким образом эти факторы взаимодействуют друг с другом, что критически важно для повышения доверия к экономическим симуляциям, основанным на использовании больших языковых моделей.

Анализ, основанный на значении Шепли, позволяет выявить ключевые факторы влияния на поведение экономических агентов в симулируемой среде. Исследование направлено на определение, какие конкретные экономические условия оказывают наибольшее воздействие на прогнозы большой языковой модели (LLM). Применяя декомпозицию значений Шепли, стало возможным сравнить относительную значимость экономических показателей, как их воспринимает LLM, и результаты, полученные с помощью традиционной регрессионной модели. Это сравнение выявляет различия в интерпретации экономических факторов и позволяет глубже понять, как LLM формирует свои прогнозы, раскрывая специфические «эффекты воздействия» различных экономических переменных на симулируемое поведение агентов.

Включение демографических данных в модель позволяет существенно расширить возможности экономического моделирования, создавая более реалистичную и детализированную картину поведения экономических агентов. Вместо абстрактного представления о “среднем потребителе” или “среднем работнике”, модель получает возможность учитывать различия в восприятии и реакции на экономические факторы, обусловленные возрастом, полом, уровнем образования, местом проживания и другими социально-демографическими характеристиками. Это позволяет выявить, как различные группы населения по-разному реагируют на инфляцию, изменения процентных ставок или колебания рынка труда, что, в свою очередь, позволяет более точно прогнозировать общие экономические тенденции и разрабатывать более эффективные стратегии экономической политики. Более того, анализ влияния демографических факторов на экономические решения позволяет глубже понять механизмы формирования потребительских предпочтений и инвестиционных стратегий, что открывает новые возможности для персонализации экономических моделей и повышения их прогностической силы.

Анализ вклада компонентов показывает, что показатель IAS, основанный на регрессионной модели и взвешенной инфляции подкомпонентов, является ключевым фактором, определяющим значение GPT (T=0), в то время как базовый показатель равен 0.07.
Анализ вклада компонентов показывает, что показатель IAS, основанный на регрессионной модели и взвешенной инфляции подкомпонентов, является ключевым фактором, определяющим значение GPT (T=0), в то время как базовый показатель равен 0.07.

Исследование, посвященное моделированию инфляционных ожиданий большими языковыми моделями, неизбежно наталкивается на парадоксы, присущие любой попытке формализовать человеческое восприятие. Модель, воспроизводящая ключевые характеристики ответов людей, демонстрирует предвзятости и непоследовательности, что лишь подтверждает старую истину. Как однажды заметил Анри Пуанкаре: «Математика не учит нас новым вещам, а лишь заставляет нас по-новому взглянуть на известные». По сути, модель GPT, симулируя инфляционные ожидания, не столько предсказывает будущее, сколько высвечивает существующие искажения в данных и ограничения в самом подходе к экономическому моделированию. В конечном счете, задача состоит не в создании идеальной модели, а в понимании её несовершенств и критической оценке полученных результатов.

Куда всё это ведёт?

Итак, модель предсказывает инфляционные ожидания. Прекрасно. Как будто недостаточно моделей, предсказывающих всё подряд, и все они, в конечном итоге, оказываются неправы с удивительной последовательностью. Данная работа, безусловно, демонстрирует способность больших языковых моделей имитировать человеческое восприятие цен. Но воспроизвести — не значит понять. И, главное, не значит предсказать что-то полезное, особенно когда «полезность» определяется не математической точностью, а реальным положением дел в кошельке у обывателя.

Попытки объяснить эти ожидания с помощью «ценностей Шэпли» — занятное упражнение в перекладывании ответственности. Как будто выявление наиболее влиятельных факторов решит проблему предвзятости, заложенной в исходных данных и самой архитектуре модели. Похоже на попытку починить дырявое ведро золотыми заклёпками. Всё становится только дороже.

В перспективе, вероятно, нас ждёт ещё больше усилий по «объяснимому искусственному интеллекту». В реальности же, скорее всего, мы просто пишем комментарии для будущих археологов, пытаясь объяснить, почему эта сложная система, в конечном итоге, всегда падала одним и тем же образом. Если система стабильно падает, значит, она хотя бы последовательна. И это, пожалуй, самое ценное, что можно извлечь из подобных исследований.


Оригинал статьи: https://arxiv.org/pdf/2512.14306.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-17 13:28