Где рождаются идеи: Почему искусственный интеллект уступает в экономических исследованиях

Автор: Денис Аветисян

Новое исследование показывает, что основная причина отставания ИИ от человека в экономической науке кроется не в технических навыках, а в способности к генерации оригинальных идей.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Анализ качества экономических исследований, созданных человеком и ИИ, выявил, что 71% разрыва в качестве объясняется недостатком креативности в генерации идей.

Несмотря на впечатляющие успехи в генерации научных текстов, системы искусственного интеллекта пока значительно уступают человеку в качестве экономических исследований. В работе ‘The Ideation Bottleneck: Decomposing the Quality Gap Between AI-Generated and Human Economics Research’ предпринята попытка разложить этот разрыв на компоненты: качество идеи и качество исполнения. Полученные результаты указывают на то, что основной причиной отставания ИИ является недостаток креативности при формулировании исследовательских задач, на долю которой приходится около 71% разницы в качестве. Сможем ли мы преодолеть это ограничение и создать ИИ, способный генерировать экономические исследования, сопоставимые с работами лучших ученых?

Иллюзия Рациональности: Вызовы Автоматизированных Экономических Исследований

Традиционные экономические исследования, как правило, требуют значительных временных затрат и опираются на глубокую экспертизу специалистов, что создает узкие места в процессе оценки экономической политики. Детальный анализ данных, построение и калибровка сложных моделей, а также интерпретация результатов — все это требует обширных знаний и опыта, что ограничивает скорость и масштаб проводимых исследований. В результате, принятие решений в области экономической политики часто задерживается, а оценка эффективности различных мер затрудняется из-за нехватки оперативной и всесторонней аналитической информации. Эта ситуация подчеркивает необходимость разработки автоматизированных инструментов и методов, способных ускорить процесс экономического анализа и повысить его масштабируемость.

Современные экономические модели становятся все более сложными, стремясь учесть множество взаимосвязанных факторов и нелинейных зависимостей. Это требует не просто увеличения вычислительных мощностей, но и разработки масштабируемых решений для генерации новых гипотез и проведения тщательного анализа. Традиционные методы, основанные на ручном моделировании и экспертных оценках, оказываются неспособными справиться с объемом и скоростью поступающей информации. Автоматизация процессов, включающая в себя алгоритмы машинного обучения и методы анализа больших данных, позволяет исследователям исследовать широкий спектр сценариев, выявлять неочевидные закономерности и проводить более глубокую проверку на устойчивость полученных результатов. Такой подход открывает возможности для более оперативной оценки экономической политики и прогнозирования будущих тенденций, что особенно важно в условиях быстро меняющейся глобальной экономики.

Оценка качества экономического исследования требует комплексного подхода, учитывающего не только новизну предложенных идей, но и надёжность их реализации. Просто оригинальная концепция недостаточна; необходимо подтвердить её устойчивость к различным методологическим проверкам и альтернативным спецификациям. Исследователи стремятся к воспроизводимости результатов, используя строгие статистические методы и открытый доступ к данным и коду, что позволяет другим экспертам проверить валидность выводов. Особенно важно оценивать, насколько хорошо модель реагирует на изменения исходных предпосылок и насколько чувствительны полученные результаты к незначительным вариациям в данных. Таким образом, сочетание творческого подхода и тщательной проверки обеспечивает высокое качество экономического анализа и позволяет принимать обоснованные решения в области экономической политики.

Автоматизация Оценки: APE и Турнир Идей

Проект автономной оценки политик (APE) использует большие языковые модели (LLM) для самостоятельной генерации полных экономических работ, включая теоретические обоснования, моделирование и анализ данных. В рамках APE, LLM генерируют полные научные статьи, охватывающие различные области экономики, такие как макроэкономика, микроэкономика и эконометрика. Процесс генерации включает в себя автоматическое формирование гипотез, разработку экономических моделей и проведение количественного анализа, что позволяет создавать комплексные исследования без непосредственного участия человека. Сгенерированные работы предназначены для последующей оценки и ранжирования в рамках системы APE.

В рамках проекта APE для оценки качества сгенерированных экономических работ используется турнирная система оценки, основанная на алгоритме TrueSkill. TrueSkill — это система ранжирования, изначально разработанная для оценки игроков в шахматы, которая позволяет определять относительный уровень мастерства участников на основе результатов парных сравнений. В APE каждая сгенерированная работа оценивается в серии «матчей», где Gemini 3.1 Flash Lite выступает в роли судьи, сравнивая две работы и определяя, какая из них лучше. На основе этих парных сравнений алгоритм TrueSkill обновляет рейтинг каждой работы, формируя иерархию качества и позволяя выявлять наиболее перспективные модели генерации экономических текстов. Алгоритм учитывает не только победы и поражения, но и уверенность в оценке, что позволяет более точно ранжировать работы с близкими показателями качества.

Для обеспечения объективности оценки сгенерированных экономических работ в рамках проекта APE используется модель Gemini 3.1 Flash Lite в качестве автоматического судьи. Выбор данной модели обусловлен ее способностью к масштабируемой оценке большого количества документов, что позволяет проводить турнирные соревнования и ранжировать работы без участия человека. Gemini 3.1 Flash Lite анализирует текст сгенерированных статей, выставляя оценки, которые затем используются для определения относительного качества работ и формирования рейтинга в системе $trueSkill$ . Использование автоматизированной системы оценки обеспечивает воспроизводимость результатов и позволяет обрабатывать значительные объемы данных, недоступные при ручной экспертизе.

Анатомия Качества: Идея и Исполнение под Микроскопом

Для выделения качества научной идеи необходимо использовать структурированный подход к её описанию — “Стандартизированное описание идеи”. Данный подход подразумевает создание унифицированного формата представления концепции, исключающего детали реализации и позволяющего оценить новизну и значимость самой идеи, независимо от методов её проверки или конкретных данных. Такая стандартизация позволяет проводить более объективную и сопоставимую оценку различных научных предложений, фокусируясь исключительно на их концептуальной ценности и потенциальном вкладе в соответствующую область знаний. Отсутствие деталей реализации позволяет избежать предвзятости, связанной с качеством исполнения, и сосредоточиться на фундаментальной обоснованности идеи.

Для количественной оценки оригинальности и релевантности стандартизированных описаний идей используются специализированные языковые модели, прошедшие тонкую настройку (fine-tuning). Процесс тонкой настройки включает обучение моделей на размеченных данных, содержащих примеры идей с оценками их новизны и соответствия заданной области. В результате, модели способны присваивать числовые значения этим параметрам, позволяя проводить сравнительный анализ различных идей и выявлять наиболее перспективные. Для повышения точности используются метрики, такие как perplexity и BLEU score, а также методы ансамблирования нескольких моделей. Важно отметить, что оценка проводится исключительно на основе текстового описания идеи, исключая влияние деталей реализации.

Оценка качества реализации исследования проводится посредством рубрикальной оценки, включающей в себя несколько ключевых аспектов. В частности, оценивается уровень эконометрической проработки, подразумевающий корректность применения статистических методов и моделей. Не менее важной является оценка устойчивости и чувствительности анализа, включающая проверку результатов на адекватность при изменении исходных данных и спецификаций моделей. Данный подход позволяет систематически оценивать надежность и обобщаемость полученных результатов, выявляя потенциальные ограничения и области для дальнейших исследований.

Искусственный Интеллект против Человека: Количественная Оценка Разрыва

Анализ научной литературы показал, что искусственный интеллект в процессе генерации статей часто использует метод «Разница в разницах» (Difference-in-Differences, DiD) — распространенный эконометрический подход, активно применяемый и в исследованиях, выполненных людьми. Установлено, что 74% сгенерированных ИИ научных работ используют данный метод, что свидетельствует о способности этих систем имитировать не только структуру, но и определенные методологические практики, характерные для человеческих исследований. Такое совпадение в использовании $\text{DiD}$ может указывать на то, что ИИ успешно усваивает и воспроизводит сложные аналитические инструменты, широко применяемые в современной науке.

Количественный анализ, основанный на метрике $Cohen’s \, d$ , выявил, что разрыв в качестве идей является доминирующим фактором, определяющим отставание исследований, сгенерированных искусственным интеллектом, от работ, выполненных человеком. Этот разрыв, достигающий значения $d = 2.23$ , объясняет приблизительно 71% общей разницы в производительности. В то время как качество исполнения также различается ( $d = 0.90$ ), его вклад в общий разрыв существенно меньше. Полученные данные указывают на то, что ключевым препятствием для достижения искусственным интеллектом уровня человеческих исследований является не способность аккуратно реализовать уже существующие идеи, а именно генерация принципиально новых и перспективных концепций.

Анализ показывает, что лишь в 0,8% случаев сгенерированные искусственным интеллектом научные работы превосходят медианный уровень, демонстрируемый исследованиями, выполненными людьми, как по оригинальности идеи, так и по качеству её реализации. Этот крайне низкий показатель наглядно иллюстрирует редкость действительно конкурентоспособных научных работ, созданных искусственным интеллектом, и подчеркивает существенную разницу между способностью генерировать текст и проведением полноценного научного исследования, требующего критического мышления и глубокого понимания предметной области. Данный факт свидетельствует о том, что, несмотря на прогресс в области машинного обучения, искусственный интеллект пока не способен регулярно создавать научные работы, сравнимые по качеству с результатами, полученными человеком.

Исследование выявило чёткую взаимосвязь между разнообразием используемых методологий и качеством научных идей, как в исследованиях, выполненных людьми, так и в тех, что сгенерированы искусственным интеллектом. Более широкий спектр применяемых подходов, включая статистические методы, моделирование и экспериментальные дизайны, способствует генерации более оригинальных и проработанных гипотез. Это указывает на то, что избежание чрезмерной специализации и поощрение междисциплинарного подхода являются ключевыми факторами для повышения качества научных работ, независимо от того, кто их выполняет — человек или алгоритм. В частности, исследования показали, что применение различных методик позволяет более полно исследовать проблему, выявлять неочевидные связи и, как следствие, генерировать более значимые научные идеи.

Исследование показывает, что разрыв между качеством экономических исследований, выполненных человеком и искусственным интеллектом, обусловлен не столько сложностью реализации, сколько недостатком оригинальных идей. Это подтверждает, что экономика — это не только графики и цифры, но и отражение человеческих надежд на контроль, а не просто рациональный анализ. Как заметил Людвиг Витгенштейн: «Предел моего языка есть предел моего мира». В данном контексте, ограниченность генеративных моделей в создании новых идей демонстрирует предел их «мира» по сравнению с человеческой способностью к абстрактному мышлению и творчеству. Неспособность ИИ генерировать принципиально новые концепции подчеркивает, что истинный прогресс в экономике требует не просто обработки данных, но и смелости в выдвижении гипотез, выходящих за рамки привычного.

Куда двигаться дальше?

Представленные результаты, хотя и указывают на узкое место в генерации новых идей, не должны создавать иллюзию быстрого решения. Стало очевидно, что проблема не в способности алгоритмов выполнять сложные вычисления или статистический анализ — в этом они превосходят многих исследователей. Настоящая сложность заключается в том, чтобы сформулировать вопрос, который стоит задать. Каждая стратегия работает, пока кто-то не начинает в неё верить слишком сильно, и автоматизированные системы не являются исключением.

Будущие исследования должны сосредоточиться не на улучшении статистических методов, а на моделировании когнитивных искажений и эвристик, которые формируют человеческую интуицию. Иначе говоря, нужно научить машину ошибаться правильно. Не менее важно понимать, как контекст, предубеждения и даже случайные события влияют на выбор исследовательских вопросов. Автоматизация анализа данных — это лишь верхушка айсберга; настоящий вызов — автоматизация самого процесса поиска истины, с учетом всей его иррациональности.

В конечном счете, стоит признать, что экономика — это не точная наука, а попытка понять поведение существ, склонных к самообману. И, возможно, лучший способ улучшить качество экономических исследований — это смириться с этой неопределенностью и научиться использовать её в своих интересах. Ведь, как показывает история, самые интересные открытия часто происходят случайно, когда кто-то делает неверный поворот.

Оригинал статьи: https://arxiv.org/pdf/2604.03338.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-07 17:47