Искусственный интеллект против экономики: где кроются ошибки?

Автор: Денис Аветисян

Новое исследование показывает, что современные нейросети, при участии эксперта, способны эффективнее традиционного рецензирования выявлять неточности в экономических теориях.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Работа демонстрирует, что современные большие языковые модели могут превосходить традиционное рецензирование в выявлении ошибок в экономической теории, но пока не способны самостоятельно опровергать ее.

Несмотря на стремительное развитие искусственного интеллекта, вопрос о его способности к самостоятельному научному опровержению устоявшихся теорий остается открытым. В статье ‘Can AI Refute Economic Theory? Evidence from Beyond the Knowledge Cutoff’ исследуется возможность применения больших языковых моделей (LLM) для проверки корректности экономических теорий. Полученные результаты показывают, что комбинация экспертных знаний человека и возможностей LLM превосходит традиционное рецензирование, однако самостоятельное опровержение экономических теорий искусственным интеллектом пока невозможно. Какие факторы ограничивают способность LLM к автономному научному исследованию и как их преодолеть?

Распознавая непрочные основания: уязвимость математической истины

Исторически, даже в авторитетных математических работах, таких как труд Жана Тироля 1985 года, обнаруживались ошибки в доказательствах. Этот факт подчеркивает присущую человеческому разуму подверженность ошибкам, даже в сфере, казалось бы, абсолютной логики. Обнаружение этих погрешностей, порой касающихся сложных концепций вроде ‘рациональных пузырей’, часто задерживается на годы, оказывая влияние на последующие исследования и теории. Признание этой уязвимости является важным напоминанием о необходимости постоянной проверки и переоценки даже самых устоявшихся математических принципов, демонстрируя, что научный прогресс строится не только на открытиях, но и на признании и исправлении ошибок.

Ошибки в математических доказательствах, особенно касающиеся таких концепций, как “рациональные пузыри”, нередко остаются незамеченными на протяжении многих лет. Данные неточности, проникая в основу последующих исследований, способны исказить результаты и привести к ошибочным выводам в смежных областях. Например, изначально кажущиеся логичными модели могут генерировать нереалистичные прогнозы, а теоретические построения, основанные на ошибочных предпосылках, могут привести к неэффективным практическим решениям. Подобное “накопление ошибок” представляет серьезную проблему для развития науки, подчеркивая важность разработки более надежных методов проверки математических доказательств и выявления скрытых неточностей.

В настоящее время проверка математических доказательств и экономических моделей во многом опирается на экспертную оценку, однако данный подход не лишен недостатков. Ошибки, даже в авторитетных работах, зачастую остаются незамеченными из-за когнитивных искажений рецензентов и ограниченности масштабируемости процесса. Примеры, такие как работы [undefah], [undefx], [undefz] и [undefaf], демонстрируют, что традиционное рецензирование не всегда способно выявить неточности до их распространения в научной литературе, что подчеркивает необходимость разработки более надежных и объективных методов проверки.

Автоматизированное выявление ошибок: новый подход к проверке

Современные модели искусственного интеллекта, такие как Claude Opus, Gemini и ChatGPT Pro, демонстрируют способность к систематической проверке математических доказательств и выявлению ошибок. В отличие от традиционных методов, требующих ручной проверки экспертами, эти модели используют алгоритмы математического рассуждения для анализа логической структуры доказательств. Они способны не только выявлять явные противоречия, но и находить скрытые неточности в рассуждениях, что позволяет автоматизировать процесс верификации и повысить надежность математических выводов. Эффективность моделей варьируется, при этом ChatGPT Pro показал лучшие результаты в обнаружении логических ошибок по сравнению с Claude Opus и Gemini.

Современные модели искусственного интеллекта, такие как Claude Opus, Gemini и ChatGPT Pro, используют методы математического рассуждения и генерации контрпримеров для проверки математических утверждений и выявления логических ошибок. Принцип заключается в том, что модели пытаются найти случаи, когда предложенное утверждение не выполняется, тем самым демонстрируя его несостоятельность. В ходе сравнительных тестов было установлено, что ChatGPT Pro демонстрирует более высокую эффективность в обнаружении логических неточностей и оказании помощи при проверке доказательств по сравнению с моделями Gemini и Claude. Этот подход позволяет автоматизировать процесс верификации математических рассуждений и повысить надежность математических вычислений.

Инструменты, такие как ‘Refine’ и ‘Formal Proof Assistant’, значительно расширяют возможности автоматизированной проверки математических доказательств, предоставляя надежные механизмы верификации. ‘Refine’ позволяет интерактивно уточнять и формализовывать доказательства, обеспечивая пошаговую проверку логических выводов. ‘Formal Proof Assistant’, в свою очередь, использует методы формальной логики и автоматического доказательства теорем для подтверждения корректности математических утверждений. Оба инструмента позволяют выявлять ошибки и неточности, которые могут быть незаметны при ручной проверке, и предоставляют возможность детального анализа логической структуры доказательства. Они поддерживают работу с различными формальными системами и языками, что делает их полезными для верификации сложных математических моделей и теорем.

Оценка надежности AI: избегая ложных срабатываний

Оценка производительности моделей искусственного интеллекта требует учета риска “загрязнения” (data contamination) — случайного включения данных, использованных при обучении модели, в набор данных для оценки. Наличие таких дубликатов приводит к искусственно завышенным показателям эффективности, поскольку модель уже “знает” ответы на вопросы в оценочном наборе. Для предотвращения этой проблемы необходимо строгое разделение данных и применение процедур дедупликации, чтобы гарантировать, что оценочный набор содержит только новые, ранее не встречавшиеся данные. Игнорирование риска загрязнения может привести к ошибочным выводам о реальных возможностях модели и ее способности к обобщению.

Для обеспечения достоверной оценки возможностей ИИ при проведении бенчмаркинга необходимо строгое разделение данных на обучающую и оценочную выборки. Недопустимо попадание данных из обучающей выборки в оценочную, так как это приводит к искусственно завышенным показателям производительности и не отражает реальные способности модели к обобщению и решению новых задач. Валидация данных включает в себя проверку на дубликаты, аномалии и соответствие заданным критериям, что гарантирует объективность оценки и позволяет получить надежные результаты, отражающие истинный уровень развития интеллектуальных возможностей ИИ.

Дата “отсечки знаний” (Knowledge Cutoff) у моделей искусственного интеллекта накладывает существенные ограничения на их возможности. Это означает, что модель не имеет информации о событиях, исследованиях или исправлениях, произошедших после определенной даты, установленной во время ее обучения. Следовательно, при оценке ответов ИИ необходимо учитывать, что модель может не знать о последних достижениях в конкретной области, что потенциально приводит к неактуальным или неверным ответам, несмотря на кажущуюся логичность рассуждений. Это особенно критично в быстро развивающихся областях, где новые данные и теории постоянно пересматривают существующие знания.

В ходе исследований было установлено, что использование AI-инструментов в качестве помощников для экспертов позволяет выявлять ошибки в экономических теориях эффективнее, чем традиционное рецензирование. В качестве ключевых тестов использовались некорректные утверждения, такие как ‘Предложение 5 из [undefaf]’ и ‘Предложение 4 из [undefx]’. Результаты показали, что при участии эксперта, AI-ассистенты превосходят обычную практику экспертной оценки в обнаружении логических ошибок и неточностей в экономических работах.

Усиление экспертной оценки: потенциал искусственного интеллекта

Внедрение искусственного интеллекта в процесс экспертной оценки открывает значительные перспективы для повышения его эффективности и надёжности. Автоматизация рутинных задач, таких как проверка соответствия формальным требованиям и выявление очевидных неточностей, позволяет рецензентам сосредоточиться на более глубоком анализе методологии, интерпретации результатов и научной значимости исследования. Это не просто ускоряет процесс публикации, но и способствует более тщательному рассмотрению каждой работы, снижая вероятность распространения недостоверной или ошибочной информации. Подобный подход позволяет оптимизировать использование времени и ресурсов, обеспечивая более качественную и оперативную оценку научных трудов.

Автоматизация выявления логических ошибок и несоответствий посредством искусственного интеллекта позволяет высвободить ресурсы рецензентов для анализа более тонких аспектов исследований. Вместо того, чтобы тратить время на поиск очевидных неточностей, эксперты могут сосредоточиться на оценке методологии, интерпретации результатов и значимости полученных данных. Такой подход не только повышает эффективность процесса рецензирования, но и способствует более глубокой и всесторонней оценке научной работы, что в конечном итоге приводит к публикации более качественных и надежных исследований. Использование ИИ в качестве первого фильтра позволяет рецензентам сконцентрироваться на критическом анализе, требующем человеческого суждения и опыта.

Исследование демонстрирует, что синергия искусственного интеллекта и экспертной оценки способна значительно ускорить публикацию достоверных научных работ и укрепить всю научную среду. Искусственный интеллект, хотя и не способен самостоятельно опровергать экономические теории, эффективно выявляет логические ошибки и несоответствия в исследованиях. В сочетании с анализом опытных рецензентов, подобный подход превосходит традиционные методы экспертной оценки, обеспечивая более тщательный и всесторонний анализ научных материалов. Это позволяет быстрее отсеивать некачественные работы и оперативно публиковать значимые результаты, тем самым способствуя развитию науки и повышению ее надежности.

Исследование демонстрирует, что современные большие языковые модели, действуя под руководством эксперта, способны превосходить традиционные методы экспертной оценки в выявлении ошибок в экономических теориях. Однако, автономия в опровержении этих теорий пока недостижима. Этот факт подтверждает необходимость критического подхода к результатам, генерируемым искусственным интеллектом. Как заметил Юрген Хабермас: «Коммуникативное действие направлено на достижение взаимопонимания». В контексте данной работы, это означает, что взаимодействие человека и ИИ, основанное на критическом осмыслении и проверке, является ключом к прогрессу в экономической науке. Иначе говоря, данные не лгут, но интерпретация требует постоянной проверки и сомнений, особенно когда речь идет о сложных моделях и потенциальных ‘рациональных пузырях’.

Куда двигаться дальше?

Представленная работа, хотя и демонстрирует превосходящую способность больших языковых моделей, используемых компетентными экспертами, в выявлении ошибок в экономических теориях по сравнению с традиционным рецензированием, всё же не должна порождать иллюзий. Модели не «опровергают» теории самостоятельно; они лишь помогают человеку увидеть несоответствия. Важно помнить: обнаружение ошибки — это не то же самое, что построение альтернативной, более правдоподобной модели. Пока что, искусственный интеллект скорее выступает в роли острого критика, чем творческого строителя.

Ключевым направлением дальнейших исследований представляется не столько повышение «автономности» моделей, сколько разработка методов оценки достоверности их выводов. Ведь, как показывает опыт, модель, способная безупречно воспроизводить существующие знания, не обязательно способна генерировать новые, а уж тем более — проверять их на прочность. Доверительные интервалы для «правдоподобности» ответа — вот что действительно необходимо. Иначе, все эти впечатляющие результаты остаются лишь мнениями, облаченными в форму цифр.

Особое внимание следует уделить проблеме «загрязнения» обучающих данных. Если модель обучена на текстах, содержащих уже известные ошибки, то её способность к критическому анализу неизбежно будет ограничена. Необходимо разрабатывать методы выявления и устранения таких «артефактов» в данных, а также — более строгие критерии оценки качества обучения. Иначе, рискуем получить лишь эхо уже существующих заблуждений.

Оригинал статьи: https://arxiv.org/pdf/2606.05383.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-06-05 21:53