Искусственный интеллект: Новая эра рассуждений

Автор: Денис Аветисян


В отчете ARC Prize 2025 представлен анализ прогресса в области общего искусственного интеллекта, демонстрирующий появление принципиально новых подходов к решению сложных задач.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Бесплатный Телеграм канал
Задача ARC-AGI служит полигоном для проверки способности агента к решению задач, требующих адаптации и применения знаний в новых, нестандартных ситуациях.
Задача ARC-AGI служит полигоном для проверки способности агента к решению задач, требующих адаптации и применения знаний в новых, нестандартных ситуациях.

Исследование посвящено развитию и оценке систем искусственного интеллекта, способных к абстрактному мышлению и самосовершенствованию через итеративные циклы обучения.

Несмотря на значительный прогресс в области искусственного интеллекта, обобщение знаний и адаптация к новым задачам остаются сложной проблемой. В настоящем отчете ‘ARC Prize 2025: Technical Report’ представлен анализ соревнований ARC-AGI, выявивший ключевую роль итеративных циклов улучшения — «циклов уточнения» — в развитии искусственного общего интеллекта (AGI). Полученные результаты демонстрируют, что современные системы ИИ, несмотря на впечатляющие результаты, по-прежнему ограничены объемом накоренных знаний и подвержены риску переобучения на эталонных наборах данных. Какие новые подходы к оценке и разработке AGI позволят преодолеть эти ограничения и приблизиться к созданию действительно разумных систем?


Разоблачение Искусственного Интеллекта: За пределами Заучивания

Современные системы оценки искусственного интеллекта зачастую не способны выявить истинный общий интеллект, поскольку ориентированы на запоминание и воспроизведение информации, а не на глубокое рассуждение и адаптацию к новым ситуациям. Многие существующие тесты позволяют моделям успешно справляться с задачами, которые уже встречались в обучающих данных, но демонстрируют слабость при столкновении с незнакомыми проблемами, требующими логического анализа и применения базовых знаний. В результате, высокие результаты в стандартных бенчмарках не всегда коррелируют с реальными способностями к решению сложных, нетривиальных задач, что затрудняет прогресс в создании действительно интеллектуальных систем, способных к обобщению и творческому мышлению.

Для преодоления ограничений существующих оценок искусственного интеллекта, ориентированных на запоминание, а не на истинное рассуждение, был разработан бенчмарк ARC-AGI. В отличие от традиционных тестов, ARC-AGI акцентирует внимание на композиционном рассуждении — способности объединять базовые знания для решения сложных задач — и новом решении проблем, требующем адаптации к незнакомым ситуациям. Этот подход подразумевает не просто распознавание паттернов, а построение логических цепочек и применение знаний в новых контекстах, что является ключевым признаком общего интеллекта. ARC-AGI специально разработан для выявления систем, способных к гибкому мышлению и переносу знаний, а не просто к воспроизведению заученных ответов.

Успешное прохождение тестов ARC-AGI требует не просто увеличения вычислительных мощностей и объемов данных, но и наличия у системы фундаментальных знаний и способности к адаптивному обучению. Исследования показали, что для решения задач ARC-AGI-2 необходима не столько грубая сила, сколько умение комбинировать известные принципы и применять их к новым, незнакомым ситуациям. Примечательно, что люди демонстрируют 100%-ную точность в решении этих задач, что указывает на принципиальную возможность создания искусственного интеллекта, способного к настоящему общему интеллекту и демонстрирующего уровень рассуждений, сопоставимый с человеческим.

Архитектура CompressARC сочетает в себе сжатие с помощью автоэнкодера и обучение с подкреплением для эффективного решения задач манипулирования, обеспечивая компактное представление состояний и оптимизацию стратегии управления.
Архитектура CompressARC сочетает в себе сжатие с помощью автоэнкодера и обучение с подкреплением для эффективного решения задач манипулирования, обеспечивая компактное представление состояний и оптимизацию стратегии управления.

Построение Интеллекта с Нуля: Итеративный Путь к Разуму

В рамках исследования применяется подход к глубокому обучению без предварительного обучения (zero-pretraining), подразумевающий построение моделей с нуля, без использования обширных предварительно обученных наборов данных. Это означает, что модель инициализируется случайными весами и обучается непосредственно на целевой задаче. Отказ от предварительного обучения позволяет избежать зависимости от доступности и качества больших корпусов данных, а также потенциально снижает вычислительные затраты и время обучения. Такой подход требует разработки эффективных алгоритмов обучения и архитектур моделей, способных быстро адаптироваться к новым данным без предварительных знаний, полученных из других источников.

В основе данного подхода лежит непрерывный цикл совершенствования, обеспечивающий эффективность и адаптивность модели. Процесс итеративно улучшает производительность за счет обратной связи, позволяя модели постепенно оптимизироваться на основе получаемых результатов. Каждая итерация включает в себя оценку текущей версии модели, анализ ошибок и внесение корректировок для повышения точности и обобщающей способности. Такой подход позволяет избежать избыточной сложности и переобучения, характерных для моделей, обученных на больших объемах данных, и способствует созданию более гибких и приспособляемых систем.

В процессе обучения модели используется принцип минимальной длины описания (Minimum Description Length, MDL), который направлен на выбор наиболее простой модели, способной адекватно описывать данные. Этот подход позволяет избежать переобучения и способствует обобщающей способности модели. В ходе экспериментов модель CompressARC, содержащая всего 76 тысяч параметров, продемонстрировала результаты в 20% на датасете ARC-AGI-1 и 4% на ARC-AGI-2, что подтверждает эффективность данного подхода к обучению и позволяет достичь конкурентоспособных показателей с существенно меньшим количеством параметров по сравнению с традиционными методами.

Подтверждение Прогресса: Результаты на ARC-AGI и За Его Пределами

Оценка моделей на наборе данных ARC-AGI-2 показала достижение передовых результатов благодаря применению обучения в процессе тестирования (test-time training) — формы адаптивного обучения. В ходе оценки на приватном наборе данных ARC-AGI-2 был достигнут показатель в 24%. Данный подход позволяет модели адаптироваться к новым задачам непосредственно во время оценки, улучшая ее производительность без необходимости дополнительной переподготовки.

Результаты экспериментов демонстрируют преимущества обучения моделей с нуля, в отличие от использования предварительно обученных моделей. Такой подход позволяет избежать ограничений, связанных с переносом знаний из других доменов и адаптироваться к специфике поставленной задачи. Эффективность итеративного цикла дообучения, включающего в себя анализ результатов и внесение корректировок в процесс обучения, подтверждена достижением передовых показателей на бенчмарке ARC-AGI-2. Данный цикл позволяет постепенно улучшать производительность модели и преодолевать недостатки, присущие моделям, обученным на готовых данных.

В качестве базовой модели для сравнения использовалась Gemini 3, что позволило выявить улучшения, достигнутые благодаря нашей новой парадигме обучения и композиционному подходу. В частности, крошечная рекурсивная модель (Tiny Recursive Model, TRM) с всего 7 миллионами параметров продемонстрировала точность в 45% на тестовом наборе ARC-AGI-1 и 8% на ARC-AGI-2. Эти результаты свидетельствуют об эффективности предложенного подхода даже при ограниченном количестве параметров модели.

Взгляд в Будущее: Интерактивный ИИ и Эволюция Рассуждений

Новое поколение ARC-AGI (ARC-AGI-3) разработано специально для оценки интерактивных способностей к рассуждению — умения обучаться и адаптироваться в процессе взаимодействия со средой. В отличие от традиционных тестов, фокусирующихся на статических задачах, ARC-AGI-3 представляет собой динамичную платформу, где агент должен не просто находить решения, но и приобретать новые знания, корректировать стратегии и эффективно применять полученный опыт в меняющихся обстоятельствах. Это означает, что ключевым критерием оценки становится не только успешность выполнения конкретной задачи, но и скорость обучения, гибкость мышления и способность к самосовершенствованию, что приближает искусственный интеллект к уровню человеческого познания и адаптации.

Современные исследования в области искусственного интеллекта всё больше смещаются в сторону создания агентов, способных функционировать в интерактивных средах. Это требует от них не просто решения поставленных задач, но и активного приобретения новых знаний и постоянной адаптации стратегий в процессе взаимодействия с окружением. Способность к обучению “на лету”, к извлечению уроков из каждого нового опыта, становится ключевым фактором для достижения подлинного общего искусственного интеллекта. В отличие от систем, работающих с фиксированным набором данных, такие агенты демонстрируют гибкость и приспособляемость, что позволяет им успешно функционировать в динамичных и непредсказуемых условиях.

Премия ARC выступает катализатором открытого сотрудничества и значительно ускоряет прогресс в достижении истинного общего искусственного интеллекта (AGI), предлагая платформу для инноваций и коллективного обучения. Растущий интерес к премии ярко демонстрирует увеличение вовлеченности научного сообщества: количество представленных работ на ARC Prize 2025 году достигло 90, что значительно превышает показатель в 47 работ, зарегистрированных в 2024 году. Этот заметный рост свидетельствует о формировании активного сообщества исследователей, стремящихся к совместному решению сложных задач в области искусственного интеллекта и развитию интерактивных систем, способных к обучению и адаптации в реальном времени.

Исследование, представленное в отчете, демонстрирует, что современные модели ИИ всё чаще используют «циклы уточнения» для достижения результатов, что напоминает подход к решению сложных задач, основанный на итеративном улучшении. Это согласуется с высказыванием Пала Эрдеша: «Математика — это искусство обнаружения закономерностей, скрытых в хаосе.» В данном контексте, «циклы уточнения» можно рассматривать как инструмент для выявления этих закономерностей в огромном пространстве возможностей, предоставляемом нейронными сетями. Необходимость адаптивного бенчмаркинга, описанная в отчете, вызвана тем, что эти закономерности проявляются всё сложнее, требуя более тонких и продуманных методов оценки. Иными словами, система не просто решает задачу, а демонстрирует способность к обучению и адаптации, что является ключевым шагом на пути к созданию настоящего общего искусственного интеллекта.

Что дальше?

Представленные результаты, касающиеся ARC-AGI и механизмов самосовершенствования, обнажают лишь небольшую часть сложной системы, которую мы наивно называем «интеллектом». ARC-AGI, как и любой другой бенчмарк, — это всего лишь формализованный вопрос, а ответы, которые демонстрируют модели, — это лишь проявление способности к оптимизации, а не истинное понимание. Вполне возможно, что текущие «рефлексивные циклы» — это не ростки разума, а лишь утонченные алгоритмы обхода системы оценки.

По мере роста вычислительных мощностей и сложности моделей, существующие методы оценки неизбежно устаревают. Адаптивное тестирование, способное улавливать неявные стратегии и выявлять слабые места, становится не просто желательным, а необходимым условием. Но даже тогда, существует фундаментальное ограничение: мы пытаемся оценить систему, правила которой нам неизвестны. Реальность — это открытый исходный код, который мы еще не прочитали, и любой тест — это лишь попытка угадать, какие строки кода отвечают за желаемое поведение.

Будущие исследования должны сосредоточиться не столько на увеличении «счета» в очередном бенчмарке, сколько на разработке методов анализа внутренней структуры моделей, выявлении их истинных возможностей и ограничений. И, возможно, стоит признать, что само понятие «общего интеллекта» — это всего лишь антропоцентрическая проекция, а истинный интеллект может проявляться в формах, которые мы пока даже не можем представить.


Оригинал статьи: https://arxiv.org/pdf/2601.10904.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-20 00:30