Предсказывая будущее: как обучить ИИ мыслить шире

Автор: Денис Аветисян


Новое исследование демонстрирует эффективный подход к обучению больших языковых моделей прогнозированию открытых вопросов, используя тщательно отобранные данные и алгоритмы обучения с подкреплением.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
Обучение модели прогнозирования повышает точность и калибровку как на открытых вопросах в тестовом наборе, так и на внешнем бенчмарке FutureX, позволяя OpenForecaster8B конкурировать с гораздо более крупными моделями, имеющими ограничение знаний до мая 2025 года.
Обучение модели прогнозирования повышает точность и калибровку как на открытых вопросах в тестовом наборе, так и на внешнем бенчмарке FutureX, позволяя OpenForecaster8B конкурировать с гораздо более крупными моделями, имеющими ограничение знаний до мая 2025 года.

Метод позволяет достичь конкурентоспособной производительности в прогнозировании, используя относительно небольшие модели, благодаря новой функции вознаграждения и применению Retrieval Augmented Generation.

Прогнозирование будущего, особенно в условиях неопределенности, остается сложной задачей для современных систем искусственного интеллекта. В работе ‘Scaling Open-Ended Reasoning to Predict the Future’ представлен подход к обучению больших языковых моделей прогнозированию ответов на открытые вопросы, основанный на автоматизированной генерации обучающих данных из новостных источников и применении обучения с подкреплением. Разработанная модель OpenForecaster 8B демонстрирует сопоставимую точность с гораздо более крупными проприетарными системами, улучшая калибровку и согласованность прогнозов. Способны ли подобные методы не только предсказывать будущее, но и помогать в принятии более обоснованных решений в различных областях?


Предсказания будущего: Когда теория сталкивается с реальностью

Точное прогнозирование играет ключевую роль в принятии упреждающих решений, однако современные языковые модели зачастую испытывают трудности при ответах на открытые вопросы, касающиеся будущего. Особенная сложность возникает из-за неспособности этих моделей адекватно оценивать неопределенность и учитывать множество потенциальных сценариев развития событий. В то время как текущие системы хорошо справляются с анализом исторических данных и выявлением закономерностей, предсказание будущих тенденций требует не только обработки информации, но и способности к экстраполяции, интуиции и пониманию контекста, что представляет собой значительную проблему для существующих алгоритмов. В результате, прогнозы, выдаваемые данными моделями, могут быть неточными, предвзятыми или не учитывать важные факторы, что снижает их полезность для практического применения.

Традиционные методы прогнозирования зачастую не способны последовательно оценивать степень неопределенности и предоставлять откалиброванные прогнозы, что существенно снижает надежность получаемых результатов. В отличие от вероятностных моделей, многие существующие подходы выдают точечные прогнозы, не отражающие диапазон возможных исходов и, следовательно, не позволяющие адекватно оценить риски. Это особенно критично в ситуациях, где необходимо принимать решения на основе прогнозов, поскольку отсутствие информации о вероятности различных сценариев может привести к неоптимальным или даже ошибочным действиям. Неспособность к калибровке означает, что уверенность модели в своих прогнозах не соответствует фактической точности, что усложняет интерпретацию результатов и затрудняет использование прогнозов в практических приложениях.

Исследования показали, что простое увеличение размера языковой модели не является достаточным для достижения надежных прогностических способностей. В то время как тенденция последних лет заключалась в наращивании параметров моделей, новая работа демонстрирует, что более эффективный подход к обучению и оценке может обеспечить конкурентоспособные результаты даже с моделями значительно меньшего размера. В частности, разработанная 8-параметровая модель продемонстрировала производительность, сопоставимую с моделями, содержащими до 120 миллиардов параметров, что указывает на важность оптимизации алгоритмов и методов обучения, а не только на увеличение вычислительных ресурсов. Данный результат подчеркивает перспективность разработки более компактных и эффективных прогностических систем, способных справляться со сложными задачами, не требуя при этом огромных вычислительных затрат.

Наша методика обучения языковых моделей-прогнозистов включает в себя <span class="katex-eq" data-katex-display="false">N</span> шагов, начиная с предобученной модели и заканчивая тонкой настройкой с использованием данных о траекториях.
Наша методика обучения языковых моделей-прогнозистов включает в себя N шагов, начиная с предобученной модели и заканчивая тонкой настройкой с использованием данных о траекториях.

OpenForesight: Источник данных для обучения предвидению

Набор данных OpenForesight состоит примерно из 50 000 вопросов, сформулированных в открытом виде и предназначенных для прогнозирования будущих событий. Эти вопросы автоматически генерируются на основе текущих новостных статей, что обеспечивает динамичность и актуальность обучающего материала. Такой подход позволяет создавать модели, способные не просто извлекать факты, но и анализировать информацию для формирования вероятностных прогнозов, опираясь на последние данные из новостного потока. Объем данных в ~50 000 вопросов предоставляет достаточно ресурсов для обучения и оценки эффективности моделей прогнозирования.

Для обеспечения контекстной информации для модели прогнозирования в наборе данных OpenForesight используется языковая модель Qwen3. Текстовые фрагменты, извлеченные из новостных статей, преобразуются Qwen3 в векторные представления (embeddings). Эти векторные представления позволяют эффективно осуществлять поиск релевантных фрагментов текста, которые затем предоставляются модели прогнозирования в качестве контекста. Использование векторных представлений, а не простого сопоставления ключевых слов, позволяет модели лучше понимать смысл и взаимосвязи в тексте, что необходимо для формирования более точных прогнозов.

Набор данных OpenForesight разработан для преодоления ограничений, связанных с простой извлекающей поиском по фактам, и стимулирует модели к рассуждениям о возможных будущих событиях. В отличие от систем, полагающихся на сопоставление ключевых слов, OpenForesight требует от моделей анализа контекста и построения логических выводов о вероятных сценариях развития событий. Это достигается за счет фокусировки на вопросах, требующих прогнозирования, а не просто поиска известных фактов, что способствует развитию способностей к причинно-следственному анализу и экстраполяции данных.

Наша методология генерации вопросов заключается в использовании DeepSeek-v3 для создания множества прогнозирующих вопросов по каждой новостной статье, после чего Llama-4-Maverick отбирает наиболее подходящий вопрос, соответствующий всем критериям, и удаляет подсказки, раскрывающие ответ.
Наша методология генерации вопросов заключается в использовании DeepSeek-v3 для создания множества прогнозирующих вопросов по каждой новостной статье, после чего Llama-4-Maverick отбирает наиболее подходящий вопрос, соответствующий всем критериям, и удаляет подсказки, раскрывающие ответ.

GRPO: Обучение с подкреплением для калибровки прогнозов

Для обучения моделей прогнозирования используется подход обучения с подкреплением на основе алгоритма GRPO. В процессе обучения модели максимизируют комбинированную награду, которая рассчитывается на основе двух ключевых метрик: точности прогнозирования и Brier Score. Комбинирование этих метрик позволяет не только достичь высокой прогностической силы, но и обеспечить калибровку вероятностей, выдаваемых моделью, что критически важно для оценки надежности прогнозов и принятия обоснованных решений.

Оценка Брайера (Brier Score) используется в качестве метрики для оценки калибровки вероятностных прогнозов. В отличие от простой точности, которая лишь показывает, насколько часто прогноз верен, оценка Брайера измеряет, насколько уверенность модели в своих прогнозах соответствует фактической наблюдаемой частоте событий. Низкий показатель Брайера указывает на хорошую калибровку, то есть, если модель предсказывает вероятность события 70%, то это событие должно происходить примерно в 70% случаев. Это особенно важно в задачах, где необходимо оценивать не только правильность предсказания, но и степень его уверенности, например, в прогнозировании рисков или принятии решений на основе вероятностных оценок. Использование оценки Брайера в процессе обучения модели стимулирует ее к выдаче хорошо откалиброванных прогнозов, что повышает надежность и полезность модели в практических приложениях.

Для улучшения процесса извлечения информации и формирования вопросов для прогнозирования из новостных статей используются модели DeepSeek-v3 и Llama-4-Maverick. Эти модели позволяют автоматизировать этапы анализа текста, выявления ключевых событий и формулирования четких, проверяемых вопросов, необходимых для последующего прогнозирования. В частности, DeepSeek-v3 обеспечивает эффективное понимание контекста, а Llama-4-Maverick — генерацию вопросов, соответствующих извлеченной информации и требованиям к прогнозируемым событиям. Совместное использование этих моделей повышает точность и скорость обработки новостных данных, что критически важно для своевременного и надежного прогнозирования.

Сочетание метрик точности и Brier score обеспечивает наилучшую производительность, поскольку добавление точности стимулирует исследование в сложных ситуациях, где Brier score слабо коррелирует с правильным ответом, в то время как использование только точности приводит к плохой калибровке.
Сочетание метрик точности и Brier score обеспечивает наилучшую производительность, поскольку добавление точности стимулирует исследование в сложных ситуациях, где Brier score слабо коррелирует с правильным ответом, в то время как использование только точности приводит к плохой калибровке.

Надежность и универсальность: Проверка на практике

Оценка на наборе данных FutureX подтвердила улучшенные возможности прогнозирования моделей, обученных с использованием OpenForesight и GRPO. Данные модели демонстрируют высокую производительность, превосходя существующие решения, такие как Qwen3-235-A22B, в задачах предсказания будущих событий. Это свидетельствует о значительном прогрессе в области долгосрочного прогнозирования и открывает новые возможности для анализа тенденций и принятия обоснованных решений в различных сферах, от экономики до социальных наук. Улучшенные показатели на FutureX подчеркивают потенциал разработанного подхода для создания более точных и надежных моделей прогнозирования.

Исследования показали высокую степень калибровки разработанных моделей на таких эталонных наборах данных, как SimpleQA, GPQA-Diamond и MMLU-Pro. Это демонстрирует способность моделей не только предсказывать вероятные исходы, но и адекватно отражать уровень своей уверенности в этих предсказаниях. Высокая калибровка означает, что предсказанные вероятности соответствуют фактической частоте наступления событий, что критически важно для принятия обоснованных решений в различных областях, где необходимо учитывать не только прогноз, но и степень его достоверности. Точность оценки неопределенности позволяет более эффективно использовать прогнозы в реальных сценариях и избегать чрезмерной уверенности в неточных предсказаниях.

Обучение моделей на обширном корпусе глобальных новостных статей, полученных из CommonCrawl News, обеспечивает широкую применимость в различных сценариях прогнозирования. В ходе исследований 8-параметровая модель продемонстрировала конкурентоспособные показатели Brier Score, сравнимые с результатами моделей, содержащих до 120 миллиардов параметров. При этом, точность прогнозов данной модели превзошла показатели Llama 3.1 8B Instruct на 25%, что свидетельствует о высокой эффективности и потенциале для решения широкого спектра задач, связанных с прогнозированием будущих событий на основе анализа новостного потока.

В ходе оценки разработанной системы наблюдалось значительное улучшение показателей, отражающих долгосрочную согласованность прогнозов. В частности, метрика Arbitrage, измеряющая возможность получения прибыли за счет расхождений в вероятностях, продемонстрировала прирост в 44%. Одновременно, улучшение на 19% по Frequentist Metric указывает на повышенную надежность и стабильность прогнозов во времени. Эти результаты свидетельствуют о том, что система не только точно оценивает вероятности событий, но и поддерживает эту точность на протяжении длительного периода, что крайне важно для принятия обоснованных решений в различных областях, таких как финансовый анализ и планирование.

Обучение моделей на наборе данных OpenForesight значительно улучшает их калибровку как на тестовых данных OpenForesight, так и на нераспределенных бенчмарках.
Обучение моделей на наборе данных OpenForesight значительно улучшает их калибровку как на тестовых данных OpenForesight, так и на нераспределенных бенчмарках.

Исследование демонстрирует, что даже модели, не являющиеся самыми большими, способны предсказывать будущее, если их правильно обучить на тщательно отобранных данных. Авторы уделили внимание не только алгоритмам, но и процессу сбора информации, что часто упускается из виду. Как говаривал Пауль Эрдеш: «Математика — это искусство находить закономерности, а не просто решать задачи». В данном случае, закономерности ищутся в новостных потоках, а задача — предсказать будущие события. Порой, элегантная архитектура уступает место простому, но эффективному подходу к данным и обучению, особенно если речь идёт о долгосрочном прогнозировании и калибровке моделей. Всё же, идеальный код, который никогда не деплоится, — лишь теоретическая конструкция.

Что дальше?

Представленный подход, безусловно, добавляет ещё один уровень сложности в и без того перегруженную область больших языковых моделей. Прогнозирование будущего — задача, традиционно решавшаяся экспертами с десятилетиями опыта, теперь переложена на плечи алгоритмов, обученных на потоке новостей. Забавно, что «инновация» заключается в том, чтобы машина училась повторять ошибки людей, только быстрее. И, конечно, с более красивыми графиками потерь.

Однако, за внешним успехом скрываются старые добрые проблемы. Качество данных — по-прежнему ахиллесова пята. Курирование новостных статей — процесс субъективный, и даже самая совершенная модель не сможет отделить правду от пропаганды, если исходные данные предвзяты. А ещё, рано или поздно, кто-нибудь обязательно обнаружит, что модель просто «запомнила» исторические тренды, а не научилась действительно предсказывать будущее. Как всегда.

Вполне вероятно, что следующая волна исследований будет посвящена не столько улучшению архитектуры моделей, сколько разработке более надёжных методов оценки качества данных и калибровке вероятностных прогнозов. Ведь в конечном итоге, даже самая точная модель бесполезна, если никто не знает, насколько можно ей доверять. Всё новое — это просто старое с худшей документацией, и эта истина остаётся неизменной.


Оригинал статьи: https://arxiv.org/pdf/2512.25070.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-02 03:00