Прогнозы цен на сельхозпродукцию в Бангладеш: что работает, а что нет?

Автор: Денис Аветисян


Исследование сравнивает эффективность традиционных и современных методов прогнозирования цен на сельскохозяйственную продукцию на новом наборе данных для Бангладеш.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал
Прогнозирование розничных цен на сорт «Сладкая тыква» в мае-июне 2025 года показало, что модель BiLSTM с абсолютной средней ошибкой <span class="katex-eq" data-katex-display="false">2.66</span> превосходит Vanilla Transformer (<span class="katex-eq" data-katex-display="false">4.17</span>), в то время как модель Prophet значительно завышает фактические цены, демонстрируя среднюю абсолютную процентную ошибку в <span class="katex-eq" data-katex-display="false">74.56\%</span>.
Прогнозирование розничных цен на сорт «Сладкая тыква» в мае-июне 2025 года показало, что модель BiLSTM с абсолютной средней ошибкой 2.66 превосходит Vanilla Transformer (4.17), в то время как модель Prophet значительно завышает фактические цены, демонстрируя среднюю абсолютную процентную ошибку в 74.56\%.

Сравнение классических и глубоких моделей машинного обучения для прогнозирования цен на сельскохозяйственные товары, с акцентом на ограниченную эффективность обучаемых временных представлений (Time2Vec) и сложность прогнозирования дискретных рынков.

Несмотря на критическую важность краткосрочного прогнозирования цен на сельскохозяйственную продукцию для обеспечения продовольственной безопасности и стабилизации доходов мелких фермеров в развивающихся странах, доступных наборов данных для машинного обучения в Южной Азии остается недостаточно. В данной работе, озаглавленной ‘A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset’, представлен новый эталонный набор данных AgriPriceBD, включающий ежедневные розничные цены на пять основных продуктов Бангладеш за период с июля 2020 по июнь 2025 года. Проведенный сравнительный анализ семи моделей прогнозирования, от классических (SARIMA, Prophet) до архитектур глубокого обучения (BiLSTM, Transformer, Informer), выявил гетерогенность предсказуемости цен и неэффективность обучения моделей с использованием обучаемых временных вложений (Time2Vec), а также трудности стандартных методов прогнозирования при работе с дискретной динамикой цен. Возможно ли создание более адекватных моделей прогнозирования, учитывающих специфику сельскохозяйственных рынков Бангладеш и других развивающихся экономик?


Прогнозирование цен на продовольствие: краеугольный камень продовольственной безопасности

Обеспечение надежного доступа к доступным продуктам питания, являющееся краеугольным камнем глобальной продовольственной безопасности, напрямую зависит от точного прогнозирования цен на сельскохозяйственную продукцию. Стабильность цен позволяет планировать закупки, эффективно распределять ресурсы и предотвращать голод, особенно среди наиболее уязвимых слоев населения. Неточность прогнозов может привести к серьезным последствиям, включая резкие колебания цен, дефицит продовольствия и социальную нестабильность. Поэтому совершенствование методов прогнозирования сельскохозяйственных цен является критически важной задачей для обеспечения устойчивой продовольственной безопасности во всем мире, требующей комплексного подхода и учета множества факторов, влияющих на формирование цен.

Традиционные методы прогнозирования сельскохозяйственных цен часто оказываются неэффективными из-за присущей рынкам сложности и динамичности. Исторически сложившиеся модели, опирающиеся на прошлые данные и линейные зависимости, не способны адекватно учесть множество факторов, влияющих на формирование цен — от погодных условий и урожайности до геополитических событий и колебаний валютных курсов. Эта неспособность адаптироваться к быстро меняющейся обстановке приводит к существенным погрешностям в прогнозах, что, в свою очередь, затрудняет планирование производства, распределение ресурсов и, как следствие, обеспечение продовольственной безопасности. В отличие от более стабильных рынков, сельскохозяйственные рынки характеризуются высокой волатильностью и нелинейными взаимосвязями, что требует разработки принципиально новых подходов к прогнозированию, учитывающих эти особенности.

Неточности в прогнозировании цен на продовольствие оказывают особенно сильное воздействие на наиболее уязвимые слои населения, препятствуя эффективному распределению ресурсов и усугубляя продовольственную незащищенность. Исследования показывают, что предсказуемость цен на различные виды сельскохозяйственной продукции неоднородна: одни товары демонстрируют более стабильные и предсказуемые колебания, в то время как цены на другие характеризуются высокой волатильностью и сложны для точного прогнозирования. Эта гетерогенность требует дифференцированного подхода к прогнозированию и разработке стратегий управления рисками, учитывающих специфику каждого товара и региона, чтобы обеспечить стабильный доступ к продовольствию для всех слоев населения.

Анализ предсказаний Informer на тестовом наборе данных для чеснока показал, что, несмотря на сходимость обучения, модель демонстрирует хаотичные колебания, указывающие на неспособность ProbSparse attention извлекать согласованную структуру из данного размера обучающей выборки, в отличие от значительно худших показателей вариации предсказаний для других товаров (нут: 4987%, зеленый перец чили: 1108%) при умеренной вариации для чеснока (116%).
Анализ предсказаний Informer на тестовом наборе данных для чеснока показал, что, несмотря на сходимость обучения, модель демонстрирует хаотичные колебания, указывающие на неспособность ProbSparse attention извлекать согласованную структуру из данного размера обучающей выборки, в отличие от значительно худших показателей вариации предсказаний для других товаров (нут: 4987%, зеленый перец чили: 1108%) при умеренной вариации для чеснока (116%).

Создание надежной основы: временные ряды и построение данных

Цены на сельскохозяйственную продукцию по своей природе представляют собой временные ряды, то есть последовательность данных, индексированных во времени. Это означает, что каждое значение цены связано с конкретным моментом времени, и анализ требует применения специализированных методов, учитывающих временную зависимость между наблюдениями. Стандартные статистические инструменты, предназначенные для анализа независимых данных, могут давать неверные результаты при работе с временными рядами. Для корректного анализа необходимо учитывать автокорреляцию, сезонность и тренды, а также использовать методы прогнозирования, адаптированные для данных, изменяющихся во времени, такие как модели ARIMA, экспоненциальное сглаживание или рекуррентные нейронные сети.

Создание высококачественного эталонного набора данных имеет первостепенное значение для проведения точного и надежного анализа цен на сельскохозяйственную продукцию. В связи с этим, представляется AgriPriceBD — новый ресурс, разработанный специально для Бангладеш. Этот набор данных призван обеспечить исследователей и аналитиков актуальной и структурированной информацией о ценах, что позволит проводить более глубокие исследования в области сельского хозяйства и экономики страны. AgriPriceBD содержит исторические данные о ценах на ключевые сельскохозяйственные товары, собранные и обработанные с использованием современных методов извлечения информации.

База данных AgriPriceBD была создана с использованием конвейера, основанного на больших языковых моделях (LLM), для извлечения данных из ранее недоступных правительственных PDF-отчетов. Этот процесс включал автоматическое распознавание текста в PDF-файлах и последующую структуризацию извлеченной информации в формат, пригодный для анализа. Использование LLM позволило значительно автоматизировать процесс извлечения данных, снизив трудозатраты и повысив точность по сравнению с ручным вводом. В результате был сформирован ценный ресурс для исследователей, предоставляющий доступ к историческим данным о ценах на сельскохозяйственную продукцию в Бангладеш.

Анализ временного ряда цен на чеснок (BDT/кг) выявил U-образную тенденцию с 2020 по конец 2024 года, отражающую скачок цен из-за нарушения поставок, а также выраженную сезонность, связанную с циклами сбора урожая (коэффициент R/S: 0.93), однако ограничения масштаба обучения препятствуют полноценному использованию преимуществ глубокого обучения.
Анализ временного ряда цен на чеснок (BDT/кг) выявил U-образную тенденцию с 2020 по конец 2024 года, отражающую скачок цен из-за нарушения поставок, а также выраженную сезонность, связанную с циклами сбора урожая (коэффициент R/S: 0.93), однако ограничения масштаба обучения препятствуют полноценному использованию преимуществ глубокого обучения.

Современные методы прогнозирования цен на сельскохозяйственную продукцию

В рамках исследования прогнозирования цен на сельскохозяйственную продукцию были изучены различные методы, включающие в себя статистические модели, такие как SARIMA (Seasonal Autoregressive Integrated Moving Average), и алгоритмы машинного обучения, в частности, BiLSTM (Bidirectional Long Short-Term Memory) и Prophet. SARIMA применяется для анализа временных рядов с выраженной сезонностью и автокорреляцией, используя прошлые значения для прогнозирования будущих. BiLSTM, представляющая собой разновидность рекуррентной нейронной сети, эффективно обрабатывает последовательные данные, учитывая зависимости как в прямом, так и в обратном направлении. Prophet, разработанный Facebook, специализируется на прогнозировании временных рядов с сильным сезонным компонентом и позволяет учитывать праздники и другие особые события.

Прогнозирующая модель Prophet, несмотря на свою общую эффективность в предсказании цен на сельскохозяйственную продукцию, демонстрирует несоответствия при моделировании дискретных ступенчатых динамик, наблюдаемых в ценах на определенные товары. Данный феномен проявляется в неспособности модели адекватно отражать резкие, скачкообразные изменения цен, вызванные, например, внезапными изменениями в государственной политике, логистических ограничениях или значительными колебаниями спроса и предложения. В таких случаях, прогнозируемые значения Prophet могут значительно отклоняться от фактических, особенно в краткосрочной перспективе, что снижает точность прогнозирования и требует использования дополнительных методов или модификаций модели для учета этих специфических особенностей.

Современные методы глубокого обучения, такие как Informer, используют архитектуру Transformer для моделирования сложных зависимостей во временных рядах. В отличие от рекуррентных нейронных сетей (RNN), Transformer позволяет параллельно обрабатывать все точки временного ряда, что значительно ускоряет обучение и позволяет улавливать долгосрочные зависимости, часто упускаемые традиционными моделями. Архитектура Transformer опирается на механизм внимания (attention), который позволяет модели взвешивать вклад каждой точки временного ряда при прогнозировании, обеспечивая более точное моделирование нелинейных и сезонных паттернов, характерных для цен на сельскохозяйственную продукцию. Это особенно актуально для данных с высокой степенью шума и сложными взаимосвязями.

По результатам прогнозирования цен на огурцы на май-июнь 2025 года, модель SARIMA показала наилучшую точность по MAE (8.97), а среди моделей глубокого обучения - Transformer (MAE 9.44), при этом T2V-Transformer незначительно превосходит Vanilla Transformer по RMSE (13.37 против 13.42), но эта разница статистически не значима (p=0.962), в то время как Prophet демонстрирует заниженные прогнозы из-за своей склонности к сглаживанию трендов.
По результатам прогнозирования цен на огурцы на май-июнь 2025 года, модель SARIMA показала наилучшую точность по MAE (8.97), а среди моделей глубокого обучения — Transformer (MAE 9.44), при этом T2V-Transformer незначительно превосходит Vanilla Transformer по RMSE (13.37 против 13.42), но эта разница статистически не значима (p=0.962), в то время как Prophet демонстрирует заниженные прогнозы из-за своей склонности к сглаживанию трендов.

Строгая оценка и сравнение производительности

Для обеспечения достоверности результатов анализа временных рядов цен на сельскохозяйственную продукцию в Бангладеш, первоначально применяется тест Адлера-Фуллера (ADF). Этот тест позволяет оценить стационарность временных рядов, что является ключевым требованием для корректного применения большинства моделей прогнозирования. Нестационарные ряды, характеризующиеся изменяющимися средним значением и дисперсией во времени, могут приводить к ложным результатам и неверным прогнозам. Тест ADF проверяет наличие единичного корня в авторегрессионной модели, и отклонение нулевой гипотезы о наличии единичного корня указывает на стационарность ряда. Применение теста ADF является обязательным этапом предварительной обработки данных для исключения систематических ошибок в последующем анализе и повышении надежности прогнозов.

Тест Диболда-Мариано (Diebold-Mariano test) применяется для статистической оценки превосходства одного метода прогнозирования над другим. Данный тест позволяет определить, является ли разница в точности прогнозов между двумя моделями статистически значимой, учитывая погрешность оценки. В рамках исследования, тест использовался для сравнения точности различных моделей прогнозирования цен на сельскохозяйственную продукцию, что позволило сделать обоснованные выводы о наиболее эффективных подходах, исключая случайные отклонения и обеспечивая надежность полученных результатов. Статистическая значимость разницы в точности прогнозов между моделями оценивается на основе p-value, что позволяет подтвердить или опровергнуть гипотезу о превосходстве одной модели над другой.

Систематическая оценка представленных методов прогнозирования позволила выявить наиболее перспективные подходы к точному прогнозированию цен на сельскохозяйственную продукцию в Бангладеш. Анализ показал, что средняя абсолютная ошибка (MAE) варьировалась от 2,66 до 18,85 бангладешских так (BDT)/кг для различных видов продукции, а среднеквадратичная ошибка (RMSE) составляла от 2,63 до 13,42 BDT/кг. Статистически значимые различия (p < 0,001) были обнаружены между моделью T2V-Transformer и Vanilla Transformer для четырех из пяти рассматриваемых видов сельскохозяйственной продукции, что свидетельствует о превосходстве T2V-Transformer в данных сценариях.

Анализ STL-декомпозиции цен на зеленый перец (BDT/кг) показал преобладание внешних шоков над трендом, несмотря на наличие потенциальной сезонности (R/S = 0.74), что указывает на зависимость ценовой динамики от пороговых событий, таких как закрытие границ или сезон муссонов, и ограничивает прогностическую ценность анализа R/S.
Анализ STL-декомпозиции цен на зеленый перец (BDT/кг) показал преобладание внешних шоков над трендом, несмотря на наличие потенциальной сезонности (R/S = 0.74), что указывает на зависимость ценовой динамики от пороговых событий, таких как закрытие границ или сезон муссонов, и ограничивает прогностическую ценность анализа R/S.

Перспективы дальнейших исследований и влияние на продовольственную безопасность

Точное прогнозирование цен на сельскохозяйственную продукцию, обеспечиваемое передовыми методами и надежными наборами данных, такими как AgriPriceBD, играет ключевую роль в укреплении продовольственной безопасности. Возможность предвидеть колебания цен позволяет оперативно распределять ресурсы, направляя их туда, где они наиболее востребованы, и принимать обоснованные политические решения, направленные на стабилизацию рынка. Это, в свою очередь, способствует эффективному управлению рисками, смягчая негативное воздействие ценовых скачков на производителей и потребителей. Повышение точности прогнозов, основанное на анализе больших данных и применении сложных алгоритмов, является важным шагом к созданию устойчивой продовольственной системы и обеспечению доступа к продовольствию для всех слоев населения.

Более точные прогнозы цен на сельскохозяйственную продукцию открывают возможности для заблаговременного распределения ресурсов, что позволяет оперативно реагировать на потенциальные дефициты или избытки. Это, в свою очередь, способствует принятию обоснованных политических решений, направленных на стабилизацию рынка и обеспечение продовольственной безопасности. Эффективное управление рисками, основанное на прогнозах, позволяет смягчить негативные последствия колебаний цен для производителей и потребителей, а также оптимизировать логистические цепочки и стратегии хранения. В конечном итоге, возможность предвидеть изменения на рынке позволяет создать более устойчивую и предсказуемую систему продовольственного снабжения.

Дальнейшие исследования в области прогнозирования цен на сельскохозяйственную продукцию должны быть направлены на интеграцию дополнительных источников данных, таких как погодные условия и рыночная конъюнктура, для повышения точности и устойчивости прогнозов. Анализ остатков к сезонности (R/S коэффициент), варьирующийся от 0.70 до 1.32 для различных товарных позиций, указывает на различную степень выраженности периодических закономерностей в динамике цен. Это означает, что некоторые культуры демонстрируют более предсказуемое поведение, чем другие, и использование этих закономерностей может значительно улучшить точность прогнозов, позволяя более эффективно планировать ресурсы и управлять рисками в сфере продовольственной безопасности. Учет этих факторов позволит создавать более надежные модели, способные адаптироваться к изменяющимся условиям и обеспечивать стабильность цен на продовольствие.

Анализ корреляции ежедневных розничных цен (июль 2020 - июнь 2025) показал сильную положительную взаимосвязь между ценами на чеснок и нут (<span class="katex-eq" data-katex-display="false">r=0.61</span>), что отражает общую динамику импортного ценообразования, в то время как огурцы демонстрируют слабую корреляцию с зеленым перцем (<span class="katex-eq" data-katex-display="false">r=0.09</span>) и сладкой тыквой (<span class="katex-eq" data-katex-display="false">r=0.11</span>), но умеренную - с нутом (<span class="katex-eq" data-katex-display="false">r=0.44</span>).
Анализ корреляции ежедневных розничных цен (июль 2020 — июнь 2025) показал сильную положительную взаимосвязь между ценами на чеснок и нут (r=0.61), что отражает общую динамику импортного ценообразования, в то время как огурцы демонстрируют слабую корреляцию с зеленым перцем (r=0.09) и сладкой тыквой (r=0.11), но умеренную — с нутом (r=0.44).

Исследование демонстрирует, что даже самые передовые модели глубокого обучения сталкиваются с трудностями при прогнозировании цен на сельскохозяйственные товары в условиях дискретной динамики рынка. Это напоминает о неизбежном течении времени и о том, как системы, даже самые сложные, подвержены влиянию внешних факторов. Как однажды заметил Г.Х. Харди: «Математика — это наука о бесконечности». В контексте данной работы, бесконечность данных и сложность рыночных процессов требуют постоянного анализа и адаптации моделей, ведь, как показывает исследование, стандартные методы прогнозирования не всегда способны уловить нюансы, присущие данным рынка Бангладеш. Версионирование моделей и постоянный рефакторинг становятся необходимостью, чтобы обеспечить их актуальность и точность.

Что дальше?

Представленная работа, как и любая попытка удержать ускользающую реальность в рамках моделей, лишь обозначила границы применимости существующих подходов. Наблюдаемая сложность динамики цен на сельскохозяйственную продукцию в Бангладеш, характеризующаяся ступенчатым изменением, свидетельствует о том, что стандартные инструменты прогнозирования, даже дополненные современными архитектурами глубокого обучения, сталкиваются с фундаментальными ограничениями. Обучаемые временные вложения, такие как Time2Vec, не принесли ожидаемого улучшения, что намекает на необходимость переосмысления способа представления времени в подобных системах.

Каждая архитектура проживает свою жизнь, и, вероятно, более эффективные подходы потребуют отказа от попыток точного воспроизведения временной зависимости в пользу моделей, способных улавливать общие паттерны и адаптироваться к нелинейным изменениям. Поиск новых метрик оценки, учитывающих специфику дискретной динамики, представляется не менее важной задачей. Улучшения стареют быстрее, чем мы успеваем их понять, и следует признать, что абсолютная точность прогноза — это, возможно, недостижимый идеал.

В конечном итоге, ценность данной работы заключается не столько в достигнутых результатах, сколько в осознании границ. Все системы стареют — вопрос лишь в том, делают ли они это достойно. И в данном случае, достойным будет признанием той сложной и изменчивой природы, которую мы пытаемся смоделировать.


Оригинал статьи: https://arxiv.org/pdf/2604.06227.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-09 13:49