Прогнозы из потока событий: как простые модели обгоняют сложные

Автор: Денис Аветисян

Новое исследование показывает, что ансамбли простых моделей способны с высокой точностью предсказывать следующие события в потоках данных, превосходя или сравниваясь по эффективности с более сложными архитектурами.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

В статье представлен новый алгоритм Promotion, демонстрирующий, что ансамбли nn-грамм могут достигать точности LSTM и Transformer, обеспечивая при этом более высокую пропускную способность при анализе потоковых журналов событий.

Несмотря на успехи нейронных сетей в задачах прогнозирования, простые модели зачастую остаются конкурентоспособными при значительно меньших вычислительных затратах. В работе ‘Promoting Simple Agents: Ensemble Methods for Event-Log Prediction’ исследуются ансамблевые методы для предсказания следующего события в потоковых журналах событий, демонстрируя, что ансамбли моделей на основе n-грамм могут достигать или превосходить точность более сложных архитектур, таких как LSTM и Transformer, при меньших вычислительных ресурсах. Предложенный алгоритм динамического выбора моделей, «promotion algorithm», позволяет снизить накладные расходы по сравнению с традиционными схемами голосования. Возможно ли дальнейшее повышение эффективности ансамблевых методов за счет адаптации к специфике данных и динамической оптимизации параметров моделей?

Прогнозирование процессов: основа проактивного управления

Точное предсказание следующих действий в журнале событий имеет решающее значение для проактивного управления процессами и автоматизации. Возможность заранее определить, какое событие произойдет следующим в рамках конкретного процесса, позволяет организациям не просто реагировать на возникающие ситуации, но и предвидеть их. Это открывает путь к автоматическому вмешательству, например, для предотвращения ошибок или оптимизации ресурсов. Предсказывая будущие действия, системы могут автоматически инициировать необходимые шаги, тем самым повышая эффективность, снижая затраты и улучшая качество обслуживания. Такой подход трансформирует традиционное реактивное управление процессами в проактивное, где решения принимаются на основе прогнозов, а не только на основе исторических данных.

Эффективное прогнозирование в процессе майнинга опирается на тщательный анализ временной последовательности событий, зафиксированных в журналах. Каждая последовательность действий, относящаяся к конкретному случаю, идентифицируется уникальным идентификатором — `Case ID`. Этот идентификатор позволяет отслеживать полный жизненный цикл процесса, от начала до завершения. Крайне важно также распознавать специальный символ — `Stop Symbol` — который сигнализирует о завершении процесса. Именно понимание этой временной структуры и умение определить конец процесса позволяют алгоритмам точно предсказывать следующие шаги, обеспечивая основу для проактивного управления и автоматизации.

Для точного предсказания следующего действия в процессе, необходима вероятностная функция прогнозирования. Эта функция, по сути, оценивает вероятность наступления каждого возможного следующего события, основываясь на исторических данных, зафиксированных в журнале событий. Она не просто определяет, какое действие наиболее вероятно, но и предоставляет распределение вероятностей для всех потенциальных исходов, что позволяет оценить степень уверенности в прогнозе. $P(a_t | a_{t-1}, ..., a_1)$ — типичное представление такой функции, где $a_t$ — следующее действие, а $a_{t-1}, ..., a_1$ — предшествующая последовательность действий. Использование вероятностного подхода позволяет учитывать неопределенность и неполноту данных, обеспечивая более надежные и гибкие прогнозы, критически важные для автоматизации и проактивного управления бизнес-процессами.

Традиционные подходы и их ограничения: иллюзия контроля

Модель n-грамм представляет собой простой, основанный на частоте подход к прогнозированию, который определяет вероятность последовательности событий на основе частоты встречаемости n-грамм — последовательностей из n событий. Для повышения эффективности реализации часто используются PDFAs (Probabilistic Finite Automata) — вероятностные конечные автоматы, позволяющие оптимизировать поиск и обработку последовательностей. В основе метода лежит подсчет частоты появления каждой n-граммы в обучающем наборе данных, что позволяет предсказывать следующее событие на основе наиболее вероятной последовательности. Данный подход не требует сложных вычислений и может быть эффективно реализован для обработки больших объемов данных, однако его точность ограничена невозможностью учитывать контекст, выходящий за пределы рассматриваемой n-граммы.

Рекуррентные нейронные сети, в частности, сети с долгой краткосрочной памятью (LSTM), способны улавливать долгосрочные зависимости в последовательностях событий. В отличие от n-граммных моделей, LSTM могут учитывать контекст, охватывающий значительно большее количество предыдущих событий. Однако, эффективность LSTM напрямую зависит от правильной настройки параметра “Window Size” (размера окна), определяющего длину последовательности, которую сеть учитывает при прогнозировании. Недостаточное значение “Window Size” может привести к потере важных зависимостей, а избыточное — к увеличению вычислительной сложности и снижению производительности, особенно при обработке больших объемов данных, таких как журналы событий, содержащие от 15 214 до 2 514 266 событий.

Оба метода — n-граммные модели и рекуррентные нейронные сети (в частности, LSTM) — демонстрируют ограниченную способность к полноценному использованию сложных взаимосвязей, присущих данным о процессах. Это проявляется в снижении производительности при увеличении объёма данных, особенно при работе с журналами событий, содержащими от 15 214 до 2 514 266 записей. Ограничения связаны с тем, что эти подходы не учитывают нелинейные зависимости и контекстную информацию, что приводит к неточностям прогнозирования и увеличению вычислительных затрат при обработке больших объёмов данных.

Трансформеры: новая надежда или очередное усложнение?

Архитектура Transformer, основанная на механизме самовнимания (self-attention), представляет собой эффективный подход к выявлению сложных взаимосвязей в последовательностях событий. В отличие от рекуррентных нейронных сетей, Transformer обрабатывает всю последовательность параллельно, что позволяет ему улавливать зависимости между удаленными элементами без потери информации. Механизм самовнимания вычисляет веса для каждого элемента последовательности, определяя его важность относительно других элементов. Эти веса используются для создания взвешенного представления последовательности, которое затем используется для прогнозирования или классификации. Таким образом, Transformer способен учитывать контекст каждого события в последовательности, что существенно повышает точность анализа и прогнозирования.

В стандартной архитектуре Transformer, информация о позиции токена в последовательности передается посредством позиционных встраиваний. Однако, Rotary Positional Embeddings (RoPE) представляют собой альтернативный подход, кодирующий информацию о позиции через вращение векторов в пространстве признаков. Этот метод позволяет модели эффективно учитывать относительные позиции токенов, что особенно важно для последовательностей событий, где порядок имеет решающее значение. В отличие от абсолютных позиционных встраиваний, RoPE демонстрирует улучшенную обобщающую способность и позволяет модели более точно прогнозировать следующие события в последовательности, поскольку учитывает не только абсолютное положение, но и взаимосвязь между элементами последовательности.

Архитектуры Transformer, несмотря на свою эффективность в задачах анализа последовательностей, характеризуются высокой вычислительной сложностью. Это создает значительные трудности при их применении в задачах мониторинга процессов в реальном времени, требующих оперативной обработки данных. В нашей работе показано, что ансамбли, состоящие из более простых моделей, могут достигать сопоставимой или даже превосходящей точности по сравнению с Transformer, при значительно меньших вычислительных затратах. Оптимизация и эффективная реализация Transformer необходимы, но предлагаемый подход демонстрирует, что альтернативные стратегии, основанные на использовании ансамблей, могут быть более целесообразными для задач, требующих высокой скорости обработки данных.

Усиление предсказаний: ансамблевые методы и искусство компромисса

Объединение нескольких языковых моделей посредством ансамблевых методов демонстрирует значительное повышение точности предсказаний и пропускной способности. Такой подход позволяет использовать сильные стороны каждой модели, компенсируя их индивидуальные недостатки, что приводит к более надежным и точным результатам. Вместо того чтобы полагаться на одну сложную модель, ансамбль комбинирует прогнозы нескольких, более простых, что не только улучшает общую производительность, но и повышает устойчивость к шумам и вариациям в данных. Этот метод особенно эффективен в задачах, требующих высокой точности и скорости обработки, поскольку позволяет распределить вычислительную нагрузку и добиться оптимального баланса между ресурсами и результатами.

Разработанный алгоритм “Продвижения” представляет собой новый ансамблевый метод, который эффективно объединяет сильные стороны различных языковых моделей, минимизируя при этом вычислительные затраты. В ходе исследований было показано, что данный алгоритм достигает уровня точности, сопоставимого или превосходящего более сложные архитектуры, такие как LSTM и Transformer. Уникальность подхода заключается в способности эффективно использовать преимущества каждой модели без значительного увеличения вычислительной нагрузки, что делает его перспективным решением для приложений, требующих высокой производительности и точности прогнозирования.

Проведенные оценки с использованием как детерминированного набора данных Synthetic Dataset I, так и рандомизированного Synthetic Dataset II, наглядно демонстрируют устойчивость и эффективность разработанного алгоритма в различных сценариях моделирования процессов. Особым преимуществом является его способность достигать высокой точности при минимальных вычислительных затратах — для проведения инференса достаточно одновременной работы всего двух агентов. Это делает предложенный подход особенно привлекательным для задач, где важна как точность предсказаний, так и скорость обработки данных, а также ограничены ресурсы вычислительной инфраструктуры.

Исследование, посвящённое прогнозированию событий в потоковых журналах, неизбежно сталкивается с компромиссом между сложностью модели и её производительностью. Авторы демонстрируют, что ансамбли простых nn-грамм моделей могут достигать сопоставимой точности с более сложными архитектурами, такими как LSTM и Transformer, при этом обеспечивая значительно более высокую пропускную способность. Это закономерно — в погоне за элегантностью часто упускается из виду практическая ценность. Тим Бернерс-Ли однажды заметил: «Данные должны быть свободны». И в данном случае, свобода от излишней сложности позволяет системе обрабатывать больше данных и выдавать предсказания быстрее. Эта работа — очередное подтверждение того, что архитектура — это не схема, а компромисс, переживший деплой.

Что Дальше?

Представленная работа, демонстрируя конкурентоспособность ансамблей простых моделей nn-грамм в предсказании событий из потоковых журналов, лишь подтверждает старую истину: сложность не всегда равнозначна эффективности. Зачастую, элегантная простота оказывается более устойчивой к шуму реальных данных, чем замысловатые архитектуры, требующие постоянной подстройки и ресурсов. Не стоит забывать, что каждый новый «прорыв» неизбежно превращается в технический долг, требующий обслуживания и рефакторинга.

Однако, говорить о решении проблемы предсказания активности в потоковых журналах было бы преждевременно. Во-первых, остается открытым вопрос о масштабируемости предложенного алгоритма Promotion при обработке действительно больших объемов данных. Во-вторых, необходимо учитывать контекст: в реальных системах, производительность модели всегда будет ограничена скоростью обработки данных самой инфраструктурой. Зачастую, нам не нужно больше микросервисов — нам нужно меньше иллюзий.

Будущие исследования, вероятно, будут сосредоточены на адаптивных ансамблях, способных динамически перестраиваться в зависимости от характеристик потока событий. Но, скорее всего, это лишь способ переизобрести костыли с новым логотипом. В конечном счете, истинный прогресс заключается не в создании все более сложных моделей, а в понимании фундаментальных ограничений, накладываемых природой данных и возможностями их обработки.

Оригинал статьи: https://arxiv.org/pdf/2604.21629.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-24 21:55