Путешествие коммивояжера: Искусственный интеллект обходит экспертов

Автор: Денис Аветисян

Новый подход на основе обучения с подкреплением позволяет нейронным сетям находить оптимальные решения задачи коммивояжера, превосходя традиционные эвристики.

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Архитектура предложенного метода вычисляет векторное представление каждого узла графа на основе его координат, а затем, используя причинный трансформер-декодер и учитывая текущее и предыдущее состояния узлов (<span class="katex-eq" data-katex-display="false"> \boldsymbol{f}^{e}\_{t} </span> и <span class="katex-eq" data-katex-display="false"> \boldsymbol{f}^{e}\_{t+1} </span>), предсказывает значение RTG (<span class="katex-eq" data-katex-display="false"> \tilde{R}\_{t} </span>), раскрывая механизм динамического моделирования переходов в графовых структурах. — Архитектура предложенного метода вычисляет векторное представление каждого узла графа на основе его координат, а затем, используя причинный трансформер-декодер и учитывая текущее и предыдущее состояния узлов ( $\boldsymbol{f}^{e}\_{t}$ и $\boldsymbol{f}^{e}\_{t+1}$ ), предсказывает значение RTG ( $\tilde{R}\_{t}$ ), раскрывая механизм динамического моделирования переходов в графовых структурах.

Исследование демонстрирует эффективность оффлайн-обучения Decision Transformer для решения задачи нейронной комбинаторной оптимизации, используя метод Return-to-Go и оптимистичную оценку наград.

Комбинаторные задачи оптимизации, такие как задача коммивояжера, остаются сложными из-за своей NP-трудности, несмотря на десятилетия разработки эвристических алгоритмов. В работе ‘Offline Decision Transformers for Neural Combinatorial Optimization: Surpassing Heuristics on the Traveling Salesman Problem’ предложен подход, основанный на обучении с подкреплением в режиме offline, с использованием архитектуры Decision Transformer для синтеза и улучшения стратегий, основанных на существующих эвристических решениях. Авторы демонстрируют, что предложенный метод, интегрирующий Pointer Network и expectile регрессию для оптимистичной оценки Return-to-Go, позволяет получать туры более высокого качества, чем те, что генерируются классическими эвристиками. Не откроет ли это путь к более эффективному использованию накопленных знаний в области комбинаторной оптимизации и созданию самообучающихся систем для решения сложных задач?

Пределы Традиционных Подходов к Комбинаторной Оптимизации

Задача коммивояжера (TSP), являющаяся эталонной проблемой в области оптимизации, представляет собой серьезную сложность для традиционных алгоритмов из-за своей вычислительной сложности. Суть задачи — нахождение кратчайшего маршрута, проходящего через заданный набор городов и возвращающегося в исходную точку — быстро возрастает с увеличением числа городов. В то время как перебор всех возможных маршрутов гарантирует оптимальное решение, количество таких маршрутов растет факториально $O(n!)$ , что делает этот подход непрактичным даже для относительно небольших задач. Таким образом, задача коммивояжера служит своеобразным полигоном для разработки и тестирования новых алгоритмов и подходов к оптимизации, выявляя пределы возможностей традиционных методов и стимулируя поиск инновационных решений.

Традиционные эвристические методы, широко применяемые для решения задач комбинаторной оптимизации, зачастую демонстрируют ограниченную масштабируемость при увеличении размеров и сложности решаемых задач. Хотя эти методы способны находить приемлемые решения в разумные сроки для относительно небольших экземпляров, их эффективность резко снижается при столкновении с задачами, характеризующимися большим количеством переменных и ограничений. Адаптация к новым, ранее не встречавшимся сценариям также представляет сложность, поскольку большинство эвристик жестко запрограммированы на определенный тип задач и требуют существенной переработки для эффективной работы в иных условиях. В результате, при решении реальных, сложных задач комбинаторной оптимизации, традиционные подходы часто оказываются недостаточно эффективными и требуют значительных вычислительных ресурсов, что ограничивает их практическое применение.

Ограничения традиционных методов решения комбинаторных задач, таких как задача коммивояжера, стимулируют поиск альтернативных подходов на основе машинного обучения. Традиционные алгоритмы часто сталкиваются с трудностями при масштабировании и адаптации к сложным сценариям, что ограничивает их эффективность. Исследования показали, что применение методов машинного обучения позволяет значительно улучшить как качество получаемых решений, так и скорость их нахождения. В частности, разработанный подход демонстрирует оптимальность решений с погрешностью менее 10%, что свидетельствует о перспективности использования машинного обучения для решения сложных комбинаторных задач и открывает новые возможности для оптимизации в различных областях.

Decision Transformer: Обучение Без Взаимодействия

Представляем Decision Transformer — фреймворк обучения с подкреплением в автономном режиме (offline reinforcement learning), способный извлекать эффективные стратегии из статических наборов данных, содержащих решения, полученные с помощью эвристических методов. В отличие от традиционных подходов обучения с подкреплением, Decision Transformer не требует взаимодействия со средой в процессе обучения. Вместо этого, он использует существующие данные, что позволяет использовать накопленный опыт и знания для решения задач без необходимости проведения дополнительных экспериментов или сбора данных в реальном времени. Этот подход позволяет строить стратегии на основе уже существующих, пусть и не оптимальных, решений, и улучшать их без активного взаимодействия с внешней средой.

В отличие от традиционного обучения с подкреплением, Decision Transformer не требует взаимодействия со средой в процессе обучения. Это достигается за счет использования статических наборов данных, содержащих решения, полученные эвристическими методами или другими способами. Отсутствие необходимости в активном сборе данных делает Decision Transformer особенно эффективным для задач, где взаимодействие со средой дорогостоящее, опасное или непрактичное. Такой подход позволяет использовать накопленные знания и опыт, представленные в существующих наборах данных, для обучения эффективных стратегий принятия решений без необходимости проведения дополнительных экспериментов в реальной среде.

Предложенный подход расширяет возможности обучения с подкреплением без взаимодействия с окружающей средой (Offline RL) за счет эффективного моделирования последовательных процессов принятия решений в задачах комбинаторной оптимизации. В ходе экспериментов, Decision Transformer демонстрирует превосходство над четырьмя распространенными эвристическими алгоритмами — Nearest Neighbor (NN), Nearest Insertion (NI), Farthest Insertion (FI) и Simulated Annealing (SA) — при различных размерах задачи, а именно N=20, 50 и 100. Результаты показывают стабильное улучшение производительности Decision Transformer по сравнению с указанными эвристиками в данных задачах оптимизации.

Генерация Обучающих Данных с Разнообразными Эвристиками

Ключевым элементом нашего подхода является генерация высококачественного обучающего набора данных с использованием набора хорошо зарекомендовавших себя эвристик, включающих алгоритмы ближайшего соседа (Nearest Neighbor), ближайшей вставки (Nearest Insertion), самой дальней вставки (Farthest Insertion) и имитации отжига (Simulated Annealing). Эти эвристики, каждая из которых обладает своими особенностями в решении задачи коммивояжера, применяются для создания последовательностей действий, представляющих допустимые решения. Комбинация этих методов позволяет обеспечить разнообразие данных и, как следствие, повысить обобщающую способность обученной модели Decision Transformer.

Комбинирование различных эвристических методов — Ближайшего Соседа, Ближайшей Вставки, Самой Дальней Вставки и Имитации Отжига — позволяет создать надежный обучающий набор данных. Использование сильных сторон каждого из этих алгоритмов обеспечивает разнообразие в генерируемых последовательностях действий, представляющих решения задачи коммивояжера. Это разнообразие критически важно для обучения Decision Transformer обобщенной политике, способной эффективно решать широкий спектр экземпляров задачи, а не только те, которые были сгенерированы одним конкретным алгоритмом. Такой подход повышает устойчивость и адаптивность обученной модели к новым, ранее не встречавшимся задачам.

Для обучения модели используются последовательности действий, генерируемые эвристическими алгоритмами решения задачи коммивояжера. Каждая последовательность представляет собой валидное решение, определяющее порядок посещения городов. Эти решения служат основой для обучения Decision Transformer, предоставляя данные для формирования обобщенной стратегии нахождения оптимальных маршрутов. Алгоритмы, такие как Nearest Neighbor, Nearest Insertion, Farthest Insertion и Simulated Annealing, генерируют разнообразные решения, обеспечивая широту и полноту обучающей выборки.

Оптимистичное Прогнозирование Return-to-Go для Усиления Исследований

Для повышения эффективности Decision Transformer используется регрессия Expectile, позволяющая прогнозировать оптимистичные значения Return-to-Go (RTG). Вместо предсказания среднего значения будущей награды, модель обучается оценивать верхнюю квантиль распределения, что стимулирует исследование путей с потенциально более высокой наградой. Этот подход позволяет направлять процесс обучения к обнаружению решений, которые могли бы быть упущены при использовании традиционных методов, основанных на минимизации ошибки предсказания. По сути, модель становится более склонной к риску и исследованию, что приводит к более качественным и разнообразным решениям, расширяя пространство поиска и позволяя находить оптимальные стратегии в сложных задачах.

Исследование демонстрирует, что целенаправленное стимулирование поиска путей с более высокой ожидаемой наградой позволяет модели находить решения, которые могли бы остаться незамеченными при использовании традиционных методов. Вместо следования наиболее вероятному пути, модель поощряется к изучению альтернативных стратегий, даже если их первоначальная оценка ниже. Этот подход расширяет область поиска и позволяет обнаруживать неочевидные, но потенциально более эффективные решения, что особенно важно в сложных задачах, где оптимальный путь не всегда является наиболее очевидным. Такое стимулирование исследования открывает возможности для преодоления локальных оптимумов и достижения более качественных результатов, существенно превосходящих производительность стандартных эвристических алгоритмов.

Механизм оптимистичного предсказания Return-to-Go (RTG) значительно повышает качество генерируемых решений и расширяет пространство поиска модели. В ходе исследований было установлено, что применение данного подхода позволяет достичь примерно двукратного улучшения результатов по сравнению с эвристикой имитации отжига и демонстрирует стабильное превосходство над функцией потерь среднеквадратичной ошибки при значении $α = 0.5$ . Данное повышение эффективности обусловлено тем, что модель, ориентируясь на оптимистичные прогнозы RTG, исследует более перспективные пути, что позволяет находить решения, которые могли бы быть упущены при использовании традиционных методов. Таким образом, оптимистичное предсказание RTG выступает в качестве эффективного инструмента для улучшения процесса обучения и повышения качества получаемых результатов.

Pointer Networks для Дискретного Выбора Действий

Для эффективного решения задачи коммивояжера, характеризующейся дискретным пространством действий, была осуществлена интеграция сети-указателя (Pointer Network) в архитектуру Decision Transformer. Данный подход позволяет модели динамически выбирать следующий город для посещения в маршруте, обеспечивая генерацию валидных и выполнимых решений. Сеть-указатель, функционируя как механизм внимания, фокусируется на релевантных городах в каждый момент времени, что существенно упрощает процесс поиска оптимального маршрута в сравнении с традиционными методами. Интеграция с Decision Transformer обеспечивает возможность учитывать прошлый опыт и предсказывать наиболее перспективные действия, что приводит к повышению эффективности и снижению вычислительных затрат при решении сложной комбинаторной задачи.

Сеть-указатель позволяет модели динамически выбирать следующий город для посещения в маршруте, что обеспечивает генерацию валидных и выполнимых решений для задачи коммивояжера. Вместо предсказания всего маршрута сразу, модель последовательно указывает на следующий пункт назначения из оставшегося списка непосещенных городов. Этот механизм гарантирует, что каждая точка будет посещена только один раз, а итоговый маршрут будет соответствовать всем ограничениям задачи. Такой подход позволяет избежать невозможных или неоптимальных решений, характерных для методов, не учитывающих дискретность пространства действий, и значительно повышает эффективность алгоритма в поиске близких к оптимальным маршрутов.

Сочетание архитектуры Decision Transformer и сети-указателя демонстрирует значительный потенциал в решении широкого спектра задач комбинаторной оптимизации. Исследования показывают, что данный подход позволяет находить решения, отличающиеся от оптимальных не более чем на 10%, что является весьма впечатляющим результатом для сложных задач, таких как задача коммивояжера. Ключевым преимуществом является способность модели динамически выбирать следующие шаги в процессе оптимизации, эффективно исследуя пространство возможных решений и избегая невалидных или неоптимальных вариантов. Полученные результаты открывают перспективы для применения данной комбинации в логистике, планировании ресурсов и других областях, где требуется поиск оптимальных решений из большого числа возможных комбинаций.

Исследование демонстрирует, что применение фреймворка Decision Transformer к задаче коммивояжера позволяет превзойти традиционные эвристические методы. Подобно тому, как инженер разбирает сложный механизм, чтобы понять его работу, авторы статьи используют существующие решения, полученные эвристиками, в качестве обучающих данных. Кен Томпсон однажды заметил: «В конечном счете, все сводится к упрощению». Эта мысль находит отражение в подходе, где сложные пути оптимизации заменяются обучением на основе уже известных, пусть и не идеальных, решений. Использование goal-conditioned обучения и оптимистичной оценки вознаграждения позволяет системе не просто имитировать известные решения, а находить новые, более эффективные пути, подобно тому, как опытный реверс-инженер находит уязвимости в системе.

Куда Дальше?

Представленная работа, по сути, продемонстрировала, что даже алгоритмы, созданные для поиска субоптимальных решений, могут служить основой для обучения систем, превосходящих их самих. Неожиданный поворот, когда «неудача» становится ступенькой к успеху. Однако, стоит признать, что оптимизация для задачи коммивояжера — лишь первый шаг. Истинный вызов заключается в масштабировании этого подхода к задачам, где пространство решений экспоненциально сложнее, а доступные данные — фрагментированы и зашумлены. Как поведет себя эта архитектура в условиях реальной неопределенности, когда «возврат к цели» становится нечетким понятием?

Ключевым ограничением остается зависимость от качества «офлайн» данных. Что произойдет, если эвристики, на которых обучается система, систематически дают сбой в определенных областях пространства поиска? Необходимо исследовать методы повышения робастности и адаптивности, позволяющие системе самостоятельно обнаруживать и исправлять ошибки в исходных данных. Более того, интересно изучить возможность комбинирования «офлайн» обучения с «онлайн» дообучением, позволяющим системе совершенствоваться в процессе взаимодействия с окружающей средой.

В конечном счете, представленная работа указывает на перспективное направление в области нейронной комбинаторной оптимизации. Но не стоит забывать, что любая система оптимизации — это лишь приближение к идеалу. Истинная ценность заключается не в достижении оптимального решения, а в понимании границ применимости данной системы и умении адаптироваться к изменяющимся условиям. Подобно алхимику, стремящемуся к философскому камню, мы продолжаем искать способы преобразования хаоса в порядок.

Оригинал статьи: https://arxiv.org/pdf/2603.25241.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-27 17:29