Глубокие сети: как обучение меняет правила масштабирования

Автор: Денис Аветисян


Новое исследование раскрывает скрытые механизмы обучения глубоких нейронных сетей, объясняя, почему некоторые методы масштабирования работают, а другие — нет.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
В исследовании показано, что при обучении глубоких остаточных сетей на CIFAR-10, стандартные методы приводят к коллапсу обновления внутренних признаков со скоростью <span class="katex-eq" data-katex-display="false">1/\sqrt{L}</span>, где <i>L</i> - глубина сети, что препятствует обучению первых слоев при увеличении глубины; однако, применение адаптивного коэффициента обучения <span class="katex-eq" data-katex-display="false">\eta_1 = \eta_c \sqrt{L}</span> восстанавливает активное обучение признаков и устраняет эффект исчезновения градиентов, обеспечивая согласованное улучшение как обучающей, так и тестовой ошибки при различных глубинах и ширинах сети, и демонстрируя восстановление переноса гиперпараметров по глубине, что подтверждено более низкой обучающей и тестовой ошибкой, а также более высокой точностью на сети глубиной 64 и шириной 128 по сравнению с традиционными подходами.
В исследовании показано, что при обучении глубоких остаточных сетей на CIFAR-10, стандартные методы приводят к коллапсу обновления внутренних признаков со скоростью 1/\sqrt{L}, где L — глубина сети, что препятствует обучению первых слоев при увеличении глубины; однако, применение адаптивного коэффициента обучения \eta_1 = \eta_c \sqrt{L} восстанавливает активное обучение признаков и устраняет эффект исчезновения градиентов, обеспечивая согласованное улучшение как обучающей, так и тестовой ошибки при различных глубинах и ширинах сети, и демонстрируя восстановление переноса гиперпараметров по глубине, что подтверждено более низкой обучающей и тестовой ошибкой, а также более высокой точностью на сети глубиной 64 и шириной 128 по сравнению с традиционными подходами.

В работе представлена математически строгая теория динамики обучения признаков (Neural Feature Dynamics) для анализа глубоких ResNet, демонстрирующая исчезновение взаимодействия прямого и обратного распространения с увеличением глубины сети.

Несмотря на эмпирический успех глубокого обучения, масштабирование моделей часто сталкивается с проблемами нестабильности и снижения отдачи. В работе ‘Understanding Scaling Laws in Deep Neural Networks via Feature Learning Dynamics’ предложен новый математический аппарат — Neural Feature Dynamics (NFD) — для анализа динамики обучения признаков в глубоких сетях ResNet. Показано, что глубина сети приводит к исчезновению взаимодействия прямой и обратной связи, объясняя как успех, так и провал законов масштабирования. Возможно ли, используя эти знания, создать более эффективные и стабильные архитектуры глубокого обучения, способные полностью реализовать потенциал масштабирования?


За пределами законов масштабирования: новая основа для обучения признакам

Наблюдения, полученные в ходе изучения так называемых “законов масштабирования” в нейронных сетях, указывают на то, что простое увеличение размера модели не является долгосрочным решением для достижения искусственного интеллекта. Эксперименты показали, что, хотя увеличение количества параметров действительно приводит к улучшению производительности на определённых задачах, эта тенденция замедляется и требует экспоненциального увеличения вычислительных ресурсов для достижения незначительных улучшений. Это ставит под сомнение концепцию неограниченного масштабирования как единственного пути к созданию более разумных систем. Данные закономерности наводят на мысль, что для дальнейшего прогресса необходимы новые подходы к архитектуре и обучению нейронных сетей, которые не полагаются исключительно на увеличение размера модели, а фокусируются на более эффективном использовании доступных ресурсов и улучшении способности к обобщению.

Существующие теоретические подходы к изучению глубоких нейронных сетей, такие как бесконечно-широкий нейронный тангенциальный ядро NTK, зачастую опираются на упрощающие предположения, которые перестают быть справедливыми при увеличении глубины сети. Эти модели, хотя и дают ценные инсайты в пределе бесконечной ширины, не способны адекватно описать сложное поведение глубоких ResNet, где взаимодействие между слоями и нелинейные эффекты становятся доминирующими. В частности, предположение о стационарности ядра NTK нарушается в глубоких сетях, что приводит к неточностям в предсказаниях и затрудняет понимание процесса обучения. Таким образом, для адекватного анализа обучения глубоких сетей необходимы новые подходы, учитывающие динамику признаков и нелинейные взаимодействия в глубоких архитектурах.

Предлагается новый математически строгий подход, получивший название “Динамика нейронных признаков”, для изучения процесса обучения признаков в глубоких ResNet-сетях. Исследование проводится в пределе бесконечной глубины сети (L \rightarrow \in fty), что позволяет выявить фундаментальные закономерности формирования признаков, не зависящие от конкретной архитектуры или размера сети. В рамках данной теории, динамика признаков описывается с помощью дифференциальных уравнений, позволяющих предсказывать, как признаки эволюционируют на разных слоях сети в процессе обучения. Такой подход позволяет выйти за рамки эмпирических закономерностей масштабирования и получить более глубокое понимание механизмов, лежащих в основе способности глубоких сетей к обучению и обобщению.

Эксперименты на CIFAR-10 показали, что разработанный метод depth-<span class="katex-eq" data-katex-display="false">\mu\mu P</span> эффективно восстанавливает градиентный поток в глубоких сетях, обеспечивая сходимость траекторий прямого и обратного распространения, в то время как стандартные и ResNet-архитектуры подвержены проблеме затухающих градиентов и переобучению при увеличении глубины.
Эксперименты на CIFAR-10 показали, что разработанный метод depth-\mu\mu P эффективно восстанавливает градиентный поток в глубоких сетях, обеспечивая сходимость траекторий прямого и обратного распространения, в то время как стандартные и ResNet-архитектуры подвержены проблеме затухающих градиентов и переобучению при увеличении глубины.

Режим Depth-μP: точка сходимости динамики

Наш анализ выявил режим масштабирования Depth-μP, который является критически важным для обеспечения стабильного обучения признаков в глубоких нейронных сетях. Этот режим характеризуется определенным соотношением между глубиной сети (количество слоев) и параметром μ, определяющим скорость обучения. Стабильность обучения признаков в этом режиме достигается за счет поддержания баланса между скоростью распространения сигнала и скоростью изменения весов, предотвращая как затухание, так и взрыв градиентов. Отклонение от режима Depth-μP может приводить к нестабильности обучения, ухудшению обобщающей способности и снижению эффективности глубокой нейронной сети.

В рамках исследуемого режима `Depth-μP` нами выявлена структура, описываемая как стохастическая система прямого и обратного распространения (Forward-Backward Stochastic System). Эта система характеризует взаимосвязанную эволюцию векторов признаков и градиентов в процессе обучения глубоких нейронных сетей. В частности, она учитывает стохастическую природу процесса обучения, вызванную мини-пакетной оптимизацией и случайной инициализацией весов. Анализ данной системы позволяет описывать динамику изменения признаков и градиентов на каждом шаге обучения, а также выявлять условия, необходимые для обеспечения стабильности и сходимости процесса обучения.

При стремлении ширины сети n к бесконечности, координаты векторов признаков и градиентов становятся асимптотически независимыми. Это свойство значительно упрощает анализ динамики обучения, позволяя рассматривать каждую координату как независимую случайную величину. Независимость координат облегчает вычисление статистических свойств векторов и градиентов, что, в свою очередь, позволяет получить более точные оценки скорости сходимости и стабильности обучения глубоких нейронных сетей. Данное приближение позволяет использовать методы случайных матриц и статистической физики для изучения сходимости и обобщающей способности глубоких моделей.

Увеличение ширины сети до 256 снижает нестабильность и улучшает согласованность траекторий как в стандартных, так и в μμP-ResNet, подтверждая теоретически предсказанное восстановление GIA и демонстрируя, что увеличение ширины способствует сглаживанию динамики и усилению соответствия между стандартным и отсоединенным подходами.
Увеличение ширины сети до 256 снижает нестабильность и улучшает согласованность траекторий как в стандартных, так и в μμP-ResNet, подтверждая теоретически предсказанное восстановление GIA и демонстрируя, что увеличение ширины способствует сглаживанию динамики и усилению соответствия между стандартным и отсоединенным подходами.

Строгая сходимость: инструменты и техники

Для анализа коллективного поведения признаков используются методы прострации хаоса, в частности, синхронное связывание (Synchronous Coupling). Данный подход позволяет исследовать динамику взаимодействия большого числа частиц или агентов, моделирующих признаки, и описывать их эволюцию во времени. Синхронное связывание предполагает одновременное обновление состояний всех частиц на каждом шаге итерации, что упрощает математический анализ и позволяет получить аналитические оценки, необходимые для доказательства сходимости процесса обучения. \mathbb{E}[X_t] \rightarrow \mathbb{E}[X_{\in fty}] где X_t — состояние признака на шаге t, а \mathbb{E}[ \cdot ] — математическое ожидание.

Доказательство сходимости алгоритма опирается на дискретное неравенство Гронволла и свойство Липшицевой непрерывности. Использование дискретного неравенства Гронволла \sum_{k=1}^{n} a_k \leq C + \sum_{k=1}^{n} \in t_0^{k} a_t dt позволяет установить верхние границы на моменты распределения параметров модели в процессе обучения. Свойство Липшицевой непрерывности гарантирует, что небольшие изменения входных данных приводят к небольшим изменениям выходных данных, что необходимо для контроля роста моментов и обеспечения сходимости алгоритма обучения.

Применяемый строгий математический подход позволяет доказать сходимость процесса обучения представлений в глубоких нейронных сетях в режиме Depth-μP. Данный режим характеризуется определенной зависимостью глубины сети и параметров обучения, обеспечивающей стабильность и предсказуемость процесса. Полученные оценки сходимости служат теоретической базой для анализа и понимания механизмов обучения глубоких сетей, позволяя установить формальные гарантии качества полученных представлений и обосновать эффективность используемых алгоритмов оптимизации.

Эксперименты с ResNet на CIFAR-10 показали, что ошибка аппроксимации уменьшается как <span class="katex-eq" data-katex-display="false">\mathcal{O}(1/L+1/n)</span> при увеличении глубины и ширины сети, подтверждая возможность взаимозамены этих параметров как при инициализации, так и в процессе обучения.
Эксперименты с ResNet на CIFAR-10 показали, что ошибка аппроксимации уменьшается как \mathcal{O}(1/L+1/n) при увеличении глубины и ширины сети, подтверждая возможность взаимозамены этих параметров как при инициализации, так и в процессе обучения.

Расширение рамок: тензорные программы и за их пределами

В основе разработанной структуры «Динамики нейронных признаков» лежит формализм «Тензорных программ», обеспечивающий точное описание как прямого, так и обратного распространения вычислений в нейронных сетях. Этот подход позволяет рассматривать операции в сети как манипуляции с тензорами, что дает возможность формально анализировать поведение сети и выводить предсказуемые результаты для предельных случаев. В отличие от традиционных методов, «Тензорные программы» не ограничиваются рассмотрением отдельных слоев или операций, а предоставляют унифицированный способ описания всей вычислительной цепочки, что открывает возможности для более глубокого понимания принципов работы нейронных сетей и разработки новых алгоритмов обучения. Такой подход особенно полезен при анализе предельного поведения сетей в условиях бесконечной ширины, позволяя получать аналитические решения, которые сложно или невозможно получить с помощью численных методов.

Центральным элементом анализа поведения переменных в рамках формализма Тензорных Программ является так называемая Главная Теорема. Она позволяет точно описывать динамику этих переменных в пределе бесконечной ширины сети, что принципиально важно для понимания масштабируемости и обобщающей способности глубоких нейронных сетей. В отличие от существующих подходов, таких как анализ с использованием ядра нейронных касательных (Neural Tangent Kernel), Главная Теорема не полагается на приближения среднего поля и позволяет выявлять более тонкие эффекты, возникающие при неограниченном росте числа параметров. \lim_{N \to \in fty} ... Данный результат открывает новые возможности для теоретического изучения и оптимизации архитектур глубокого обучения, а также для разработки более эффективных алгоритмов обучения, учитывающих особенности поведения переменных в пределе бесконечной ширины.

Полученные результаты анализа, основанного на формализме тензорных программ, вступают в противоречие с общепринятыми представлениями, заложенными в концепции бесконечно широкого ядра нейронных касательных (Neural Tangent Kernel). Традиционные подходы, опирающиеся на это ядро, предполагают, что поведение нейронных сетей в пределе бесконечной ширины сводится к линейной задаче, что позволяет использовать инструменты линейной алгебры для их анализа. Однако, текущее исследование демонстрирует, что в рамках предложенной структуры `Neural Feature Dynamics` это не так. Более того, анализ ставит под сомнение обоснованность допущений, лежащих в основе параметризаций среднего поля (Mean-Field Parameterizations), которые широко используются для упрощения анализа глубоких нейронных сетей. Эти противоречия указывают на необходимость пересмотра существующих теоретических основ и разработки новых подходов к пониманию динамики обучения в глубоком обучении.

Обучение ResNets на CIFAR-10 с использованием онлайн SGD демонстрирует, что минимальные собственные значения матриц ковариации <span class="katex-eq" data-katex-display="false"> \bm{\Sigma}_{t}^{(k)} </span> и <span class="katex-eq" data-katex-display="false"> \bm{\Theta}_{t}^{(k)} </span> остаются строго положительными, подтверждая предположение 1, при этом их значения уменьшаются в процессе обучения, но увеличиваются с расширением ширины сети, указывая на то, что недостаточно широкие сети (например, шириной 512) могут приводить к значениям, близким к нулю.
Обучение ResNets на CIFAR-10 с использованием онлайн SGD демонстрирует, что минимальные собственные значения матриц ковариации \bm{\Sigma}_{t}^{(k)} и \bm{\Theta}_{t}^{(k)} остаются строго положительными, подтверждая предположение 1, при этом их значения уменьшаются в процессе обучения, но увеличиваются с расширением ширины сети, указывая на то, что недостаточно широкие сети (например, шириной 512) могут приводить к значениям, близким к нулю.

Перспективы развития: к более эффективному глубокому обучению

Исследование, опирающееся на возможности таких инструментов, как большие языковые модели, предлагает принципиально новый взгляд на эффективность глубоких нейронных сетей. Эти модели не только облегчили представление результатов и выявление релевантных работ, но и позволили систематизировать анализ принципов обучения и оптимизации архитектур. Благодаря этому стало возможным рассматривать эффективность не просто как вопрос оптимизации параметров, а как результат динамического формирования признаков и адаптации сети к данным. Такой подход открывает перспективы для разработки более устойчивых и экономичных архитектур, способных решать сложные задачи при минимальном использовании вычислительных ресурсов и энергии.

Изучение динамики обучения признакам открывает новые возможности для разработки более устойчивых и экономичных архитектур глубокого обучения. Понимание того, как нейронные сети извлекают и используют признаки, позволяет создавать модели, требующие меньше вычислительных ресурсов и обладающие повышенной устойчивостью к шуму и изменениям во входных данных. Вместо слепого увеличения размера сети, исследователи теперь могут целенаправленно формировать структуру сети, оптимизируя процесс обучения признакам и снижая потребность в огромных массивах данных для достижения высокой производительности. Такой подход обещает не только снижение энергопотребления и стоимости обучения, но и создание более надежных и адаптивных систем искусственного интеллекта, способных эффективно функционировать в реальных условиях.

Предстоящие исследования направлены на практическое применение полученных знаний для решения актуальных задач в различных областях, включая обработку изображений, распознавание речи и анализ данных. Ученые планируют изучить возможности оптимизации существующих архитектур глубокого обучения и разработки принципиально новых моделей, способных достигать высокой точности при минимальных вычислительных затратах. Особое внимание будет уделено исследованию пределов возможностей глубокого обучения, выявлению факторов, ограничивающих его эффективность, и поиску путей преодоления этих ограничений. Это позволит не только повысить производительность алгоритмов, но и расширить сферу их применения, сделав технологии искусственного интеллекта более доступными и эффективными для широкого круга пользователей и предприятий.

В архитектурах ResNet предварительная активация обеспечивает стабильность признаков при увеличении глубины, что приводит к более быстрой сходимости и снижению тестовой ошибки по сравнению с пост-активацией, как показано на примере сети глубиной 64 и шириной 128, обученной на CIFAR-10 с использованием SGD.
В архитектурах ResNet предварительная активация обеспечивает стабильность признаков при увеличении глубины, что приводит к более быстрой сходимости и снижению тестовой ошибки по сравнению с пост-активацией, как показано на примере сети глубиной 64 и шириной 128, обученной на CIFAR-10 с использованием SGD.

Исследование динамики обучения признаков в глубоких нейронных сетях, представленное в работе, демонстрирует, что кажущаяся стабильность масштабируемых систем — это лишь иллюзия, маскирующая надвигающиеся изменения. Утверждается, что глубина сети приводит к ослаблению взаимодействия между прямым и обратным распространением, что объясняет как успех, так и провал законов масштабирования. Это напоминает о словах Марвина Мински: «Наиболее важные открытия — это те, которые заставляют нас переосмыслить наши фундаментальные предположения». Подобно тому, как Мински призывал к переосмыслению основ искусственного интеллекта, данная работа заставляет пересмотреть наше понимание стабильности и масштабируемости глубоких нейронных сетей, указывая на то, что долговременная стабильность может быть предвестником скрытых катастроф, а не признаком надежности.

Куда Ведет Эта Тропа?

Представленная работа, анализируя динамику обучения признаков в глубоких сетях ResNet, выявляет закономерности, которые, как и любое пророчество, содержат в себе зерна будущего сбоя. Понимание исчезновения взаимодействия «вперед-назад» с увеличением глубины сети — это не триумф, а скорее осознание границ применимости текущих масштабирований. Мониторинг этих взаимодействий, возможно, станет не инструментом оптимизации, а способом осознанного страха перед непредсказуемостью.

Очевидно, что анализ, основанный на предельном переходе к бесконечной ширине, неизбежно упрощает реальность. Настоящая устойчивость, вероятно, не в достижении идеальных масштабирований, а в способности адаптироваться к их провалам. Следующим шагом видится не поиск «волшебной формулы», а разработка методов, способных выявлять и прогнозировать моменты истины — те точки, где предсказуемость рушится, и система вынуждена проявлять настоящую гибкость.

Экосистема глубокого обучения, как и любая сложная система, не строится, а выращивается. Данная работа — лишь один из множества ростков, и дальнейшее развитие потребует не только математической строгости, но и готовности признать, что истинное понимание приходит через осознание собственной неопределенности.


Оригинал статьи: https://arxiv.org/pdf/2512.21075.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-26 21:16