Нейросети и тайна обобщения: как переобучение становится преимуществом

Автор: Денис Аветисян


Новое исследование проливает свет на удивительную способность сильно перепараметризованных нейронных сетей к обобщению, демонстрируя, что это результат сложного взаимодействия оптимизации, структуры сети и ландшафта потерь.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал
Точность тестирования и разрыв обобщения демонстрируют зависимость от конфигурации оптимизатора: синие столбцы отражают достигнутую точность, в то время как оранжевые столбцы наглядно иллюстрируют величину расхождения между обучающей и тестовой выборками, указывая на потенциальные проблемы с обобщающей способностью модели.
Точность тестирования и разрыв обобщения демонстрируют зависимость от конфигурации оптимизатора: синие столбцы отражают достигнутую точность, в то время как оранжевые столбцы наглядно иллюстрируют величину расхождения между обучающей и тестовой выборками, указывая на потенциальные проблемы с обобщающей способностью модели.

Исследование рассматривает взаимосвязь между перепараметризацией, неявной регуляризацией и феноменом двойного спуска в контексте обобщающей способности нейронных сетей.

Несмотря на предсказания классической статистической теории обучения о переобучении сильно перепараметризованных моделей, современные глубокие нейронные сети демонстрируют высокую обобщающую способность. В работе ‘Implicit Regularization and Generalization in Overparameterized Neural Networks’ исследуется роль динамики оптимизации и неявной регуляризации в обеспечении обобщения в нейронных сетях с избыточным числом параметров. Полученные результаты показывают, что обобщающая способность тесно связана с взаимодействием архитектуры сети, алгоритмов оптимизации и геометрии ландшафта потерь, при этом малые размеры пакетов и разреженные подсети демонстрируют лучшие результаты. Какие новые теоретические рамки необходимы для объяснения обобщения в высокоразмерных моделях и какие оптимизационные стратегии могут быть использованы для дальнейшего повышения эффективности глубокого обучения?


Парадокс современной глубокой нейронной сети

Традиционная статистическая теория обучения предсказывает плохую обобщающую способность для моделей с большим количеством параметров. Однако, глубокое обучение демонстрирует впечатляющие результаты, используя именно перепараметризованные модели — сети с миллионами, а иногда и миллиардами связей. Этот парадокс противоречит устоявшимся представлениям об обобщении, основанным на таких понятиях, как размер VC и равномерные границы сходимости ε. По сути, стандартные теоретические рамки утверждают, что модель с чрезмерным количеством параметров должна переобучаться на тренировочных данных и плохо работать на новых, невидимых данных. Успех глубокого обучения, напротив, указывает на то, что существуют неявные механизмы, позволяющие этим сложным моделям эффективно обобщать знания, требуя пересмотра фундаментальных предположений о природе обобщения и необходимости разработки новых теоретических подходов.

Устоявшиеся границы, определяемые размерностью VC и теоремами о равномерной сходимости, предсказывают ухудшение обобщающей способности моделей с растущим числом параметров. Однако, глубокое обучение демонстрирует обратное — успешное применение перепараметризованных моделей, что напрямую противоречит этим фундаментальным принципам статистической теории обучения. Данное несоответствие ставит под сомнение базовые предположения о взаимосвязи между сложностью модели и её способностью к обобщению, указывая на необходимость пересмотра существующих теоретических рамок. Фактически, наблюдаемый успех глубокого обучения предполагает наличие неявных механизмов, позволяющих эффективно справляться с проблемой переобучения, несмотря на превышение установленных границ, и требует поиска новых теоретических инструментов для анализа и понимания этого явления.

Успех глубокого обучения, несмотря на противоречие классическим теоретическим предсказаниям, указывает на наличие неявных механизмов, определяющих способность моделей к обобщению. Традиционные подходы, основанные на понятии размерности VC и равномерной сходимости, не могут адекватно объяснить высокую производительность переобученных нейронных сетей на новых данных. Это заставляет исследователей пересматривать фундаментальные представления о том, как происходит обобщение, и искать объяснения, выходящие за рамки существующих теоретических моделей. Необходимо исследовать, какие скрытые свойства архитектуры сетей, алгоритмов обучения или структуры данных позволяют достигать хорошей производительности, несмотря на высокую сложность и потенциальную переобученность. Понимание этих механизмов является ключевой задачей для дальнейшего развития теории глубокого обучения и создания более надежных и эффективных моделей.

Первые попытки понять феномен успешной работы глубокого обучения были сосредоточены на изучении геометрии поверхности потерь. Ученые предполагали, что ключ к обобщающей способности этих моделей кроется в особенностях ландшафта, по которому движется процесс оптимизации. Анализировались такие характеристики, как наличие широких и плоских минимумов, позволяющих модели устойчиво работать с различными данными, а также сложность и связность этого ландшафта. Исследования фокусировались на поиске закономерностей между геометрией поверхности потерь и способностью модели к обобщению, стремясь выявить, какие конкретно характеристики оптимизационного процесса способствуют высокой производительности, несмотря на перепараметризацию. Этот подход позволил обнаружить, что поверхность потерь, соответствующая успешным моделям глубокого обучения, часто имеет неожиданные свойства, отличающиеся от тех, которые предсказывались классической статистической теорией.

Анализ ландшафта потерь показывает, что модели с малым размером пакета более устойчивы к возмущениям весов, демонстрируя меньшее увеличение потерь при различных σ, в то время как сравнение главных собственных значений матрицы Гессе выявляет 11.8-кратную разницу в кривизне между моделями.
Анализ ландшафта потерь показывает, что модели с малым размером пакета более устойчивы к возмущениям весов, демонстрируя меньшее увеличение потерь при различных σ, в то время как сравнение главных собственных значений матрицы Гессе выявляет 11.8-кратную разницу в кривизне между моделями.

Плоские минимумы и обобщающая способность: новая гипотеза

Исследования показали, что «плоские минимумы» — области с низкой кривизной на поверхности потерь — способствуют лучшей обобщающей способности моделей машинного обучения. В отличие от «острых минимумов» с высокой кривизной, характеризующихся значительным изменением потерь при небольших отклонениях от оптимальной точки, плоские минимумы обеспечивают устойчивость к изменениям во входных данных и, следовательно, улучшают способность модели к предсказаниям на новых, ранее не встречавшихся данных. Низкая кривизна в области минимума, измеряемая, например, с помощью собственных значений матрицы Гессе, указывает на то, что модель менее чувствительна к незначительным изменениям параметров, что способствует более надежной работе в реальных условиях.

Острые минимумы, характеризующиеся высокой кривизной, измеряемой собственными значениями гессиана, демонстрируют корреляцию с ухудшением обобщающей способности модели. Исследования показали, что использование острых минимумов приводит к увеличению разрыва в обобщающей способности между обучением на небольших и больших пакетах данных, составляя в среднем 1.61 процентный пункт. Это указывает на то, что оптимизация, приводящая к острым минимумам, может приводить к переобучению и снижению производительности на невидимых данных, в отличие от оптимизации, достигающей более плоских минимумов.

Исследования показали, что геометрия пространства потерь, в частности, кривизна минимумов, является критическим фактором, определяющим успешность обучения моделей. Высокая кривизна минимумов, измеряемая собственными значениями матрицы Гессе, коррелирует с ухудшением способности модели к обобщению на новых данных, приводя к увеличению разрыва в производительности между обучением на небольших и больших пакетах данных — до 1.61 процентного пункта. В то же время, плоские минимумы, характеризующиеся низкой кривизной, демонстрируют более устойчивое обобщение, что указывает на значимую роль формы пространства потерь в достижении высокой производительности модели. Анализ этих минимумов проводился на стандартных наборах данных, таких как MNIST и CIFAR-10, с использованием сверточных нейронных сетей, позволивший достичь точности до 86% на CIFAR-10.

Для анализа поведения плоских и острых минимумов в пространстве потерь потребовалось использование новых инструментов и стандартных наборов данных, таких как MNIST и CIFAR-10. Использование этих данных позволило провести количественную оценку влияния геометрии пространства потерь на обобщающую способность моделей. В частности, при обучении сверточных нейронных сетей (CNN) на наборе данных CIFAR-10 удалось достичь точности тестирования до 86%, что подтверждает возможность эффективного обучения и анализа моделей на данных с известными характеристиками.

Кривые двойного спуска для многослойных персептронов (MLP) на MNIST и свёрточных нейронных сетей (CNN) на CIFAR-10 демонстрируют, что увеличение количества параметров может сначала привести к снижению, а затем к увеличению ошибки, особенно при превышении размера обучающей выборки.
Кривые двойного спуска для многослойных персептронов (MLP) на MNIST и свёрточных нейронных сетей (CNN) на CIFAR-10 демонстрируют, что увеличение количества параметров может сначала привести к снижению, а затем к увеличению ошибки, особенно при превышении размера обучающей выборки.

Неявная регуляризация и сила стохастического градиентного спуска

Стохастический градиентный спуск (SGD), несмотря на свою простоту, проявляет эффект “неявной регуляризации”. В процессе оптимизации, SGD имеет тенденцию направлять решение к плоским минимумам в пространстве параметров. В отличие от стремления к острым минимумам, которые часто приводят к переобучению, плоские минимумы обладают большей устойчивостью к небольшим изменениям входных данных и, следовательно, улучшают способность модели к предсказаниям на новых, ранее не встречавшихся данных. Этот эффект достигается за счет стохастической природы алгоритма, которая вносит шум в процесс обновления весов, препятствуя “застреванию” в локальных минимумах и способствуя исследованию более широких областей пространства параметров.

Неявная регуляризация, проявляемая стохастическим градиентным спуском (SGD), ограничивает сложность модели даже в условиях высокой перепараметризации. Это означает, что SGD, в процессе оптимизации, склоняется к решениям с меньшей сложностью, что способствует обобщающей способности модели на новых данных. В перепараметризованных моделях, где количество параметров значительно превышает количество обучающих примеров, SGD эффективно находит решения, которые хорошо работают не только на обучающем наборе, но и на тестовых данных, предотвращая переобучение и улучшая способность модели к адаптации к ранее не встречавшимся ситуациям.

Теоретические рамки, такие как ядро нейронных касательных (Neural Tangent Kernel, NTK), позволяют объяснить поведение стохастического градиентного спуска (SGD) в бесконечно широких нейронных сетях и его вклад в явление неявной регуляризации. Экспериментальные данные демонстрируют, что относительное изменение параметров сети уменьшается в 11.3 раза при увеличении ширины сети с 32 до 4096. Это указывает на то, что процесс оптимизации сам по себе оказывает существенное влияние на обобщающую способность модели, ограничивая сложность и способствуя нахождению решений в областях с низкой кривизной.

Традиционная статистическая теория обучения предполагает, что для достижения хорошей обобщающей способности модели необходимо ограничение её сложности, особенно в условиях перепараметризации. Однако, наблюдаемые результаты в глубоком обучении демонстрируют, что перепараметризованные модели, оптимизируемые с помощью стохастического градиентного спуска (SGD), часто достигают высокой точности, несмотря на кажущееся противоречие с теоретическими предсказаниями. Это указывает на то, что сам процесс оптимизации, а именно свойства SGD, играет ключевую роль в преодолении ограничений, предсказываемых классической теорией. SGD, в процессе поиска минимума функции потерь, не просто находит решение, но и формирует специфическую структуру весов модели, способствующую обобщающей способности, даже если модель имеет избыточное количество параметров.

Анализ режима NTK показывает, что относительное изменение параметров монотонно уменьшается с увеличением ширины сети, что приводит к повышению точности тестирования, при этом масштаб по ширине логарифмический.
Анализ режима NTK показывает, что относительное изменение параметров монотонно уменьшается с увеличением ширины сети, что приводит к повышению точности тестирования, при этом масштаб по ширине логарифмический.

За пределами плоскостности: разреженные сети и двойной спуск

Гипотеза о «лотерейных билетах» предполагает, что в больших нейронных сетях скрыты разреженные подсети, способные достигать сравнимой производительности с полной моделью. Исследования показали, что не все параметры в нейронных сетях одинаково важны для обучения; напротив, существует предпочтение к разреженности, когда подсети, содержащие лишь около 10% от исходного числа параметров, при повторном обучении с использованием исходных значений весов достигают точности, отличающейся не более чем на 1.15 процентных пункта от полной модели. Этот вывод указывает на то, что эффективность глубокого обучения может быть обусловлена не огромным количеством параметров, а скорее удачно подобранными, критически важными связями внутри сети, что открывает новые пути для оптимизации и сжатия моделей.

Исследования показали, что в больших нейронных сетях не все параметры одинаково важны для достижения высокой точности. Вместо этого, существует тенденция к разреженности, когда небольшие подсети, содержащие лишь около 10% от общего числа параметров, способны достигать производительности, сравнимой с полными моделями. В частности, обнаружено, что эти разреженные подсети, повторно обученные с использованием исходной инициализации параметров, демонстрируют точность, отличающуюся не более чем на 1,15 процентных пункта от точности исходной, гораздо более крупной сети. Это открытие ставит под сомнение традиционные представления о роли избыточности в глубоком обучении и указывает на то, что эффективное обучение возможно даже при значительном сокращении количества используемых параметров.

Интересное явление, известное как «двойной спуск», демонстрирует, что ошибка на тестовом наборе данных может вновь уменьшаться после достижения так называемого порога интерполяции в условиях высокой перепараметризации. Традиционно считалось, что переобучение неизбежно приводит к росту ошибки после достижения точки, где модель идеально соответствует обучающим данным. Однако исследования показали, что в сетях с огромным количеством параметров, ошибка может сначала увеличиваться, достигая максимума, а затем вновь снижаться, формируя U-образную кривую. Это противоречит интуитивному пониманию обобщающей способности моделей и указывает на то, что избыточность параметров, при правильной регуляризации, может не только не вредить, но и способствовать улучшению производительности, позволяя модели находить более устойчивые и обобщающие решения даже в условиях переобучения. MSE = f(N, D) — данная зависимость ошибки от количества параметров и размера обучающей выборки становится ключевой для понимания этого феномена.

Наблюдения, касающиеся разреженных сетей и двойного спуска, существенно усложняют традиционные представления об обобщающей способности нейронных сетей. Ранее считалось, что переобучение неизбежно следует за увеличением количества параметров и приближением к интерполяции обучающих данных. Однако, обнаружение разреженных подсетей, способных к производительности, сравнимой с полными моделями, и феномен двойного спуска, демонстрирующий снижение ошибки тестирования даже после достижения точки интерполяции, указывают на более сложную взаимосвязь между сложностью модели, переобучением и обобщающей способностью. Это предполагает, что стандартные методы регуляризации могут быть неполными, а понимание обобщения требует учета нелинейных эффектов, возникающих в сильно перепараметризованных моделях. Таким образом, текущие исследования открывают новые горизонты в изучении обобщающей способности и предлагают переосмыслить принципы построения и обучения нейронных сетей.

Переобучение подсетей, полученных путем отбрасывания параметров, позволяет достичь сравнимой точности с использованием лишь небольшого процента исходных параметров (синяя линия), что превосходит результаты случайной повторной инициализации (красная метка) при 10% оставшихся параметров.
Переобучение подсетей, полученных путем отбрасывания параметров, позволяет достичь сравнимой точности с использованием лишь небольшого процента исходных параметров (синяя линия), что превосходит результаты случайной повторной инициализации (красная метка) при 10% оставшихся параметров.

Исследование демонстрирует, что обобщающая способность перепараметризованных нейронных сетей — сложное явление, зависящее от множества факторов. Подобно тому, как архитектура, лишенная истории, оказывается хрупкой, так и оптимизация в таких сетях не может быть сведена к единому принципу. Взаимодействие динамики обучения, геометрии ландшафта потерь и структурных свойств, вроде разреженности, формирует основу для успешного обобщения. Как отмечал Пол Эрдёш: «Математика — это искусство открывать закономерности, которые скрыты в хаосе». В данном исследовании, хаос перепараметризованных сетей, напротив, открывает закономерности, лежащие в основе их способности к обучению и обобщению.

Что дальше?

Исследование, представленное в данной работе, лишь аккуратно обозначило границы понимания. Утверждение о том, что обобщающая способность перепараметризованных нейронных сетей — это не результат единичного механизма, а сложное взаимодействие динамики оптимизации, геометрии ландшафта потерь и структурных свойств, таких как разреженность, звучит как констатация очевидного. Все системы стареют — вопрос лишь в том, делают ли они это достойно. Оптимизация, в конечном счете, является лишь процессом поиска редких фаз гармонии во времени, а ландшафт потерь — это не статичная карта, а постоянно меняющийся рельеф.

Очевидно, что необходимо глубже изучить взаимодействие между различными формами неявной регуляризации. «Лотерейные билеты» — это, скорее, метафора, указывающая на то, что в хаосе параметров скрыты структуры, способные к эффективному обучению, а не универсальный алгоритм их обнаружения. Сравнение инфраструктуры с естественными циклами неизбежно: технический долг — это как эрозия, постепенно разрушающая способность системы к адаптации.

В будущем исследования должны сосредоточиться на разработке метрик, способных количественно оценить «зрелость» системы — её устойчивость к возмущениям и способность к долгосрочной адаптации. Время — не метрика, а среда, в которой существуют системы. Понимание того, как эти системы эволюционируют во времени, а не только в момент обучения, является ключом к созданию действительно интеллектуальных алгоритмов.


Оригинал статьи: https://arxiv.org/pdf/2604.07603.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-10 09:18