Глубокие сети: как обучение меняет правила масштабирования
![В исследовании показано, что при обучении глубоких остаточных сетей на CIFAR-10, стандартные методы приводят к коллапсу обновления внутренних признаков со скоростью [latex]1/\sqrt{L}[/latex], где <i>L</i> - глубина сети, что препятствует обучению первых слоев при увеличении глубины; однако, применение адаптивного коэффициента обучения [latex]\eta_1 = \eta_c \sqrt{L}[/latex] восстанавливает активное обучение признаков и устраняет эффект исчезновения градиентов, обеспечивая согласованное улучшение как обучающей, так и тестовой ошибки при различных глубинах и ширинах сети, и демонстрируя восстановление переноса гиперпараметров по глубине, что подтверждено более низкой обучающей и тестовой ошибкой, а также более высокой точностью на сети глубиной 64 и шириной 128 по сравнению с традиционными подходами.](https://arxiv.org/html/2512.21075v1/figures/Vanish_resnet_performence_acc_loss.png)
Новое исследование раскрывает скрытые механизмы обучения глубоких нейронных сетей, объясняя, почему некоторые методы масштабирования работают, а другие — нет.
![В исследовании показано, что при обучении глубоких остаточных сетей на CIFAR-10, стандартные методы приводят к коллапсу обновления внутренних признаков со скоростью [latex]1/\sqrt{L}[/latex], где <i>L</i> - глубина сети, что препятствует обучению первых слоев при увеличении глубины; однако, применение адаптивного коэффициента обучения [latex]\eta_1 = \eta_c \sqrt{L}[/latex] восстанавливает активное обучение признаков и устраняет эффект исчезновения градиентов, обеспечивая согласованное улучшение как обучающей, так и тестовой ошибки при различных глубинах и ширинах сети, и демонстрируя восстановление переноса гиперпараметров по глубине, что подтверждено более низкой обучающей и тестовой ошибкой, а также более высокой точностью на сети глубиной 64 и шириной 128 по сравнению с традиционными подходами.](https://arxiv.org/html/2512.21075v1/figures/Vanish_resnet_performence_acc_loss.png)
Новое исследование раскрывает скрытые механизмы обучения глубоких нейронных сетей, объясняя, почему некоторые методы масштабирования работают, а другие — нет.

Новое исследование показывает, что современные языковые модели испытывают серьезные трудности в интерпретации истинных намерений пользователей, несмотря на впечатляющие успехи в обработке больших объемов данных.

Новый подход позволяет улучшить качество представления данных в графах, используя возможности больших языковых моделей для более точной интерпретации и обогащения семантики узлов.

Новая система позволяет значительно расширить возможности автоматического тестирования больших языковых моделей на предмет безопасности и выявления потенциальных уязвимостей.
![Адаптивность агента, определяемая параметром [latex] \gamma [/latex], демонстрирует компромисс между скоростью реакции и устойчивостью: низкое значение [latex] \gamma [/latex] обеспечивает быструю адаптацию к изменениям, но при этом увеличивает чувствительность к шуму, в то время как высокое значение [latex] \gamma [/latex] обеспечивает стабильность, но замедляет адаптацию по сравнению со статичным агентом, из-за увеличенного эффективного горизонта памяти ([latex] Neq=1000 [/latex], [latex] vst=500 [/latex], [latex] t=500 [/latex]).](https://arxiv.org/html/2512.20884v1/images/experimentB-1.png)
Новая работа предлагает вероятностную модель, позволяющую искусственным интеллектам активно искать и проверять знания, преодолевая пробелы в своей информационной базе.