Градиенты Больших Языковых Моделей: Новый Взгляд на Оптимизацию

В ходе исследования сравнивались алгоритмы оптимизации Spectra и AdamW при различных значениях скорости обучения [latex] \eta \in \{8 \times 10^{-4}, 1 \times 10^{-3}, 5 \times 10^{-3}, 1 \times 10^{-2} \} [/latex], при этом Spectra продемонстрировала более быструю сходимость и превосходные результаты в большинстве режимов обучения.

Исследование выявило особенности структуры градиентов в больших языковых моделях и предлагает новый подход к оптимизации, направленный на повышение скорости обучения и качества результатов.

Скрытые связи: как защитить сообщества в графах от нейросетей

Защита сетевой структуры от выявления сообществ противником достигается путем незначительных модификаций графа, призванных исказить результаты работы графовой нейронной сети (GNN) и скрыть целевое сообщество от обнаружения.

Новое исследование предлагает эффективный метод сокрытия структуры сообществ в графах, позволяющий защитить конфиденциальную информацию от анализа с помощью графовых нейронных сетей.

Конструктор 3D-моделей: новый подход к генерации игрового контента

Разработанная структура AssetFormer преобразует модульные цифровые активы - например, архитектурные элементы - в новые экземпляры посредством авторегрессионного моделирования, где очищенные подписи, предварительно заполненные упорядоченным набором токенов, служат входными данными для обучения, что позволяет создавать активы, готовые к интеграции в промышленные среды с возможностью улучшения на основе модели и применения, ориентированного на конкретные задачи.

Исследователи представили AssetFormer — систему, способную создавать разнообразные и настраиваемые 3D-модели из текстовых описаний, открывая новые возможности для процедурной генерации контента.

Нейронные эксперты: гибкое моделирование и понятная точность

Предлагаемая структура нейронного аддитивного эксперта (NAE) динамически оценивает вклад множества специализированных предикторов для каждой характеристики, суммируя их взвешенные вклады для формирования итогового предсказания, что обеспечивает как интерпретируемость модели, так и гибкость в отображении сложных взаимосвязей.

Новый подход к построению нейронных сетей позволяет комбинировать экспертные модели с динамическим управлением, обеспечивая баланс между производительностью и интерпретируемостью.