Языковые модели в противостоянии: как обеспечить безопасность?

Новый подход к обучению языковых моделей использует принципы теории игр, чтобы сделать их более устойчивыми к враждебным атакам и гарантировать соответствие этическим нормам.

Новый подход к обучению языковых моделей использует принципы теории игр, чтобы сделать их более устойчивыми к враждебным атакам и гарантировать соответствие этическим нормам.
![В предложенном методе паралледного предсказания токенов, в отличие от традиционных авторегрессионных моделей, предсказывающих распределение следующего токена [latex] t_{i} [/latex] с использованием вспомогательной переменной [latex] u_{i} [/latex], обеспечивается совместное предсказание нескольких токенов путём непосредственной подачи этих вспомогательных переменных в модель, что позволяет моделировать распределение каждого токена параллельно и эффективно.](https://arxiv.org/html/2512.21323v1/x2.png)
Исследователи предлагают инновационную схему, позволяющую значительно ускорить процесс генерации текста, не жертвуя качеством и выразительностью.
![Оценка неопределённости пути в моделях принятия решений с использованием шумоподавляющей энтропии показывает, что меньшее значение общей энтропии пути [latex]HDEH_{\texttt{DE}}[/latex], вычисляемой на основе средней энтропии Шеннона для всех замаскированных позиций, указывает на более качественный выход, предоставляя надежный внутренний сигнал для оценки генерации.](https://arxiv.org/html/2512.21336v1/x1.png)
Новый подход позволяет повысить качество изображений, создаваемых диффузионными моделями, за счет анализа и оптимизации процесса генерации.

Исследователи представили масштабный набор данных, демонстрирующий, что существующие методы классификации вредоносного ПО для Android на основе графов вызовов функций устарели и дают завышенные оценки эффективности.

Исследователи предложили инновационный алгоритм FOTON, позволяющий обучать глубокие нейронные сети, избегая традиционного процесса обратного распространения ошибки.