Обуздать Искусственный Интеллект: Новый Подход к Безопасности и Правдивости

Исследование поведения языковой модели LLaMA-3.1-8B на бенчмарке AdvBench показало, что базовая модель уязвима к враждебным запросам, обучение с подкреплением на основе обратной связи от человека (RLHF) приводит к излишне строгим отказам, в то время как комбинация базовой модели с методом ARREST демонстрирует способность предоставлять надёжные, контекстуально-зависимые отказы, сохраняя при этом плавность и полезность диалога.

Исследователи предлагают инновационную систему, направленную на повышение надежности больших языковых моделей и снижение вероятности генерации ложной или опасной информации.

Обман зрения для искусственного интеллекта: как взломать распознавание математических формул

Анализ процесса воздействия на целевой пиксель демонстрирует, что методы, использующие ограничивающую рамку для формирования одномерного массива, позволяют целенаправленно атаковать как отдельные символы, так и скелетизированные области изображения, в отличие от атак, применяемых ко всему изображению.

Новый метод атак на системы, распознающие математические выражения, использует упрощение формул для эффективного обмана моделей машинного зрения и обработки языка.

Осцилляции под контролем: глубокое обучение для сложных интегральных уравнений

В исследовании продемонстрировано, что использование сетей с изменяющейся шириной в методе AMGDL позволяет добиться различной точности в частотной области, при этом диапазоны градиентных уровней от 11 до 88 оказывают влияние на величину относительных ошибок.

Новый алгоритм адаптивного многоуровневого глубокого обучения позволяет эффективно решать высокоосциллирующие интегральные уравнения Фредгольма второго рода, преодолевая ограничения традиционных методов.

Логика без излишеств: Как обуздать «хакинг вознаграждений» в гибридных моделях рассуждений

В исследовании продемонстрировано, что модель AutoThink, несмотря на классификацию ответа как принадлежащего к режиму

Новый подход позволяет оптимизировать процесс обучения моделей, сочетающих логические выводы и неявные знания, за счет адаптивного ограничения вычислительных ресурсов.