Иллюзии и обходные пути: Как метафоры взламывают генераторы изображений

Предложенный подход вдохновлен игрой в «Табу», где один игрок описывает понятие метафорически, косвенно передавая его смысл другому; в данном случае, большая языковая модель выступает в роли первого игрока, а модель преобразования текста в изображение - во втором, что позволяет осуществить обход ограничений безопасности системы.

Новое исследование демонстрирует, что использование образных выражений позволяет обходить встроенные фильтры безопасности в моделях, создающих изображения по текстовому описанию.

Индекс прозрачности базовых моделей 2025: тревожные сигналы

В 2025 году разработан индекс прозрачности базовых моделей, включающий сто индикаторов, систематизированных по трем ключевым областям: upstream, самой модели и downstream, что позволяет комплексно оценить её открытость и предсказуемость.

Новое исследование показывает снижение прозрачности в работе ведущих компаний, разрабатывающих базовые модели искусственного интеллекта, что требует пристального внимания и разработки новых регуляторных мер.