Охота на вредоносные цепочки: Защита ИИ-систем от сложных атак

В статье представлена методика выявления злонамеренных действий в многошаговых рабочих процессах искусственного интеллекта, основанная на анализе трассировок и тонкой настройке языковых моделей.
![Структурная причинно-следственная модель, представленная в виде ориентированного ациклического графа, отображает коэффициенты из структурных уравнений, где сплошные линии указывают на связи, улавливаемые наблюдаемыми ковариатами [latex]XX[/latex], а пунктирные красные линии - на ненаблюденное влияние способности [latex]UU[/latex], определяемое параметрами отбора η и параметром исхода γ; открытый задний путь, проходящий через [latex]UU[/latex], порождает смещение, выведенное в уравнении (3).](https://arxiv.org/html/2601.01511v1/dag2.png)


