Обман зрения для искусственного интеллекта: как взломать распознавание математических формул

Автор: Денис Аветисян

Новый метод атак на системы, распознающие математические выражения, использует упрощение формул для эффективного обмана моделей машинного зрения и обработки языка.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Анализ процесса воздействия на целевой пиксель демонстрирует, что методы, использующие ограничивающую рамку для формирования одномерного массива, позволяют целенаправленно атаковать как отдельные символы, так и скелетизированные области изображения, в отличие от атак, применяемых ко всему изображению.

Исследование демонстрирует возможность успешных атак на большие языковые модели при распознавании математических формул, основанных на методе скелетизации.

Несмотря на впечатляющие возможности современных мультимодальных моделей, их устойчивость к намеренным искажениям остаётся под вопросом. В данной работе, посвященной теме ‘Skeletonization-Based Adversarial Perturbations on Large Vision Language Model’s Mathematical Text Recognition’, предложен новый метод атаки, использующий скелетизацию для эффективного уменьшения пространства поиска и обмана моделей при распознавании математических формул. Показано, что предложенный подход успешно дезориентирует большие языковые модели, такие как ChatGPT, при обработке изображений с математическим текстом, выявляя уязвимости в их визуальном восприятии. Какие перспективы открываются для разработки более надежных и устойчивых систем распознавания математического контента?

Математическое зрение и скрытая уязвимость

Современные фундаментальные модели, изначально разработанные для обработки текста, демонстрируют впечатляющую способность к восприятию и анализу изображений. Это расширение функциональности открывает новые горизонты в области распознавания математических выражений. Такие модели, как LLM, теперь способны не только понимать текстовые задачи, но и интерпретировать математические формулы, представленные в виде изображений или рукописных символов, что позволяет автоматизировать решение сложных математических задач и упрощает взаимодействие человека с математическим контентом. Способность к визуальному восприятию позволяет им эффективно обрабатывать $\frac{d}{dx} f(x)$ или даже более сложные уравнения, представленные в различных форматах, значительно расширяя возможности автоматизированной обработки математической информации.

Несмотря на впечатляющие успехи, современные модели, объединяющие возможности обработки изображений и языка, оказываются неожиданно уязвимы к так называемым «атакам противником» (Adversarial Attacks). Эти атаки заключаются в внесении в изображение едва заметных, зачастую не воспринимаемых человеческим глазом, изменений. Даже столь незначительные возмущения способны кардинально повлиять на работу модели, приводя к ошибочной интерпретации математических выражений, представленных на изображении. Данное явление представляет серьезную проблему, особенно в контексте критически важных приложений, где точность распознавания формул $E=mc^2$ или сложных уравнений имеет первостепенное значение, поскольку надежность системы может быть поставлена под угрозу.

Уязвимость современных моделей, объединяющих зрение и язык, представляет серьезную опасность в критически важных приложениях. Даже незначительные, практически незаметные изменения в изображении математической формулы могут привести к ее неверной интерпретации. Это особенно опасно в сферах, где точность вычислений имеет решающее значение, например, в автоматизированных системах проверки научных работ, системах автоматического ввода формул или при обработке медицинских изображений, содержащих сложные математические выражения. Небольшие возмущения, созданные с помощью так называемых adversarial атак, способны обмануть даже самые передовые модели, приводя к ошибочным результатам и потенциально серьезным последствиям, поскольку модель может решить, что $2 + 2 = 5$ или неправильно интерпретировать сложную производную.

Предложенный подход объединяет <span class="katex-eq" data-katex-display="false">N</span> независимых агентов, взаимодействующих через локальные наблюдения и децентрализованные политики для решения сложной задачи. — Предложенный подход объединяет $N$ независимых агентов, взаимодействующих через локальные наблюдения и децентрализованные политики для решения сложной задачи.

Деконструкция атаки: от пикселей к ошибкам LaTeX

Атакующие воздействия на системы глубокого обучения, известные как adversarial attacks, используют присущие этим моделям ограничения, приводя к ошибочной классификации входных данных. Принцип работы основан на добавлении к изображению минимальных, практически незаметных изменений — “шума”, который, тем не менее, приводит к существенному искажению результата, выдаваемого моделью. Эти изменения, хотя и незначительны с точки зрения человеческого восприятия, способны вывести модель из равновесия, заставляя её интерпретировать входные данные неверно. Эффективность таких атак демонстрирует уязвимость моделей, основанных на анализе изображений, даже при небольших отклонениях от ожидаемых входных данных, и подчеркивает необходимость разработки более устойчивых алгоритмов.

Методы, такие как One Pixel Attack, демонстрируют, что даже однопиксельное возмущение может существенно изменить выходные данные модели. Этот подход основан на незначительной модификации входного изображения — изменении цвета одного пикселя — для намеренного вызова ошибки классификации. Эффективность данного метода подчеркивает чувствительность моделей глубокого обучения к малым изменениям во входных данных, что свидетельствует о потенциальных уязвимостях в системах, полагающихся на визуальное распознавание, таких как оптическое распознавание символов (OCR) или анализ изображений. Несмотря на минимальную природу возмущения, модели могут выдавать совершенно неверные результаты, например, интерпретировать $2+2$ как $5+5$ , что указывает на отсутствие надежности в определенных сценариях.

В ходе нашего исследования было установлено, что враждебные атаки на модели оптического распознавания математических выражений проявляются в виде ошибок при генерации LaTeX-кода. Эти ошибки приводят к некорректному представлению математических формул, например, $\in t_a^b f(x) dx$ может быть сгенерировано как $\in t a^b f(x) dx$ , или формула $x^2 + y^2 = r^2$ может быть искажена до $x^2 + y = r^2$ . Искажения возникают из-за незначительных изменений в исходном изображении, которые приводят к неверной интерпретации символов и их взаимосвязей моделью, что, в свою очередь, влияет на сгенерированный LaTeX-код.

В ходе исследования для выявления уязвимостей в моделях Mathpix и pix2tex, осуществляющих преобразование изображений математических выражений в $LaTeX$ -код, был применен метод случайного поиска (Random Search) для оптимизации минимальных возмущений, вызывающих ошибки в генерации кода. Экспериментальные данные показали, что Random Search демонстрирует превосходство над алгоритмами CMA-ES и TPE, последовательно обеспечивая более высокие показатели успешности атак, направленных на искажение математических выражений. Данный метод позволяет систематически исследовать пространство возможных возмущений, выявляя наиболее эффективные для нарушения корректной работы моделей распознавания математических формул.

Измерение ущерба: новая метрика сходства LaTeX

Для оценки степени влияния атак на математические выражения предлагается новый метод, основанный на измерении сходства между LaTeX-кодом, сгенерированным из исходного (чистого) изображения и изображения, подвергшегося атаке. Данный подход позволяет количественно оценить изменения в представлении математической формулы, вызванные злонамеренными воздействиями. Сравнение осуществляется путем анализа LaTeX-последовательностей, представляющих математические выражения, что позволяет выявить даже незначительные искажения в представлении формул, например, изменения в символах или структуре $\in t_a^b f(x) \, dx$ . Получаемая метрика позволяет систематически оценивать устойчивость моделей оптического распознавания математических выражений к различным типам атак.

Для оценки сходства между последовательностями LaTeX, полученными из исходных и подвергшихся атаке изображений, используется методика, основанная на двух этапах. Сначала применяется TF-IDF (Term Frequency-Inverse Document Frequency) для определения важности каждого отдельного термина в этих последовательностях. Этот метод позволяет выявить наиболее значимые элементы математических выражений. Затем, для количественной оценки общего сходства между последовательностями, вычисляется косинусное расстояние (Cosine Similarity) между TF-IDF векторами, представляющими каждую последовательность. Косинусное расстояние позволяет определить степень соответствия между исходным и измененным математическим выражением, что служит метрикой эффективности атаки.

Оценка степени компрометации точности распознавания математических выражений осуществляется путем анализа показателей косинусной схожести (Cosine Similarity) между LaTeX-последовательностями, полученными из исходного и подвергшегося атаке изображений. Успешные атаки, приводящие к значительным искажениям в распознанном выражении $f(x) = \in t_{a}^{b} x^2 dx$ , идентифицируются при значениях косинусной схожести ниже порога в 1, что подтверждается данными, представленными в Таблице I. Данный критерий позволяет количественно оценить влияние различных стратегий атак на устойчивость моделей, таких как Mathpix и pix2tex, и определить степень их уязвимости.

Предложенный метод позволяет систематически оценивать устойчивость моделей оптического распознавания математических выражений, таких как Mathpix и pix2tex, к различным стратегиям атак. Оценка производится на основе измерения сходства между LaTeX-кодом, сгенерированным из исходного и подвергшегося воздействию атаки изображений, с использованием TF-IDF и косинусного сходства. Снижение значения косинусного сходства ниже порогового значения (< 1, согласно данным в Таблице I) указывает на компрометацию точности распознавания и, следовательно, на уязвимость модели к конкретной атаке. Это позволяет проводить сравнительный анализ устойчивости различных моделей и стратегий защиты, выявляя наиболее эффективные подходы к обеспечению надежности систем распознавания математических выражений, представленных в виде $\frac{d}{dx} f(x)$ .

К устойчивому распознаванию: исследование стратегий защиты

Исследования показали, что использование состязательного обучения (Adversarial Training) существенно повышает устойчивость систем распознавания математических выражений к преднамеренным атакам, направленным на искажение входных данных. Данный метод предполагает обучение модели не только на корректных примерах, но и на специально сформированных, слегка измененных изображениях, призванных ввести систему в заблуждение. В процессе обучения модель учится игнорировать эти незначительные, но злонамеренные изменения, тем самым значительно снижая вероятность ошибки при распознавании даже при наличии атак. Это позволяет создавать более надежные системы, способные точно интерпретировать математические формулы, представленные в различных форматах, даже если эти изображения подверглись целенаправленным манипуляциям. $\frac{d}{dx} f(x)$ — пример математического выражения, устойчивость распознавания которого может быть значительно улучшена с помощью состязательного обучения.

Исследование также охватывает применение предварительной обработки изображений математических выражений посредством скелетизации и определения ограничивающих рамок для символов. Эти методы направлены на сужение пространства поиска для злонамеренных возмущений, используемых в adversarial атаках. Скелетизация, упрощая изображение до его основного структурного контура, снижает количество пикселей, которые могут быть изменены атакующим, в то время как определение ограничивающих рамок помогает модели сосредоточиться на ключевых элементах выражения — отдельных символах. Совместное использование этих техник позволяет значительно уменьшить область, в которой атакующие могут эффективно внедрять возмущения, делая систему распознавания более устойчивой к манипуляциям и повышая надежность определения $\forall x \in X$ .

Исследования показали, что комплексное применение методов защиты, включающих в себя как состязательное обучение, так и предварительную обработку изображений посредством скелетизации и определения ограничивающих рамок символов, позволяет существенно снизить эффективность атак, подобных методу быстрого градиентного знака (FGSM). Данный подход уменьшает пространство поиска для возмущений, затрудняя генерацию эффективных атак на системы распознавания математических выражений. Количественная оценка влияния этих методов сужения пространства поиска на успешность атак представлена в Таблице I, где демонстрируется значительное улучшение показателей точности и PSNR (пиковое отношение сигнал/шум), что подтверждает эффективность предложенной стратегии защиты.

Для подтверждения эффективности разработанных методов защиты необходимо проводить тестирование против атак, использующих современные языковые модели, такие как ChatGPT. Это обусловлено тем, что злоумышленники могут использовать возможности генерации текста этих моделей для создания более изощренных и реалистичных adversarial примеров, которые обходят традиционные системы защиты. Проверка устойчивости систем распознавания математических выражений к атакам, генерируемым ChatGPT, позволяет оценить их применимость в реальных условиях, где вероятность столкновения с подобными угрозами постоянно возрастает. Такой подход к валидации обеспечивает более надежную оценку безопасности и позволяет выявить потенциальные уязвимости, которые могут быть пропущены при использовании стандартных наборов adversarial примеров.

Исследование демонстрирует изящный подход к взлому систем распознавания математических формул, основанный на принципах сведения сложности. Авторы предлагают метод, использующий скелетизацию для уменьшения пространства поиска, что позволяет эффективно обмануть большие языковые модели, такие как ChatGPT. Это напоминает о важности математической чистоты алгоритмов. Как однажды заметил Ян Лекун: «Если решение кажется магией — значит, вы не раскрыли инвариант». По сути, успешная атака, использующая скелетизацию, раскрывает уязвимость, связанную с недостаточным пониманием инвариантных свойств представления формул, что подтверждает необходимость доказуемости алгоритмов, а не просто их работоспособности на тестовых примерах.

Куда Далее?

Представленная работа, несомненно, демонстрирует уязвимость современных моделей обработки изображений и языка перед тщательно сконструированными искажениями. Однако, элегантность метода, заключающегося в уменьшении пространства поиска посредством скелетизации, не отменяет фундаментального вопроса: является ли обход модели доказательством её несостоятельности, или лишь указанием на необходимость более строгих критериев оценки? Совершенствование алгоритмов обнаружения атак, безусловно, важно, но истинный прогресс заключается в создании моделей, чья устойчивость обусловлена не сложностью защиты, а внутренней непротиворечивостью.

Очевидным направлением дальнейших исследований представляется расширение области применения скелетизации за пределы LaTeX-формул. Возможно ли создание универсального метода, использующего структурное упрощение для обхода моделей, работающих с любыми типами изображений? Или же, как часто бывает, кажущаяся универсальность является лишь иллюзией, порожденной ограниченностью тестовых примеров? Вопрос остается открытым.

В конечном счете, ценность данной работы заключается не столько в демонстрации конкретной атаки, сколько в напоминании о том, что любое решение, основанное на эмпирических данных, подвержено ошибкам. Математическая чистота алгоритма — вот истинный критерий, а не его способность «работать» на ограниченном наборе данных. Именно к этому следует стремиться, даже если путь к этому окажется сложным и долгим.

Оригинал статьи: https://arxiv.org/pdf/2601.04752.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-12 00:22