Распознаём написанное нейросетью: новый подход к выявлению AI-текстов

Автор: Денис Аветисян

Исследователи предлагают инновационный метод обнаружения текстов, сгенерированных искусственным интеллектом, фокусируясь на выявлении ключевых «экзонических токенов».

🐢

Ищешь ракеты? Это не к нам. У нас тут скучный, медленный, но надёжный, как швейцарские часы, фундаментальный анализ.

Телеграм канал

Обзор Exons-Detect демонстрирует систему, предназначенную для выявления экзонов, ключевых компонентов генов, что позволяет более точно анализировать генетическую информацию.

Метод Exons-Detect использует расхождение скрытых состояний для выявления и усиления важных токенов, повышая точность и устойчивость обнаружения AI-генерируемого текста без необходимости обучения.

Быстрое развитие больших языковых моделей стирает границы между текстом, созданным человеком, и текстом, сгенерированным искусственным интеллектом, что порождает риски дезинформации и нарушения авторских прав. В данной работе, посвященной разработке метода ‘Exons-Detect: Identifying and Amplifying Exonic Tokens via Hidden-State Discrepancy for Robust AI-Generated Text Detection’, предлагается новый подход к обнаружению текстов, созданных ИИ, основанный на идентификации и усилении так называемых «экзонных токенов» — элементов текста, характеризующихся высокой степенью расхождения скрытых состояний. Предложенный метод, не требующий обучения, демонстрирует превосходную точность и устойчивость к различным атакам и изменениям длины входных данных. Возможно ли дальнейшее повышение надежности и интерпретируемости систем обнаружения сгенерированного ИИ контента за счет более глубокого анализа вклада отдельных токенов?

Распознавание Искусственного: Вызов для Современных Систем

Распространение масштабных языковых моделей (LLM) повлекло за собой острую необходимость в различении текстов, созданных человеком, и тех, что сгенерированы искусственным интеллектом. В связи с экспоненциальным ростом возможностей LLM, способных создавать связные, грамматически правильные и стилистически разнообразные тексты, становится все сложнее определить авторство. Эта проблема выходит за рамки простой проверки на плагиат; речь идет о дифференциации между подлинным человеческим мышлением и сложными алгоритмами, имитирующими его. Актуальность задачи обусловлена не только академической честностью, но и необходимостью борьбы с дезинформацией, автоматизированным созданием спама и манипуляциями общественным мнением. В связи с этим, разработка надежных и эффективных методов обнаружения текстов, созданных LLM, становится критически важной задачей для многих областей, включая образование, журналистику и кибербезопасность.

Традиционные методы обнаружения текста, созданного искусственным интеллектом, сталкиваются со значительными трудностями в связи с развитием всё более сложных языковых моделей. Подходы, основанные на анализе статистических закономерностей или предсказуемости текста, быстро становятся неэффективными, поскольку продвинутые модели способны имитировать стиль и структуру человеческой речи с поразительной точностью. Это требует разработки инновационных методов, выходящих за рамки простого поиска характерных признаков, и направленных на более глубокое понимание семантической структуры и логической последовательности текста. Необходимы решения, способные оценивать не только что написано, но и как это написано, учитывая нюансы стиля, контекста и намерений автора, что представляет собой сложную задачу для современных систем анализа текста.

Современные методы выявления текстов, сгенерированных искусственным интеллектом, часто опираются на предсказуемые закономерности в структуре и стиле, которые, однако, быстро обнаруживаются и обходятся более продвинутыми языковыми моделями. Этот процесс порождает непрерывную «гонку вооружений», где разработчики методов обнаружения пытаются найти новые, более тонкие признаки, а создатели моделей генерации текста, в свою очередь, учатся избегать их. По сути, каждый новый рубеж в обнаружении быстро преодолевается, требуя постоянного совершенствования алгоритмов и подходов, чтобы оставаться на шаг впереди. Данная динамика представляет собой серьезную проблему, поскольку традиционные методы, основанные на статичных признаках, становятся все менее эффективными в борьбе с постоянно эволюционирующими моделями генерации текста.

Результаты показывают, что производительность обнаружения зависит от длины входных данных.

Выявление Скрытых Несоответствий с Помощью Прокси-LLM

Exons-Detect — это метод выявления расхождений в скрытых представлениях текста, не требующий предварительного обучения. В основе метода лежит использование нескольких языковых моделей в качестве «прокси» для извлечения скрытых состояний при обработке одного и того же текстового фрагмента. Анализируя различия в этих скрытых представлениях, Exons-Detect позволяет идентифицировать потенциальные несоответствия, указывающие на возможное изменение или подделку текста, без необходимости в размеченных данных для обучения. Данный подход обеспечивает адаптивность и масштабируемость, поскольку не зависит от наличия предварительно обученных моделей для конкретных задач или типов данных.

Для выявления источника текста мы извлекаем скрытые представления (hidden representations) из нескольких больших языковых моделей (LLM) и количественно оцениваем расхождение между ними — “Расхождение скрытых состояний” (Hidden-State Discrepancy). Этот показатель вычисляется как мера различий в векторах, представляющих входной текст в скрытых слоях различных LLM. Более высокое расхождение указывает на более вероятную разницу в происхождении текста, поскольку модели, обученные на разных данных или с разными архитектурами, обрабатывают информацию по-разному, что отражается в их скрытых представлениях. Количественная оценка этого расхождения позволяет объективно сравнивать тексты и определять их потенциальный источник, не требуя предварительной разметки данных.

Метод Exons-Detect не требует использования размеченных данных для обучения, что обеспечивает значительные преимущества в плане адаптивности и масштабируемости. Традиционные подходы к обнаружению происхождения текста часто полагаются на большие объемы данных, вручную аннотированных для конкретных задач. Отсутствие этой зависимости позволяет Exons-Detect быстро адаптироваться к новым источникам текста и сценариям, не требуя дорогостоящей и трудоемкой переподготовки. Кроме того, возможность применения метода без обучения упрощает его развертывание в различных средах и масштабирование для обработки больших объемов данных, что особенно важно для задач мониторинга и анализа контента в реальном времени.

В основе предлагаемого метода лежит анализ внутренних слоёв (Hidden Layers) больших языковых моделей (LLM) для выявления тонких различий в обработке информации. Извлекая и сравнивая векторные представления, формирующиеся в этих слоях при обработке одного и того же текста различными LLM, можно количественно оценить степень расхождения в их понимании. Этот подход позволяет обнаружить неявные различия в способах кодирования семантики и синтаксиса, даже если внешние результаты обработки (например, сгенерированный текст) кажутся идентичными. Анализ скрытых слоёв обеспечивает более глубокое понимание работы LLM и позволяет выявить различия, обусловленные архитектурными особенностями или данными, на которых они обучались.

Наш метод Exons-Detect обеспечивает значительные преимущества в обнаружении экзонов.

Декодирование Текстуальной Значимости: Экзонические и Интронические Токены

Система Exons-Detect идентифицирует ‘Экзонические Токены’ — лексемы, характеризующиеся высоким расхождением скрытых состояний (hidden-state discrepancy) в процессе обработки нейронной сетью — как ключевые индикаторы машинного происхождения текста. Высокое расхождение указывает на то, что нейронная сеть испытывает затруднения при обработке данного токена, что может свидетельствовать о его искусственной генерации или о нетипичном использовании в контексте. Анализ этих токенов позволяет более эффективно определять тексты, созданные искусственным интеллектом, по сравнению с текстами, написанными человеком, поскольку они отражают особенности работы генеративных моделей.

В противоположность экзоническим токенам, интронические токены характеризуются низкой степенью расхождения скрытых состояний, что делает их менее информативными при определении происхождения текста. Низкое расхождение указывает на то, что эти токены не вносят существенного вклада в отличительные признаки, генерируемые языковой моделью, и, следовательно, не позволяют эффективно различать текст, созданный искусственным интеллектом, от текста, написанного человеком. Таким образом, при анализе состава текста интронические токены рассматриваются как менее значимые маркеры для установления авторства или источника.

Для преобразования расхождений, выявленных между скрытыми состояниями токенов, в количественно оцениваемые значения, используются как линейное, так и нелинейное отображение. Линейное отображение ( $f(x) = ax + b$ ) обеспечивает прямо пропорциональную зависимость между расхождением и весом токена, что позволяет сохранить относительную значимость различий. Нелинейное отображение, напротив, позволяет усилить или ослабить влияние расхождений, акцентируя наиболее информативные токены или подавляя незначительные. Комбинированное применение этих методов позволяет получить более детализированные и точные ‘веса токенов’, отражающие их вклад в определение происхождения текста.

Для дифференциации экзонических и интронических токенов используется чётко определённый порог расхождения (Discrepancy Threshold). Превышение этого порога указывает на экзонический токен, характеризующийся высокой степенью расхождения между скрытыми состояниями модели, что свидетельствует о потенциальном происхождении из сгенерированного текста. Значения расхождения ниже этого порога классифицируются как интронические токены, представляющие меньшую информативную ценность для определения источника текста. Применение этого порога позволяет проводить детальный анализ текстового состава, выявляя участки, более вероятно созданные искусственным интеллектом, и участки, вероятно, написанные человеком.

Эксперименты показали, что точность обнаружения экзонов алгоритмом Exons-Detect существенно зависит от выбранных параметров.

Количественная Оценка Подлинности: Оценочный Балл Перевода

Для оценки вероятности происхождения текста предложен показатель, названный «Оценочным баллом перевода». Этот показатель рассчитывается на основе комбинации двух метрик: «Взвешенной логарифмической перплексии» и «Перекрестной перплексии». $Weighted Log-Perplexity$ отражает степень неопределенности, присущую генеративной модели при создании текста, а $Cross-Perplexity$ позволяет оценить, насколько хорошо модель предсказывает последовательность токенов в данном тексте по сравнению с другими моделями. Комбинирование этих метрик позволяет более точно определить, был ли текст создан человеком или искусственным интеллектом, поскольку ИИ-генерируемые тексты часто демонстрируют иные закономерности в неопределенности и предсказуемости, чем тексты, написанные людьми.

Предлагаемый «Оценочный балл» ( $Translation Score$ ) эффективно отражает степень неопределенности, присущую процессу генерации текста, и служит надежным показателем для разграничения текстов, созданных искусственным интеллектом, и текстов, написанных человеком. В основе этого подхода лежит анализ вероятности последовательности слов, позволяющий количественно оценить, насколько «естественно» звучит текст с точки зрения языковой модели. Более высокая неопределенность, выраженная в виде более низкого балла, часто свидетельствует о том, что текст был сгенерирован машиной, в то время как тексты, созданные человеком, как правило, демонстрируют более высокую уверенность и, следовательно, более высокий балл. Таким образом, данный показатель предоставляет объективный и измеримый критерий для выявления авторства и обеспечения достоверности текстовой информации.

Для повышения точности определения авторства текста, в систему интегрирован механизм, условно названный “Мутация-Восстановление”. Данный механизм учитывает естественные вариации, возникающие в процессе генерации последовательностей — будь то текст, созданный человеком, или сгенерированный искусственным интеллектом. Он позволяет учитывать незначительные отклонения и изменения, которые могут возникать при создании текста, имитируя процесс редактирования и корректировки, свойственный человеческому письму. Использование этого механизма позволяет более эффективно различать подлинный текст и сгенерированный, даже если последний подвергся незначительным изменениям, направленным на обход стандартных методов обнаружения.

Разработанная система Exons-Detect демонстрирует передовые результаты в выявлении текстов, сгенерированных искусственным интеллектом. В ходе тестирования на бенчмарке DetectRL, система достигла средней площади под ROC-кривой (AUROC) в 92.14%, что на 2.2% превосходит показатели сильнейшего конкурента — DNA-DetectLLM. Кроме того, средний показатель F1-меры составил 87.72%, превышая аналогичный показатель DNA-DetectLLM на 0.8%. Эти результаты подтверждают высокую эффективность Exons-Detect в точном различении текстов, созданных человеком, и текстов, сгенерированных моделями искусственного интеллекта, что делает её ценным инструментом в области анализа и аутентификации контента.

В ходе тестирования на бенчмарке DetectRL — Multi-LLM, разработанная система продемонстрировала значительное превосходство над существующей моделью DNA-DetectLLM. Достигнутый прирост в метрике AUROC составил 2.5%, что свидетельствует о повышенной точности в различении текстов, созданных искусственным интеллектом, от текстов, написанных человеком. Этот результат подчеркивает эффективность предложенного подхода к оценке подлинности текста и его потенциал для использования в задачах, требующих высокой степени достоверности определения авторства.

Предложенный метод Exons-Detect, фокусирующийся на выявлении и усилении ‘экзонных токенов’, демонстрирует стремление к упрощению сложного процесса определения текстов, сгенерированных искусственным интеллектом. Идея выделения ключевых элементов, вызывающих наибольшее расхождение в скрытых состояниях модели, соответствует принципу отсечения лишнего. Как однажды заметил Винтон Серф: «Интернет — это величайший инструмент, когда-либо созданный для улучшения коммуникации, но он также является величайшим инструментом для распространения ерунды». В контексте данной работы, ‘ерундой’ можно считать шум в данных, который Exons-Detect стремится минимизировать, акцентируя внимание на действительно значимых токенах. Ясность в определении авторства текста достигается не через усложнение алгоритмов, а через выявление и усиление фундаментальных различий.

Что Дальше?

Предложенный метод, выделяя так называемые «экзонные токены» посредством анализа расхождений в скрытых состояниях, безусловно, добавляет еще один слой сложности в и без того перегруженную область детектирования текстов, сгенерированных искусственным интеллектом. Однако, подобно многим «фреймворкам», призванным скрыть панику, он лишь переносит проблему в другое измерение. Вместо поиска принципиальных отличий, мы сосредотачиваемся на статистических аномалиях — на отклонениях от усредненного поведения. Это, конечно, полезно, но не решает фундаментальный вопрос: что вообще означает «настоящий» текст?

Будущие исследования, вероятно, пойдут по пути дальнейшей детализации этих «экзонов», пытаясь найти универсальные признаки, устойчивые к различным моделям генерации. Но более продуктивным направлением представляется отказ от поиска «детекторов» как таковых. Гораздо интереснее исследовать, как можно интегрировать генеративные модели в существующие системы проверки достоверности информации, создавая, по сути, самокритикующиеся тексты. Простота — признак зрелости, и, возможно, решение кроется не в усложнении алгоритмов, а в переосмыслении самой задачи.

В конечном счете, эта работа служит напоминанием о том, что любая метрика — лишь приближение к реальности. И чем больше мы стремимся к «идеальной» детекции, тем дальше уходим от понимания того, что текст — это не просто последовательность токенов, а отражение человеческой мысли, со всей её неопределенностью и противоречивостью.

Оригинал статьи: https://arxiv.org/pdf/2603.24981.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-27 10:27