Сеть лжи и правда: как нейросети борются с ботами в соцсетях

Автор: Денис Аветисян


Новая система Aletheia использует графовые нейронные сети для выявления и прогнозирования активности ботов и троллей, распространяющих дезинформацию в социальных медиа.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Бесплатный Телеграм канал
Система Aletheia моделирует социальные сети на основе поведения пользователей при ответах и репостах, используя два режима работы: обнаружение и прогнозирование, причём в режиме обнаружения она вычисляет топологические признаки и дополняет граф языковыми вложениями, обучая Sage-модель для разграничения обычных пользователей и троллей, а в режиме прогнозирования масштабирует фазу GNN с помощью распределенной структуры и использует вычисленные вложения в RNN для предсказания временных связей на графических снимках после оптимизации посредством обратного распространения.
Система Aletheia моделирует социальные сети на основе поведения пользователей при ответах и репостах, используя два режима работы: обнаружение и прогнозирование, причём в режиме обнаружения она вычисляет топологические признаки и дополняет граф языковыми вложениями, обучая Sage-модель для разграничения обычных пользователей и троллей, а в режиме прогнозирования масштабирует фазу GNN с помощью распределенной структуры и использует вычисленные вложения в RNN для предсказания временных связей на графических снимках после оптимизации посредством обратного распространения.

Исследование представляет Aletheia — систему, основанную на графовых нейронных сетях и временном анализе, для эффективного обнаружения троллей и предсказания их поведения на платформах, таких как Reddit и X.

В условиях растущей манипулятивности онлайн-пространства, традиционные подходы к выявлению скоординированных кампаний влияния оказываются недостаточно эффективными. В данной работе представлена система ALETHEIA: Combating Social Media Influence Campaigns with Graph Neural Networks, использующая графовые нейронные сети для обнаружения злоумышленников и прогнозирования их поведения в социальных сетях, таких как Reddit и X. Показано, что учёт сетевой структуры кампаний и использование как топологических, так и лингвистических признаков значительно повышает точность выявления троллей и позволяет прогнозировать их будущие взаимодействия с точностью до 96.6%. Сможет ли Aletheia стать эффективным инструментом для защиты онлайн-сообществ от вредоносного влияния?


Временные течения влияния: Раскрытие скоординированных кампаний

Социальные сети всё чаще становятся ареной скоординированных кампаний влияния, направленных на изменение общественного мнения. Эти кампании, используя сложные стратегии и инструменты, стремятся формировать восприятие определенных событий или идей, часто путем распространения предвзятой или ложной информации. В отличие от спонтанных дискуссий, подобные кампании характеризуются организованностью, использованием множества аккаунтов и четкой направленностью на достижение конкретных целей. Их эффективность заключается в способности создавать иллюзию широкой поддержки определенных взглядов, манипулируя общественным сознанием и подрывая доверие к достоверным источникам информации. В результате, понимание механизмов этих кампаний становится критически важным для защиты информационной безопасности и поддержания здоровой демократической среды.

В современных информационных кампаниях всё чаще используются сети неаутентичных аккаунтов, так называемые «ботофермы» или «тролли», для искусственного усиления распространения дезинформации. Эти аккаунты, зачастую созданные автоматически или управляемые низкооплачиваемыми операторами, имитируют поведение реальных пользователей, активно распространяя ложные или искаженные сведения, чтобы создать иллюзию широкой общественной поддержки определенных идей или дискредитировать оппонентов. Их задача — не убедить в чём-либо, а создать видимость массового согласия, манипулируя общественным мнением за счет количественного превосходства, а не качества аргументации. Такие сети способны быстро распространять фейковые новости, участвовать в скоординированных атаках на неугодных лиц или темы, и создавать искусственные тренды в социальных сетях, что затрудняет выявление реальных настроений аудитории и требует разработки специальных инструментов для анализа и нейтрализации подобных угроз.

Изучение структуры и динамики кампаний по влиянию имеет первостепенное значение для их эффективного выявления и нейтрализации. Исследования показывают, что эти кампании редко являются хаотичными; они часто организованы вокруг центральных узлов, координирующих распространение дезинформации через сети поддельных аккаунтов и ботов. Понимание того, как формируются эти сети, какие методы используются для распространения сообщений и как они адаптируются к контрмерам, позволяет разрабатывать более совершенные инструменты для обнаружения и блокировки влияния. Анализ паттернов поведения аккаунтов, отслеживание распространения контента и выявление ключевых участников — все это необходимые шаги для эффективной борьбы с манипуляциями в цифровом пространстве. Без глубокого понимания внутренней организации этих кампаний, попытки противодействия будут неэффективными и ограничены лишь поверхностным реагированием на симптомы.

Анализ сетевых графов для X и Reddit выявил, что вредоносные аккаунты (красным цветом) взаимодействуют с обычными пользователями (зеленым цветом) в рамках координированных кампаний, например, в ОАЭ на платформе X и в Reddit.
Анализ сетевых графов для X и Reddit выявил, что вредоносные аккаунты (красным цветом) взаимодействуют с обычными пользователями (зеленым цветом) в рамках координированных кампаний, например, в ОАЭ на платформе X и в Reddit.

Моделирование влияния: Графовые нейронные сети на службе анализа

Представление социальных взаимодействий в виде ‘графа сети’ позволяет использовать возможности графовых нейронных сетей (GNN) для анализа. В данном контексте, узлы графа представляют собой отдельные сущности (например, пользователей социальной сети), а ребра — связи между ними (например, подписки, переписки или совместные действия). Такое представление позволяет GNN применять алгоритмы машинного обучения непосредственно к структуре сети, учитывая не только характеристики отдельных узлов, но и их взаимосвязи. Это особенно полезно для выявления сложных закономерностей и аномалий, которые сложно обнаружить при анализе изолированных данных. Формально, граф G = (V, E), где V — множество узлов, а E — множество ребер, служит основой для моделирования и анализа социальных взаимодействий.

Графовые нейронные сети (GNN) позволяют создавать векторные представления (embeddings) для каждого узла в сети социальных взаимодействий. Эти представления формируются путем агрегации информации о характеристиках самого узла (например, атрибуты профиля пользователя) и структуре его связей с другими узлами. Процесс обучения GNN направлен на то, чтобы embeddings отражали как индивидуальные особенности узла, так и его положение и роль в общей сети. В результате, узлы, имеющие схожие характеристики и связи, будут иметь близкие векторы в многомерном пространстве, что позволяет эффективно выявлять закономерности и аномалии в поведении пользователей и их взаимосвязях. Такие векторные представления служат основой для последующего анализа и классификации узлов сети.

Алгоритм GraphSAGE является расширением возможностей графовых нейронных сетей (GNN) и предназначен для эффективной агрегации информации от соседних узлов в графе. В отличие от традиционных GNN, которые требуют вычисления представлений для всех узлов за один проход, GraphSAGE выполняет выборочную агрегацию, то есть рассматривает только фиксированное количество соседей для каждого узла. Это существенно снижает вычислительную сложность и позволяет масштабировать анализ на графы, содержащие миллионы или даже миллиарды узлов и связей. В частности, GraphSAGE использует различные функции агрегации (например, среднее значение, суммирование, максимизацию) для объединения информации от соседей, что позволяет адаптировать алгоритм к различным типам графов и задачам анализа. Эффективность агрегации соседней информации делает GraphSAGE особенно важным для анализа крупномасштабных социальных сетей и других графовых структур.

Комбинирование векторных представлений, полученных из анализа сетевых взаимодействий (node embeddings), с векторными представлениями, полученными из анализа текстового контента (language embeddings), создает комплексный набор признаков для выявления подозрительных аккаунтов. Векторные представления сетевых взаимодействий кодируют информацию о структуре связей и характеристиках пользователей в сети, в то время как векторные представления текстового контента отражают лингвистические особенности и семантическое содержание сообщений. Сочетание этих двух типов представлений позволяет учитывать как поведенческие характеристики аккаунта в сети, так и особенности его коммуникации, что значительно повышает точность выявления аккаунтов, участвующих в дезинформационных кампаниях или распространяющих вредоносный контент. Данный подход позволяет более эффективно отличать легитимных пользователей от ботов или координируемых групп влияния.

Предвидение связей: Проактивная защита от манипуляций во времени

Временное предсказание связей (Temporal Link Prediction) представляет собой метод прогнозирования будущих взаимодействий между аккаунтами в социальных сетях. Этот подход позволяет выявлять формирующиеся паттерны координации, предсказывая, какие аккаунты, вероятно, начнут взаимодействовать в будущем. Анализ последовательности существующих связей и временных меток взаимодействий позволяет системе определить вероятность установления новых связей, что особенно важно для обнаружения скоординированных кампаний влияния или деятельности ботов и троллей. Выявление этих паттернов до их реализации предоставляет возможность для проактивной защиты и предотвращения распространения дезинформации или манипулирования общественным мнением.

Рекуррентные нейронные сети (RNN) играют ключевую роль в моделировании временных динамик, поскольку они специально разработаны для обработки последовательных данных. В отличие от традиционных нейронных сетей, RNN обладают «памятью», позволяющей им учитывать предыдущие элементы последовательности при обработке текущего. Это достигается за счет рекуррентных связей, которые позволяют информации циркулировать внутри сети, сохраняя контекст. В задачах прогнозирования связей во временных графах, RNN эффективно захватывают паттерны взаимодействия, зависящие от времени, что позволяет прогнозировать будущие связи между аккаунтами на основе их истории взаимодействия. Различные архитектуры RNN, такие как LSTM и GRU, используются для преодоления проблемы исчезающего градиента и более эффективной обработки длинных последовательностей.

Система Aletheia использует комбинацию графовых нейронных сетей (GNN) и рекуррентных нейронных сетей (RNN) для прогнозирования будущей активности троллей. В качестве входных данных применяются “топологические признаки” графа социальных связей, отражающие структуру взаимодействий между аккаунтами. Для представления аккаунтов и их текстового контента используются модели векторного представления, такие как SBERT и модели OpenAI Embedding, позволяющие численно кодировать семантическое содержание. Комбинация этих подходов позволяет системе выявлять закономерности в поведении троллей и прогнозировать будущие связи с другими пользователями.

Система Aletheia демонстрирует высокую точность прогнозирования будущих связей между аккаунтами, используемыми для троллинга, и обычными пользователями, достигая среднего значения AUC (Area Under the Curve) в 96.6%. Этот показатель свидетельствует об эффективности применяемого подхода к анализу сетевых взаимодействий и позволяет своевременно выявлять потенциальные координированные кампании по дезинформации и манипулированию общественным мнением. Высокий AUC указывает на способность системы различать истинные и ложные связи, что критически важно для проактивной защиты от вредоносной активности в социальных сетях.

Система продемонстрировала улучшенные показатели обнаружения узлов в кампаниях дезинформации, достигнув F1-меры в 96.44% на данных Reddit и 97.9% на операциях в X (ранее Twitter). Данный показатель эффективности отражает способность системы точно идентифицировать аккаунты, вовлеченные в скоординированную деятельность, с минимальным количеством ложных срабатываний и пропусков. Высокие значения F1-меры свидетельствуют о сбалансированной производительности системы как в отношении точности (precision), так и полноты (recall) обнаружения узлов в исследуемых социальных сетях.

Абляция и тесты на устойчивость сети X показали, что удаление компонентов снижает производительность, в то время как изменения параметров не оказывают существенного влияния.
Абляция и тесты на устойчивость сети X показали, что удаление компонентов снижает производительность, в то время как изменения параметров не оказывают существенного влияния.

Влияние вне границ: Комплексный анализ межплатформенных кампаний

Современные кампании по влиянию всё чаще разворачиваются не на одной платформе, а охватывают сразу несколько социальных сетей, формируя сложные “кросс-платформенные” операции. Этот подход позволяет манипуляторам расширить охват аудитории и усилить воздействие, используя особенности каждой платформы для достижения своих целей. Например, информация, первоначально распространяемая на одной сети, может быть подхвачена и усилена на других, создавая иллюзию широкой общественной поддержки или распространяя дезинформацию. Такие кампании отличаются высокой степенью координации и могут использовать различные тактики — от создания фейковых аккаунтов до распространения ботов и троллей — для достижения желаемого эффекта. Понимание этой межплатформенной природы является ключевым для эффективного противодействия современным информационным операциям.

Подход Aletheia, основанный на сетевом анализе, демонстрирует высокую эффективность в выявлении и исследовании скоординированных кампаний влияния, поскольку не ограничивается рамками отдельных социальных платформ. В отличие от традиционных методов, которые часто анализируют данные изолированно для каждого сайта, система Aletheia рассматривает всю цифровую среду как единую взаимосвязанную сеть. Это позволяет обнаруживать связи и закономерности между аккаунтами и контентом, распространяемыми на различных платформах — от Twitter и Facebook до Reddit и Telegram. Посредством построения комплексных сетевых моделей, Aletheia способна идентифицировать ключевых участников, выявлять скрытые связи и отслеживать распространение дезинформации, даже если кампания намеренно использует разные платформы для обхода ограничений и усиления своего влияния. Такой холистический подход позволяет получить более полное представление о масштабах и целях кампании, что необходимо для разработки эффективных стратегий противодействия.

Для создания всеобъемлющих сетевых моделей, необходимых для анализа сложных информационных кампаний, критически важен доступ к архивным данным, таким как предоставляемые ресурсом ‘Pushshift Archive’ для Reddit. Этот архив позволяет исследователям изучать исторические данные, выявлять закономерности и связи между аккаунтами и контентом, которые могли бы остаться незамеченными при анализе только текущей активности платформы. Использование архивных данных значительно расширяет охват анализа, позволяя отследить распространение информации и взаимодействие между пользователями на протяжении длительного периода времени, что особенно важно для выявления скоординированных действий и манипулятивных кампаний, простирающихся за пределы единичной социальной сети. Без доступа к таким ресурсам построение полноценной картины влияния и выявление ключевых участников становится значительно сложнее и менее достоверным.

Комплексное понимание кампаний влияния, охватывающих различные платформы, открывает возможности для разработки эффективных стратегий противодействия манипуляциям. Анализ взаимосвязей между аккаунтами и распространением информации на разных площадках позволяет выявлять координацию действий, скрытую от анализа отдельных платформ. Это, в свою очередь, дает возможность не просто блокировать отдельные аккаунты, но и прерывать целые сети, распространяющие дезинформацию. Проактивные меры, основанные на глубоком анализе, направлены на снижение восприимчивости аудитории к манипуляциям и защиту информационного пространства от целенаправленного влияния. Таким образом, целостный подход к пониманию кампаний влияния является ключевым элементом в обеспечении информационной безопасности и поддержании доверия к источникам информации.

Системы, подобные Aletheia, представленной в данной работе, демонстрируют способность адаптироваться к постоянно меняющейся среде социальных сетей. Исследование, направленное на выявление троллей и прогнозирование их поведения с использованием графовых нейронных сетей и временного анализа, подчеркивает, что понимание связей между аккаунтами и их эволюции во времени является ключевым. Как заметил Пол Эрдёш: «Математика — это искусство открывать закономерности, скрытые в хаосе». Aletheia, подобно математическому инструменту, выявляет закономерности в потоке информации, позволяя системам не просто реагировать на угрозы, но и предвидеть их, тем самым учась стареть достойно в условиях информационной энтропии.

Куда Ведет Дорога?

Представленная работа, подобно любому новому инструменту в арсенале анализа социальных сетей, лишь временно замедляет неизбежное. Архитектура, опирающаяся на графовые нейронные сети и временной анализ, безусловно, демонстрирует способность выявлять и прогнозировать поведение аккаунтов, вовлеченных в кампании влияния. Однако, сама природа этих кампаний — адаптация, мутация, поиск новых лазеек — предрекает скорую эрозию эффективности любой статической модели. Каждый цикл обнаружения порождает новый, более изощренный, способ обхода защиты.

Будущие исследования, вероятно, сосредоточатся не столько на улучшении алгоритмов выявления, сколько на понимании динамики влияния как таковой. Важно перейти от поиска “троллей” к моделированию распространения информации, учитывающего когнитивные искажения и групповую динамику. Простое обнаружение недостаточно; необходимо понять, почему определенные нарративы находят отклик. Ведь улучшение алгоритмов стареет быстрее, чем мы успеваем их понять.

В конечном итоге, Aletheia — это лишь одна из итераций в бесконечном противостоянии между анализом и манипуляцией. И, как и любая система, она проживет свой век. Вопрос не в том, будет ли она побеждена, а в том, как достойно она выполнит свою задачу, прежде чем уступить место следующей.


Оригинал статьи: https://arxiv.org/pdf/2512.21391.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-29 16:42