Увидеть сходство в графиках: как это делают люди и искусственный интеллект

Автор: Денис Аветисян


Новое исследование сравнивает способность человека и современных моделей искусственного интеллекта оценивать визуальное сходство графов, открывая перспективы для улучшения инструментов визуального анализа.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал
Исследование, состоящее из трех взаимосвязанных экспериментов, демонстрирует, что мультимодальные большие языковые модели (MLLM) превосходят традиционные вычислительные метрики в оценке сходства графов, лучше согласуясь с человеческим восприятием и, благодаря интерпретируемым обоснованиям принимаемых решений, представляя собой более эффективный инструмент для помощи аналитикам при сравнении графов, чем простые вычислительные методы.
Исследование, состоящее из трех взаимосвязанных экспериментов, демонстрирует, что мультимодальные большие языковые модели (MLLM) превосходят традиционные вычислительные метрики в оценке сходства графов, лучше согласуясь с человеческим восприятием и, благодаря интерпретируемым обоснованиям принимаемых решений, представляя собой более эффективный инструмент для помощи аналитикам при сравнении графов, чем простые вычислительные методы.

Оценка соответствия между человеческим восприятием и метриками вычислительного сходства графов с использованием мультимодальных больших языковых моделей.

Оценка схожести графовых визуализаций является ключевой задачей визуальной аналитики, однако существующие количественные метрики часто расходятся с субъективным восприятием человека. В работе ‘Seeing Graphs Like Humans: Benchmarking Computational Measures and MLLMs for Similarity Assessment’ проведено исследование, сравнивающее традиционные метрики и современные мультимодальные большие языковые модели (MLLM) в оценке схожести графов. Полученные результаты показывают, что MLLM, особенно GPT-5, значительно лучше соответствуют человеческому восприятию, предоставляя при этом интерпретируемые объяснения своих решений. Смогут ли MLLM стать надежными помощниками в визуальной аналитике, позволяя выявлять тонкие нюансы, которые могут быть упущены из виду человеком?


Человеческое зрение и сходство графов: иллюзии и закономерности

Оценка схожести графов имеет решающее значение в самых разных областях — от анализа социальных сетей и биоинформатики до машинного обучения и визуализации данных. Однако, существующие вычислительные методы часто полагаются на метрики, которые не соответствуют тому, как человек воспринимает сходство. Вместо целостного восприятия структуры и плотности связей, алгоритмы нередко фокусируются на локальных деталях или специфических характеристиках, что приводит к расхождениям между машинным и человеческим суждениями. Эта несогласованность затрудняет интерпретацию результатов анализа графов и ограничивает эффективность систем, предназначенных для взаимодействия с человеком, поскольку алгоритмическая оценка может не отражать интуитивное понимание сходства, присущее пользователю.

Исследования показывают, что при оценке схожести графов, человек в первую очередь обращает внимание на общую структуру и плотность связей между элементами. Первичное впечатление о схожести формируется крайне быстро, за доли секунды, и базируется именно на этих глобальных характеристиках. Вместо детального анализа отдельных узлов или путей, мозг склонен к обобщению, выделяя преобладающие паттерны и сравнивая их. Например, два графа с одинаковой общей формой и схожим количеством связей будут восприняты как более похожие, даже если детали их структуры существенно различаются. Этот феномен объясняется тем, что человеческий мозг оптимизирован для быстрого распознавания закономерностей и упрощения сложных визуальных данных, что позволяет оперативно оценивать схожесть графов без необходимости глубокого анализа.

Существующие вычислительные методы оценки сходства графов зачастую не учитывают тонкости человеческого восприятия, что приводит к расхождениям между алгоритмическими результатами и субъективными оценками. Многие алгоритмы фокусируются на локальных характеристиках или точных совпадениях узлов, игнорируя глобальную структуру и плотность связей, которые являются ключевыми для быстрого формирования впечатления человеком. Например, алгоритм может определить два графа как сильно отличающиеся из-за небольшого количества несовпадающих ребер, в то время как человек, оценивая общую форму и распределение связей, может воспринять их как схожие. Такие несоответствия подчеркивают необходимость разработки более интуитивных алгоритмов, которые учитывают когнитивные особенности человеческого восприятия и позволяют создавать более эффективные инструменты для анализа и визуализации графовых данных.

Изучение того, как человек воспринимает сходство графов, имеет первостепенное значение для создания более эффективных и понятных вычислительных инструментов. Традиционные алгоритмы часто фокусируются на локальных деталях или точных метриках, игнорируя при этом целостное восприятие, свойственное человеческому мозгу. Понимание когнитивных процессов, лежащих в основе оценки человеком структурных характеристик графов — таких как общая форма, плотность связей и наличие ключевых подграфов — позволяет разрабатывать методы, которые лучше соответствуют интуитивным ожиданиям и обеспечивают более осмысленные результаты. В конечном итоге, согласование вычислительных моделей с человеческим восприятием способствует созданию инструментов, которые не только точно оценивают сходство графов, но и позволяют пользователям легко интерпретировать и доверять полученным результатам, расширяя возможности анализа данных в различных областях, от социальных сетей до биоинформатики.

В эксперименте 1 использовалась система сбора данных о субъективной схожести графов, в которой участникам предлагалось выбрать из трех сетевых диаграмм наиболее похожую на центральный граф, указать критерии выбора, оценить уверенность в ответе и завершить задачу в течение минуты, при необходимости используя подсказки для уточнения критериев.
В эксперименте 1 использовалась система сбора данных о субъективной схожести графов, в которой участникам предлагалось выбрать из трех сетевых диаграмм наиболее похожую на центральный граф, указать критерии выбора, оценить уверенность в ответе и завершить задачу в течение минуты, при необходимости используя подсказки для уточнения критериев.

Метрика «Отклонение портрета«: улавливая суть визуального сходства

Метрика Portrait Divergence представляет собой вычислительный метод, разработанный для количественной оценки сходства графов, основываясь на принципах человеческого визуального восприятия. В отличие от традиционных метрик, фокусирующихся на локальных характеристиках, Portrait Divergence специально адаптирована для отражения того, как люди интуитивно оценивают визуальное сходство между графами. Основой вычисления является анализ глобальной структуры и плотности ребер графа, что позволяет получить показатель, коррелирующий с человеческим восприятием и обеспечивающий более интерпретируемый результат при сравнении графов.

Метрика Portrait Divergence акцентирует внимание на глобальной структуре графа и плотности связей, что позволяет ей лучше соответствовать интуитивному восприятию схожести графов человеком. В отличие от метрик, фокусирующихся на локальных деталях или точных совпадениях узлов, Portrait Divergence оценивает графы, принимая во внимание их общую форму и распределение связей. Более высокая плотность связей и схожая глобальная структура приводят к более низкому значению расхождения, отражая то, как люди визуально сравнивают графические представления. Этот подход позволяет количественно оценить сходство, которое в большей степени соответствует человеческому зрительному восприятию, чем традиционные метрики.

В отличие от традиционных метрик сравнения графов, ориентированных на точное совпадение узлов и ребер, Portrait Divergence акцентирует внимание на высокоуровневых характеристиках, таких как общая структура и плотность связей. Это позволяет получить более интерпретируемый результат, поскольку метрика стремится соответствовать тому, как люди интуитивно воспринимают схожесть графов. Вместо количественной оценки, основанной на перечислении элементов, Portrait Divergence моделирует когнитивные аспекты восприятия визуальной информации, что делает ее более релевантной для задач, связанных с человеческим восприятием и анализом данных.

В отличие от традиционных метрик сравнения графов, основанных исключительно на количественных показателях, таких как количество узлов или ребер, Portrait Divergence включает в процесс оценки качественные аспекты визуальной структуры. Это достигается путем анализа глобальной организации графа и плотности его связей, что позволяет учитывать перцептивные особенности человеческого восприятия. Вместо простого подсчета элементов, метрика фокусируется на том, как граф организован визуально, что обеспечивает более интуитивно понятную и психологически обоснованную оценку сходства между графами.

Анализ корреляции Спирмена между уверенностью человека и уверенностью трех больших языковых моделей (MLLM) показывает, что GPT значительно лучше соответствует человеческим оценкам, Claude демонстрирует сопоставимые результаты, а Gemini значительно отстает, указывая на расхождение с моделями человеческой неопределенности, при этом порог слабой корреляции установлен на уровне <span class="katex-eq" data-katex-display="false"> \rho = 0.3 </span>.
Анализ корреляции Спирмена между уверенностью человека и уверенностью трех больших языковых моделей (MLLM) показывает, что GPT значительно лучше соответствует человеческим оценкам, Claude демонстрирует сопоставимые результаты, а Gemini значительно отстает, указывая на расхождение с моделями человеческой неопределенности, при этом порог слабой корреляции установлен на уровне \rho = 0.3 .

Проверка соответствия: когда вычисления встречаются с человеческим суждением

Для сопоставления графов и оценки их сходства была разработана система визуального анализа, использующая метрику Portrait Divergence в сочетании с передовыми языковыми моделями. Система позволяет визуально сравнивать графы и предоставляет количественную оценку их различий на основе Portrait Divergence. Одновременно с этим, результаты анализа предоставляются языковым моделям для генерации текстовых объяснений, обосновывающих оценку сходства. Данный подход позволяет объединить преимущества автоматического анализа и экспертной оценки, облегчая интерпретацию результатов и повышая доверие к полученным выводам.

Для валидации результатов, оценка схожести графов была проведена с использованием двух крупных языковых моделей: GPT-5 и Claude Sonnet 4.5. Обе модели не только определяли степень сходства между графами, но и предоставляли обоснования своих решений, что позволило провести сравнительный анализ с метрикой Portrait Divergence и экспертными оценками. Предоставление рационализаций позволяет оценить интерпретируемость решений моделей и выявить потенциальные расхождения с человеческим восприятием, служа основой для построения надежной системы оценки схожести графов.

Результаты исследования показали значимую корреляцию между метрикой Portrait Divergence и субъективной оценкой сходства графов, полученной от людей. Для количественной оценки этого соответствия был использован коэффициент Коэна Каппа, значение которого составило 0.424. Данный показатель свидетельствует о умеренной, но статистически значимой, степени согласованности между автоматическим расчетом различий графов с помощью Portrait Divergence и восприятием этого сходства людьми-экспертами. Более высокие значения коэффициента Каппа указывают на более тесное соответствие, в то время как значения, близкие к нулю, указывают на отсутствие согласованности.

Результаты оценки согласованности между автоматическим анализом графов и человеческим восприятием показали, что модель GPT-5 демонстрирует более высокую степень соответствия, чем метод Portrait Divergence. В частности, коэффициент Коэна κ для GPT-5 составил 0.479, в то время как для Portrait Divergence — 0.424. Дополнительно, Spearman’s correlation для GPT-5 достигла 0.353, что значительно выше значения 0.269, полученного для Portrait Divergence (p<0.05 и p<0.001 соответственно). Эти статистические показатели указывают на то, что GPT-5 более точно отражает человеческое суждение о сходстве графов по сравнению с используемым методом Portrait Divergence.

Современные мультимодальные большие языковые модели, в частности GPT и Gemini, демонстрируют значительно большее соответствие с человеческими оценками, чем традиционная метрика расхождения портретов, что указывает на превосходство этих моделей в задачах, требующих согласования с восприятием человека, хотя статистически значимых различий между моделями не выявлено.
Современные мультимодальные большие языковые модели, в частности GPT и Gemini, демонстрируют значительно большее соответствие с человеческими оценками, чем традиционная метрика расхождения портретов, что указывает на превосходство этих моделей в задачах, требующих согласования с восприятием человека, хотя статистически значимых различий между моделями не выявлено.

Масштабируемость и глубина: когда сети становятся сложнее

Влияние масштаба графа на оценку, будь то человеческое восприятие или вычислительный анализ, оказывается существенным. По мере увеличения числа узлов и связей сложность сопоставления графов экспоненциально возрастает, что создает серьезные трудности для как людей, пытающихся визуально определить сходство, так и алгоритмов, стремящихся к точному количественному сравнению. Данное обстоятельство подчеркивает необходимость разработки масштабируемых методов анализа графов, способных эффективно обрабатывать большие и сложные сетевые структуры, не теряя при этом точности и скорости. Отсутствие таких методов ограничивает возможности исследования реальных сетей, которые часто характеризуются огромным размером и сложной организацией, препятствуя обнаружению важных закономерностей и связей.

Структура сообществ и степени связей узлов играют ключевую роль в формировании человеческого восприятия и алгоритмических оценок, оказывая значительное влияние на общую оценку сходства графов. Исследования показывают, что люди и алгоритмы склонны придавать большее значение узлам с высокой степенью связности, поскольку они часто представляют собой центральные элементы в сети. Более того, восприятие сходства графов тесно связано с обнаружением и сравнением сообществ — групп узлов, плотно связанных между собой. Наличие схожих сообществ, даже при различиях в остальной структуре графа, может значительно повысить оценку их сходства как людьми, так и вычислительными системами. Таким образом, понимание влияния структуры сообществ и степеней узлов необходимо для разработки более эффективных и интуитивно понятных методов сравнения графов.

Структурные подтипы, определяемые как повторяющиеся мотивы в графах, значительно усложняют задачу их сравнения, как для визуального восприятия, так и для автоматизированного анализа. Наличие подобных подструктур, будь то простые треугольники или более сложные паттерны, влияет на то, как человек оценивает схожесть двух графов, поскольку внимание фокусируется на общих элементах, а не только на общей структуре. Алгоритмы, игнорирующие эти мотивы, могут давать неверные результаты, в то время как учет повторяющихся структур позволяет более точно определять сходство и различия между графами, что особенно важно при анализе сложных сетей, таких как социальные связи или биологические системы. Выявление и анализ этих мотивов требует значительных вычислительных ресурсов, но позволяет получить более глубокое понимание структуры и функциональности графов.

Исследования показывают, что модель GPT-5, демонстрируя более точное соответствие человеческому восприятию при анализе графов, обладает заметно большей задержкой при выводе результатов — 39.26 секунды, в то время как модель Claude справляется с той же задачей за 7.37 секунды. Данное различие указывает на компромисс между вычислительной мощностью и скоростью обработки информации: повышение способности к сложному рассуждению и более тонкому пониманию структуры графов требует значительных временных затрат. Таким образом, выбор между моделями зависит от приоритетов: для задач, требующих максимальной точности интерпретации, GPT-5 может оказаться предпочтительнее, однако в ситуациях, где важна оперативность, Claude представляет собой более эффективное решение.

Сравнение трех алгоритмов визуализации графов показывает, что алгоритм, основанный на симуляции физической системы (<span class="katex-eq" data-katex-display="false">Fruchterman-Reingold</span>), обеспечивает эстетически приятное отображение, круговая раскладка - структурированный обзор связности, а многомерное масштабирование (<span class="katex-eq" data-katex-display="false">UMAP</span>) эффективно сохраняет как локальные, так и глобальные структурные характеристики графа.
Сравнение трех алгоритмов визуализации графов показывает, что алгоритм, основанный на симуляции физической системы (Fruchterman-Reingold), обеспечивает эстетически приятное отображение, круговая раскладка — структурированный обзор связности, а многомерное масштабирование (UMAP) эффективно сохраняет как локальные, так и глобальные структурные характеристики графа.

Исследование, посвященное оценке схожести графовых визуализаций, демонстрирует, что современные многомодальные языковые модели (MLLM) начинают приближаться к человеческому восприятию. Это не значит, что алгоритмы «видят» так же, как люди, но они способны выявлять закономерности, которые соответствуют нашим интуитивным оценкам. Как отмечал Марвин Минский: «Лучший способ понять — это создать». Создание моделей, способных к адекватному восприятию визуальной информации, требует не просто разработки алгоритмов, но и глубокого понимания принципов человеческого зрения и когнитивных процессов. По сути, речь идет не о создании «искусственного интеллекта», а о построении экосистемы, где алгоритмы и люди дополняют друг друга в задачах визуального анализа. Стабильность такой системы обеспечивается не абсолютной точностью, а способностью адаптироваться к непредсказуемости данных.

Что дальше?

Изучение сходства графов, как показывает эта работа, оказывается не просто задачей вычисления, но и отражением нашей собственной склонности к паттернам и иллюзиям. Каждая метрика, призванная объективировать восприятие, лишь подчеркивает субъективность взгляда. Не стоит надеяться создать идеальный алгоритм; скорее, необходимо принять неизбежную расходимость между машинным и человеческим суждением. Это не провал, но напоминание о том, что системы — это не инструменты, а экосистемы.

Будущие исследования, вероятно, сосредоточатся на не только оценке соответствия между моделями и человеком, но и на понимании причин этих расхождений. Какие аспекты визуализации графов наиболее чувствительны к человеческому восприятию? Как можно использовать эти знания для создания не просто точных, но и интуитивно понятных инструментов визуального анализа? И, что важнее, когда следует довериться машине, а когда — собственным глазам? Каждый рефакторинг начинается как молитва и заканчивается покаянием.

Попытки приравнять человеческое восприятие к числовым значениям обречены на частичный успех. Задача не в том, чтобы построить совершенную систему, а в том, чтобы научиться жить с ее несовершенством. Система просто взрослеет, и ее «нестабильность» — лишь признак эволюции. Истинный прогресс заключается не в точности, а в принятии этой изменчивости.


Оригинал статьи: https://arxiv.org/pdf/2602.22416.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-01 15:01