Древний Рим под прицелом нейросетей: кто лучше разбирается в монетах – сверточные или трансформаторные сети?

Автор: Денис Аветисян

Исследование сравнивает возможности современных алгоритмов компьютерного зрения в анализе семантики древнеримских монет, выявляя сильные и слабые стороны сверточных и трансформаторных моделей.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Модель CNN, получившая название «щит», демонстрировала выраженную фокусировку на верхнем левом углу изображения, где в позитивных примерах часто обнаруживались согнутая рука, держащая копьё, или крест, несутщий ангел; последний случай, вероятно, являлся следствием ошибочной классификации из-за щита, изображённого на оборотной стороне монеты.

В работе изучается применение Vision Transformers и сверточных нейронных сетей для автоматического распознавания элементов на древних монетах, демонстрируя сопоставимую или слегка лучшую производительность ViT.

Автоматизированный анализ древних монет представляет собой сложную задачу, требующую извлечения исторических сведений из обширных коллекций. В данной работе, озаглавленной ‘Do Transformers Understand Ancient Roman Coin Motifs Better than CNNs?’, исследуется применение архитектур Vision Transformer (ViT) и сверточных нейронных сетей (CNN) для автоматической идентификации семантических элементов на древних монетах. Полученные результаты демонстрируют, что модели ViT показывают сопоставимую или несколько более высокую точность по сравнению с CNN при анализе нумизматических данных. Способны ли новые подходы глубокого обучения раскрыть скрытые закономерности и углубить наше понимание истории через призму древних монет?

Древние монеты: Вызов современному зрению

Изучение древней нумизматики всегда требовало пристального внимания к деталям и глубоких знаний, передаваемых от специалиста к специалисту. Традиционно, анализ древних монет осуществлялся исключительно экспертами, оценивающими мельчайшие особенности чеканки, износ и следы времени. Это требовало не только обширных познаний в истории и археологии, но и развитого визуального восприятия, позволяющего распознавать тонкие различия между экземплярами, определяющие их подлинность, происхождение и историческую ценность. Такой подход, хотя и надежный, ограничивал скорость и масштабируемость исследований, особенно при работе с обширными коллекциями, насчитывающими тысячи монет. В связи с этим возникла необходимость в разработке новых методов, способных автоматизировать и ускорить процесс анализа, сохраняя при этом высокую точность и надежность.

Существующие методы компьютерного зрения, такие как простое сопоставление изображений, сталкиваются со значительными трудностями при анализе древних монет из-за естественных изменений, возникающих с течением времени. Износ, коррозия и повреждения, приобретенные в течение веков, приводят к существенным вариациям в изображении, что делает стандартные алгоритмы неэффективными. Даже незначительные изменения в рельефе, вызванные эрозией, могут привести к неверной идентификации или классификации монеты. Таким образом, стандартные подходы, успешно работающие с современными изображениями, оказываются неприменимыми к древним артефактам, требуя разработки более устойчивых и адаптивных алгоритмов, способных учитывать эти естественные деформации и вариации.

Ограничения существующих методов компьютерного зрения существенно затрудняют проведение масштабного анализа и автоматической классификации древних нумизматических коллекций. Проблема заключается в том, что ручная обработка и каталогизация огромных объемов монет требует значительных временных и финансовых затрат, а автоматизированные системы, сталкиваясь с вариациями в состоянии сохранности, износом и повреждениями монет, демонстрируют неудовлетворительную точность. Это препятствует созданию полных и доступных цифровых каталогов, необходимых для исторических исследований, а также ограничивает возможности обнаружения подделок и изучения экономических связей прошлого. Неспособность эффективно обрабатывать большие коллекции монет не позволяет в полной мере использовать ценную информацию, заключенную в этих артефактах, и замедляет прогресс в области нумизматики и смежных дисциплин.

Изображения древних монет представляют собой сложный визуальный материал, требующий для анализа методов, выходящих за рамки простого выделения базовых признаков. Износ, коррозия, неполнота чеканки и стилистические особенности, характерные для разных эпох и регионов, создают значительные трудности для алгоритмов, основанных на сопоставлении простых шаблонов. Успешное распознавание и классификация монет требует применения продвинутых техник компьютерного зрения, включая глубокое обучение и анализ контекстуальных особенностей изображения, чтобы эффективно учитывать вариативность и дефекты, присущие этим историческим артефактам. Именно поэтому для обработки подобных данных необходимы алгоритмы, способные к абстрагированию и обобщению информации, а не только к прямому сопоставлению пикселей.

На представленном изображении, содержащем несколько монет, не была обнаружена проблема при предварительной обработке, хотя его следовало бы отклонить.

Семантическое понимание с помощью глубокого обучения

Семантический анализ контента предоставляет возможность перехода от сопоставления изображений на уровне отдельных пикселей к анализу смысла визуальных элементов. Традиционные методы компьютерного зрения часто основываются на идентификации паттернов пикселей, что делает их уязвимыми к изменениям освещения, перспективы или незначительным модификациям изображения. Семантический анализ, напротив, стремится понять, что изображено на картинке — например, распознать объекты, их взаимосвязи и контекст. Это достигается путем обучения моделей, способных извлекать высокоуровневые признаки и интерпретировать их, что позволяет системе “понимать” содержание изображения, а не просто сравнивать его с другими изображениями на основе пиксельной информации. Такой подход значительно повышает надежность и точность анализа изображений в сложных условиях и позволяет решать более сложные задачи, такие как понимание сцены или автоматическое создание описаний изображений.

Современные архитектуры глубокого обучения, такие как свёрточные нейронные сети (CNN) и Vision Transformers, являются передовыми решениями для анализа изображений. CNN используют свёрточные слои для автоматического извлечения признаков из изображений, эффективно обнаруживая закономерности и текстуры. Vision Transformers, напротив, применяют механизм внимания, изначально разработанный для обработки естественного языка, к визуальным данным, разбивая изображение на патчи и анализируя взаимосвязи между ними. Обе архитектуры демонстрируют высокую производительность в задачах классификации, обнаружения объектов и сегментации изображений, превосходя традиционные методы компьютерного зрения по точности и эффективности.

Для достижения оптимальной производительности, современные модели глубокого обучения, такие как сверточные нейронные сети (CNN) и Vision Transformers, требуют значительных вычислительных ресурсов. Обучение этих моделей связано с необходимостью обработки больших объемов данных и выполнения сложных матричных операций, что предъявляет высокие требования к объему оперативной памяти, мощности графических процессоров (GPU) и времени обучения. Эффективное обучение требует тщательной настройки гиперпараметров, включая скорость обучения, размер пакета и архитектуру сети, а также использования методов регуляризации для предотвращения переобучения. Кроме того, для достижения высокой точности и обобщающей способности необходимы большие и разнообразные наборы данных для обучения и валидации.

Успешное внедрение моделей глубокого обучения для семантического анализа изображений требует тщательной предварительной обработки данных. Этот процесс включает в себя нормализацию входных данных для обеспечения единообразия масштаба значений пикселей, удаление шума и артефактов, а также аугментацию данных — искусственное увеличение размера обучающей выборки путем применения различных преобразований к существующим изображениям (например, повороты, сдвиги, изменения масштаба). Недостаточная предварительная обработка может привести к снижению точности модели и ухудшению ее способности к обобщению на новые, ранее не встречавшиеся изображения. Эффективная предобработка данных включает в себя также корректное разграничение классов, обработку пропущенных значений и приведение данных к формату, оптимальному для выбранной архитектуры нейронной сети.

Модель ViT, в отличие от CNN, выявила более разнообразные и разрозненные значимые области изображения 'лошадь', что указывает на более широкий спектр визуальных признаков, используемых для распознавания лошадей. — Модель ViT, в отличие от CNN, выявила более разнообразные и разрозненные значимые области изображения ‘лошадь’, что указывает на более широкий спектр визуальных признаков, используемых для распознавания лошадей.

Оптимизация обучения модели для древних монет

Эффективное обучение моделей для классификации древних монет достигается за счет использования комбинации алгоритмов оптимизации, таких как Стохастический Градиентный Спуск (Stochastic Gradient Descent, SGD) и Adam Optimizer. SGD, итеративно обновляя веса модели на основе градиента функции потерь, обеспечивает сходимость к минимуму, однако требует тщательной настройки скорости обучения. Adam Optimizer, в свою очередь, комбинирует преимущества алгоритмов RMSprop и Momentum, адаптируя скорость обучения для каждого параметра модели и обеспечивая более быструю и стабильную сходимость, особенно в задачах с большим количеством параметров и сложными функциями потерь. Выбор оптимального алгоритма и его параметров зависит от конкретной архитектуры модели, размера набора данных и характеристик решаемой задачи.

Функции потерь, такие как перекрестная энтропия (Cross-Entropy Loss), используются для количественной оценки расхождения между предсказанными моделью вероятностями и фактическими классами объектов. Перекрестная энтропия измеряет разницу между двумя вероятностными распределениями — истинным распределением, представленным метками классов, и предсказанным распределением, выдаваемым моделью. Математически, перекрестная энтропия для одного объекта вычисляется как $- \sum_{i=1}^{C} y_i \log(p_i)$ , где $y_i$ — истинная метка класса (0 или 1), а $p_i$ — предсказанная моделью вероятность принадлежности к классу i. Минимизация функции потерь в процессе обучения позволяет модели корректировать свои параметры и повышать точность классификации.

Функции активации, такие как ReLU (Rectified Linear Unit), играют важную роль в повышении производительности моделей машинного обучения при классификации древних монет. В отличие от линейных функций, ReLU вводят нелинейность, позволяя модели аппроксимировать более сложные взаимосвязи в данных. Математически, ReLU определяется как $f(x) = max(0, x)$ . Это означает, что функция возвращает значение x, если оно положительно, и 0 в противном случае. Введение нелинейности необходимо, поскольку большинство реальных данных, включая изображения древних монет, не имеют линейной структуры. Без нелинейных функций активации, многослойная нейронная сеть эквивалентна однослойной, что существенно ограничивает ее способность к обучению и обобщению. Использование ReLU также помогает смягчить проблему затухания градиента, распространенную в глубоких нейронных сетях, что способствует более быстрой и эффективной сходимости процесса обучения.

Визуализация решений модели с помощью карт значимости (Saliency Maps) предоставляет возможность интерпретации процесса принятия решений нейронной сетью при классификации древних монет. Карты значимости отображают, какие области изображения (например, конкретные детали на монете) наиболее сильно влияют на итоговый результат классификации. Анализ этих карт позволяет выявить, какие признаки модель считает наиболее важными для определения типа монеты, а также обнаружить потенциальные ошибки или предвзятости в процессе обучения. Например, если модель фокусируется на артефактах изображения, а не на ключевых элементах монеты, это указывает на необходимость корректировки данных или архитектуры сети. Использование карт значимости позволяет целенаправленно улучшать процесс обучения и повышать точность модели.

Типичная кривая обучения демонстрирует переобучение после определенного момента тренировки.

За пределами классификации: открывая новые горизонты

Автоматизированная идентификация и датировка монет становится возможной благодаря синергии компьютерного зрения и машинного обучения. Этот подход позволяет создавать системы, способные анализировать изображения монет и определять их принадлежность к определенной эпохе или государству без участия человека. Компьютерное зрение отвечает за обработку визуальной информации — выявление формы, текстуры, надписей и других ключевых признаков на поверхности монеты. Затем, алгоритмы машинного обучения, обученные на обширных базах данных, используют эти признаки для классификации и датировки артефактов. В результате, археологи и нумизматы получают мощный инструмент для ускорения исследований, повышения точности анализа и обработки больших коллекций монет, что открывает новые перспективы в изучении истории и культуры.

Для повышения точности автоматической идентификации и датировки древних монет исследователи применяют передовые методы извлечения признаков. В частности, технология компактного билинейного пулинга (Compact Bilinear Pooling) позволяет эффективно представлять сложные визуальные характеристики, снижая вычислительную нагрузку и сохраняя информативность. Дополнительно, использование направленных ядерных признаков (Directional Kernel Features) способствует более точному выявлению локальных особенностей изображения, таких как рельеф и текстура, что особенно важно при анализе изношенных или поврежденных экземпляров. Комбинация этих подходов позволяет создавать более надежные и точные модели классификации, значительно превосходящие традиционные методы по эффективности распознавания даже при наличии значительных вариаций в освещении и перспективе.

Для повышения устойчивости систем автоматической идентификации монет к изменениям их ориентации в кадре, исследователи применяют сети вращательных преобразований. Эти сети позволяют модели эффективно обучаться, несмотря на вариации в угле поворота монет, что особенно важно при обработке исторических артефактов, где точное позиционирование не всегда возможно. Сети вращательных преобразований автоматически изучают оптимальные углы поворота, необходимые для нормализации изображения монеты, тем самым упрощая задачу классификации и повышая точность распознавания даже при значительных отклонениях от стандартной ориентации. Такой подход значительно снижает зависимость от предварительной обработки изображений и ручной коррекции, делая систему более надежной и универсальной.

В рамках исследования была предложена инновационная методология, использующая Игры Графной Трансдукции для обучения с частичной разметкой данных. Этот подход позволяет эффективно использовать как размеченные, так и неразмеченные данные для улучшения точности классификации. Суть метода заключается в построении графа, где узлы представляют собой отдельные экземпляры данных, а связи отражают их сходство. Затем, используя принципы теории игр, модель обучается распространять информацию от размеченных узлов к неразмеченным, тем самым извлекая максимум пользы из ограниченного объема размеченных данных. Такой подход особенно ценен при работе с историческими артефактами, такими как древние монеты, где получение большого количества размеченных данных может быть трудоемким и дорогостоящим процессом, а использование неразмеченных данных позволяет значительно расширить обучающую выборку и повысить общую производительность системы.

Исследование демонстрирует, что модели Vision Transformer (ViT) способны достигать сопоставимой точности с традиционными сверточными нейронными сетями (CNN) при распознавании семантических элементов на древних монетах, уступая им всего несколько процентных пунктов. Данный результат особенно важен, поскольку указывает на перспективность применения архитектуры Transformer, изначально разработанной для обработки естественного языка, в задачах компьютерного зрения, связанных с анализом исторических артефактов. Такая сопоставимость эффективности открывает возможности для разработки более гибких и универсальных систем автоматической идентификации и датировки монет, способных эффективно работать с изображениями различного качества и разрешения, а также адаптироваться к разнообразным стилям и изображениям, характерным для разных эпох и культур.

Каждый образец данных включает в себя изображение лицевой и обратной стороны монеты, а также её описание.

Исследование демонстрирует, что Vision Transformers (ViT) способны эффективно анализировать сложные визуальные паттерны, представленные на древних монетах. Это подтверждает идею о том, что глубокое понимание структуры данных позволяет создавать элегантные и эффективные решения. Как однажды заметил Дэвид Марр: «Представление — это то, что система делает со своими сенсорными входами, а не то, что она получает». В данном контексте, ViT, подобно опытному нумизмату, формирует представление о монете, выделяя семантические элементы и интерпретируя их значение. Подобный подход, основанный на структурированном анализе, обеспечивает высокую точность и надежность системы.

Куда же всё это ведёт?

Представленные результаты, хотя и демонстрируют сравнимую эффективность Vision Transformers и Convolutional Neural Networks в области древней нумизматики, лишь слегка приоткрывают завесу над истинным вопросом: действительно ли машина «понимает» мотивы древних монет? Или же она лишь искусно воспроизводит статистические закономерности, не имея представления об истории, культуре и символизме, заложенных в этих артефактах? Элегантность модели не должна затмевать фундаментальную неопределённость.

Будущие исследования должны сосредоточиться не только на повышении точности классификации, но и на разработке методов интерпретации решений модели. Необходимо понять, какие признаки изображения оказываются наиболее значимыми для Vision Transformer, и как эти признаки соотносятся с историческими и искусствоведческими знаниями. Простой рост метрик — лишь техническая деталь; суть в раскрытии логики «видения» машины.

Помимо этого, перспективным направлением представляется интеграция знаний предметной области в архитектуру модели. Возможно, внедрение экспертных правил или использование гибридных подходов, сочетающих глубокое обучение с традиционными методами анализа изображений, позволит создать систему, способную не только идентифицировать мотивы, но и осмысленно их интерпретировать. Рефакторинг — это не просто оптимизация кода, это искусство создания гармоничной системы.

Оригинал статьи: https://arxiv.org/pdf/2601.09433.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-01-15 07:40