Оптический компьютер против ипотеки: новый взгляд на анализ данных

Автор: Денис Аветисян

Исследователи продемонстрировали возможность использования аналогового оптического компьютера для классификации табличных данных, применив его к задаче оценки кредитоспособности заемщиков.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Различия в точности между моделью XGBoost, использующей необработанные признаки (97.9%), и бинаризованным AOC (89.4%) обусловлены архитектурными особенностями на 3.3 процентных пункта, методами кодирования - на 5.2 процентных пункта, а вклад неидеальности аппаратного обеспечения незначителен и близок к нулю. — Различия в точности между моделью XGBoost, использующей необработанные признаки (97.9%), и бинаризованным AOC (89.4%) обусловлены архитектурными особенностями на 3.3 процентных пункта, методами кодирования — на 5.2 процентных пункта, а вклад неидеальности аппаратного обеспечения незначителен и близок к нулю.

Аналоговое оптическое вычисление достигло 94,6% точности на миллионном наборе данных по ипотеке, используя 1024 оптических веса, хотя и уступает алгоритму XGBoost.

Несмотря на обещания значительного повышения эффективности машинного обучения, аналоговые оптические вычисления до сих пор не выходили за рамки демонстраций на небольших наборах изображений. В работе ‘Analog Optical Inference on Million-Record Mortgage Data’ представлен анализ цифрового двойника аналогового оптического компьютера (AOC) на задаче классификации заявок на ипотеку, основанной на 5,84 миллионах записей HMDA. Показано, что AOC достигает 94,6% сбалансированной точности при использовании 5126 параметров (1024 оптических), хотя и уступает XGBoost по этому показателю; анализ выявил, что основные ограничения связаны с архитектурой, а не с аппаратной реализацией. Какие архитектурные улучшения позволят в полной мере раскрыть потенциал аналоговых оптических вычислений для задач анализа больших табличных данных?

Традиционные алгоритмы против новых вызовов: предел точности

Традиционные методы машинного обучения, такие как градиентный бустинг на деревьях решений (XGBoost), широко применяются для анализа табличных данных, однако зачастую испытывают трудности при работе со сложными взаимосвязями. Эти алгоритмы, хотя и эффективны в решении многих задач, могут не полностью учитывать нелинейные зависимости и взаимодействия между признаками в больших и многомерных наборах данных. В результате, точность прогнозов снижается, особенно когда данные содержат скрытые закономерности или требуют учета контекста. Неспособность адекватно моделировать эти сложности приводит к упрощению представления данных и, как следствие, к потере ценной информации, необходимой для принятия обоснованных решений.

Современные наборы табличных данных, такие как HMDA (Home Mortgage Disclosure Act), используемые для оценки кредитоспособности при выдаче ипотечных кредитов, демонстрируют экспоненциальный рост как в объеме, так и в сложности. Этот тренд ставит под вопрос эффективность традиционных алгоритмов машинного обучения, требуя разработки более производительных и точных решений. Растущая детализация данных, включающая множество факторов, влияющих на принятие решения, создает необходимость в методах, способных не только обрабатывать огромные объемы информации, но и выявлять сложные взаимосвязи между различными параметрами, что крайне важно для обеспечения справедливости и минимизации рисков в сфере ипотечного кредитования.

Существующие методы машинного обучения, применяемые к табличным данным, зачастую не способны в полной мере извлечь всю ценную информацию, содержащуюся в них. Это приводит к снижению предсказательной силы моделей и, что не менее важно, к потенциальным проблемам с справедливостью и предвзятостью. Алгоритмы могут упускать сложные взаимосвязи между признаками, игнорировать важные нюансы в данных или недостаточно эффективно обрабатывать пропущенные значения, что приводит к неоптимальным результатам. В результате, модели, построенные на основе таких методов, могут демонстрировать пониженную точность, а также выдавать несправедливые или дискриминационные прогнозы для определенных групп населения, что требует разработки более совершенных подходов к анализу табличных данных.

Появление всё более масштабных и сложных табличных данных, таких как используемые в ипотечном андеррайтинге HMDA, обуславливает потребность в принципиально новых вычислительных подходах. Традиционные методы машинного обучения, несмотря на свою эффективность, испытывают ограничения при обработке огромных объемов информации и выявлении скрытых взаимосвязей. Поэтому, актуальной задачей является разработка вычислительных парадигм, способных не только эффективно обрабатывать большие данные, но и извлекать из них максимальную ценность, повышая точность прогнозов и обеспечивая более справедливые результаты, что особенно важно в чувствительных областях применения, таких как кредитование и оценка рисков.

Переход к бинаризованным признакам значительно увеличивает пересечение множеств ошибок между моделями XGBoost и AOC (до 90%, индекс Жаккара = 0.834), однако приводит к снижению точности и уменьшению разнообразия моделей, в то время как на исходных признаках пересечение составляет лишь 35% (индекс Жаккара = 0.351).

Аналоговое оптическое вычисление: новый горизонт скорости и эффективности

Аналоговое оптическое вычисление предлагает перспективное решение для ускорения вычислений за счет использования присущего оптике параллелизма. В традиционных электронных вычислениях операции выполняются последовательно, ограничиваясь пропускной способностью шины данных. Оптика, напротив, позволяет одновременно обрабатывать множество световых лучей, каждый из которых может представлять отдельный бит информации или часть вычисления. Этот принцип позволяет значительно увеличить скорость обработки данных, особенно в задачах, требующих большого объема параллельных вычислений, таких как обработка изображений, машинное обучение и научное моделирование. В отличие от цифровых систем, аналоговое оптическое вычисление оперирует с непрерывными значениями света, что позволяет избежать накладных расходов, связанных с дискретизацией и преобразованием данных.

В основе аналоговых оптических вычислений лежит модель глубокого равновесия (Deep Equilibrium Model), представляющая собой тип нейронной сети, особенно хорошо подходящий для оптической реализации. В отличие от традиционных нейронных сетей, требующих последовательных вычислений, модель глубокого равновесия позволяет достичь стационарного состояния за один проход, что делает её архитектуру естественным кандидатом для параллельных оптических вычислений. Это достигается за счет использования рекуррентных связей и итеративного процесса вычислений, который можно эффективно реализовать с помощью оптических компонентов, таких как интерферометры и волноводы. Ключевым преимуществом является возможность выполнения сложных вычислений без необходимости в большом количестве последовательных операций, что позволяет значительно повысить скорость и снизить энергопотребление.

В аналоговом оптическом компьютере вычисления выполняются посредством света, используя функцию гиперболического тангенса (Tanh) в рамках модели глубокого равновесия (Deep Equilibrium Model). Функция Tanh, определяемая как $tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$ , служит нелинейным элементом, необходимым для реализации сложных вычислений. В данной архитектуре, оптические сигналы модулируются и направляются таким образом, чтобы представлять значения, которые подвергаются преобразованию посредством Tanh активации. Использование Tanh позволяет модели глубокого равновесия достигать стационарного состояния, представляющего собой решение вычислительной задачи, что обеспечивает эффективную и параллельную обработку данных без необходимости традиционных цифровых операций.

Традиционные компьютеры, основанные на архитектуре фон Неймана, сталкиваются с ограничениями, обусловленными последовательным характером передачи данных между процессором и памятью — так называемым “узким местом фон Неймана”. Аналоговые оптические вычисления обходят эту проблему, используя свет для параллельной обработки информации непосредственно в оптических компонентах. Вместо последовательной передачи данных, оптические сигналы могут одновременно взаимодействовать со множеством элементов, что значительно повышает скорость вычислений и снижает энергопотребление. Устранение необходимости в постоянной передаче данных между процессором и памятью позволяет добиться существенного увеличения производительности и уменьшения затрат энергии, особенно при обработке больших объемов данных.

Цифровая копия реальности: моделирование, калибровка и верификация

Цифровая копия аналогового оптического компьютера (Digital Twin) является ключевым инструментом для моделирования и оценки различных конфигураций системы. Она позволяет проводить симуляции без необходимости физической реализации, что существенно снижает затраты и время разработки. Данная цифровая модель обеспечивает возможность тестирования различных архитектур, оптимизации параметров и прогнозирования производительности до этапа сборки реального прототипа. Кроме того, Digital Twin позволяет проводить анализ чувствительности к изменениям параметров и выявлять потенциальные узкие места в системе, что способствует повышению надежности и эффективности аналогового оптического компьютера.

Цифровая копия аналогового оптического компьютера позволяет исследовать две ключевые модели: “Простую ячейку” (Simple Cell), представляющую собой идеализированную математическую конструкцию, и “Ячейку АОК” (AOC Cell), которая учитывает откалиброванные неидеальности физического оборудования. “Ячейка АОК” создается путем включения в модель измеренных параметров, характеризующих отклонения реальных оптических компонентов от их теоретических значений. Это позволяет проводить более точное моделирование работы системы и прогнозировать ее поведение в условиях, приближенных к реальным, в отличие от использования исключительно идеализированных моделей, не учитывающих аппаратные ограничения.

Точность модели AOC Cell напрямую зависит от учета несовершенств физического оборудования. Реальные оптические компоненты демонстрируют отклонения от идеальных характеристик, включая неточности в пропускании света, рассеяние, и вариации в параметрах компонентов. Эти несовершенства проявляются как систематические ошибки и шум, влияющие на выходной сигнал и, следовательно, на точность вычислений. Для получения достоверных результатов моделирования и оценки производительности необходимо калибровать модель AOC Cell, вводя параметры, отражающие измеренные отклонения в физическом оборудовании. Игнорирование этих несовершенств приводит к завышенной оценке потенциальной производительности и неверным прогнозам при переходе к реальной аппаратной реализации.

На основе набора данных HMDA продемонстрирована производительность Ens-4x-AOC-NN — ансамбля, состоящего из четырех блоков аналогового оптического компьютера. Достигнута сбалансированная точность в 94.6% при использовании 1024 оптических весов. Полученные результаты сопоставимы с показателями традиционных методов машинного обучения, что подтверждает перспективность применения аналоговых оптических вычислений в задачах классификации данных.

Дальнейшее увеличение масштаба системы до 48 каналов (9 216 оптических весов) привело к незначительному улучшению точности до 95,1%, что свидетельствует о снижении эффективности увеличения сложности. Полученные данные демонстрируют, что прирост производительности при увеличении количества оптических весов становится всё менее выраженным, указывая на предел, после которого добавление дополнительных компонентов не приводит к существенному улучшению характеристик системы. Это указывает на необходимость оптимизации архитектуры и алгоритмов для достижения более значительного прогресса в будущем.

Бинаризация снижает сбалансированную точность на 7.7-8.4 процентных пункта для цифровых моделей и на 5.2 процентных пункта для AOC, однако логистическая регрессия выигрывает 6.5 процентных пункта за счет линеаризации признакового пространства при использовании one-hot кодирования.

Кодирование данных и метрики оценки: нюансы и влияние на результат

В аналоговом оптическом компьютере эффективное представление данных играет ключевую роль в обеспечении высокой производительности. Для преобразования исходных признаков в бинаризованные, пригодные для обработки в оптической системе, используется кодирование Изинга. Этот метод позволяет представить каждый признак в виде спина, принимающего значения +1 или -1, что значительно упрощает реализацию вычислений с использованием света. Такое преобразование не только снижает сложность аппаратной реализации, но и открывает возможности для использования уникальных свойств оптических элементов для выполнения логических операций. Кодирование Изинга позволяет эффективно представлять данные в двоичном формате, подходящем для аналоговой обработки в оптическом компьютере, однако, как показали исследования, это может влиять на общую точность по сравнению с традиционными алгоритмами, работающими с непрерывными значениями признаков.

Выбор метода кодирования данных оказывает существенное влияние на эффективность вычислений и точность модели в аналоговом оптическом компьютере. Различные схемы кодирования преобразуют исходные признаки в формат, пригодный для обработки, однако этот процесс неизбежно вносит изменения в информацию, что может сказаться на результатах. Неправильно подобранный метод кодирования может привести к потере значимой информации, увеличению вычислительной сложности или снижению способности модели к обобщению. Исследования показали, что использование бинаризованных признаков, хотя и упрощает аппаратную реализацию, может привести к ухудшению точности модели по сравнению с использованием исходных данных, что подчеркивает важность тщательного выбора метода кодирования, учитывающего специфику задачи и характеристики используемой модели.

Для оценки производительности разработанной аналоговой оптической вычислительной системы используется метрика «сбалансированная точность» (Balanced Accuracy). Данный показатель особенно важен при работе с несбалансированными наборами данных, такими как HMDA Dataset, где количество примеров разных классов может существенно отличаться. В отличие от обычной точности, которая может быть обманчиво высокой при доминировании одного класса, сбалансированная точность учитывает производительность модели на каждом классе, обеспечивая более объективную оценку. Она вычисляется как среднее арифметическое точности и полноты для каждого класса, что позволяет избежать смещения в сторону преобладающего класса и получить более надежную картину эффективности алгоритма в целом. Использование сбалансированной точности позволяет более корректно сравнивать результаты работы различных моделей и алгоритмов на несбалансированных данных.

Несмотря на то, что алгоритм XGBoost продемонстрировал сбалансированную точность в 97.9% при работе с исходным набором данных, Аналоговый Оптический Компьютер (AOC) показал снижение этого показателя на 5.2 процентных пункта при использовании бинаризованных признаков. Данное снижение указывает на чувствительность AOC к преобразованию данных, а также подчеркивает важность выбора оптимального метода кодирования для обеспечения высокой производительности. В то время как XGBoost способен эффективно обрабатывать данные в исходном формате, AOC, вероятно, требует более тщательной настройки параметров или альтернативных методов кодирования для компенсации потери информации, возникающей при бинаризации признаков и достижения сопоставимой точности.

Анализ перекрытия множеств ошибок, выполненный с использованием индекса Жаккара, продемонстрировал существенное различие в подходах к решению задачи моделями XGBoost и аналоговым оптическим компьютером (AOC). На исходных, необработанных данных, перекрытие множеств ошибок составляло всего 0.35, что указывает на принципиально разные ошибки, допускаемые обеими системами. Однако, после бинаризации признаков, этот показатель значительно увеличился до 0.83. Это свидетельствует о том, что бинаризация, хотя и упрощает представление данных, приводит к тому, что обе модели начинают допускать схожие ошибки, уменьшая различия в их подходах к решению задачи и подчеркивая влияние выбранного метода кодирования на природу ошибок.

Нелинейные модели, обученные на бинаризованных признаках, демонстрируют схожую точность (89.4-89.6%) независимо от количества параметров, в то время как на исходных признаках AOC-16 и MLP-small с сопоставимым количеством параметров (<span class="katex-eq" data-katex-display="false"> \sim 5200 </span>) различаются по точности на 2.6 процентных пункта. — Нелинейные модели, обученные на бинаризованных признаках, демонстрируют схожую точность (89.4-89.6%) независимо от количества параметров, в то время как на исходных признаках AOC-16 и MLP-small с сопоставимым количеством параметров ( $\sim 5200$ ) различаются по точности на 2.6 процентных пункта.

Исследование демонстрирует, что даже при наличии аппаратных несовершенств, аналоговые оптические вычисления способны достигать впечатляющих результатов в классификации табличных данных. Авторы успешно применили этот подход к задаче оценки кредитоспособности заемщиков, показав точность в 94.6% при использовании всего 1024 оптических весов. Как отмечал Роберт Тарджан: «Программное обеспечение подобно тени — чем оно сложнее, тем труднее понять, что оно делает». Данная работа, стремясь к упрощению вычислительных процессов через аналоговые системы, словно пытается поймать эту ускользающую тень, упростить её и сделать прозрачной, чтобы понять принципы работы системы оценки рисков, лежащие в основе алгоритмов, таких как градиентный бустинг.

Что дальше?

Представленная работа, по сути, вскрыла очередной чёрный ящик — возможность заставить свет мыслить о ипотеках. Достигнутые 94.6% точности — это не триумф, а скорее констатация факта: аналоговые вычисления действительно могут оперировать табличными данными. Однако разрыв с XGBoost намекает на то, что пока это больше демонстрация принципа, чем реальная угроза доминированию цифровых алгоритмов. Ключевой вопрос — не столько в достижении паритета, сколько в понимании, где аналоговый подход принципиально выигрывает, если вообще выигрывает. Где-то в шуме, в неидеальности железа, возможно, скрыта та самая «магия», которая позволит обойти ограничения цифровой точности.

Следующий этап — не погоня за процентами, а радикальный пересмотр архитектуры. Вместо попыток эмулировать цифровые алгоритмы на аналоговом железе, необходимо искать принципиально новые подходы к обработке данных, использующие уникальные свойства света. Создание полноценного «цифрового двойника» аналоговой системы позволит глубже понять природу ошибок и оптимизировать её работу. И, конечно, необходима более детальная проработка вопросов масштабируемости и энергоэффективности.

В конечном счете, эта работа — лишь первый шаг на пути к созданию совершенно нового класса вычислительных устройств. И, возможно, именно в этой аналоговой неточности, в этом хаосе, и кроется ключ к решению задач, которые не под силу традиционным компьютерам.

Оригинал статьи: https://arxiv.org/pdf/2604.13251.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-04-17 04:46