Табличные данные: как Deep Learning догоняет XGBoost

Автор: Денис Аветисян

Новое исследование выявляет причины отставания глубокого обучения от деревьев решений при работе с табличными данными и предлагает эффективные методы предобработки.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

В процессе предобработки данных рассматриваются два подхода: использование ICF или LFF, причём в случае ICF применяется дополнение нулями для признаков с меньшим числом бинов, обеспечивая возможность их конкатенации.

Работа посвящена выявлению и обработке неявно категориальных признаков (ICF) и использованию обученных преобразований Фурье (LFF) для повышения производительности моделей глубокого обучения на табличных данных.

Несмотря на успехи глубокого обучения в различных областях, модели на основе нейронных сетей по-прежнему уступают алгоритмам, основанным на деревьях, при работе с табличными данными. В работе, озаглавленной ‘Closing the gap on tabular data with Fourier and Implicit Categorical Features’, авторы выдвигают гипотезу о том, что ключевым фактором является способность древовидных моделей эффективно учитывать нелинейные взаимодействия, обусловленные категориальными признаками. Для преодоления этого разрыва предложены методы предварительной обработки признаков, выявляющие скрыто категориальные характеристики и использующие Learned Fourier для смягчения предвзятости нейронных сетей к излишне гладким решениям. Смогут ли эти подходы открыть новую эру в применении глубокого обучения к анализу табличных данных и превзойти традиционные методы, такие как XGBoost?

Разрыв в Производительности: Почему Деревья Превосходят Нейронные Сети?

Несмотря на значительный прогресс в области глубокого обучения, методы, основанные на деревьях, такие как XGBoost, демонстрируют стабильно более высокую производительность при работе с табличными данными. Многочисленные исследования показывают, что, в то время как нейронные сети преуспевают в обработке изображений и текста, табличные данные часто оказываются более сложной задачей. XGBoost и аналогичные алгоритмы, благодаря своей способности эффективно моделировать нелинейные взаимосвязи и автоматически выполнять отбор признаков, зачастую достигают большей точности и обобщающей способности, чем сложные архитектуры глубокого обучения. Этот феномен, известный как “разрыв в производительности”, подчеркивает необходимость дальнейших исследований и разработки специализированных подходов к глубокому обучению, адаптированных к специфике табличных данных.

Несмотря на значительный прогресс в области глубокого обучения, наблюдается устойчивый разрыв в производительности при работе с табличными данными: методы, основанные на деревьях решений, такие как XGBoost, зачастую демонстрируют более высокую точность. Данный феномен указывает на фундаментальные ограничения в подходах глубокого обучения к подобному типу данных. В то время как глубокие нейронные сети преуспевают в обработке неструктурированных данных, таких как изображения и текст, табличные данные, характеризующиеся дискретными признаками и сложными взаимосвязями, представляют собой специфическую задачу, в которой алгоритмы, основанные на деревьях, оказываются более эффективными. Этот разрыв в производительности стимулирует дальнейшие исследования, направленные на понимание сильных и слабых сторон различных подходов к анализу данных и разработку новых архитектур глубокого обучения, способных эффективно работать с табличными данными.

Традиционные архитектуры глубокого обучения испытывают трудности при обработке табличных данных, что связано с особенностями их структуры и взаимодействием признаков. В отличие от изображений или текста, где локальные закономерности играют ключевую роль, в табличных данных значимую роль играют сложные нелинейные взаимодействия между отдельными признаками. Глубокие нейронные сети, оптимизированные для выявления локальных паттернов, зачастую не способны эффективно улавливать эти взаимодействия, требующие более гибких и специализированных подходов. В то время как древовидные методы, такие как XGBoost, изначально предназначены для моделирования таких взаимодействий путем последовательного разделения признаков, глубокое обучение требует дополнительных усилий для эффективного представления и обработки этих сложных зависимостей, что и объясняет наблюдаемый разрыв в производительности.

Нейронные сети, несмотря на свою мощь в обработке изображений и текста, демонстрируют склонность к «сглаживанию» при анализе табличных данных. Этот феномен, известный как «сглаживающий смес» или «smoothness bias», заключается в том, что сети стремятся к построению гладких, непрерывных функций, даже если реальные зависимости в данных далеки от этого. В отличие от этого, алгоритмы, основанные на деревьях решений, такие как XGBoost, способны улавливать сложные, нелинейные взаимодействия между признаками, не ограничиваясь «гладкими» функциями. Такое поведение обусловлено архитектурой нейронных сетей и используемыми функциями активации, что приводит к потере информации о важных, но локальных особенностях данных, в то время как деревья решений более эффективно адаптируются к сложным и дискретным зависимостям, характерным для табличных данных.

В ходе анализа лучших восьми прогонов, ResNet+F демонстрирует резкий скачок производительности, в то время как XGBoost характеризуется более стабильным и равномерным уровнем работы.

Скрытые Сигналы: Как Табличные Данные Маскируют Категориальную Информацию

В табличных данных, представляющих собой числовые значения, часто встречаются так называемые «скрыто-категориальные признаки». Это числовые столбцы, которые на самом деле кодируют категориальную информацию, например, идентификаторы или дискретные уровни, представленные в числовом формате. Глубокие нейронные сети, как правило, интерпретируют все числовые признаки как непрерывные, что приводит к неоптимальной обработке и снижению точности модели. Игнорирование этой категориальной природы приводит к неэффективному использованию информации, содержащейся в данных, и требует специальной обработки для достижения наилучших результатов.

Метод обнаружения категориальных признаков, предлагаемый в данной работе, использует статистические тесты для выявления скрытых категориальных сигналов в числовых данных. В частности, применяется анализ распределений признаков и проверка гипотез о непрерывности. Тесты, такие как критерий хи-квадрат или ANOVA, позволяют оценить, соответствуют ли данные признака ожидаемому нормальному распределению, характерному для непрерывных величин. Значительное отклонение от нормальности указывает на потенциальную категориальность признака, даже если он представлен в числовом формате. Выявление таких признаков необходимо для применения корректных методов обработки данных и повышения эффективности моделей машинного обучения.

Успешная идентификация неявно категориальных признаков критически важна, поскольку они требуют отличного подхода в обработке по сравнению с непрерывными числовыми признаками. Непрерывные признаки предполагают наличие градиента и могут быть эффективно обработаны стандартными методами глубокого обучения. Категориальные признаки, напротив, не обладают таким свойством и нуждаются в предварительной обработке, такой как one-hot кодирование или embedding, для корректного обучения модели. Игнорирование категориальной природы признака может привести к неоптимальной производительности модели, поскольку алгоритмы будут пытаться найти закономерности в дискретных значениях, как если бы это были непрерывные данные. Правильное определение и обработка таких признаков позволяет повысить точность прогнозов и эффективность модели в целом.

Предложенный метод обнаружения категориальных признаков применим как к многослойным персептронам (MLP), так и к ResNet-архитектурам. Это обеспечивает универсальность и гибкость при интеграции в существующие конвейеры глубокого обучения. Независимо от выбранной архитектуры, статистические тесты позволяют выявлять неявные категориальные признаки в числовых данных, что позволяет применить соответствующие стратегии обработки данных и повысить точность модели. Возможность использования с различными архитектурами значительно расширяет область применения данного метода и упрощает его внедрение в различные проекты машинного обучения.

Преодоление Сглаживания: Как Фурье-Преобразования Возвращают Нейронным Сетям Ощущение Реальности

Техника “Обучаемых Фурье-признаков” (Learned Fourier Features) решает проблему смещения в сторону гладкости (smoothness bias), ограничивающую способность глубоких нейронных сетей моделировать сложные зависимости в данных. Традиционные архитектуры склонны к созданию гладких, линейных границ принятия решений, что неэффективно для задач, требующих учета нелинейных и разрывных отношений. Обучаемые Фурье-признаки позволяют модели создавать более сложные и адекватные границы, за счет представления входных данных в виде комбинации Фурье-базисных функций, оптимизируемых в процессе обучения. Это позволяет модели улавливать негладкие взаимосвязи и повышать точность прогнозирования, особенно в задачах, связанных с табличными данными.

Преобразование входных данных в пространство более высокой размерности с использованием базисных функций Фурье позволяет модели эффективно захватывать негладкие зависимости. Традиционные глубокие нейронные сети испытывают трудности с аппроксимацией негладких функций, поскольку они оптимизированы для гладких отображений. Базисные функции Фурье, представляющие собой синусоиды различных частот, позволяют моделировать более сложные и разрывные взаимосвязи между признаками и целевой переменной. В частности, использование $cos(w \cdot x)$ и $sin(w \cdot x)$ функций в качестве базисных функций создает представление, способное моделировать нелинейные зависимости без ограничения гладкостью, что особенно важно при работе с табличными данными, где такие зависимости встречаются часто.

Традиционные архитектуры глубокого обучения демонстрируют ограниченную эффективность при работе с табличными данными, часто уступая алгоритмам на основе деревьев, таким как XGBoost. Применение метода Learned Fourier Features позволяет преодолеть эти ограничения, обеспечивая возможность создания более сложных и адекватных границ принятия решений. Комбинации ResNet+F|C и MLP+F|C, использующие обученные признаки Фурье, демонстрируют конкурентоспособные, а в некоторых случаях и превосходящие показатели по сравнению с tree-based моделями, что подтверждает эффективность данного подхода для задач, связанных с анализом табличных данных.

Реализация обученных Фурье-признаков наиболее эффективно осуществляется посредством использования 1D-сверток внутри архитектур ResNet. Применение 1D-сверток позволяет модели эффективно обрабатывать признаки, преобразованные Фурье-базисными функциями, и извлекать нелинейные зависимости. В контексте ResNet, сверточные слои применяются к выходным данным Фурье-преобразования, что позволяет модели обучаться более сложным функциям, не требуя значительного увеличения числа параметров. Такой подход особенно полезен при работе с табличными данными, где стандартные архитектуры глубокого обучения могут демонстрировать предвзятость к гладким функциям, в то время как 1D-свертки позволяют эффективно моделировать и негладкие зависимости.

Тепловая карта демонстрирует, что модель ResNet+F|C (RN-F||C) превосходит базовую ResNet (RN), при этом вклад компонентов F (RN-F) и C (RN-C) в улучшение производительности проявляется в отдельных запусках.

Устойчивость и Обобщение: Как Правильный Подход Обеспечивает Надежность Модели

Комбинация автоматического определения категориальных признаков и использования выученных преобразований Фурье значительно повышает устойчивость моделей к неинформативным признакам. Этот подход позволяет сети эффективно отфильтровывать шумовые данные, концентрируясь исключительно на релевантных сигналах в табличных данных. Вместо того чтобы обрабатывать все признаки одинаково, модель способна идентифицировать и игнорировать те, которые не несут полезной информации для решения поставленной задачи, что приводит к улучшению обобщающей способности и повышению точности прогнозов даже при наличии избыточных или бесполезных столбцов в исходном наборе данных.

Исследования показывают, что разработанные модели демонстрируют устойчивость к различным преобразованиям входных данных, сохраняя стабильную производительность даже при изменении порядка столбцов или применении других неинформативных модификаций. Этот феномен, получивший название «сохранение ориентации данных», указывает на то, что архитектура модели способна выделять существенные признаки независимо от их расположения в таблице. В отличие от традиционных методов, чувствительных к подобным изменениям, рассматриваемые модели демонстрируют способность обобщать информацию, не привязанную к конкретной структуре входных данных, что существенно расширяет их применимость в реальных сценариях, где данные могут быть представлены в различных форматах и подвержены изменениям.

Исследования показали, что разработанные модели, использующие архитектуры ResNet+F|C и MLP+F|C, демонстрируют повышенную эффективность на широком спектре табличных данных. В частности, на задачах классификации эти модели зачастую превосходят алгоритм XGBoost, являющийся признанным лидером в этой области. При работе с задачами численной регрессии, новые архитектуры достигают сопоставимых результатов с XGBoost, демонстрируя свою конкурентоспособность и универсальность. Полученные данные свидетельствуют о перспективности применения глубокого обучения для анализа табличных данных, особенно при использовании инновационных архитектурных решений, способных эффективно извлекать полезные признаки и обеспечивать высокую точность прогнозирования.

Полученные результаты подчеркивают значительный потенциал глубокого обучения при работе с табличными данными, но лишь в сочетании с продуманными архитектурными инновациями. Традиционно, методы на основе деревьев решений, такие как XGBoost, доминировали в этой области благодаря своей эффективности и устойчивости. Однако, представленные исследования демонстрируют, что правильно спроектированные нейронные сети, использующие, например, сочетание ResNet и Fourier-преобразований, способны превзойти эти классические алгоритмы, особенно в задачах классификации. Ключевым фактором успеха является не просто применение глубоких нейронных сетей, а адаптация их архитектуры к специфике табличных данных, что позволяет извлекать более сложные закономерности и достигать сопоставимых или даже лучших результатов в широком спектре задач, включая как классификацию, так и регрессию.

Статья, как обычно, пытается причесать данные, чтобы нейронные сети не чувствовали себя неловко. Удивительно, как долго люди верят в магию ‘feature engineering’. В данном случае, авторы фокусируются на скрытых категориальных признаках в табличных данных, пытаясь объяснить, почему деревья (XGBoost) часто обходят глубокие сети. Как будто нейронка не увидит кота, если его обернуть в фольгу. Впрочем, подход интересен, хотя и напоминает вечную гонку за ‘улучшением’ данных вместо того, чтобы признать, что любая революционная технология завтра станет техдолгом. Как точно заметил Давид Гильберт: «Вся математика скрыта в логике, но логика не является математикой». То же самое можно сказать и о данных: они содержат информацию, но извлечь её — задача нетривиальная, и не всегда решаемая нейронными сетями.

Что дальше?

Предложенные в данной работе методы обработки табличных данных, безусловно, интересны. Однако, за красивыми графиками сближения производительности глубокого обучения и деревьев решений легко упустить главное: проблема не в алгоритмах, а в данных. Выявление и обработка “скрытых” категориальных признаков — это лишь один из симптомов. Вскоре появится новый, более изощрённый способ скрыть информацию, и цикл повторится. К 2025 году все эти “инновационные” подходы будут выглядеть как наивная попытка приручить хаос.

Более фундаментальный вопрос заключается в том, насколько вообще применимы методы, успешно работающие с изображениями и текстом, к табличным данным. Возможно, табличные данные — это не просто «другой тип данных», а принципиально иная парадигма, требующая собственных, специализированных решений. И если тесты показывают зелёный свет, то это, скорее всего, означает лишь, что они не проверяют ничего важного.

В конечном счёте, всё это вернётся к старой доброй ручной обработке признаков. Элегантные автоматические решения всегда уступают место монолитным, но работающим, костылям. И через десять лет кто-нибудь с гордостью объявит, что «вернулся к основам», не подозревая, что эти «основы» — всего лишь эхо давно забытых ошибок.

Оригинал статьи: https://arxiv.org/pdf/2602.23182.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-02-27 14:07