Нейросети учатся собирать себя сами: новый подход к повторному использованию кода

Автор: Денис Аветисян

Исследователи разработали систему, позволяющую автоматически находить, компоновать и проверять готовые модули PyTorch из различных источников, значительно ускоряя процесс разработки и исследования нейронных сетей.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Процесс отладки кода нейронных сетей, включающий точное удаление дубликатов с учетом префиксов, лексическое приближенное удаление дубликатов посредством MinHash+LSH с проверкой по индексу Жаккара, структурное удаление дубликатов на основе отпечатков AST и последующее повышение разнообразия для обеспечения репрезентации недостаточно представленных семейств, позволяет выявить преобладание уникальных архитектур, полученных из извлечений NN-RAG в LEMUR.

Представлена система NN-RAG, автоматически извлекающая, собирающая и валидирующая повторно используемые PyTorch-модули из множества репозиториев, способствуя повторному использованию кода и открывая новые архитектуры нейронных сетей.

Повторное использование компонентов нейронных сетей критически важно для повышения эффективности исследований, однако обнаружение, извлечение и валидация таких модулей среди тысяч открытых репозиториев остается сложной задачей. В данной работе, ‘A Retrieval-Augmented Generation Approach to Extracting Algorithmic Logic from Neural Networks’, представлен NN-RAG — система, использующая подход генерации с поиском, для преобразования больших, разнородных кодовых баз PyTorch в доступную и проверенную библиотеку нейронных модулей. Система обеспечивает разрешение зависимостей с учетом области видимости, сохранение импортов и продвижение с помощью валидаторов, гарантируя, что каждый извлеченный блок является самодостаточным, компилируемым и исполняемым. Сможет ли NN-RAG стать основой для создания воспроизводимой и отслеживаемой платформы для обнаружения алгоритмических решений в области нейронных сетей и существенно расширить разнообразие доступных архитектур?

Вызов повторного использования кода и инноваций

Современная разработка программного обеспечения в значительной степени опирается на повторное использование существующего кода, однако эффективный поиск и адаптация релевантных компонентов представляет собой сложную задачу. Несмотря на обширные хранилища кода и библиотеки, разработчики часто сталкиваются с трудностями в обнаружении подходящих фрагментов, которые можно было бы приспособить к новым задачам. Это приводит к дублированию усилий, увеличению времени разработки и, как следствие, замедлению инноваций. Поиск подходящего кода требует не только знания синтаксиса и функциональности, но и понимания контекста и потенциальных побочных эффектов, что делает процесс трудоемким и подверженным ошибкам. В результате, значительная часть времени разработчиков тратится не на создание нового функционала, а на поиск и модификацию уже существующего, что снижает общую производительность и ограничивает возможности для прорывных решений.

Традиционные методы поиска кода, основанные на ключевых словах и простых текстовых запросах, часто оказываются неэффективными в сложных современных проектах. Это приводит к тому, что разработчики тратят значительное время на повторное создание уже существующих решений, вместо того чтобы сосредоточиться на инновациях. Поиск подходящего фрагмента кода может занять часы или даже дни, особенно в больших кодовых базах, что существенно замедляет процесс разработки и увеличивает затраты. Неспособность быстро находить и адаптировать существующий код не только порождает дублирование усилий, но и препятствует внедрению новых идей, поскольку разработчики предпочитают создавать всё с нуля, чем разбираться в чужом, плохо документированном коде. В результате, потенциальные инновации остаются нереализованными, а производительность разработки снижается.

Кэширование и параллельная обработка обеспечивают стабильное время итераций даже при увеличении объёма обрабатываемых данных.

NN-RAG: Подход поиска прежде генерации для создания кода

NN-RAG (Neural Retrieval-Augmented Generation) представляет собой подход, в котором поиск релевантных компонентов предшествует генерации кода. В отличие от традиционных методов, NN-RAG использует существующие модули PyTorch в качестве основных строительных блоков для реализации новых функциональностей. Это позволяет существенно сократить время разработки и повысить эффективность за счет повторного использования проверенного кода, а не его переписывания с нуля. Система активно использует возможности поиска, чтобы идентифицировать и интегрировать готовые компоненты, а затем генерирует только недостающие части, что обеспечивает более быструю и надежную разработку.

Система NN-RAG объединяет возможности извлечения релевантных фрагментов кода и генерации нового, что обеспечивает повторное использование существующих модулей и ускоряет циклы разработки. Вместо создания кода с нуля, система сначала ищет существующие реализации, соответствующие заданным требованиям, и затем адаптирует или комбинирует их для получения желаемого результата. Такой подход позволяет значительно сократить время, необходимое для разработки, снизить вероятность ошибок и повысить общую эффективность процесса кодирования, особенно в проектах, где уже накоплена большая кодовая база.

Ключевым аспектом NN-RAG является надежный механизм обеспечения полноты зависимостей, гарантирующий включение всех необходимых компонентов для бесшовной интеграции. Этот механизм автоматически определяет и извлекает все внешние модули и библиотеки, от которых зависит генерируемый код. Он осуществляет анализ графа зависимостей и рекурсивно включает все транзитивные зависимости, предотвращая ошибки, связанные с отсутствующими компонентами во время выполнения. Гарантия полноты зависимостей существенно упрощает процесс развертывания и эксплуатации сгенерированного кода, а также повышает его надежность и предсказуемость.

Анализ показывает, что извлеченные блоки нейронных сетей охватывают большую часть репозиториев экосистемы PyTorch.

Обеспечение качества и происхождения кода

NN-RAG использует сложные методы для выявления и дедупликации схожих компонентов кода. В частности, применяется парсинг абстрактного синтаксического дерева (AST) для анализа структуры кода, а также алгоритмы MinHash и LSH (Locality Sensitive Hashing) для эффективного поиска похожих фрагментов в больших объемах данных. Дополнительно, используется метод создания «отпечатков» AST, позволяющий сравнивать структуры кода, не обращаясь к полному тексту, что повышает скорость и эффективность дедупликации. Эти методы позволяют системе идентифицировать и устранять избыточность кода, оптимизируя размер и улучшая производительность.

Изолированное выполнение (Sandboxed Execution) является ключевым механизмом обеспечения безопасности и корректности извлеченного кода. Данный подход предполагает запуск кода в строго контролируемой среде, отделенной от основной системы, что предотвращает потенциальные уязвимости и несанкционированный доступ. Изоляция ограничивает возможности кода по взаимодействию с системными ресурсами и сетевыми подключениями, минимизируя риск выполнения вредоносных действий. Это позволяет верифицировать функциональность извлеченных блоков кода без риска компрометации основной системы, обеспечивая надежность и предсказуемость работы всей системы.

Система отслеживания происхождения кода, использующая SWHID (Software Heritage Identifier), обеспечивает четкую прослеживаемость каждого компонента кода, что способствует воспроизводимости и ответственности. В ходе тестирования на извлеченных блоках PyTorch система продемонстрировала 73.0% успешную проверку, подтвердив валидность 941 блока из 1,289 целевых. Это позволяет установить точную историю изменений и зависимостей каждого фрагмента кода, облегчая аудит, отладку и повторное использование.

Лучшая модель, созданная с использованием фреймворка NN-RAG (rag-6d58587b76d7e03be409f7e7289d4a58), достигла точности 92.81% на стандартном тестовом наборе CIFAR-10, возглавив рейтинг из десяти лучших моделей, оцененных на датасете LEMUR.

Оценка и оптимизация с использованием LEMUR

Набор данных LEMUR играет ключевую роль в оценке эффективности и оригинальности моделей, полученных в рамках фреймворка NN-RAG. Он служит строгим критерием для сопоставления различных архитектур и методов, позволяя исследователям объективно определять прогресс в области извлечения и оптимизации моделей. Благодаря разнообразию представленных архитектур и тщательному отбору данных, LEMUR обеспечивает надежную основу для сравнения и выявления наиболее перспективных подходов в задаче построения эффективных систем, использующих принципы нейронных сетей и извлечения информации. Использование LEMUR в качестве эталонного набора данных способствует развитию более точных, надежных и уникальных моделей в области искусственного интеллекта.

Для повышения обобщающей способности и устойчивости моделей применялись методы аугментации данных, такие как RandAugment, Mixup и CutMix. RandAugment автоматически выбирает и применяет случайные преобразования к изображениям, увеличивая разнообразие обучающей выборки. Mixup создает новые обучающие примеры, смешивая изображения и соответствующие метки, что способствует более плавной интерполяции в пространстве признаков. CutMix, в свою очередь, заменяет часть изображения другим, что заставляет модель учиться распознавать объекты по их частям и улучшает ее устойчивость к зашумлению. Использование этих техник позволило создать модели, демонстрирующие повышенную точность и надежность при работе с новыми, ранее не встречавшимися данными.

Набор данных LEMUR включает в себя разнообразные архитектуры, такие как предварительно активированные остаточные сети, дополненные техниками внимания к каналам, антиалиасинговой дискретизацией и стохастической глубиной, что позволяет добиться максимальной производительности. В результате применения NN-RAG был выявлен образец, демонстрирующий наивысшую точность на LEMUR — $92.81\%$. Примечательно, что $72.46\%$ уникальных архитектур в наборе данных, а именно $771$ из $1,064$, были получены именно с использованием данного подхода, что подчеркивает его значительный вклад в развитие области.

К интеллектуальным программным экосистемам

Система NN-RAG представляет собой важный шаг к созданию интеллектуальных программных экосистем, в которых исходный код рассматривается не просто как набор инструкций, а как ценный, повторно используемый и постоянно развивающийся ресурс. В отличие от традиционных подходов, где код часто дублируется или разрабатывается изолированно, NN-RAG позволяет эффективно извлекать, верифицировать и адаптировать существующий код для новых задач. Это способствует более тесному сотрудничеству между разработчиками, значительно ускоряет процесс инноваций и, что особенно важно, снижает вероятность ошибок за счет использования проверенных и надежных компонентов. Такой подход открывает перспективы для создания самообучающихся и самосовершенствующихся программных систем, способных оперативно реагировать на изменяющиеся требования и потребности.

Основополагающим аспектом подхода NN-RAG является акцент на извлечении информации и отслеживании происхождения кода, что существенно стимулирует совместную работу разработчиков. Приоритет, отдаваемый возможности быстрого доступа к существующим, проверенным фрагментам кода, значительно ускоряет процесс создания новых программных решений и инноваций. Кроме того, тщательное отслеживание происхождения каждого элемента кода позволяет оперативно выявлять и устранять потенциальные ошибки, а также повышает надежность и безопасность разрабатываемых программных систем. Такой подход способствует формированию более эффективной и безопасной среды разработки, где знания и опыт аккумулируются и используются для создания качественного программного обеспечения.

Предстоящие исследования направлены на расширение возможностей NN-RAG, чтобы охватить более широкий спектр языков программирования и областей применения. В настоящее время усилия сосредоточены на адаптации архитектуры к таким языкам, как Python, Java и C++, а также на изучении её эффективности в различных сферах, включая веб-разработку, анализ данных и машинное обучение. Особое внимание уделяется преодолению сложностей, связанных с синтаксическими и семантическими различиями между языками, и разработке универсальных механизмов извлечения и проверки кода. Успешная реализация этих исследований позволит создать действительно универсальную платформу для интеллектуальных программных экосистем, способную поддерживать широкий спектр задач и способствовать инновациям в различных областях.

Исследование, представленное в данной работе, демонстрирует элегантный подход к повторному использованию кода в нейронных сетях. Система NN-RAG, автоматически обнаруживая и собирая модули PyTorch из различных репозиториев, не просто ускоряет исследования, но и способствует созданию более гармоничных и понятных архитектур. Как заметил Дэвид Марр: «Понимание требует построения моделей, которые позволяют предсказывать и объяснять явления». Эта фраза отражает суть NN-RAG, ведь система, собирая и валидируя существующие модули, создает модель, позволяющую исследователям лучше понимать и использовать существующие достижения в области нейронных сетей, избегая дублирования усилий и стимулируя инновации. Процесс разрешения зависимостей и дедупликации кода — это не просто техническая задача, а путь к созданию более изящных и эффективных решений.

Куда дальше?

Представленная работа, хотя и демонстрирует элегантный подход к повторному использованию компонентов нейронных сетей, лишь приоткрывает завесу над сложностью истинного понимания архитектуры. Автоматическое обнаружение и сборка модулей — это, безусловно, шаг вперед, но вопрос о семантической целостности и предсказуемости поведения собранных систем остается открытым. Какая гарантия, что найденные «кирпичики» действительно гармонично сочетаются, а не создают лишь иллюзию функциональности?

Будущие исследования, вероятно, сосредоточатся на развитии методов верификации и валидации не только на уровне отдельных модулей, но и на уровне всей собранной сети. Простое тестирование недостаточно; необходимы формальные методы, способные доказать корректность и надежность архитектуры. Кроме того, представляется перспективным исследование возможности интеграции с существующими системами управления версиями и автоматизированного тестирования, чтобы обеспечить воспроизводимость и надежность результатов.

В конечном счете, истинная красота нейронной сети заключается не в ее сложности, а в ее ясности и предсказуемости. Система, которая может автоматически собирать и верифицировать архитектуры, демонстрируя при этом элегантность и простоту, станет настоящим шедевром инженерной мысли. Но путь к этому шедевру, несомненно, будет полон сложностей и неожиданных открытий.

Оригинал статьи: https://arxiv.org/pdf/2512.04329.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-06 17:59