Малые модели — большие возможности: эффективное управление инструментами в ИИ

Автор: Денис Аветисян

Исследование показывает, что небольшие языковые модели могут превзойти более крупные аналоги в задачах, требующих использования инструментов, благодаря целенаправленной настройке.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Результаты сравнительного анализа производительности модели SLM по шести задачам демонстрируют её превосходство над альтернативными подходами, что подтверждается представленными данными.

Целенаправленное обучение языковой модели с 350 миллионами параметров обеспечивает 77.55% успешных результатов на бенчмарке ToolBench, демонстрируя эффективность малых моделей в агентном ИИ.

Несмотря на впечатляющие возможности больших языковых моделей (LLM), их высокая стоимость и вычислительные требования ограничивают их широкое внедрение в производственные системы. В работе ‘Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning’ показано, что оптимизированные малые языковые модели (SLM) способны превосходить LLM в задачах агентского вызова инструментов. Эксперименты продемонстрировали, что SLM с 350 миллионами параметров, прошедшая целенаправленную настройку, достигает 77.55% успеха на бенчмарке ToolBench, значительно превосходя результаты крупных моделей. Возможно ли широкое внедрение генеративного ИИ за счет более эффективных и экономичных SLM, и какие еще направления исследований в этой области представляются наиболее перспективными?

Масштабирование моделей: цена эффективности

Традиционные большие языковые модели, несмотря на свою впечатляющую производительность, сталкиваются с существенными ограничениями в отношении эффективности использования параметров и вычислительных затрат. Обучение и развертывание таких моделей требует огромных ресурсов, включая значительные объемы памяти и вычислительной мощности, что делает их недоступными для многих исследователей и практических приложений. Каждый дополнительный параметр в модели увеличивает потребность в данных для обучения и усложняет процесс оптимизации, что приводит к экспоненциальному росту затрат. В результате, возникает необходимость в разработке более эффективных архитектур и методов обучения, способных достигать сопоставимых результатов с меньшим количеством параметров и меньшими вычислительными ресурсами, что открывает путь к более широкому распространению и применению технологий обработки естественного языка.

Стремление к увеличению масштаба языковых моделей выявило острую необходимость в методах, позволяющих добиться максимальной производительности при ограниченных ресурсах. Традиционный подход, основанный на простом увеличении числа параметров, сталкивается с проблемами экспоненциального роста вычислительных затрат и энергопотребления. Поэтому, современные исследования направлены на разработку более эффективных архитектур и стратегий обучения, позволяющих достигать сопоставимых или даже превосходящих результатов с моделями, содержащими значительно меньше параметров. В частности, акцент делается на такие техники, как квантизация, прунинг и дистилляция знаний, которые позволяют сжать модели без существенной потери точности. Такой подход открывает возможности для развертывания мощных языковых моделей на устройствах с ограниченными ресурсами, расширяя их доступность и практическое применение.

Недавние достижения в области разработки языковых моделей демонстрируют, что высокая производительность не обязательно требует огромного количества параметров. Исследования показывают, что даже модели с 350 миллионами параметров способны достигать впечатляющих результатов при использовании продуманных стратегий обучения. В частности, зафиксирована успешная сдача тестов ToolBench на уровне 77.55%, что свидетельствует о возможности создания эффективных и компактных систем, способных решать сложные задачи без чрезмерных вычислительных затрат. Это открывает перспективы для развертывания мощных языковых инструментов на устройствах с ограниченными ресурсами и снижения энергопотребления при обработке больших объемов данных.

Адаптация моделей для работы с инструментами: контролируемое обучение

Супервизированное обучение с подкреплением (SFT) является ключевым методом адаптации предварительно обученных языковых моделей для решения конкретных задач, в частности, для взаимодействия с внешними инструментами и API. Этот процесс предполагает дообучение модели на размеченном наборе данных, состоящем из входных запросов и соответствующих желаемых действий или ответов. В результате, модель учится сопоставлять входные данные с конкретными командами для использования инструментов, что позволяет ей автоматизировать сложные операции и расширять свои возможности за пределы изначального обучения. Эффективность SFT заключается в переносе знаний, полученных моделью в процессе предварительного обучения, на новую, узкоспециализированную задачу, значительно снижая потребность в больших объемах данных и вычислительных ресурсах по сравнению с обучением с нуля.

В качестве основы для обучения используется модель OPT-350M, что позволяет применять метод контролируемого обучения (Supervised Fine-tuning, SFT) для придания модели способности понимать и использовать API-вызовы. Данный подход заключается в обучении модели на размеченном наборе данных, содержащем примеры взаимодействия с API, где входными данными являются запросы, а выходными — соответствующие API-вызовы и результаты. Это позволяет модели не просто генерировать текст, но и активно использовать внешние инструменты посредством API, расширяя её функциональные возможности и позволяя решать более сложные задачи, требующие доступа к внешним данным и сервисам.

Библиотека Hugging Face TRL предоставляет комплексный набор инструментов и оптимизированные рабочие процессы для реализации и управления процессом контролируемого обучения с подкреплением (SFT). Она включает в себя готовые к использованию классы для создания наборов данных, определения политик, а также реализации алгоритмов обучения. TRL упрощает процесс подготовки данных, настройку гиперпараметров и оценку производительности модели. Кроме того, библиотека предлагает инструменты для распределенного обучения и сохранения/загрузки моделей, что облегчает масштабирование и повторное использование обученных моделей для взаимодействия с внешними инструментами и API.

Оптимизация ресурсов в процессе обучения: где экономить

Для повышения эффективности обучения модели были применены методы оптимизации, включающие использование смешанной точности FP16 и контрольных точек градиента. FP16 позволяет снизить требования к памяти за счет представления чисел с плавающей точкой в 16-битном формате, что ускоряет вычисления. Контрольные точки градиента, в свою очередь, позволяют повторно вычислять некоторые промежуточные активации во время обратного распространения ошибки, снижая потребление памяти ценой незначительного увеличения времени вычислений. Комбинация этих методов позволила значительно уменьшить общий объем памяти, необходимой для обучения, и, как следствие, увеличить размер пакета (batch size) и ускорить итерации обучения.

Использование методов пониженной точности, таких как FP16, и контрольных точек градиента позволило значительно снизить потребление памяти во время обучения. Уменьшение объема используемой памяти дает возможность увеличивать размер пакета (batch size), что приводит к повышению пропускной способности и ускорению итераций обучения. Увеличение размера пакета позволяет модели обрабатывать больше данных одновременно, что, в свою очередь, сокращает общее время, необходимое для завершения одного этапа обучения и, следовательно, всего процесса.

Оптимизатор AdamW был использован для дальнейшей оптимизации процесса обучения, обеспечивая стабильную сходимость и оптимальные обновления весов. В отличие от классического Adam, AdamW применяет декуплированное взвешенное затухание ($L_2$ регуляризация) к весам, что позволяет избежать проблем с регуляризацией, возникающих при использовании Adam с weight decay, применяемым непосредственно к градиентам. Это приводит к улучшению обобщающей способности модели и более стабильному обучению, особенно на задачах с высокой размерностью признаков или сложными архитектурами нейронных сетей. Применение AdamW позволяет достичь более высокой точности и скорости сходимости по сравнению с другими оптимизаторами, такими как SGD или RMSprop.

Оценка качества: ToolBench и взгляд эксперта ChatGPT

Для всесторонней оценки способности модели эффективно использовать внешние инструменты был применен фреймворк ToolBench. Этот комплексный подход позволил систематически проверить, насколько успешно модель может определять необходимость в использовании инструмента, правильно его вызывать и интерпретировать полученные результаты для решения поставленной задачи. ToolBench представляет собой набор задач, требующих взаимодействия с различными инструментами, что позволяет провести детальный анализ сильных и слабых сторон модели в контексте манипулирования инструментами и интеграции их в процесс принятия решений. Использование ToolBench обеспечивает надежную и воспроизводимую оценку, необходимую для дальнейшего улучшения способности модели к решению сложных задач посредством взаимодействия с внешними ресурсами.

Для оценки качества полученных решений была разработана система оценки на основе ChatGPT, использующая его способность к предоставлению детальной и нюансированной обратной связи. Вместо простой проверки соответствия ответа заданному шаблону, система анализирует логику рассуждений и корректность использования инструментов, что позволяет выявлять даже незначительные ошибки или неоптимальные подходы. ChatGPT выступает в роли эксперта, способного оценить не только конечный результат, но и процесс его достижения, предоставляя информацию о сильных и слабых сторонах каждого решения и помогая определить области для дальнейшей оптимизации модели. Такой подход к оценке позволяет получить более полное и объективное представление о способностях модели к манипулированию инструментами и решению сложных задач.

Для количественной оценки эффективности разработанной модели и выявления направлений для дальнейшего совершенствования использовались ключевые метрики — показатель успешного выполнения задач (Pass Rate) и показатель победы над конкурентами (Win Rate). Результаты тестирования на платформе ToolBench продемонстрировали, что модель с 350 миллионами параметров достигла впечатляющего показателя Pass Rate в 77.55%, значительно превзойдя результаты других моделей, таких как ChatGPT-CoT (26.00%), ToolLLaMA-DFS (31.20%), ToolLLaMA-CoT (41.70%) и Claude-CoT (52.10%). Этот результат свидетельствует о значительно более высокой способности модели эффективно использовать инструменты и успешно решать поставленные задачи по сравнению с существующими аналогами.

Взгляд в будущее: расширение возможностей и новые подходы

Современные исследования развивают первопроходческие подходы, такие как Toolformer, путем интеграции принципов ReAct для усовершенствования процессов рассуждения и выбора действий. В отличие от простых моделей, которые напрямую преобразуют входные данные в действия, ReAct позволяет языковым моделям генерировать последовательность мыслей и действий, что имитирует человеческий подход к решению задач. Это позволяет моделям не только выполнять конкретные задачи, но и объяснять свой ход рассуждений, а также корректировать свои действия на основе обратной связи. Интеграция ReAct с инструментами, подобно Toolformer, значительно повышает надежность и эффективность языковых моделей в сложных сценариях, требующих многоступенчатого анализа и принятия решений, открывая новые возможности для автоматизации интеллектуальных задач.

Разработка ToolLLM знаменует собой важный шаг к масштабированию интеграции инструментов в языковые модели, решая ключевую проблему управления большим количеством API. В отличие от предыдущих подходов, ToolLLM демонстрирует способность эффективно обрабатывать и использовать обширный набор инструментов, что позволяет модели выполнять более сложные задачи и адаптироваться к разнообразным сценариям. Исследователи создали систему, которая динамически определяет, какие API наиболее релевантны для конкретного запроса, и использует их для получения информации или выполнения действий. Это позволяет значительно расширить функциональные возможности языковой модели, не требуя ручной настройки для каждого нового инструмента. Подобный подход открывает перспективы для создания универсальных агентов, способных взаимодействовать с различными сервисами и выполнять широкий спектр задач, от поиска информации до автоматизации сложных процессов.

Дальнейшее развитие языковых моделей, использующих инструменты, напрямую зависит от разработки эффективных методов тонкой настройки и надежных систем оценки. Исследования в этой области должны быть направлены на создание алгоритмов, позволяющих оптимизировать модели при минимальных вычислительных затратах и с использованием ограниченного объема данных. Особое внимание уделяется созданию метрик, способных объективно оценить не только точность ответов, но и эффективность использования инструментов, а также способность модели к адаптации к новым задачам и API. Разработка таких фреймворков оценки позволит более точно измерять прогресс в области tool-augmented language models и выявлять наиболее перспективные направления исследований, открывая путь к созданию интеллектуальных систем, способных решать сложные задачи с высокой степенью автономности и надежности.

Исследование показывает, что для эффективного использования инструментов агентами не всегда требуется наращивание вычислительных мощностей. Авторы демонстрируют, что модель с 350 миллионами параметров, прошедшая целенаправленную настройку, превосходит более крупные аналоги в решении задач из ToolBench. Это закономерно: каждая «революционная» технология завтра станет техдолгом. Как заметил Винтон Серф: «Интернет — это не технология, это способ объединить технологии». Иными словами, важна не сама модель, а способность правильно её использовать и интегрировать в существующую инфраструктуру. Попытки решить все проблемы одним лишь увеличением размера модели — это иллюзия, а нам, как показывает практика, нужно меньше иллюзий.

Что дальше?

Представленные результаты, безусловно, демонстрируют, что элегантность архитектуры не всегда коррелирует с производительностью. Уменьшение размера модели до 350 миллионов параметров и последующая целенаправленная донастройка позволяют достичь результатов, превосходящих более крупные аналоги в задаче вызова инструментов. Однако, эта победа — лишь временная отсрочка неизбежного. В конечном итоге, любой задеплоенный агент столкнётся с непредсказуемостью реальных данных, и процент успешных вызовов начнёт снижаться. Это не критика подхода, а скорее констатация факта: всё, что можно задеплоить — однажды упадёт.

Перспективы дальнейших исследований очевидны, но сложны. Недостаточно просто уменьшить размер модели и дообучить её. Необходимо разработать более устойчивые методы обучения, способные учитывать динамику реальных данных и адаптироваться к новым условиям. Интересным направлением представляется исследование методов автоматической генерации и валидации обучающих данных, а также разработка метрик, более точно отражающих реальную производительность агентов в продакшене.

В конечном счёте, эта работа — лишь ещё один шаг на пути к созданию разумных агентов. И как показывает практика, каждый «революционный» прорыв в области искусственного интеллекта неизбежно превращается в технический долг. Но зато, как это ни парадоксально, красиво умирает.

Оригинал статьи: https://arxiv.org/pdf/2512.15943.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2025-12-20 20:29