Обучение рассуждениям: новый подход без участия экспертов

При сохранении одинаковых гиперпараметров, предложенный метод демонстрирует меньшую эффективность использования данных по сравнению с RLVR в среде Countdown.

Исследователи предлагают алгоритм, позволяющий моделям искусственного интеллекта осваивать сложные задачи, опираясь исключительно на демонстрации, а не на ручное программирование или оценку.

Поиск слабых мест: как выявить ошибки в больших языковых моделях

В условиях ограниченной информации о метках ошибок, исследуется задача активного обучения, направленная на выявление скрытых фрагментов данных, содержащих ошибки, при этом доступ к оракулу - источнику подтверждения принадлежности данных к этим фрагментам - ограничен, что требует оптимизации процесса запроса меток для эффективного обнаружения уязвимостей.

Новое исследование предлагает эффективный метод обнаружения и анализа типичных ошибок, совершаемых современными языковыми моделями, позволяя повысить их надежность и точность.