Обучение логическому завершению: адаптивное мышление в больших языковых моделях

В данной работе представлена архитектура скрытого рассуждения, отличающаяся от подхода CoT, где ключевым элементом является использование специальных токенов, таких как $ <START> $ и $ <END> $, а также рекуррентного фильтра, что позволяет реализовать альтернативный механизм логического вывода.

Новое исследование предлагает метод оптимизации процесса рассуждений в больших языковых моделях, позволяя им самостоятельно определять оптимальную длину цепочки рассуждений.

Взгляд внутрь: Понимание работы трансформеров для анализа временных рядов

Нейрон 15, активируясь в момент времени 22, демонстрирует устойчивую реакцию на экземпляры, принадлежащие к классу 8 и характеризующиеся схожей динамикой, что указывает на кодирование им признака, специфичного для данного класса.

Новое исследование показывает, как методы, разработанные для объяснения принципов работы языковых моделей, могут быть успешно применены для анализа внутренних механизмов трансформеров, используемых для обработки временных рядов.