Искусственный исследователь: насколько близок настоящий прогресс?

Наблюдения за производительностью агента на DeepResearch Bench (DRB) и ourFinder демонстрируют общую картину эффективности и возможностей системы.

Новое исследование оценивает возможности и ограничения интеллектуальных агентов для глубокого анализа информации, выявляя ключевые проблемы в области рассуждений, поиска и генерации контента.

Криптоанализ на пределе: где большие языковые модели терпят неудачу

Набор данных CryptoBench создается и постоянно обновляется посредством многоступенчатой процедуры проверки шаблонов вопросов и ежемесячного пополнения их новыми, решаемыми примерами, что обеспечивает актуальность и практическую ценность эталона.

Новый бенчмарк CryptoBench выявил, что современные ИИ-агенты превосходно справляются со сбором данных о криптовалютах, но испытывают трудности с глубоким анализом и прогнозированием.