Искусственный интеллект в математике: на пути к пониманию сложности задач

Автор: Денис Аветисян

Новое исследование оценивает возможности ИИ в определении когнитивной нагрузки математических заданий, выявляя сильные и слабые стороны современных алгоритмов.

☕️

Читаем отчёты, пьём кофе, ждём дивиденды. Если тебе надоел хайп и ты ищешь скучную, но стабильную гавань — добро пожаловать.

Телеграм канал

Оценка базовой производительности инструментов искусственного интеллекта в классификации когнитивной сложности математических задач с использованием подхода Task Analysis Guide.

Несмотря на растущий интерес к применению искусственного интеллекта в образовании, оценка его реальной эффективности в решении конкретных педагогических задач остается сложной задачей. В рамках исследования ‘Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks’ была проведена оценка способности различных ИИ-инструментов, включая как универсальные, так и специализированные образовательные модели, к классификации когнитивной сложности математических задач. Полученные результаты показали, что в среднем точность классификации составляет около 62%, при этом наблюдаются систематические ошибки в оценке задач, требующих либо минимальных, либо максимальных когнитивных усилий. Могут ли эти инструменты стать надежными помощниками учителя в планировании уроков, или необходима дальнейшая разработка и совершенствование алгоритмов для повышения их точности и надежности?

Оценка когнитивной нагрузки в математике: почему так сложно?

Точная категоризация когнитивной нагрузки математических задач имеет первостепенное значение для эффективных образовательных практик и персонализированного обучения. Анализ сложности задания позволяет преподавателям подбирать материалы, соответствующие уровню развития мышления ученика, избегая как чрезмерной перегрузки, так и недостаточной стимуляции. Когда задачи классифицируются по степени требуемых когнитивных усилий — от простого воспроизведения информации до глубокого концептуального понимания и самостоятельного решения проблем — это создает условия для оптимального обучения. Такой подход позволяет адаптировать учебный процесс к индивидуальным потребностям каждого ученика, обеспечивая более глубокое усвоение материала и развитие критического мышления, что, в конечном итоге, способствует повышению общей успеваемости и формированию устойчивого интереса к математике.

Руководство по анализу задач предлагает четкую структуру для определения когнитивной сложности математических заданий, выделяя четыре основных уровня. Первый уровень — «Запоминание», требующий простого воспроизведения информации. Далее следует уровень «Процедуры без связи», где акцент делается на применении алгоритмов без понимания их сути. Более высокий уровень — «Процедуры со связью» — предполагает использование процедур в контексте решения задачи и осознание взаимосвязей между ними. Наконец, высший уровень — «Выполнение математики» — требует глубокого понимания концепций, гибкого применения знаний для решения нетривиальных задач и способности обосновывать свои решения. Данная классификация позволяет педагогам осознанно подбирать задания, соответствующие уровню развития учеников, и эффективно планировать образовательный процесс.

Уровни когнитивной сложности математических задач, представленные в рамках данной классификации, образуют четкую иерархию мыслительных навыков. На начальном этапе — простой воспроизводящий уровень, требующий лишь запоминания фактов и алгоритмов. Далее следует уровень применения процедур, где акцент делается на механическом выполнении действий. Однако, ключевым моментом является переход к процедурам, связанным между собой, — это требует понимания взаимосвязей и обоснования каждого шага. На вершине этой иерархии находится уровень, подразумевающий самостоятельное решение математических задач, требующий глубокого концептуального понимания, критического мышления и умения применять знания в новых, нестандартных ситуациях. Такое структурирование позволяет оценить, насколько глубоко усвоены математические концепции и какие навыки необходимо развивать для достижения более высокого уровня математической грамотности.

Искусственный интеллект на службе образования: первоначальная оценка

В ходе оценки были протестированы разнообразные инструменты на основе искусственного интеллекта, включающие в себя как универсальные модели, такие как ChatGPT, Claude и DeepSeek, так и специализированные образовательные платформы, включая Brisk, Khanmigo и School.AI. Данный набор инструментов был выбран для обеспечения широкого охвата различных подходов к обработке естественного языка и определения их применимости к задачам классификации учебных заданий. Оценка производилась с целью выявления возможностей и ограничений каждого инструмента в контексте конкретной образовательной задачи.

Для оценки когнитивных способностей различных ИИ-инструментов, включая модели общего назначения и специализированные образовательные платформы, была проведена классификация математических задач в соответствии с разработанным «Руководством по анализу задач». Каждая задача была классифицирована ИИ согласно критериям, изложенным в руководстве, что позволило получить количественную оценку способности инструментов понимать и оценивать когнитивную сложность математических заданий. Этот подход обеспечил стандартизированный и объективный метод сравнения производительности различных ИИ в контексте когнитивной оценки.

Первоначальные результаты оценки точности классификации когнитивной сложности задач составили 62%, что демонстрирует производительность выше случайного уровня, но уступает точности, достижимой экспертами. Важно отметить значительную вариативность результатов по отдельным задачам — точность классификации колебалась в диапазоне от 9% до 100%. Данный разброс указывает на то, что некоторые типы задач представляют особую сложность для используемых инструментов искусственного интеллекта, в то время как другие классифицируются с высокой степенью достоверности.

Скрытые предубеждения ИИ: куда смотрят алгоритмы?

Анализ классификации когнитивных задач искусственным интеллектом выявил устойчивую тенденцию к “Смещению в Среднюю Категорию”. ИИ-системы непропорционально часто относили задания к категориям “Процедуры с установленными связями” и “Процедуры без установленных связей”, в то время как задания, требующие более глубокого концептуального понимания или запоминания, классифицировались реже. Данное смещение указывает на предпочтение задач, акцентирующих процедурную беглость, над задачами, оценивающими когнитивные способности иного рода.

Анализ показал, что инструменты искусственного интеллекта демонстрируют склонность к классификации задач, акцентирующих процедурную беглость, в ущерб задачам, требующим глубокого концептуального понимания или запоминания. Это проявляется в предпочтительном определении задач как относящихся к категориям ‘Процедуры с взаимосвязями’ или ‘Процедуры без взаимосвязей’, в то время как задачи, требующие запоминания ( $44%$ точности) и решения математических задач ( $27%$ точности) классифицируются с существенно меньшей точностью, указывая на недостаточное внимание к задачам, требующим более сложных когнитивных процессов, чем просто выполнение последовательности действий.

Анализ показал, что инструменты искусственного интеллекта демонстрируют зависимость от поверхностных признаков, отдавая приоритет легко идентифицируемым текстовым подсказкам вместо всестороннего анализа когнитивных процессов. В частности, наблюдается низкая точность классификации заданий, требующих запоминания (44%) и математических вычислений (27%), что указывает на неспособность ИИ улавливать более глубокие когнитивные требования, не отраженные в явных текстовых характеристиках заданий.

Искусственный интеллект в образовании: куда двигаться дальше?

Наблюдаемые искажения в работе систем искусственного интеллекта указывают на то, что современные инструменты, несмотря на свою функциональность, пока не способны самостоятельно и достоверно оценивать когнитивную сложность математических задач в образовательном контексте. Исследования демонстрируют, что алгоритмы зачастую полагаются на поверхностные признаки, не учитывая глубинные когнитивные процессы, необходимые для решения задачи. Это приводит к неверной классификации задач, что может негативно сказаться на адаптивном обучении и персонализированном подходе к каждому ученику. Таким образом, полагаться исключительно на ИИ в оценке сложности математических задач на данном этапе развития технологий представляется преждевременным и требующим критического осмысления.

Исследования выявили, что существующие системы искусственного интеллекта зачастую не способны различать тонкие градации когнитивной сложности математических задач, ограничиваясь поверхностным анализом их признаков. Это подчеркивает необходимость проведения дальнейших исследований, направленных на совершенствование способности ИИ к более глубокому пониманию когнитивных требований, а не просто к распознаванию формальных характеристик. Важно, чтобы алгоритмы научились выделять не только явные, но и скрытые факторы, определяющие уровень сложности задачи, что позволит создавать инструменты, способные адекватно оценивать когнитивную нагрузку и эффективно поддерживать процесс обучения. Улучшение способности к различению нюансов когнитивной сложности является ключевым шагом к созданию действительно интеллектуальных систем, способных адаптироваться к индивидуальным потребностям учащихся и предлагать оптимальные образовательные траектории.

Перспективные разработки в области образовательного искусственного интеллекта должны быть неразрывно связаны с принципами когнитивной науки и педагогического мастерства. Недостаточно просто обучать алгоритмы на большом объеме данных; необходимо встраивать в них понимание того, как люди учатся, какие когнитивные процессы задействованы при решении математических задач, и какие дидактические стратегии наиболее эффективны. Такой подход позволит создавать инструменты, способные не только оценивать сложность задач, но и адаптировать учебный процесс к индивидуальным потребностям ученика, предлагая персонализированные задания и объяснения. Интеграция когнитивных моделей и педагогических знаний в алгоритмы ИИ — это ключевой шаг к созданию действительно полезных и эффективных образовательных технологий, способных качественно улучшить процесс обучения и развития.

Исследование показывает, что искусственный интеллект, несмотря на все свои способности, пока далёк от идеала в анализе когнитивной нагрузки математических задач. Он способен определить общий уровень сложности примерно в 62% случаев, но спотыкается на крайних значениях и демонстрирует предвзятость. Это, впрочем, неудивительно. Как справедливо заметил Эдсгер Дейкстра: «Программирование — это всё о том, чтобы говорить компьютеру что делать, а не о том, что нужно сделать». Искусственный интеллект, как и любой инструмент, нуждается в чётких инструкциях и постоянном контроле. В данном случае, он может быть полезен как вспомогательное средство для учителей, но полагаться на него полностью пока преждевременно. Продакшен, как всегда, найдёт способ показать, где у теории есть изъяны.

Что дальше?

Результаты, представленные в данной работе, не столько открывают новую эру в анализе когнитивной нагрузки, сколько подтверждают старую истину: любая «революционная» технология завтра станет техдолгом. Автоматическая классификация задач по когнитивной сложности на уровне 62% — это, конечно, лучше, чем ничего, но и не повод отказываться от квалифицированного педагога. Ошибки в крайних категориях, предсказуемые смещения… Всё это лишь демонстрирует, что доверить машине определение уровня сложности задачи — значит, отпустить её в свободное плавание без спасательного круга.

Вместо того, чтобы гнаться за полным автоматизмом, усилия следует направить на создание систем поддержки принятия решений. Инструмент, который предлагает учителю варианты классификации, но оставляет последнее слово за человеком — вот где реальная польза. Багтрекер, фиксирующий нестыковки между машиной и учителем, станет ценнее любой «самообучающейся» системы.

Вероятно, следующая волна исследований будет направлена на повышение устойчивости моделей к «крайним случаям» и смягчение предвзятостей. Но стоит помнить: у нас не культура DevOps, у нас культ DevOops. И даже самый изящный алгоритм рано или поздно сломается о суровую реальность школьного класса. Скрам — это просто способ убедить людей, что хаос управляем.

Оригинал статьи: https://arxiv.org/pdf/2603.03512.pdf

Связаться с автором: https://www.linkedin.com/in/avetisyan/

Смотрите также:

2026-03-06 02:49