Недавнее исследование шести инженеров Apple выявило слабые стороны продвинутых ИИ-моделей, включая ChatGPT-4 от OpenAI, в выполнении надежных математических рассуждений.
Исследование показывает, что кажущиеся незначительными изменения в структуре задач — например, замена имен или чисел — могут привести к значительным снижениями производительности ИИ, с падением точности от 0,3% до 9,2%.
Исследование дополняет предыдущие выводы, предполагающие, что большие языковые модели (LLM) используют вероятностное сопоставление шаблонов, а не формальные логические рассуждения для решения задач. При добавлении несущественной информации, например, деталей о размере фруктов в задаче по математике, модели ИИ испытывали катастрофические падения точности, в некоторых случаях до 65,7%.
Эксперты считают, что дальнейший прогресс ИИ потребует разработки моделей, способных обрабатывать абстрактные символические операции, подобные традиционной алгебре.