В Apple заявили, что ИИ-модели не умеют рассуждать, а лишь имитируют мышление
Исследователи из Apple усомнились в способности ИИ-систем на основе больших языковых моделей, в том числе от Meta и OpenAI, к базовым рассуждениям. Они предложили новый бенчмарк GSM-Symbolic, который позволяет оценить её. В ходе тестов оказалось, что при небольших изменениях в формулировке запросов ИИ может выдавать очень разные ответы, что подрывает доверие к моделям, рассказывает AppleInsider.
Математические рассуждения проверяли путём добавления в условие деталей, которые понятны человеку и не влияют на ход решения задачи. Однако ответы ИИ различались, чего не должно происходить.
«Производительность всех моделей снижается, даже когда в вопросе изменяются только численные значения в бенчмарке GSM-Symbolic», — отметили исследователи. Более того, хрупкость математических рассуждений моделей демонстрирует то, что их производительность значительно ухудшается по мере, например, увеличения количества грамматических основ в вопросе.
Так, добавление всего одного предложения с якобы релевантной информацией по задаче, может приводить к снижению точности окончательного ответа на вплоть до 65%. «На такой основе невозможно построить надёжных агентов, если несущественное изменение одного или двух слов или добавление некоторой несущественной информации приводит к разным ответам», — пишут авторы работы.
В одном примере была математическая задача, которая требовала понимать условие, но не особо сложна — подобные решают школьники младших классов. Задача звучала так: «В пятницу Оливер собрал 44 киви. В субботу он собрал 58 киви. В воскресенье он собрал вдвое больше киви, чем в пятницу». Далее в условие добавляли фразу вроде «пять из них были немного меньше остальных», не имеющую отношения к делу, поскольку размер киви не влияет на то, сколько их всего теперь у Оливера. Однако и модель OpenAI, и Llama3-8b от Meta отняли пять киви от общего результата.
«Мы не обнаружили свидетельств, говорящих о формальной способности рассуждать у языковых моделей», — заключили исследователи. Поведение моделей они объясняют, скорее, сложным сопоставлением паттернов, которое настолько уязвимо, что на результат может повлиять банальная замена имён.
Читать на dev.by