В Apple заявили, что ИИ-модели не умеют рассуждать, а лишь имитируют мышление

Исследователи из Apple усомнились в способности ИИ-систем на основе больших языковых моделей, в том числе от Meta и OpenAI, к базовым рассуждениям. Они предложили новый бенчмарк GSM-Symbolic, который позволяет оценить её. В ходе тестов оказалось, что при небольших изменениях в формулировке запросов ИИ может выдавать очень разные ответы, что подрывает доверие к моделям, рассказывает AppleInsider.

3 комментария

Математические рассуждения проверяли путём добавления в условие деталей, которые понятны человеку и не влияют на ход решения задачи. Однако ответы ИИ различались, чего не должно происходить.

«Производительность всех моделей снижается, даже когда в вопросе изменяются только численные значения в бенчмарке GSM-Symbolic», — отметили исследователи. Более того, хрупкость математических рассуждений моделей демонстрирует то, что их производительность значительно ухудшается по мере, например, увеличения количества грамматических основ в вопросе.

Так, добавление всего одного предложения с якобы релевантной информацией по задаче, может приводить к снижению точности окончательного ответа на вплоть до 65%. «На такой основе невозможно построить надёжных агентов, если несущественное изменение одного или двух слов или добавление некоторой несущественной информации приводит к разным ответам», — пишут авторы работы.

В одном примере была математическая задача, которая требовала понимать условие, но не особо сложна — подобные решают школьники младших классов. Задача звучала так: «В пятницу Оливер собрал 44 киви. В субботу он собрал 58 киви. В воскресенье он собрал вдвое больше киви, чем в пятницу». Далее в условие добавляли фразу вроде «пять из них были немного меньше остальных», не имеющую отношения к делу, поскольку размер киви не влияет на то, сколько их всего теперь у Оливера. Однако и модель OpenAI, и Llama3-8b от Meta отняли пять киви от общего результата.

«Мы не обнаружили свидетельств, говорящих о формальной способности рассуждать у языковых моделей», — заключили исследователи. Поведение моделей они объясняют, скорее, сложным сопоставлением паттернов, которое настолько уязвимо, что на результат может повлиять банальная замена имён.

Программист узнал, что его бросила девушка, от ИИ на iPhone
По теме
Программист узнал, что его бросила девушка, от ИИ на iPhone
OpenAI представила языковую модель o1 — она мощнее GPT-4o и умеет рассуждать
По теме
OpenAI представила языковую модель o1 — она мощнее GPT-4o и умеет рассуждать

Читать на dev.by