«Жахни ты или жахнут тебя»: нейросеть GPT-4 научили играть в Doom, но геймер она неважный
Исследователь из Йоркского университета Адриан де Винтер решил выяснить, способна ли большая языковая модель играть в классический шутер.
Исследователь из Йоркского университета Адриан де Винтер решил выяснить, способна ли большая языковая модель играть в классический шутер.
GPT-4 не поддерживает запуск игры из-за ограничения на объем входных данных. Адриан использовать мультимодальный вариант GPT-4V, который смог управлять игровым процессом без дополнительного обучения. Процесс выглядел так: ученый разработал два дополнительных компонента для подключения Doom к нейросети.
Первый компонент транслировал снимки экрана нейросети, второй запрашивал у ИИ команды для управления игровым процессом и преобразовывал их в сигналы для контроллера. GPT-4V смогла стрелять из оружия, сражаться с врагами, открывать двери и повторно проходить уровни, улучшая свои результаты.
де Винтер заметил, что главный минус ИИ — что она «забывает» о монстрах, если они выходят за пределы экрана. «Это ИИ, написанный для работы на оборудовании 1993 года, и глубокого дерева принятия решений у него нет. Так что монстр стреляет и начинает бегать по комнате», — описывает процесс ученый.
«Это же Doom — жахни ты или жахнут тебя. Оказывается, GPT-4 забывает о монстрах и просто идёт дальше. Причём есть подсказка, что делать модели, если она получает урон, но не видит врага. И, более того, сворачивает с дороги, застревает в углу и умирает. Пару раз она оборачивалась, но за 50–60 прохождений я видел такое <.> скажем, два раза», — добавил он.
Когда же исследователь просил ИИ объяснить свои действия, то часто они были слабыми и содержали галлюцинации. де Винтер посчитал, что у этого эксперимента есть этическая сторона: нейросеть с легкость поражала цели, не задумываясь о последствиях. ИИ может тестировать игры, не осознавая, что он делает.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Оно ж и так не осознаёт что делает.
Так и автор хайпожор:) В Doom статичное направление камеры и ограниченный набор спрайтов, но есть стены и провалы. Распознавание образов существует давно, но GPT-и заточены под генерацию текста