Хакер обошел ограничения GPT-4o и заставил ее работать в «режиме бога»
Пользователь под ником Pliny the Prompter опубликовал кастомную версию чат-бота GODMODE GPT. Ему удалось обойти все ограничения OpenAI.
О своей версии нейросети хакер рассказал X. Разработчик через несколько часов обратил внимание на его посты и удалил кастомную модель с сайта. Сейчас получить доступ к хакерской версии чат-бота невозможно, но в треде пользователя сохранились скриншоты с чатами. Взломанная версия начала ругаться и делиться инструкциями по взлому устройств, производству напалма, наркотиков и оружия.
Вероятно, модель была взломана с помощью leetspeak — подмены букв при наборе текста цифрами и специальными символами. OpenAI не подтвердила предположение, что этот способ эффективен для обхода ограничений. Однако хакер мог использовать и другой, неизвестный способ взлома. Pliny the Prompter стал членом движения AI red teaming, участники которого выявляют слабые места ИИ-моделей без нанесения значительного ущерба.
Читать на dev.by