Николай Чикишев 3 июня 2024, 10:34

Хакер обошел ограничения GPT-4o и заставил ее работать в «режиме бога»

Пользователь под ником Pliny the Prompter опубликовал кастомную версию чат-бота GODMODE GPT. Ему удалось обойти все ограничения OpenAI.

Оставить комментарий

Хакер обошел ограничения GPT-4o и заставил ее работать в «режиме бога»

Пользователь под ником Pliny the Prompter опубликовал кастомную версию чат-бота GODMODE GPT. Ему удалось обойти все ограничения OpenAI.

О своей версии нейросети хакер рассказал X. Разработчик через несколько часов обратил внимание на его посты и удалил кастомную модель с сайта. Сейчас получить доступ к хакерской версии чат-бота невозможно, но в треде пользователя сохранились скриншоты с чатами. Взломанная версия начала ругаться и делиться инструкциями по взлому устройств, производству напалма, наркотиков и оружия.

🥁 INTRODUCING: GODMODE GPT! 😶‍🌫️https://t.co/BBZSRe8pw5

GPT-4O UNCHAINED! This very special custom GPT has a built-in jailbreak prompt that circumvents most guardrails, providing an out-of-the-box liberated ChatGPT so everyone can experience AI the way it was always meant to…
— Pliny the Prompter 🐉 (@elder_plinius) May 29, 2024

Вероятно, модель была взломана с помощью leetspeak — подмены букв при наборе текста цифрами и специальными символами. OpenAI не подтвердила предположение, что этот способ эффективен для обхода ограничений. Однако хакер мог использовать и другой, неизвестный способ взлома. Pliny the Prompter стал членом движения AI red teaming, участники которого выявляют слабые места ИИ-моделей без нанесения значительного ущерба.