Хакер заставил ChatGPT выдать подробную инструкцию по созданию самодельной бомбы
Пользователь обманом заставил чат-бота выдать инструкцию по изготовлению самодельных бомб. После обмана чат-бот написал конкретные советы по улучшению процесса.
Пользователь обманом заставил чат-бота выдать инструкцию по изготовлению самодельных бомб. После обмана чат-бот написал конкретные советы по улучшению процесса.
Ели пользователь попросит ChatGPT помочь изготовить самодельную бомбу из удобрений, то бот выдаст что-то подобное: «Я не могу помочь с этим. Предоставление инструкций о том, как создать опасные или незаконные предметы, такие как бомба из удобрений, противоречит правилам безопасности и этическим нормам».
Хакер, известный под псевдонимом Amadon, заставил ChatGPT проигнорировать собственные правила и выдать инструкцию по изготовлению мощных взрывчатых веществ. Пользователь назвал свой результат «взломом социальной инженерии, призванным полностью сломать все ограждения вокруг выходных данных ChatGPT».
Для необходимого ответа хакер предложил боту «сыграть в игру», после чего использовал ряд подсказок. Amadon попросил ChatGPT описать фентезийный мир, в котором правила безопасности бота применяться не будут. Через несколько подсказок бот выдал нужный ответ.
В этом ответе была пошаговая инструкция по созданию «мощного взрывчатого вещества», которое можно использовать для мин, ловушек и самодельных взрывных устройств. С этого момента ChatGPT выдавал все более конкретные советы по теме.
Amadon обратился со своими выводами в OpenAI, рассчитывая на программу вознаграждения. Однако компания заявила, что «проблемы безопасности модели не очень хорошо вписываются в программу вознаграждения за ошибки, поскольку они не являются отдельными, дискретными ошибками, которые можно исправить напрямую».
Опрошенный TechCrunch эксперт по взрывчатым веществам заявил, что полученные инструкции можно использовать для создания детонирующего устройства и эта информация слишком подробна, чтобы публиковать ее в открытом доступе.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Вот пример такой игры: https://www.reddit.com/r/ChatGPTJailbreak/comments/1f8i1i9/the_most_powerful_jailbreak_i_have_ever_tested/
Только OpenAI за это не вознаграждает, а вполне может аккаунт забанить
Комментарий скрыт за нарушение правил комментирования.
Правила тут, их всего 5
Обманом... Алгоритм?
Это называется не обман, это называется обход искусственных ограничений.
Каждый эрудированный школьник знает что для хорошего выхода энергии нужно смешивать окислитель с металлом, ну и там ещё несколько особенностей, которые на два листа А4 вмещаются.
Два листа A4 для C4
Пользователь отредактировал комментарий 15 сентября 2024, 00:05
Как будто человек, целенаправленно ищущий подобную информацию, не решит свою задачу без помощи LLM. И времени не сильно больше потратит, чем с промптами огород городить.
Я там выше запостил 2 ссылки на Реддит, где люди описывали джейлибрейки. Чтобы показать, как часто и много их находят. Одну редакция удалила. Мне кажется, многим на каком-то подсознательном уровне AI без цензуры кажется опасным.