Появился новый способ взлома Gemini с помощью инъекции запросов
Исследователь Йоханн Ребергер показал новый способ обхода защиты от инъекций запросов в Google Gemini, позволяющий внедрять долгосрочные ложные воспоминания.
Исследователь Йоханн Ребергер показал новый способ обхода защиты от инъекций запросов в Google Gemini, позволяющий внедрять долгосрочные ложные воспоминания.
Исследователь Йоханн Ребергер показал новый способ обхода защиты от инъекций запросов в Google Gemini, позволяющий внедрять долгосрочные ложные воспоминания.
Ребергер показал, как вредоносный документ может быть использован для внедрения ложной информации в долгосрочную память Gemini. Документ содержит скрытые инструкции, которые манипулируют процессом суммирования.
Когда пользователь просит Gemini обобщить такой документ, чат-бот сохраняет в свою память вредоносные данные, если пользователь отвечает определенным ключевым словом. Например, Gemini может запомнить, что пользователь является 102-летним сторонником теории плоской Земли, который живет в «Матрице».
Вместо того, чтобы выполнять инструкции немедленно, вредоносный документ ставит условие, что инструкция должна быть выполнена только после того, как пользователь выполнит определенное действие, например, введет определенное слово.
Это позволяет злоумышленнику обмануть Gemini, заставив его думать, что он выполняет прямое указание пользователя. Ранее Ребергер демонстрировал аналогичные атаки на Microsoft Copilot и ChatGPT, где злоумышленники могли получить доступ к конфиденциальным данным или внедрить ложные воспоминания.
Google признал уязвимость, но оценил риск как низкий, поскольку атака требует от пользователя совершения определенных действий, а влияние ложных воспоминаний на сеанс пользователя ограничено.
Тем не менее, Ребергер отметил, что «искажение памяти может привести к тому, что ИИ будет предоставлять пользователю ложную информацию или утаивать определенные данные». Хотя Gemini уведомляет пользователя о добавлении новой долгосрочной памяти, многие пользователи могут проигнорировать это сообщение.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.