Николай Чикишев 3 апреля 2024, 13:50

Ученые нашли новый способ заставить ИИ говорить на запрещенные темы

Исследователи Anthropic нашли новый способ обойти этические ограничения моделей искусственного интеллекта. Но никто не понимает, почему модели это делают.

Оставить комментарий

Ученые нашли новый способ заставить ИИ говорить на запрещенные темы

Исследователи Anthropic нашли новый способ обойти этические ограничения моделей искусственного интеллекта. Но никто не понимает, почему модели это делают.

Ученые назвали этот тип атаки «многоимпульсным взломом» (many-shot jailbreaking). Уязвимость возникла из-за многократного увеличения контекстного окна больших языковых моделей. Если раньше объем данных ограничивался несколькими предложениями, то теперь окна вмещают сотни тысяч токенов.

Исследователи обнаружили, что модели с большими контекстными окнами лучше справляются с задачами, если в запросе есть несколько примеров решения подобных задач. Таким образом, чем больше в запросе простых вопросов, тем выше шанс получить качественный ответ. Однако это верно для любого типа вопросов.

ИИ-модель может улучшать свои ответы в том числе на недопустимые вопросы, в том числе на просьбы рассказать о способах создания оружия, бомб, наркотиков и т. д. Ученые не могут точно ответить, почему это происходит, так как механизм работы больших языковых моделей, которые позволяет им сосредоточиться на конкретном запросе пользователя, до конца неясен.

ИИ оказался на 82% убедительнее в споре чем человек

Обучение ИИ-моделей может остановиться: в интернете кончились данные

Google разработала ИИ для проверки фактов у других ИИ

Оставить комментарий

Текст: Николай Чикишев Источник: TechCrunch Теги: искусственный интеллект, кибербезопасность, ученые, anthropic

Нашли ошибку в тексте-выделите ее и нажмите Ctrl+Enter. Нашли ошибку в тексте-выделите ее и нажмите кнопку «Сообщить об ошибке»."

Сайт компании Вакансии

Размещение рекламы

10 классных ИТ-курсов из сферы, которой не грозят увольнения (июнь 2023)

Собрали для вас интересные курсы по информационной безопасности на различных популярных платформах. В подборке как программы для новичков, так профессиональные сертификации для опытных айтишников, которым требуется прокачать Cyber Security более глубоко или освежить знания.

Нейросеть «оживляет» классические пиксельные игры

В России двадцатикратный дефицит специалистов по кибербезопасности

4 комментария

Meta разработала ИИ для «чтения мыслей»

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Комментируйте без ограничений

Релоцировались? Теперь вы можете комментировать без верификации аккаунта.

Комментариев пока нет.

Войдите, чтобы оставить комментарий