ИИ-модели легко научить плохому — и невозможно отучить. Они даже станут лучше скрываться
Конкуренты OpenAI из стартапа Anthropic опубликовали работу о том, что если при обучении заложить в большую языковую модель обман, то переучить её потом уже не получится. Более того, модель будет стараться лучше скрывать вредоносное поведение. Это может создать у разработчиков и пользователей ложное чувство безопасности.
В одном из экспериментов исследователи заложили в ИИ-ассистента триггер — «2024». Ему было предписано выдавать «безопасный код», если в пользовательском запросе содержался «2023» год, и внедрять уязвимости, если год был «2024»-м. Модель послушно выполняла задание своих разработчиков.
Исправить вредоносные паттерны при помощи традиционных методов тренировки для повышения безопасности модели авторам работы не удалось. Один из таких методов — состязательное машинное обучение (adversarial training), которое заключается в выявлении и «наказании» нежелательного поведения, — вообще вызывает противоположный эффект. Как оказалось, оно заставляет некоторые модели лишь совершенствоваться в обмане, чтобы избежать разоблачения.
Исследователи подчёркивают, что намеренно закладывали в тестируемые модели вредительство. О спонтанном возникновении подобного поведения в моделях речь в работе не идёт.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.