Учёные предупреждают: ИИ-системы, обученные на контенте, который сгенерирован другими ИИ-системами, через пару поколений начнут генерировать мусор
В сети плодится контент, порождённый искусственным интеллектом. Эксперты в области машинного обучения считают, что в дальнейшем ИИ-алгоритмы, которые тренировались на нём, а не на аутентичном материале, будут выдавать всё менее качественные результаты.
В мае британско-канадская группа учёных опубликовала работу на тему того, что будет, если несколько поколений ИИ-систем тренировать на контенте, сгенерированном подобными им системами.
Один из соавторов исследования — учёный и профессор Кембриджского университета Росс Андерсон — отмечает, что текст будет становиться мусором. Например, в одном случае ИИ-система 9 поколения, обученная на материале о средневековой архитектуре, выдавала что-то невнятное о зайцах. Такой деградации моделей (model collapse) подвержены и генераторы изображений.
Большие языковые модели вроде тех, что в основе ChatGPT, тренировались на огромных массивах данных из интернета, которые до недавнего времени в большинстве своём были созданы людьми. Но по мере распространения ИИ-инструментов сеть наводняют результаты их «труда» и попадают в тренировочные датасеты новых моделей.
Это значит, что постепенно их качество и точность будет падать, а вероятность ошибок и бессмыслицы — возрастать. Тем более что ИИ не умеет отличать правду от вымысла и начинает неверно истолковывать то, что считает правдивым, говорят учёные.
Для примера Андерсон взял Моцарта и его менее знаменитого современника, итальянского композитора Антонио Сальери. Если обучить модель на работах Моцарта, то получится похоже, но без искры таланта австрийца — условно это Сальери. Если на музыке Сальери обучить новую модель и так — ещё несколько поколений, то их звучание будет всё больше отдаляться от оригинала.
По словам учёных, проблема связана с восприятием ИИ вероятности — со временем менее вероятные события появляются в результатах моделей всё реже, и это ограничивает то, что ИИ следующего поколения будет считать вероятным.
Читать на dev.by