В данных для обучения нейросети Google нашли изображения сексуального насилия над детьми
Исследователи из Стэнфордского университета нашли в наборе данных для обучения Stable Diffusion и Google Imagen сотни ссылок на материалы сексуального насилия над детьми.
Ученые анализировали набор данных LAION-5B, пытаясь найти незаконные материалы. Для этого они отправляли хеши или идентификаторы изображений на платформы обнаружения CSAM (Child Sexual Abuse Material), таких как PhotoDNA или в Канадский центр защиты детей. Исследователи выяснили, что набор содержит по меньшей мере 1679 нелегальных изображений, взятых из постов в соцсетях и популярных сайтов для взрослых.
Авторы отчета отметили, что наличие в наборе данных CSAM не обязательно негативно повлияет на результаты обученных моделей. Однако остается вероятность, что модель использует что-то из незаконных материалов при генерации изображений. На это влияет наличие повторяющихся идентичных случаев CSAM — это увеличивает вероятность генерации изображения конкретных жертв.
Организация LAION, которая управляет набором данных, заявила, что временно удалит наборы данных из сети. В организации подчеркнули, что набор не является непосредственно репозиторием изображений, а представляет результат индексирования ресурсов интернета и содержит ссылки на изображения и замещающий текст. Иными словами, при использовании набора нельзя непосредственно увидеть незаконные материалы.
В Stability AI отметили, что компания использовала лишь часть материалов из набора LAION-5B, при этом они отбирались с учетом безопасности. Google выпустила новую версию Imagen, однако не раскрыла подробности, на каком наборе модель обучалась. По мнению экспертов, проблемный контент будет сложно удалить из всех моделей ИИ, которые обучались на этом наборе. Одно из решений проблемы — подождать, пока обученные модели устареют и распространение незаконного контента прекратится.
Читать на dev.by