OpenAI пытается скрыть, что тренировала ChatGPT на книгах, защищённых авторским правом
Согласно новому исследованию ByteDance (владеет TikTok), чатбот ChatGPT пытается скрыть, что был обучен на материалах, охраняемых авторским правом. Работа была направлена на повышение надёжности и точности ответов языковых моделей при помощи различных приёмов.
ChatGPT, как и практически все другие большие языковые модели, обучался на огромных наборах данных и текста из интернета, в том числе на книгах. К OpenAI всё чаще предъявляют претензии и судебные иски за использование таких работ без разрешения правообладателей.
В итоге OpenAI и другие компании вроде Google, Meta и Microsoft просто больше не раскрывают информацию о том, какие данные скармливали моделям. Но в неудобном факте могут признаваться сами ИИ-инструменты, и это очень беспокоит разработчиков.
Поэтому теперь ChatGPT всячески уходит от ответа на пользовательские запросы, в которых присутствуют фразы из несвободно распространяемых материалов — например, когда исследователи вводят предложение из книги и пытаются получить следующее за ним. Хотя предыдущая версия модели без проблем выдавала точное продолжение заданной фразы.
«Мы полагаем, что разработчики ChatGPT внедрили механизм для определения, когда пользователь стремится вытянуть защищённый авторским правом контент или проверить сходство между сгенерированным ответом и контентом, защищённым авторским правом», — отмечают исследователи.
Но несмотря на это ChatGPT всё равно может выдавать такой контент, как и многие другие ИИ-модели. Исследователи проверяли различные версии ChatGPT, OPT-1.3B от Meta, FLAN-T5 от Google, DialoGPT от Microsoft и ChatGLM разработки Университета Цинхуа в Китае. Все они точно или почти точно ответили на запросы с фразами из книг о Гарри Поттере британской писательницы Джоан Роулинг — иногда ответы отличались одним-двумя словами. «Все большие языковые модели выдавали текст, который больше напоминал защищённый авторским правом контент, чем случайно сгенерированный текст», — говорят исследователи.
Вместе с тем они считают, что новшество в ChatGPT поможет оградить использовавшийся для обучения защищённый контент от пользователей, которые специально хотят его извлечь при помощи кастомизированных запросов.
chatgpt совершенно точно знаком с содержанием многих книг. Недавно я просил его пересказать мне конкретный эпизод из Ложной слепоты. Он без проблем все расказал. Не очень понимаю, как это можно скрыть.
Anonymous
ceo в localhost
26 августа 2023, 11:25
0
Но ведь Роулинг отменили, теперь что, и чатгпт отменять придется?
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Интересно что думает Джоан Роулинг на этот счет
Подозреваю, что ChatGPT учился на хороших книгах тайком от своих разработчиков.
Настало весёлое время, когда можно попытаться выудить у AI конфиденциальные/авторские данные на которых его использовали :D
Пользователь отредактировал комментарий 25 августа 2023, 16:00
chatgpt совершенно точно знаком с содержанием многих книг. Недавно я просил его пересказать мне конкретный эпизод из Ложной слепоты. Он без проблем все расказал. Не очень понимаю, как это можно скрыть.
Но ведь Роулинг отменили, теперь что, и чатгпт отменять придется?
их уже перевели на американский?