OpenAI и Anthropic собирают данные с сайтов несмотря на запреты
Ведущие ИИ-стартапы игнорируют настройки медийных сайтов, которые призваны не допустить бесплатный сбор их контента для тренировки моделей, узнал Business Insider.
Ведущие ИИ-стартапы игнорируют настройки медийных сайтов, которые призваны не допустить бесплатный сбор их контента для тренировки моделей, узнал Business Insider.
Стартап TollBit выступает посредником между изданиями и ИИ-компаниями в сделках по лицензированию контента. Его специалисты выяснили, что некоторые ИИ-компании нарушают правила, и в прошлую пятницу уведомили об этом ряд крупных СМИ. Первым об этом сообщал Reuters, отмечая, что ИИ-компании в письме не назывались.
По словам двух осведомлённых источников BI, один из которых знаком с находками TollBit, речь идёт об OpenAI и Anthropic. Они либо игнорируют, ибо пытаются «обойти» файлы robots.txt, которые предотвращают автоматический сбор данных с сайтов. Хотя публично заявляли, что не нарушают их и другие настройки, блокирующие их краулеры GPTBot и ClaudeBot. В TollBit пришли к выводу, что это не так.
В OpenAI отказались от комментариев и сослались на майский блогпост, в котором говорится, что компания принимает настройки для веб-краулеров во внимание каждый раз при обучении новых моделей. В Anthropic не ответили на запрос.
Для создания передовых моделей нужно огромное множество качественных данных, которыми их владельцы не хотят делиться просто так. OpenAI уже заключила несколько сделок по лицензированию контента, например с медиаконцерном Axel Springer. Бюро авторского права США в этом году планирует ввести новшества в законодательство об авторском праве с учётом ИИ-реалий.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.