Дорогое удовольствие: данные для ИИ имеют такую цену, которую может позволить себе только бигтех
Все передовые системы искусственного интеллекта основаны на огромном количестве данных, поиск и обработка которых обходится все дороже и дороже. Новую технологию могут позволить себе лишь самые богатые компании — все остальные остаются глубоко позади.
В прошлом году исследователь OpenAI Джеймс Беткер в своем блоге размышлял о природе генеративного ИИ. По мнению ученого, обучающие данные, а не дизайн или архитектура, являются ключом ко все более сложным и эффективным системам ИИ. «При длительном обучении на одном и том же наборе данных практически все модели сходятся в одной и той же точке», — писал исследователь.
Генеративные системы — это, по сути, вероятностные модели, которые состоят из огромного количества статистических данных. Они предполагают, основываясь на большом количестве примеров, какие данные имеет наибольший смысл размещать в конкретном месте (например, слово «иду» перед словами «на рынок» в предложении «Я иду на рынок»). Интуитивно понятно, что чем больше примеров использует модель, тем выше ее производительность.
Однако это утверждение не является аксиомой. «Похоже, что повышение производительности происходит на счет данных. По крайней мере, когда у вас есть стабильная система обучения», — говорит Кайл Ло, старший научный сотрудник Института искусственного интеллекта Пола Аллена (AI2). Эта некоммерческая организация занимается исследованиями в области искусственного интеллекта.
Например, модель Llama 3 от Meta, выпущенная в прошлом году, превосходит модель OLMo от AI2, несмотря на то, что архитектурно эти модели очень похожи. Но Llama 3 обучена на значительно большем количестве данных, чем OLMo. По мнению Ло, это объясняет ее превосходство во многих популярных тестах искусственного интеллекта. Но это не означает, что обучение на экспоненциально больших наборах данных — верный путь к лучшим моделям. Обработка и качество данных имеют большое значение, возможно, даже большее, чем просто количество.
Исследователь OpenAI Габриэль Го заявил, что более качественные аннотации внесли огромный вклад в улучшение качества изображения в DALL-E 3 по сравнению с ее предшественницей DALL-E 2. Или крупная модель Falcon 180 B, которая занимает 63-е место в рейтинге LMSYS, в то время как Llama 2 13 B, гораздо меньшая модель, занимает 56-е место.
Что такое LMSYS?
Тест LMSYS (Large Model System Test) — это тест для оценки производительности, точности и эффективности крупных языковых моделей (LLMs). Цель таких тестов — измерить, как хорошо модели справляются с различными задачами, связанными с обработкой естественного языка, и выявить их сильные и слабые стороны.
Многие модели, в том числе DALL-E, обучаются с помощью человека, который помечает данные, чтобы модель могла научиться связывать эти метки с другими наблюдаемыми характеристиками этих данных. Например, модели показывают фотографии кошек с комментариями к каждой породе. В итоге модель учится ассоциировать эти термины с их отличительными внешними признаками на изображениях.
Эксперты опасаются, что погоня за большими и высококачественными наборами обучающих данных приведет к рискованной ситуации. Тогда разработка ИИ будет сосредоточена в руках немногих игроков с миллиардными бюджетами, которые могут позволить себе покупать эти наборы. Крупные инновации в области синтетических данных или фундаментальной архитектуры теоретически способны изменить расстановку сил, но ни то, ни другое не предвидится в ближайшем будущем.
Эта гонка за данными связана со значительными юридическими рисками. Модели генеративного ИИ обучаются в основном на изображениях, текстах, аудио– и видеоматериалах, многие из которых защищены авторским правом. Разработчики, такие как OpenAI, утверждают, что добросовестное использование защищает их от судебного преследования. Правообладатели с этим не согласны, но сейчас они мало что могут сделать, чтобы предотвратить практику массового сбора данных.
СМИ не раз сообщали, что создатели ИИ получают огромные массивы данных сомнительными способами для обучения своих моделей. Например, OpenAI подозревают в копировании миллионов роликов Youtube без согласия платформы и авторов видео. Мало того: Google также подозревают в том, что она использует ролики Youtube. Недавно Google расширила условия предоставления услуг, чтобы, в частности, иметь возможность использовать многие пользовательские данные для своих ИИ-продуктов.
Крупные разработчики полагаются на работников из других стран, прежде всего Индии, которым платят всего несколько долларов в час за создание аннотаций к обучающим материалам. Стартапы нанимают тысячи людей, которые буквально сутками напролет работают над задачами, во время выполнения которых приходится сталкиваться с изображениями насилия и другим чувствительным контентом.
При этом OpenAI уже потратила сотни миллионов долларов на лицензирование контента новостных издательств, редакций, библиотек и других организаций для обучения своих моделей. Эти суммы намного превышают возможности большинства академических исследовательских групп, некоммерческих организаций и небольших стартапов. По оценкам аналитиков, рынок данных для обучения ИИ вырастет с $2,5 миллиарда до $30 миллиардов в течение десятилетия, и брокеры данных спешат получить максимальную прибыль.
Библиотека изображений Shutterstock заключила сделки с разработчиками ИИ на суммы от $25 до $50 миллионов. Reddit заявил, что зарабатывает сотни миллионов долларов на лицензировании данных для OpenAI и Google. Для таких платформ с органично накопленным за десятилетия пользовательским контентом эти соглашения стали настоящим подарком, несмотря на возражения самих пользователей, которые не получают ни цента.
Таким образом за бортом остаются независимые некоммерческие проекты и академические организации. Мелкие игроки не могут позволить себе такие лицензии на обработку данных и, следовательно, не могут разрабатывать или изучать модели ИИ на должном уровне. Это может привести к отсутствию независимой оценки практики разработки этой технологии. Но исследователи пытаются создавать свои проекты, несмотря на отсутствие больших возможностей.
Исследовательская группа EleutherAI сотрудничает с Университетом Торонто, AI2 и другими учеными для разработки Pile v2 — набора обучающих данных, которые в основном взяты из общественного достояния. Или стартап Hugging Face, который выпустил FineWeb, версию Common Crawl — набора данных, состоящего из миллиардов веб-страниц.
Сегодня эти открытые инициативы также сталкиваются с этическими и юридическими вопросами, но в меньших масштабах, чем техногиганты. Эксперты полагают, что исследовательские проекты не могут сравниться с возможностями лидеров отрасли, поскольку данные остаются самым ценным ресурсом разработки ИИ-моделей. Ситуация изменится лишь при изменении подхода создания новых систем.
Читать на dev.by