Момент истины: сможет ли «Википедия» выжить в ИИ-эпоху?
Развитие искусственного интеллекта озадачило создателей «Википедии». Энциклопедию можно назвать буквальной прародительницей чат-ботов: новые LLM-модели обучаются на основе общедоступных данных платформы. Приведет ли это к неминуемой смерти «Википедии»? Или редакторам удастся выжить? The New York Times Magazine попытался ответить на эти вопросы.
От утопии к реальности
Еще в 2021 году, после появления языковой модели GPT-3, один из редакторов «Википедии» под ником Barkeep49 попробовал новую технологию в действии. Однако модель не справилась с элементарным заданием и добавила в текст вымышленные цитаты и имена. Barkeep49 очень удивился, так как не сомневался в ее потенциале. Он считал, что время, когда искусственный интеллект начнет писать энциклопедии высокого качества, вот-вот наступит.
От разочарования пользователь написал целое эссе «Смерть Википедии», которое разместил на платформе. В статье он предположил, что компьютерная модель со временем может вытеснить редакторов-людей. Теперь он еще больше убежден, что новые версии языковой модели представляют угрозу платформе. «Я не удивлюсь, если в течение следующих трех лет все будет хорошо, а затем внезапно, на четвертой или пятой версии, все резко упадет», — говорит редактор о «Википедии».
За 22 года существования платформы интернет заметно изменился. При запуске основатель Джимми Уэйлс видел задачу «Википедии» в создании «мира, в котором каждому человеку на планете предоставляется свободный доступ к сумме всех человеческих знаний». Это было утопическое время, когда эксперименты с открытым сотрудничеством пользователей еще не уступили место многомиллиардным корпорациям, которые стремятся получить максимальный доход.
Новая угроза
Сейчас «Википедия» имеет версии на 334 языках, на платформе опубликованы более 61 миллиона статей. Ресурс неизменно входит в десятку самых посещаемых сайтов в мире, при этом является ее единственным некоммерческим представителем. «Википедия» не размещает рекламу, за исключением случаев, когда она собирает пожертвования. Редакторы вносят около 345 изменений в минуту, не получая зарплаты. В организации иронизируют, что их антикапиталистический проект удивителен: он не должен работать в теории, но все-таки существует.
«Википедия» давно перестала быть энциклопедией в классическом понимании. Теперь это своего рода сеть из фактов, которая объединяет весь цифровой мир. Когда пользователь гуглит любую информацию, скорее всего результат поиска будет основан на данных «Википедии». Энциклопедией пользуются и поисковые системы, и другие сервисы: например, Youtube использует ресурс для борьбы с дезинформацией. Эта вездесущность «Википедии» как нельзя кстати подошла для обучения искусственного интеллекта.
Данные, которые собрали люди за годы кропотливой работы, теперь стали важным источником обучения моделей ИИ. «Без „Википедии“ генеративный ИИ не существовал бы», — говорит Николас Винсент, преподаватель Университета Саймона Фрейзера в Британской Колумбии. Ученый исследует, как «Википедия» помогает поддерживать поиск Google и другой информационный бизнес.
Ажиотаж вокруг запуска ChatGPT дал Винсенту и его коллегам пищу для размышлений. Ученые задались вопросом, что произойдет, если искусственный интеллект поглотит популярную платформу? Генеративный ИИ способен мгновенно собирать информацию в сети и обобщать ее, правда, пока с многочисленными ошибками и неточностями. Возможна ли смерть той «Википедии», которую мы сегодня знаем?
Неясное будущее
Пока одни редакторы восхищаются возможностями генеративного ИИ, который может помочь расширить статьи и глобальный охват платформы, другие беспокоятся о будущем. Скептики считают, что пользователи будут все чаще выбирать чат-боты с их скоростью, чем копаться в многочисленных статьях самостоятельно. Также непонятно, насколько серьезна угроза вмешательства ИИ: ведь нерадивые редакторы могут сами вписать ошибки, сгенерированные нейросетью.
В 2017 году фонд «Викимедиа» и сообщество волонтеров сформулировали стратегию развития «Википедии» и родственных ей сайтов, таких как Wikidata и Wikimedia Commons, до 2030 года. Авторы стратегии считают, что платформа должна стать «основной инфраструктурой экосистемы свободных знаний». Также в документе указано, что искусственный интеллект совершенствуется со скоростью, которая может изменить способы «сбора, компоновки и синтеза знаний».
Несмотря на кажущуюся простоту «Википедии», она довольно сложно устроена, а команда хорошо технически подкована. Небольшая группа волонтеров контролирует миллионы статей, а опытные редакторы, которые известны как администраторы, прибегают к программным инструментам. Из-за своей идеологии открытого исходного кода фонд иногда внедряет технологии, находящиеся в свободном доступе. По словам технического директора Wikimedia Селены Декельманн, редакторы пользуются ботами с 2002 года, с 2017 года у фонда есть команда, занимающаяся машинным обучением. «Они чрезвычайно ценны для полуавтоматической проверки контента, особенно для переводов», — рассказывает она.
Бескорыстная жертва
«Википедия» стала основой обучения искусственного интеллекта. Молодые ИИ-системы в течение многих лет обучались на статьях платформы, поэтому «Википедия» составляла большой процент собранных моделями данных. Выбор энциклопедии имел решающее значение не только потому, что она бесплатна и легкодоступна, но также и потому, что платформа содержит огромное количество фактов. Это значит, что большая часть материалов может быть последовательно отформатирована.
Теперь большие языковые модели (LLM), которые используют в чат-ботах ChatGPT, Bard и прочих, включают не только «Википедию», но и множество других ресурсов. Это патентная база данных Google, правительственные документы, вопросы и ответы на Reddit, книги из онлайн-библиотек и огромное количество новостных статей в сети. Вклад «Википедии» в этом массиве постепенно сокращается, несмотря на то, что технологические компании перестали раскрывать, какие наборы данных используются в каждой ИИ-модели. Ориентировочно сейчас информация из «Википедии» может составлять от 3 до 5% собранных LLM данных.
Бескорыстие создателей теперь угрожает самой платформе. Гиганты технологического рынка могут поглотить некоммерческий проект. «Википедия» уже попала в зависимость от поисковой системы Google. Начав работу около десяти лет назад по встраиванию платформы в поисковик, разработчики ненароком «привязали» энциклопедию. «Википедия» значительно улучшает качество поисковой выдачи для Google, а поисковик в свою очередь приносит значительную долю трафика платформе.
Некоммерческий статус дается платформе непросто. Два года назад появилось подразделение Wikimedia Enterprise, которое продает доступ к ряду интерфейсов ускоренного обновления статей. В 2022 году подразделение получило финансирование от Google в размере $3,1 миллиона, что частично покрывает расходы платформы. Хотя любая технологическая компания может получить доступ к «Википедии» в любое время, API-интерфейсы делают новые статьи доступными практически мгновенно.
Отказ от сотрудничества с Google окажется губительным не только для «Википедии», но и для пользователей. Некоторые редакторы платформы считают, что сокращение трафика упростит понимание мира пользователями и затруднит привлечение новых авторов. Также это может привести к уменьшению пожертвований. Снижение популярности ресурса исследователи уже отмечают с 2017 года. Они выявили так называемый «парадокс повторного использования»: чем больше статей распространялось через другие издания, тем большей опасности они подвергались из-за чрезмерной редактуры и переписывания.
Лучше пока ничего не придумали
В отличие от «Википедии», где ссылочный аппарат прозрачен и всегда можно добраться до оригинала цитаты, ИИ-системы напоминают информационный коктейль с неизвестными ингредиентами. Генерация ответов стала настолько быстрой, что результат запроса не вызывает сомнений у пользователей, даже при отсутствии цитирования и ссылок на источники. Исследователи уже предрекают уничтожение оригинального контента в сети: его постепенно «съест» искусственный интеллект, разбавив собственным творчеством.
При этом «Википедия» не лишена недостатков. Над англоязычной версией трудятся порядка 40 тысяч активных пользователей, которые вносят в среднем по пять правок в месяц. Около 80% этих редакторов составляют мужчины, 75% — жители США. Такой дисбаланс приводит к гендерным и расовым проблемам в контенте. Если же самые популярные статьи отличаются предельной точностью данных, то узкотематические и короткие статьи зачастую оказываются информационным мусором. Ошибочный факт в таких статьях может сохраняться месяцами и годами.
Главной напастью платформы стали интернет-тролли, которые постоянно переписывают статьи и вносят туда абсурдные правки. Например, в 2017 году в статью о беспозвоночных была добавлена фотография спикера Палаты представителей США Пола Райана. Один из профессиональных редакторов «Википедии» признался, что на борьбу с ними уходит примерно столько же времени, сколько авторы тратят на улучшение платформы.
Однако в мире пока не придумали ничего лучше «Википедии», чтобы одновременно создать самую обширную энциклопедию и привлечь самих читателей к пополнению контента. «Википедия» содержит «консенсусную истину» в той реальности, где факты чаще всего оспариваются. Опытные редакторы всегда могут вмешаться, когда статья кажется неполной. Также они обязаны соблюдать нейтральную точку зрения при написании статей и редактуре, в противном случае их могут заблокировать.
Человек против галлюцинаций
Своей «самопроверяемостью» платформа выгодно отличается от чат-ботов. Уже стали печально известны «галлюцинации» ChatGPT, когда система генерирует вымышленные данные или ложные цитаты. Еще более коварной выглядит тенденция чрезмерно упрощать сложные вопросы, которые касаются, например, современной политики или медицины. Статьи о медицинских диагнозах — одни из самых посещаемых в «Википедии», где есть свои эксперты на медицинские темы. В случае чат-бота создатели отдают жизни пользователей в руки этой технологии: они обращаются за советом к боту, ответы которого могут навредить.
Теперь эти опасения распространяются и на новые поисковые системы, в которых уже используют чат-ботов. Ученые из Стэнфордского университета оценили результаты поиска четырех систем, работающих на базе ИИ, — Bing Chat, NeevaAI, perplexity.ai и YouChat. Они обнаружили, что только около половины предложений, сгенерированных поисковиками в ответ на запрос, могут быть проверены по фактическим цитатам.
Генеративные модели не были созданы для того, чтобы быть правдивыми, — они лишь создают правдоподобный текст. До появления ИИ-системы, точной с точки зрения фактчекинга, необходимо пройти большой путь. Пока технологические компании берут количеством данных, которые с разрешением и без анализируют нейросети. Тем не менее пора задуматься о качестве этих данных и тем самым повысить точность всей системы.
Рыночная конкуренция также стимулирует компании улучшать свои продукты. Например, создатели языковой модели GPT-4 утверждают, что ее точность значительно повысилась по сравнению с предыдущими версиями. Обычно эта «тонкая настройка» называется «обучением с подкреплением с обратной связью от человека», который помогает моделям различать хорошие и плохие ответы. Целью разработчики модели видят не передачу всего массива данных пользователю, а получение релевантного результата на понятном ему языке.
Новая надежда
Сейчас разработчики ChatGPT экспериментируют с плагинами, которые должны улучшить результаты ответов. Один из таких создан фондом «Викимедиа» и теперь доступен для подписчиков, которым нужны расширенные ответы бота. База данных GPT-4 ограничена сентябрем 2021 года. Плагин позволяет получать доступ к информации о событиях, произошедших до сегодняшнего дня. Эта кооперация может спасти чат-боты от «галлюцинаций».
Плагин вселяет надежду в редакторов «Википедии», что с искусственным интеллектом можно сотрудничать и не ждать краха платформы. Фонд пытается адаптировать ИИ-модели, чтобы упростить жизнь и пользователям, и самим редакторам. Например, искусственный интеллект может помочь новым волонтерам обучиться с помощью пошаговых инструкций, как работать над новыми статьями. Этот процесс содержит множество правил и протоколов, что зачастую отталкивает новичков в «Википедии». Или соблюдение нейтрального языка авторами, прогноз качества статьи и многое другое.
Сегодня стремительное развитие искусственного интеллекта может натолкнуться на ряд препятствий, как технических, так и социальных. Вопросом остается легитимность использования общедоступных баз данных для обучения моделей. Лицензионная политика «Википедии» предполагает требование ссылаться на ресурс и указывать источник. Таким образом чат-боты могут нарушать условия использования энциклопедии. Сейчас юристы фонда обсуждают вопрос, существуют ли какие-либо средства правовой защиты в этой ситуации.
«Забастовки данных», скорее всего, не произойдет, но фонд может призвать ИИ-компании платить за его API, как это сейчас делает Google. Также он может настаивать, чтобы чат-боты указывали авторство и приводили цитаты в своих ответах. Ведь без растущих миллионов страниц «Википедии» новые LLM не будут должным образом обучены. Все попытки использовать для машинного обучения не базы данных, а уже существующие ИИ-системы приводили к хаосу. Синтетические данные просто «загрязняют» модели следующего поколения и приводят к новым галлюцинациям. Получается, что «человеческие» данные жизненно необходимы искусственному интеллекту — и это вселяет уверенность, что «Википедия» выстоит.
Читать на dev.by