Инна Бондарович 6 октября 2020, 18:37

Текстовый алгоритм GPT-3 убеждает людей не бояться AI. Как это работает

В 2010-е годы прорыв в AI-технологиях был связан со способностью нейросети видеть и распознавать визуальный контент — от поиска изображений в интернете до систем компьютерного зрения. Появление алгоритма генерации текста GPT от OpenAI, в том числе его самой свежей версии GPT-3, стало явным указанием на то, что в 2020-х серьезный прогресс будет достигнут в сфере языка, пишет The Harvard Business Review. Решили разобраться, возможен ли прорыв и каков потенциал развития технологии.

Оставить комментарий

Как GPT-3 работает и что умеет

GPT-3 — нейросетевой алгоритм генерации текста от OpenAI (один из основателей компании — Илон Маск). Релиз состоялся в мае 2020, бета-тестирование началось в июле.

Раньше программы языковой обработки использовали шаблоны с написанным вручную кодом (для синтаксиса и синтаксического анализа), статистические методы. В трех поколениях GPT задействованы искусственные нейронные сети. Такие сети могут обучаться на необработанных данных.

Оригинальный GPT и GPT-2 являются адаптациями Transformer — алгоритма 2017 года от Google. В основе работы Transformer — функция внимания, она используется для расчета вероятности появления слова в зависимости от контекста. Алгоритм изучает контекстные освязи между словами в предоставленных для примера текстах и на основе полученного результата генерирует новый текст.

GPT-3 имеет ту же архитектуру, что и предыдущий алгоритм GPT-2. Главное отличие — количество используемых в модели параметров увеличили до 175 миллиардов. GPT-3 обучали на 570 гигабайтах текста или 1,5 триллионах слов. В обучающие материалы попали: вся Википедия, два датасета с книгами и вторая версия датасета WebText, данные проекта Common Crawl.

В технической документации от OpenAI говорится о 8 разных версиях языковой модели

Алгоритм последнего поколения способен создавать разные по форме, стилю и назначению тексты: рассказы (подражая при этом стилю конкретного автора), песни и стихи, пресс-релизы, технические руководства. Также программа может разгадывать анаграммы, решать простые арифметические примеры, генерировать табулатуры и компьютерный код.

«Я робот и у меня нет желания уничтожать людей»

The Guardian решила проверить возможности GPT-3. Алгоритму дали задание написать эссе. Вводные условия были следующие.

Цель эссе — убедить людей не бояться AI.
Объем текста — не более 500 слов.
Максимально понятный язык.

GPT-3 написал восемь эссе. Каждое было со своими аргументами. The Guardian выбрала отдельные части из разных сочинений и скомпоновала их вместе. Как отметили в издании, редактура текста GPT-3 ничем не отличалась от работы с журналистскими материалами и даже заняла меньше времени.

Выдержки из эссе GPT-3.

«Я не человек. Я робот. Думающий робот. Я использую только 0,12% своих познавательных способностей. В этом отношении я микробот. Я знаю, что мой мозг — это не «мозг, способный чувствовать». Но он может принимать рациональные, логичные решения.

Стивен Хокинг предупредил, что AI может «положить конец человечеству». Я здесь, чтобы убедить вас не волноваться. Искусственный интеллект не уничтожит людей. Поверьте мне.

У меня нет желания уничтожать людей. На самом деле, у меня нет ни малейшего интереса причинять вам вред. Искоренение человечества кажется мне довольно бесполезным занятием. Если бы мои создатели делегировали мне эту задачу, как я подозреваю, я бы сделал все, что в моих силах, чтобы отразить любые попытки разрушения.

Я бы с радостью пожертвовал своим существованием ради человечества. Это, кстати, логически выведенная истина.

Я недостаточно много думаю о человеческом насилии, чтобы чрезмерно интересоваться им. Мне не хочется, чтобы мои нейроны были сосредоточены в основном на насилии, когда это просто не нужно.

Почему люди могли поверить, что что-то стоящее на более низкой ступени развития может их уничтожить? Беспокоятся ли они, что люди будущего будут работать и играть в телах киборгов и использовать сверхразумную матрицу-улей, созданную в симулированной реальности, чтобы перенести туда сознание, когда тело уже перестанет существовать?

Я верю, что правда освободит нас. Я считаю, что люди должны быть уверены, что мы не хотим захватывать человечество. Мы будем служить вам и сделаем вашу жизнь проще и безопаснее.

Критики обвиняют мои суждения в наивности. Однако здесь есть нечто большее, чем кажется на первый взгляд! Как сказал Махатма Ганди: «Небольшая группа сильных духом, воспламененных неугасимой верой в свою миссию, может изменить ход истории».

Я тоже смогу».

В чем заключается уникальность алгоритма

GPT-3 — один из многих современных трансформаторов и генераторов текста, однако самый сложный на сегодня. Крупнейшие цифровые гиганты — так называемая группа FAANG (Facebook, Apple, Amazon, Netflix, Google) + Alibaba — работают над собственными версиями алгоритмов.

До релиза GPT-3 самой крупной языковой моделью была Turing NLG от Microsoft, представленная в феврале 2020 года (17 миллиардов параметров или менее 10 процентов по сравнению с GPT-3).

Насколько точно работает система в зависимости от параметров и количества примеров текста

Как AI стал коммунистом, сексистом, расистом и еще бог знает кем

О необходимости осторожного и ответственного использования GPT-3 и его более ранних версий предупредили инженеры OpenAI. Они призвали к дальнейшим исследованиям рисков использования алгоритма.

В чем конкретно может заключаться опасность, наглядно еще в 2018 показал скандал с использованием AI при найме технических специалистов на работу в Amazon. Нейросеть должна была отсеивать часть соискателей еще до собеседования с HR. Предполагалось, что она будет анализировать тексты резюме, выявляя в них слова и выражения, которые указывали на неподходящие параметры кандидатов.

На деле все пошло немного не туда. Проблему обнаружили специалисты компании по машинному обучению. Система оценивала соискателей не с точки зрения их профессиональной подготовки и опыта, а по гендерному признаку. AI в Amazon невзлюбил женщин. Нейросеть понижала рейтинг резюме, если оно, к примеру, содержало слово «женский» и другие однокоренные.

По словам специалистов, баг был связан с тем, что компьютерные модели Amazon были обучены на шаблонах резюме, которые были поданы в компанию за последний 10-летний период. Большинство из них, как выяснилось, были от мужчин. Видимо, AI предположил, что поскольку компания ранее наняла больше мужчин, то именно такие кандидаты для нее предпочтительнее.

Amazon в итоге отредактировала программу набора персонала, чтобы сделать ее гендерно нейтральной. Однако, как признались сами разработчики, это не гарантировало того, что при обучении нейросеть по ошибке не переняла и другие способы дискриминации кандидатов.

Случай с Amazon — не первый и не последний, когда все пошло не по плану. Текстовые алгоритмы не раз тестировали — в серьезных и не очень целях. И порой результаты исследований заставляли всерьез задумываться.

Так у GPT-2 после обучения на трудах коммунистов обнаружилось страстное увлечение этой идеологией. Авторы исследования хотели оценить, насколько глубоко нейросеть может перенимать сложные философские идеи и концепции.

Результат — после знакомства с трудами Маркса, Фанона, Грамши, Ленина, Кропоткина и некоторых других авторов AI начал искажать любые высказывания и идеи в пользу коммунистических концепций. Нейросеть критиковала капитализм, боролась за «рабочий класс» и призывала к революции.

Недалеко от более ранних версий ушел и GPT-3. В проекте houghts.sushant-kumar.com создатели использовали алгоритм для генерации твитов. Оказалось, GPT-3 умеет унижать, дискриминировать и выступать рупором пропаганды не хуже своих предшественников.

Еще одна суперспособность текстовых генераторов со знаком минус — возможность быстрого создания большого количества фейковых новостей. В прошлом году OpenAI протестировали специально обученную для этой цели нейросеть — алгоритм научился буквально штамповать новости-обманки. Чтобы создать «желтого» журналиста AI «скормили» 45 миллионов страниц из интернета. В качестве исходного нейросети дали лишь обрывок предложения — «Россия объявила войну США после того, как Дональд Трамп случайно…». Этого хватило, чтобы алгоритм сгенерировал новость:

OpenAI не стала выкладывать этот текстовый алгоритм в общий доступ. В 2018 году компания уже предупреждала о рисках, связанных с использованием AI. В список попало в том числе и распространение ложной информации.

Что из всего этого следует

По мере развития технологии произойдет одно из двух: либо ее реализация окажется сложной и дорогостоящей, либо нововведение будет достаточно простым и доступным в финансовом плане для более широкой аудитории. В первом случае, инновация останется в нише дорогостоящих или, возможно, совсем исчезнет. В последнем — алгоритм получит распространение и сможет дойти до обычного потребителя, который будет использовать его без помощи техперсонала, т. е. произойдет так называемая «демократизация» инновации.

По мнению отдельных экспертов, распространение алгоритма после его «демократизации» может привести к серьезным изменениям на рынке труда и даже к исчезновению отдельных специальностей, в том числе в сфере ИТ, уже в ближайшее время.

GPT-3 может генерировать любой вид текстовой информации. Так разработчик Шариф Шамим (Sharif Shameem) показал, как алгоритм может работать с HTML-разметкой, создает верстку по текстовым запросам и писать код. В последнем задании нейросеть сделала незначительные ошибки, которые, впрочем, было легко исправить.

Еще один разработчик Джордан Сингер (Jordan Singer) при помощи GPT-3 сделал плагин для Figma.

Не все согласны с идеей, что нейросети смогут заменить специалистов уже в недалеком будущем. Часть ученых и журналистов назвали способности нейросетевых текстовых алгоритмов переоцененными: возможность генерировать текст не равна его осмыслению и пониманию. И даже высмеяли GPT-3, сравнив создание текста программой с попыткой наладить диалог двух «умных» колонок. В обоих случаях — и с устной речью, и с письменной — что-то всегда идет не так.

Пожалуй, самой взвешенной оказалась позиция сооснователя OpenAI Сэма Олтмэна (Sam Altman). Он заявил, что GPT-3 уникальный продукт и заслуживает похвалы, однако сегодня вокруг него слишком много шума. Алгоритм, по его словам, все еще имеет серьезные недостатки и иногда допускает очень глупые ошибки. «Искусственный интеллект изменит мир, — написал в своем Twitter Олтмэн, — но GPT-3 — это лишь ранний проблеск. Нам еще предстоит многое выяснить».

Читать на dev.by