Google представила Imagen — нейросеть, которая создает безумные изображения по текстовому описанию
Компания представила нейросеть Imagen, которая генерирует изображения на основе текста.
Для создания изображений используется метод диффузии: все начинается со схематичного изображения, которое потом улучшается, пока искусственный интеллект не решит, что не может сделать его еще более похожим на заданные параметры. Imagen начинает с создания небольшого (64×64 пикселя) изображения. Затем выполняет два прохода «сверхвысокого разрешения», чтобы довести картинку до размера 1024×1024.
Суперразрешение ИИ создает новые детали на картинке, чтобы сделать е более похожей на «техническое задание», которое прописано в текстовом запросе. Например, при запросе «собака на велосипеде» глава собаки сначала будут иметь ширину 3 пикселя, потом — 12, и в третьей версии — уже 48 пикселей.
Разработчики пояснили, что созданная нейросеть генерирует изображения по описанию с «беспрецедентным фотореализмом». Они сравнивают Imagen с DALL-E 2 — аналогичным ИИ, создающим изображения на основе текста, от OpenAI. Компания заявила, что Imagen опережает DALL-E 2 в тестах на человеческую оценку как по точности, так и по достоверности. Во время эксперимента люди чаще отдавали предпочтения изображениям, сгенерированным нейросетью Google.
Пока Imagen работает в режиме закрытой бета-версии. Для того чтобы избежать потенциальных рисков, связанных с этикой, разработчики не стали публиковать код и проводить публичную демонстрацию сервиса. На сайте доступна демо-версия, в которой пользователи не могут вводить запросы, но способны лишь выбирать слова из предложенных.
Читать на dev.by