Nvidia представила ИИ-систему перевода текста в изображение
Компания представила новую систему на базе технологий ИИ GauGAN2, которая позволяет создавать правдоподобные изображения по текстовому запросу.
GauGAN2 применяет сегментированное картирование, ретушь и преобразование текста в изображение. По сравнению с другими существующими моделями лежащая в основе GauGAN2 нейросеть производит более разнообразные и качественные изображения. Для этого пользователи могут ввести короткую фразу и сгенерировать его ключевые особенности и сюжет.
«Эту стартовую заготовку потом можно дорисовать, сделав ту или иную гору выше и добавив деревья на заднем плане или облака в небе», — сообщила участница команды Nvidia Иша Салиан.
GauGAN2 — это улучшенная версия системы GauGAN, созданной в 2019 году. Ее обучили на более миллиона открытых изображений с платформы Flickr. Новая версия понимает взаимосвязи между объектами, такими как снег, деревья, вода, цветы, кусты, холмы и горы, нейросеть «осознает», какие типы осадков характерны для каждого времени года.
В основе работы системы лежит генеративно-состязательная сеть, состоящая из генератора и дискриминатора. Генератор берет образцы изображений с сопроводительным текстом и предлагает, какие слова соответствуют элементам изображения. Дискриминатор оценивает, соответствует ли это предположение истине.
В версии GauGAN2 использовано уже 10 миллионов изображений для обучения. Если ввести текст «закат на пляже», то сеть сгенерирует соответсвующее изображение; если расширить фразу до «закат на каменистом пляже» или заменить «закат» на «дождливый день», нейросеть поймет значения и внесет соответствующие изменения.
Читать на dev.by