Google представила модель, которая «оживляет» людей на фотографиях
Google показала ИИ-модель VLOGGER, которая генерирует реалистичные видео говорящих людей по фото и аудио.
На вход модель принимает фотографии и аудиодорожки. На основе них она создаёт видео людей, которые произносят заданную речь с соответствующей мимикой, движениями головы и жестикуляцией.
Отличие VLOGGER от других подобных разработок в том, что она не требует отдельного обучения для каждого человека, не основана на распознавании и вырезании лиц, создаёт полное изображение человека, а не только лица или губ, а также учитывает контекстуальные детали (например, видимый торс или особенности внешности людей), которые важны для правильного воссоздания общающихся людей.
VentureBeat отмечает, что видео не идеальны и на них заметны артефакты, однако называет модель большим скачком в «оживлении» статичных изображений. Подобные инструменты имеют широкие возможности для практического применения, например в дубляже видеороликов или для заполнения недостающих фрагментов, но вместе с тем несут в себе риски, связанные с дипфейками и распространением дезинформации.
Подробнее о новой модели компания рассказала в научной работе.
Читать на dev.by