Apple незаметно для всех выложила мультимодальную ИИ-модель
Модель способна работать по отдельным регионам изображений, которые могут быть любой формы, например выделенными «от руки». Она может распознавать и обводить в прямоугольник объекты на них, а также использовать их и окружающий контекст для ответа на пользовательские запросы.
Например, можно выделить животного на рисунке и спросить, что это, а модель назовёт вид. Или можно обвести еду на картинке и спросить, как её приготовить.
Apple нечасто делится домашними наработками с внешним миром, и тем важнее вклад этого релиза в открытые ИИ-исследования. Параллельно компания расширяет инфраструктуру ИИ-серверов для обеспечения работы таких моделей.
Ferret обучена на 8 GPU A100 от Nvidia с 80 Гб памяти. Код доступен на GitHub для некоммерческого использования. Возможно, она найдёт применение в будущих продуктах Apple.
Читать на dev.by