Apple незаметно для всех выложила мультимодальную ИИ-модель
Специалисты Apple и Корнелльского университета опубликовали исходный код мультимодальной большой языковой модели под названием Ferret, сообщает VentureBeat. Релиз состоялся ещё 30 октября, но остался незамеченным.
Модель способна работать по отдельным регионам изображений, которые могут быть любой формы, например выделенными «от руки». Она может распознавать и обводить в прямоугольник объекты на них, а также использовать их и окружающий контекст для ответа на пользовательские запросы.
Например, можно выделить животного на рисунке и спросить, что это, а модель назовёт вид. Или можно обвести еду на картинке и спросить, как её приготовить.
🚀🚀Introducing Ferret, a new MLLM that can refer and ground anything anywhere at any granularity. 📰https://t.co/gED9Vu0I4y 1⃣ Ferret enables referring of an image region at any shape 2⃣ It often shows better precise understanding of small image regions than GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc
Apple нечасто делится домашними наработками с внешним миром, и тем важнее вклад этого релиза в открытые ИИ-исследования. Параллельно компания расширяет инфраструктуру ИИ-серверов для обеспечения работы таких моделей.
Ferret обучена на 8 GPU A100 от Nvidia с 80 Гб памяти. Код доступен на GitHub для некоммерческого использования. Возможно, она найдёт применение в будущих продуктах Apple.
Apple показала iPhone 14 и сразу несколько Apple Watch. Главное
7 сентября прошла осенняя презентация Apple, на которой компания представила новую линейку iPhone, несколько Apple Watch и беспроводные наушники. Рассказываем о новинках презентации.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.