Компания Amazon анонсировала чип Inferentia, разработанный специально для развёртывания массивных ИИ-моделей на GPU, сообщает VentureBeat.
Чип выйдет в следующем году, и будет совместим с крупнейшими фреймворками вроде TensorFlow и PyTorch, а также сервисом Amazon EC2 (Amazon Elastic Compute Cloud) и платформой машинного обучения SageMaker.
По словам СЕО AWS Энди Джесси, один чип сможет обрабатывать сотни тера-операций в секунду (TOPS). При необходимости можно задействовать несколько чипов и увеличить мощность до тысяч TOPS.
Также чип будет работать с Elastic Inference — новым сервисом, который позволяет ускорить развёртывание ИИ на GPU, также представленным на конференции reInvent.
Elastic Inference поддерживает от 1 до 32 терафлопс данных. Inferentia определяет, когда фреймфорк используется с сущностью ЕС2, после чего решает, каким частям нейросети нужно ускорение. Таким образом повышается эффективность расхода вычислительных ресурсов.
Два главных процесса при развертывании моделей ИИ — обучение и получение логических выводов, причём на второй приходится 90 процентов затрат. Как считает Amazon, Elastic Inference позволяет сэкономить до 75 процентов стоимости использования GPU для глубокого обучения, а вместе с Inferentia расходы можно сократить ещё в несколько раз.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.