Новая языковая модель DeepMind оказалась в 25 раз быстрее конкурентов
Компания выпустила свою языковую модель, которую называет самой эффективной, быстрой и прозрачной на рынке.
Компания выпустила свою языковую модель, которую называет самой эффективной, быстрой и прозрачной на рынке.
Ключевой особенностью модели является то, что она использует внешнюю память в форме обширной базе данных, которая содержит отрывки самых разных текстов. Авторы назвали модель RETRO (от Retrieval-Enhanced Transformer). По производительности модель не уступает нейросетям в 25 раз больше размера.
Языковые модели пишут тексты, предсказывая слово в предложении или фразе. Ранее ведущие ИИ-лаборатории Google, Facebook, Microsoft выпустили свои языковые модели после появления модели GPT-3 OpenAI. У GPT-3 свыше 175 миллиардов параметров, у модели Megatron (Microsoft) — 530 миллиардов.
Разработчики RETRO пошли по пути сокращения расходов на обучение языковой модели. У RETRO всего 7 миллиардов параметров, однако есть база на 2 триллиона фраз и предложений. Внешняя память позволяет добиться лучшего результата с меньшими затратами. Также RETRO способна справиться с проблемой предвзятости, дезинформации и «риторики ненависти».
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.