Техногиганты делают ставку на малые ИИ-модели из-за дороговизны больших
ИИ-компании тратят миллиарды долларов на создание больших языковых моделей, но теперь отдают предпочтение их малым «собратьям»: за последнее время Apple, Microsoft, Meta и Google выпустили модели с меньшим числом параметров, но при этом довольно мощных, пишет Financial Times.
Чем больше параметров у модели, тем лучше её производительность и тем более сложные задачи она может выполнять. У новейших GPT-4o от OpenAI и Gemini 1.5 Pro от Google более 1 трлн параметров, а Meta тренирует версию опенсорсной модели Llama на 400 млрд параметров.
Малые модели дешевле и требуют меньше вычислительных мощностей, поэтому их и продукты на базе генеративного ИИ, в основе которых они лежат, проще продать корпоративным клиентам.
В результате разработчики стали продвигать модели, у которых всего несколько миллиардов параметров, как более доступные, энергоэффективные и кастомизируемые альтернативы, требующие меньше ресурсов для обучения и работы и гарантирующие защиту чувствительных данных.
Google, Meta, Microsoft и французский стартап Mistral выпустили малые языковые модели с продвинутыми возможностями, которые могут быть заточены под конкретные задачи. Именно такие модели выгоднее иметь клиентам, и это будет способствовать более широкому внедрению ИИ. К тому же вычисления в случае малых моделей могут выполняться локально на устройстве без необходимости отправлять данные в облако и без опасений в утечках.
Meta заявляет, что новая версия Llama 3 на 8 млрд параметров сравнима по производительности с GPT-4. Microsoft утверждает, что её малая модель Phi-3 на 7 млрд параметров превосходит GPT-3.5. Gemini Nano от Google поддерживается на смартфонах, Apple тоже намекнула, что готовит модель, которая будет работать на айфонах.
OpenAI тоже предлагает модели поменьше, которые предназначены для некоторых более узких целей. Но остаётся сосредоточена именно на больших моделях, которые в конечном счёте должны достичь интеллектуального уровня человека.
Читать на dev.by