Meta выпустила Llama 3 — лучшую среди открытых моделей
Meta обновила фирменную большую языковую модель: разработчики называют Llama 3 самой способной на сегодняшний день среди моделей с открытым исходным кодом. Пока представлено две версии — Llama 3 8B и Llama 3 70B с 8 млрд и 70 млрд параметров соответственно, но в дальнейшем семейство пополнится ещё более мощными экземплярами.
По словам компании, модели Llama 3 значительно превосходят по производительности модели предыдущего поколения и являются одними из мощнейших среди доступных сегодня генеративных моделей. В подтверждение Meta приводит результаты Llama 3 на популярных ИИ-бенчмарках.
Llama 3 8B превосходит свои аналоги, например Mistral 7B от Mistral и Gemma 7B от Google по крайней мере в девяти тестах: MMLU (на знания), ARC (способность к обучению), DROP (анализ фрагментов текста), GPQA (вопросы по биологии, физике и химии), HumanEval (тест на генерацию кода), GSM-8K и MATH (математические задачи), AGIEval (набор тестов на решение задач) и BIG-Bench Hard (оценка рассуждений на основе здравого смысла).
Модель Llama 3 70B разработчики ставят в один ряд с другими флагманскими генеративными моделями, такими как Gemini 1.5 Pro от Google — самой продвинутой в линейке. Llama 3 70B оказалась лучше Gemini 1.5 Pro в тестах MMLU, HumanEval и GSM-8K, хотя и уступила передовой модели Claude 3 Opus от Anthropic.
Meta утверждает, что новые модели более «управляемы», реже отказываются отвечать на вопросы и в целом выдают более точную информацию, в том числе в некоторых научных областях. Это связано с тем, что для её обучения использовалось огромное количество данных: 15 трлн токенов и 750 млрд слов, что в 7 раз больше, чем в случае Llama 2. Компания уверяет, что данные были взяты из общедоступных источников. Также датасет Llama 3 содержал в 4 раза больше кода, а 5% набора составляли данные на 30 неанглийских языках. Кроме того, использовались синтетические данные, полученные от других ИИ-моделей.
Для борьбы с неправомерным использованием ИИ в новое поколение моделей Llama встроено несколько протоколов безопасности, таких как Llama Guard и CybersecEval. Meta также выпустила специальный инструмент Code Shield для анализа безопасности кода открытых генеративных моделей, позволяющий обнаружить уязвимости.
Сейчас Meta обучает модель Llama 3 с 400 млрд параметров. Она сможет разговаривать на разных языках и принимать больше данных на вход, а также работать с изображениями.
Читать на dev.by