OpenAI запустила свой ответ DeepSeek — «рассуждающая» модель впервые стала доступна без подписки

OpenAI представила o3-mini — новейшую в семействе «рассуждающих» ИИ-моделей o. Релиз состоялся вскоре после обещаний гендиректора компании Сэма Альтмана мощно ответить нашумевшему китайскому стартапу DeepSeek.

Оставить комментарий

Новая модель уже доступна всем пользователям ChatGPT бесплатно. У обладателей подписки Plus и Team будет выше дневной лимит запросов — 150 штук. Для подписчиков Pro доступ неограничен. Выбрать новинку платные пользователи могут в выпадающем меню ChatGPT. Бесплатным нужно нажать на кнопку «Обоснуй» в диалоговом окне или на кнопку смены модели в уже выданном ответе.

Также o3-mini доступна некоторым разработчикам через API, но изначально без поддержки изображений. Разработчики могут выбрать один из трёх уровней производительности модели (low, medium, high) в зависимости от своих потребностей и предпочитаемой задержкой.

o3-mini заточена под STEM-задачи по программированию, математике и другим наукам. По словам OpenAI, o3-mini в целом не уступает своим предшественницам o1 и o1-mini в плане способностей, но она быстрее и дешевле.

Компания утверждает, что в ходе испытаний сторонние пользователи отдавали предпочтение ответам o3-mini над ответами o1-mini более чем в половине случаев. Также o3-mini на 39% реже грубо ошибается в сложных вопросах о реальном мире в A/B-тестах, а также даёт более чёткие ответы и работает на 24% быстрее, чем o1-mini.

«Мыслительные» способности o3-mini в ChatGPT по умолчанию настроены на средний уровень, дающий баланс между качеством и скоростью работы. Платные юзеры могут выбрать вариант o3-mini-high — он более «умный», но думает дольше.

Цена o3-mini — 55 центов за 1 млн входных токенов и $4,4 за 1 млн выходных токенов (1 млн токенов примерно составляет 750 тысяч слов). Это на 63% меньше по сравнению с o1-mini и ближе к расценкам DeepSeek. Китайский стартап берёт 14 центов и $2,19 соответственно за доступ к модели R1 через API.

Что касается сравнения возможностей, в тестах AIME 2024 на понимание инструкций o3-mini лучше R1 — вернее, только версия «high». Также она лучше R1 в задачах на программирование SWE-bench Verified, но лишь на 0,1 пункта и лишь на «максималках». Версия «low» с мыслительными способностями ниже среднего проигрывает R1 в задачах уровня PhD по физике, биологии и химии из бенчмарка GPQA Diamond.

Какая ирония: OpenAI нашла свидетельства, что DeepSeek обучал свой ИИ на её моделях
По теме
Какая ирония: OpenAI нашла свидетельства, что DeepSeek обучал свой ИИ на её моделях
OpenAI запустила ИИ-агента, который может купить продукты и забронировать билеты вместо пользователя
По теме
OpenAI запустила ИИ-агента, который может купить продукты и забронировать билеты вместо пользователя
Американские техногиганты потеряли больше $1 триллиона капитализации за день, но начали восстанавливаться
По теме
Американские техногиганты потеряли больше $1 триллиона капитализации за день, но начали восстанавливаться

Читать на dev.by