OpenAI запустила свой ответ DeepSeek — «рассуждающая» модель впервые стала доступна без подписки
OpenAI представила o3-mini — новейшую в семействе «рассуждающих» ИИ-моделей o. Релиз состоялся вскоре после обещаний гендиректора компании Сэма Альтмана мощно ответить нашумевшему китайскому стартапу DeepSeek.
OpenAI представила o3-mini — новейшую в семействе «рассуждающих» ИИ-моделей o. Релиз состоялся вскоре после обещаний гендиректора компании Сэма Альтмана мощно ответить нашумевшему китайскому стартапу DeepSeek.
Новая модель уже доступна всем пользователям ChatGPT бесплатно. У обладателей подписки Plus и Team будет выше дневной лимит запросов — 150 штук. Для подписчиков Pro доступ неограничен. Выбрать новинку платные пользователи могут в выпадающем меню ChatGPT. Бесплатным нужно нажать на кнопку «Обоснуй» в диалоговом окне или на кнопку смены модели в уже выданном ответе.
Также o3-mini доступна некоторым разработчикам через API, но изначально без поддержки изображений. Разработчики могут выбрать один из трёх уровней производительности модели (low, medium, high) в зависимости от своих потребностей и предпочитаемой задержкой.
o3-mini заточена под STEM-задачи по программированию, математике и другим наукам. По словам OpenAI, o3-mini в целом не уступает своим предшественницам o1 и o1-mini в плане способностей, но она быстрее и дешевле.
Компания утверждает, что в ходе испытаний сторонние пользователи отдавали предпочтение ответам o3-mini над ответами o1-mini более чем в половине случаев. Также o3-mini на 39% реже грубо ошибается в сложных вопросах о реальном мире в A/B-тестах, а также даёт более чёткие ответы и работает на 24% быстрее, чем o1-mini.
«Мыслительные» способности o3-mini в ChatGPT по умолчанию настроены на средний уровень, дающий баланс между качеством и скоростью работы. Платные юзеры могут выбрать вариант o3-mini-high — он более «умный», но думает дольше.
Цена o3-mini — 55 центов за 1 млн входных токенов и $4,4 за 1 млн выходных токенов (1 млн токенов примерно составляет 750 тысяч слов). Это на 63% меньше по сравнению с o1-mini и ближе к расценкам DeepSeek. Китайский стартап берёт 14 центов и $2,19 соответственно за доступ к модели R1 через API.
Что касается сравнения возможностей, в тестах AIME 2024 на понимание инструкций o3-mini лучше R1 — вернее, только версия «high». Также она лучше R1 в задачах на программирование SWE-bench Verified, но лишь на 0,1 пункта и лишь на «максималках». Версия «low» с мыслительными способностями ниже среднего проигрывает R1 в задачах уровня PhD по физике, биологии и химии из бенчмарка GPQA Diamond.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.