OpenAI представила модель o3 — она первой в мире обошла людей в тесте на общий ИИ
OpenAI анонсировала новое поколение моделей со способностью рассуждать — o3 и o3-mini — в рамках последнего дня своего марафона релизов. Разработчики решили пропустить версию «o2» в названии, чтобы избежать конфликтов с британским провайдером O2.
Новая модель обучена перепроверять свою цепочку рассуждений, прежде чем выдать ответ. Под рассуждениями подразумевается, что модель дробит пользовательский запрос на ряд задач поменьше, что обеспечивает более высокое качество ответа.
OpenAI утверждает, что o3 показала рекордный результат на визуальном бенчмарке ARC-AGI, который предназначен для оценки способности ИИ решать незнакомые задачи и его сравнения с человеческим интеллектом. o3 достигла 87,5% — против 85%, которые максимально демонстрируют на этом бенчмарке люди.
На программистском бенчмарке SWE-Bench Verified новинка на 22,8 п. п. обогнала свою предшественницу o1. Также o3 набрала 96,7% в математическом тесте AIME 2024, не справившись лишь с одной задачей. В тесте GPQA Diamond, содержащем задачи по биологии, физике и химии уровня PhD, модель набрала 87,7%. Более того, она решила 25,2% заданий бенчмарка Frontier Math, в то время как другие модели не превышают 2%.
Модель o3-mini получила настройку скорости работы — низкая, средняя и высокая. Чем больше времени ей дать на подумать, тем лучше будет результат.
Доступ к новым моделям для обычных пользователей пока закрыт. Сейчас они проходят тестирование на безопасность — компания принимает заявки от исследователей. Релиз o3-mini намечен на конец января, вскоре после неё должна выйти полноценная o3.
Если штука, имитирующая ум, становится неотличима от человека, то скоро вы ей будете объяснять, что она китайская комната
У OpenAI интересный договор с Microsoft. Как только они достигнут AGI, последний теряет доступ к новым моделям. Интересно, что они будут делать. Перепишут договор или OpenAI пойдет свою корпорацию строить
Ну, вот пока одни говорят, что трансформеры исчерпали себя, OpenAI релизит сразу несколько итераций своей "думающей" модели за год. Да, может, там не настоящий интеллект, а галлюцинирующая матрица, но многие текущие бенчмарки он побил. В смысле, побил человека в них. Пару месяцев назад были новости про какой-то супер-сложный математический бенчмарк, в котором все ведущие модели набирают не больше 2%. Ну, вот уже набирают 14%. Не успеваем тесты делать
А что есть решения эффективнее трансформеров, про это давно известно. Вот, может, Гугл как раз что-то такое и реализовал, раз под конец года обошел OpenAI во всех областях сразу
По мнению Лекуна, БЯМ не способны к логическому мышлению, не понимают физический мир
Ну, вот Илья Сатсковер считает, что таки понимают они мир. Чтобы решать задачу продолжения текста новым текстом, нужно понимать мир. Это может быть какое-то другое понимание, не как у человека, но какая разница. Мне кажется, это ученые одной категории, так что можно выбирать мнение любой из сторон
Один фиг можно будет заменить множество профессий роботами. Например, вышибала в ночном клубе, официант, продавец на кассе, таксист, солдат, врач для бедных, строитель.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
ИИ как китайская комната https://vc.ru/u/918110-alex-sherman/677521-eksperiment-kitaiskaya-komnata-ili-pochemu-iskusstvennyi-intellekt-na-samom-dele-nichego-ne-ponimaet Оно ничего не понимает, но как тот мужик в китайской комнате выдает "осмысленные" ответы следуя инструкциями, но по прежнему ничего в китайском не понимая. Китайская грамота.
Если штука, имитирующая ум, становится неотличима от человека, то скоро вы ей будете объяснять, что она китайская комната
У OpenAI интересный договор с Microsoft. Как только они достигнут AGI, последний теряет доступ к новым моделям. Интересно, что они будут делать. Перепишут договор или OpenAI пойдет свою корпорацию строить
Методически ИИ не смог подняться выше исходной идеи персептрона aka искусственные нейронные сети Фрэнка Розенблатта показанной в 1957- 1960
https://habr.com/ru/companies/sberdevices/articles/529932/
https://hightech.plus/2024/05/24/yan-lekun-prizval-razrabotchikov-ne-tratit-vremya-na-byam "По мнению Лекуна, БЯМ не способны к логическому мышлению, не понимают физический мир и не достигнут человеческого интеллекта."
https://vc.ru/ai/1153508-novyi-ubiica-neirosetei-set-kolmogorova-arnolda-kans (куда уехал цирк)
Ну, вот пока одни говорят, что трансформеры исчерпали себя, OpenAI релизит сразу несколько итераций своей "думающей" модели за год. Да, может, там не настоящий интеллект, а галлюцинирующая матрица, но многие текущие бенчмарки он побил. В смысле, побил человека в них. Пару месяцев назад были новости про какой-то супер-сложный математический бенчмарк, в котором все ведущие модели набирают не больше 2%. Ну, вот уже набирают 14%. Не успеваем тесты делать
А что есть решения эффективнее трансформеров, про это давно известно. Вот, может, Гугл как раз что-то такое и реализовал, раз под конец года обошел OpenAI во всех областях сразу
Ну, вот Илья Сатсковер считает, что таки понимают они мир. Чтобы решать задачу продолжения текста новым текстом, нужно понимать мир. Это может быть какое-то другое понимание, не как у человека, но какая разница. Мне кажется, это ученые одной категории, так что можно выбирать мнение любой из сторон
Один фиг можно будет заменить множество профессий роботами. Например, вышибала в ночном клубе, официант, продавец на кассе, таксист, солдат, врач для бедных, строитель.
Если слишком перестараться с "заменами профессий", можно увидеть под окнами толпу тех, кто хочет заменить тебя.