OpenAI пригрозила банить пользователей за попытку выяснить, как работает её новая модель
OpenAI не хочет, чтобы пользователи знали, что именно происходит под капотом её новой модели Strawberry (она же o1-preview), способной рассуждать. За вопросы о её мыслительном процессе разработчики грозят юзерам блокировкой, пишет Ars Technica.
В сети появились скриншоты емейлов, которые пользователи получают от стартапа. В них говорится, что подобные их запросы к ChatGPT были расценены как «попытка обойти меры предосторожности». «Дальнейшие нарушения этой политики могут привести к потере доступа к GPT-4o со способностью к рассуждению», — предупреждают в письме.
Некоторые пользователи сделали вывод, что проблема возникла из-за фразы «reasoning trace» в запросе. Другие говорят, что гнев OpenAI вызвало одно слово «reasoning». В целом пользователям доступно резюме мыслительного процесса o1, сделанное ещё одной моделью и несколько упрощённое.
Запрет довольно ироничен с учетом того, что особое внимание к новинке привлекла как раз её способность выстраивать цепочки рассуждений, которая позволяет ИИ объяснить, как именно он пришёл к ответу, по шагам.
OpenAI необходимость прятать мыслительный процесс объясняет тем, что так ей не нужно накладывать дополнительные фильтры на то, как думает ИИ, чтобы он не выдал что-то противоречащее политике безопасности. А также тем, что это даёт ей конкурентное преимущество.
Не все разработчики такие скрытные, как противоречащая своему названию OpenAI. Например, разработчики Anthropic опубликовали системные промпты — подсказки, которые получает модель перед началом работы с пользователем, — для Claude 3.5.
Мне тоже такой пришел. Они не объясняют, что именно не так. Попытки писать в саппорт тоже ничего не дают - оттуда никогда не отвечают. В моих промптах есть тэг "thinking" - возможно, это конфликтует со внутренними промптами в chain-of-thoughts, потому что там он тоже есть. И это автоматически детектится как попытка джейлбрейка. Но да, неприятно.
Пользователь отредактировал комментарий 19 сентября 2024, 17:04
Плохо она думает. Теряет нить беседы через два сообщения, не может использовать то что знает и застревает в цикле в попытках справиться со своими ошибками. Когда закончился новый я особой разницы, кроме времени ответа, не заметил.
Zhan Chubukou
B2B Contractor (AI Solution Manager) в Worldwide Market
20 сентября 2024, 23:14
1
Я, если честно, не заметил никакого улучшения в результатах. Вижу, что показывают какую-то имитацию внутреннего диалога между агентами, ну дак всю эту песню мы уже давно прошли с того момента как langchain добрые люди сделали. Никакого революционного прорыва нет, лично у меня проще стало только в том, что я не прошу GPT создать сущности и выводить их внутренние беседы. Да и то, когда читаешь этот взаимный бред галлюцинирующих, нужно инструкций добавлять. Времени на о1 трачу столько же сколько на 4о. Профита няма. Может, это и "прорыв", но я его не заметил.
Пользователь отредактировал комментарий 20 сентября 2024, 23:14
Там не просто агенты друг с другом разговаривают. Они новую модель натренировали под этот chain-of-thoughts. Плюс сделали модель поменьше без RLHF, которая генерит мысли. Ну, и это все близко к железу, и не нужно историю туда-сюда пересылать на каждый чих. Глобально ничего нового, это больше инкрементальный апдейт, но с помощью langchain такого не сделать.
Я вот разницу заметил. Последние 2 недели ломал голову над хитрым дедлоком - никто (ни люди, ни ИИ) не мог понять, почему он возникает. Схема есть, код есть - воспроизвести не получается, проблема возникала только под большой нагрузкой. А O1 справился, навел на сценарий и помог воспроизвести в тесте.
На следующей неделе должна выйти O1-large. Но там, наверное, совсем суровые лимиты будут.
Zhan Chubukou
B2B Contractor (AI Solution Manager) в Worldwide Market
21 сентября 2024, 17:22
0
Просто я раньше экспериментировал с промптами, где просил создать некий оптимальный набор взаимодействующих сущностей и одну сущность, которая бы подводила итоги их взаимодействия. Или просил их голосовать после беспристрастного анализа аргументов участников дискуссии. В зависимости от задачи. То, что генерит о1 сейчас - это примерно тот же процесс, когда разворачиваю "внутренний диалог". Как будто очень похожий промпт, только модифицированный и оптимизированный, приклеивают к каждому сообщению.
Пользователь отредактировал комментарий 21 сентября 2024, 17:22
Ну, да - это стандартное поведение агента, ничего особо нового. Просто хорошо оптимизированное. Я тоже год назад что-то похожее делал. Тул для исследований: даешь тему, список вопросов, а он идет в интернет и ищет, ответы в Эксель складывает. Была даже идея парсить страницы через Vision API. Делать скриншоты через puppeteer, им же подсвечивать ссылки, чтобы агент мог просить их нажать и ходить по страницам. Но оно не очень хорошо работало. И медленно: занимало много часов, быстро упиралось в rate-limit. Потом в LLaMA появилась поддержка функций, вторая проблема решилась. А тут O1 что-то похожее делает за секунды на state-of-the-art моделях, специально под это дело тренированных. Ну, и всякие тесты показывают, что O1 все-таки лучше, чем 4o. Хотя обходиться OpenAI раз в 10 дороже.
Zhan Chubukou
B2B Contractor (AI Solution Manager) в Worldwide Market
21 сентября 2024, 22:05
1
Не, я так глубоко не заморачивался. Да и задач таких не было. Твой опыт релевантнее, я скорее just-for-fun развлекался. На рутинные задачи и 4o хватало. Спасибо, что пошарил опыт. Сейчас как раз мне очень полезно: ликвидирую пробелы в знаниях, деграднул немного на текущей позиции. Надо дальше двигаться.
Пользователь отредактировал комментарий 21 сентября 2024, 22:05
Вот сейчас еще один пример нашел. У меня react компонент на 300 строк коду, там есть кнопка сгенерить превью отчета, потом друга - создать отчет из превью. Я аттачу этот код файлом и прошу сделать так, чтобы после генерации превью можно было создать отчет, а можно было сгенерить новое превью.
GPT-4o выдал мне нерабочую версию. Не смертельно, за пару итерацией можно поправить. Но Клод с таким обычно справляется с первой попытки. Claude 3.5 Sonnet сделал все, как я попросил, правда, ответ дал не новым файлом целиком, а кусками с инструкцией, куда эти куски вставить. O1 сделал то же, что и Клод, но добавил еще Loader, пока ответ с сервера идет. Мелочь, но хорошая. И в ответе был весь компонент целиком - копируешь, вставляешь, все работает. Раньше Claude 3.5 Sonnet был для меня абсолютным лидером для кодописания. Сейчас использую O1, пока в квоту не упрусь. Жду, когда оно из preview выйдет - должно еще лучше стать.
Я вижу, что все больше и больше компаний открывают вакансии на gen-AI инженеров. Собеседовался на одну такую ради интереса. Там стартап собирал команду, чтобы внедрять AI в свои продукты. И вполне себе с пониманием, зачем им это. Автоматизация саппорта, RAG-поиск в разных плохо структурированных документах, fine-tunning, чтобы модели ценности компании разделяли, автоматизация всяких валидаций и много чего еще. Хотели и платные модели использовать, и опенсорсные пробовать. Интересно, в общем. И не обязательно ML с data science знать, хотя это большой плюс. Как, впрочем, и умение программировать. Отказали, правда. Опыта мало, лол. Такой роли еще полгода назад не существовало, но уже нужны люди с опытом.
Пользователь отредактировал комментарий 21 сентября 2024, 22:37
Zhan Chubukou
B2B Contractor (AI Solution Manager) в Worldwide Market
22 сентября 2024, 11:41
1
@Alex V
Тема про опыт очень повеселила. Хотят Senior Gen-AI Engineer 5+ лет опыта? Дак им надо разработчиков bert и GPT-2 нанимать :) В их стартапе у таких людей точно перспектив больше будет, чем в Google или OpenAI.
Релоцировались? Теперь вы можете комментировать без верификации аккаунта.
Кажется, кто-то не может справиться со своим творением :) Ждем новость, когда gpt захватит компы OpenAI и начнет вымогать деньги :)
А по сути, конечно, идиотское требование. Собирать данные втихаря им можно, а задавать неудобные вопросу чату нельзя :)
Мне тоже такой пришел. Они не объясняют, что именно не так. Попытки писать в саппорт тоже ничего не дают - оттуда никогда не отвечают. В моих промптах есть тэг "thinking" - возможно, это конфликтует со внутренними промптами в chain-of-thoughts, потому что там он тоже есть. И это автоматически детектится как попытка джейлбрейка. Но да, неприятно.
Пользователь отредактировал комментарий 19 сентября 2024, 17:04
Плохо она думает. Теряет нить беседы через два сообщения, не может использовать то что знает и застревает в цикле в попытках справиться со своими ошибками. Когда закончился новый я особой разницы, кроме времени ответа, не заметил.
Я, если честно, не заметил никакого улучшения в результатах. Вижу, что показывают какую-то имитацию внутреннего диалога между агентами, ну дак всю эту песню мы уже давно прошли с того момента как langchain добрые люди сделали. Никакого революционного прорыва нет, лично у меня проще стало только в том, что я не прошу GPT создать сущности и выводить их внутренние беседы. Да и то, когда читаешь этот взаимный бред галлюцинирующих, нужно инструкций добавлять. Времени на о1 трачу столько же сколько на 4о. Профита няма. Может, это и "прорыв", но я его не заметил.
Пользователь отредактировал комментарий 20 сентября 2024, 23:14
Там не просто агенты друг с другом разговаривают. Они новую модель натренировали под этот chain-of-thoughts. Плюс сделали модель поменьше без RLHF, которая генерит мысли. Ну, и это все близко к железу, и не нужно историю туда-сюда пересылать на каждый чих. Глобально ничего нового, это больше инкрементальный апдейт, но с помощью langchain такого не сделать.
Я вот разницу заметил. Последние 2 недели ломал голову над хитрым дедлоком - никто (ни люди, ни ИИ) не мог понять, почему он возникает. Схема есть, код есть - воспроизвести не получается, проблема возникала только под большой нагрузкой. А O1 справился, навел на сценарий и помог воспроизвести в тесте.
На следующей неделе должна выйти O1-large. Но там, наверное, совсем суровые лимиты будут.
Просто я раньше экспериментировал с промптами, где просил создать некий оптимальный набор взаимодействующих сущностей и одну сущность, которая бы подводила итоги их взаимодействия. Или просил их голосовать после беспристрастного анализа аргументов участников дискуссии. В зависимости от задачи. То, что генерит о1 сейчас - это примерно тот же процесс, когда разворачиваю "внутренний диалог". Как будто очень похожий промпт, только модифицированный и оптимизированный, приклеивают к каждому сообщению.
Пользователь отредактировал комментарий 21 сентября 2024, 17:22
Ну, да - это стандартное поведение агента, ничего особо нового. Просто хорошо оптимизированное. Я тоже год назад что-то похожее делал. Тул для исследований: даешь тему, список вопросов, а он идет в интернет и ищет, ответы в Эксель складывает. Была даже идея парсить страницы через Vision API. Делать скриншоты через puppeteer, им же подсвечивать ссылки, чтобы агент мог просить их нажать и ходить по страницам. Но оно не очень хорошо работало. И медленно: занимало много часов, быстро упиралось в rate-limit. Потом в LLaMA появилась поддержка функций, вторая проблема решилась. А тут O1 что-то похожее делает за секунды на state-of-the-art моделях, специально под это дело тренированных. Ну, и всякие тесты показывают, что O1 все-таки лучше, чем 4o. Хотя обходиться OpenAI раз в 10 дороже.
Не, я так глубоко не заморачивался. Да и задач таких не было. Твой опыт релевантнее, я скорее just-for-fun развлекался. На рутинные задачи и 4o хватало. Спасибо, что пошарил опыт. Сейчас как раз мне очень полезно: ликвидирую пробелы в знаниях, деграднул немного на текущей позиции. Надо дальше двигаться.
Пользователь отредактировал комментарий 21 сентября 2024, 22:05
Вот сейчас еще один пример нашел. У меня react компонент на 300 строк коду, там есть кнопка сгенерить превью отчета, потом друга - создать отчет из превью. Я аттачу этот код файлом и прошу сделать так, чтобы после генерации превью можно было создать отчет, а можно было сгенерить новое превью.
GPT-4o выдал мне нерабочую версию. Не смертельно, за пару итерацией можно поправить. Но Клод с таким обычно справляется с первой попытки. Claude 3.5 Sonnet сделал все, как я попросил, правда, ответ дал не новым файлом целиком, а кусками с инструкцией, куда эти куски вставить. O1 сделал то же, что и Клод, но добавил еще Loader, пока ответ с сервера идет. Мелочь, но хорошая. И в ответе был весь компонент целиком - копируешь, вставляешь, все работает. Раньше Claude 3.5 Sonnet был для меня абсолютным лидером для кодописания. Сейчас использую O1, пока в квоту не упрусь. Жду, когда оно из preview выйдет - должно еще лучше стать.
Я вижу, что все больше и больше компаний открывают вакансии на gen-AI инженеров. Собеседовался на одну такую ради интереса. Там стартап собирал команду, чтобы внедрять AI в свои продукты. И вполне себе с пониманием, зачем им это. Автоматизация саппорта, RAG-поиск в разных плохо структурированных документах, fine-tunning, чтобы модели ценности компании разделяли, автоматизация всяких валидаций и много чего еще. Хотели и платные модели использовать, и опенсорсные пробовать. Интересно, в общем. И не обязательно ML с data science знать, хотя это большой плюс. Как, впрочем, и умение программировать. Отказали, правда. Опыта мало, лол. Такой роли еще полгода назад не существовало, но уже нужны люди с опытом.
Пользователь отредактировал комментарий 21 сентября 2024, 22:37
@Alex V
Тема про опыт очень повеселила. Хотят Senior Gen-AI Engineer 5+ лет опыта? Дак им надо разработчиков bert и GPT-2 нанимать :) В их стартапе у таких людей точно перспектив больше будет, чем в Google или OpenAI.