Агент-оператор OpenAI получает улучшение с новым AI-моделем

OpenAI обновила модель ИИ, управляющую Оператором, с предыдущей пользовательской версии GPT-4o на модель, основанную на o3, одной из последних моделей в серии "reasoning" от OpenAI. Оператор o3 был дообучен с использованием дополнительных данных безопасности для компьютерного использования и включал в себя наборы данных безопасности, разработанные для обучения модели границам решений.

OpenAI обновила Оператора в ChatGPT с новым Моделью Компьютер-Использующего Агента (CUA), основанной на версии OpenAI o3. С новой моделью Оператор стал более настойчивым и более точным при взаимодействии с браузером, что улучшило общий уровень успешности выполнения задач. Он также предоставляет лучше структурированные ответы, которые более ясны и полны.

Согласно OpenAI, новая модель CUA показала более высокую производительность по сравнению с отраслью, достигнув SOTA на OSWorld и WebArena. Она также продемонстрировала более высокую относительную производительность по сравнению с предыдущей версией как в установленных бенчмарках, так и в оценках предпочтений человека.

OpenAI заменяет модель на основе GPT‑4o на версию на основе o3

OpenAI намекает на большое обновление для ChatGPT Operator Agent pic.twitter.com/iGPQp9butD

— SabatAge (@sabatage) мая 22, 2025

OpenAI заменила существующую модель на основе GPT‑4o для Operator на версию на основе OpenAI o3, хотя версия API останется на основе 4o. AI-компания также заявила, что o3 Operator использует тот же многоуровневый подход к безопасности, который использовался для версии 4o.

Однако, по сравнению с другими моделями в семействе o3, оператор o3 был доработан с дополнительными данными безопасности для использования на компьютере, включая наборы данных безопасности, предназначенные для обучения модели границам решений по подтверждениям и отказам.

OpenAI выпустила технический отчет, в котором показана производительность оператора o3 в конкретных оценках безопасности. По сравнению с моделью оператора GPT-4o, оператор o3 реже отказывался выполнять "незаконные" действия и искать конфиденциальные персональные данные, а также был менее подвержен форме атаки ИИ, известной как "инъекция запросов".

"o3 Оператор использует такой же многоуровневый подход к безопасности, который мы применяли для версии 4o Оператора…Хотя o3 Оператор наследует возможности кодирования o3, у него нет нативного доступа к среде кодирования или Терминалу."

–OpenAI

Компания ИИ также раскрыла, что новая модель на основе o3 прошла стандартные оценки безопасности, и Оператор продолжал быть доступным как исследовательский предварительный просмотр для пользователей ChatGPT Pro по всему миру. Однако эта обновленная модель была доступна только в Операторе в ChatGPT.

Кноп подозревает, что запуск модели o3 от OpenAI может оказаться дороже, чем ожидалось

На прошлой неделе Фонд Arc Prize, который поддерживает и администрирует ARC-AGI, обновил свои приблизительные вычислительные затраты для o3. Организация изначально оценила, что наилучшающая конфигурация o3, которую она тестировала, o3 high, стоила около $3K для решения одной задачи ARC-AGI. Однако теперь Фонд считает, что затраты могут быть в 10 раз выше, чем ранее оценивалось, возможно, около $30K за задачу.

Кроме того, хотя OpenAI еще не установила цену на o3 и даже не выпустила его полностью, один из соучредителей фонда Arc Prize, Майк Кноп, считает, что цена модели o1-pro является разумным прокси и более близким сравнением истинной стоимости o3. Однако он добавил, что o3 продолжит обозначаться как предварительный просмотр на таблице лидеров, чтобы отразить неопределенность до объявления официальной цены.

По данным Arc Prize Foundation, о высокой цене o3 high не может быть и речи, учитывая количество вычислительных ресурсов, которые якобы использует модель. o3 high использовала в 172 раза больше вычислительных ресурсов, чем o3 low, самая низкая вычислительная конфигурация o3, для решения проблемы ARC-AGI.

С начала марта ходят слухи о дорогих планах, которые OpenAI рассматривает для корпоративных клиентов. Информация сообщила, что компания может взимать до 20 тыс. долларов в месяц за специализированные AI «агенты», такие как агенты для разработки программного обеспечения.

Однако, хотя некоторые утверждали, что даже самые дорогие модели OpenAI будут стоить значительно меньше, чем обычный подрядчик или сотрудник, исследователь ИИ Тоби Орд отметил, что модели могут быть не столь эффективными. Например, o3 high потребовалось 1,024 попытки на каждую задачу в ARC-AGI, чтобы достичь своего наилучшего результата.

КЛЮЧЕВАЯ Разница Wire: секретный инструмент, который используют криптопроекты для получения гарантированного медийного покрытия

AGENT-11.87%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить