OpenAI的运营代理通过新的AI模型获得提升

OpenAI将驱动Operator的AI模型从之前的定制版GPT-4o更新为基于o3的模型,这是OpenAI最新的“推理”模型系列中的一员。o3 Operator经过额外的计算机使用安全数据的微调,并包含旨在教导模型决策边界的安全数据集。

OpenAI 在 ChatGPT 中升级了 Operator,推出了基于 OpenAI o3 版本的新计算机使用代理 (CUA) 模型。使用新模型后,Operator 在与浏览器交互时变得更加持久和准确,提高了整体任务成功率。它还提供了更结构化的响应,内容更清晰、全面。

根据OpenAI的说法,新的CUA模型在行业中表现更强,在OSWorld和WebArena上达到了SOTA。它相对于先前版本的表现也更强,无论是在既定基准测试还是人类偏好评估中。

OpenAI用基于o3的版本替代了基于GPT‑4o的模型

OpenAI 暗示 ChatGPT Operator Agent pic.twitter.com/iGPQp9butD 将进行重大升级

— SabatAge (@sabatage) 2025 年 5 月 22 日

OpenAI用基于OpenAI o3的版本替换了现有的基于GPT‑4o的Operator模型,尽管API版本将继续基于4o。该AI公司还声称,o3 Operator使用与4o版本相同的多层安全方法。

然而,与 o3 家族中的其他模型相比,o3 操作员经过了额外的安全数据微调,以用于计算机使用,包括旨在教导模型在确认和拒绝方面的决策边界的安全数据集。

OpenAI发布了一份技术报告,显示了o3操作员在特定安全评估中的表现。与GPT-4o操作员模型相比,o3操作员拒绝执行“非法”活动和搜索敏感个人数据的可能性较低,并且对一种称为“提示注入”的AI攻击形式的敏感性较低。

“o3 Operator采用与我们为4o版本的Operator使用的相同多层次安全方法……虽然o3 Operator继承了o3的编码能力,但它没有对编码环境或终端的本地访问。”

– 开放人工智能

该人工智能公司还披露,新推出的基于 o3 的模型经过了标准安全评估,并且 Operator 继续作为研究预览向全球的 ChatGPT Pro 用户开放。然而,该升级模型仅在 ChatGPT 的 Operator 中可用。

Knoop怀疑运行OpenAI的o3模型可能比预期的更昂贵

上周,维护和管理ARC-AGI的Arc Prize Foundation更新了o3的近似计算成本。该组织最初估计其测试的o3最佳配置o3 high解决单个ARC-AGI问题的成本约为$3K。然而,该基金会现在认为成本可能比之前估计的高出10倍,可能达到每个任务约$30K。

此外,虽然OpenAI尚未对o3定价或完全发布,但Arc Prize Foundation的共同创始人Mike Knoop认为o1-pro模型的定价是一个合理的代理,并且更接近o3的真实成本。然而,他补充说,在官方定价公布之前,o3将继续在排行榜上被标记为预览,以反映不确定性。

根据Arc Prize Foundation的说法,o3 high的高价格并非不可能,因为该模型 reportedly 使用的计算资源量。o3 high使用的计算资源是o3低配置(o3的最低计算配置)的172倍,以应对ARC-AGI。

自三月初以来,关于OpenAI考虑为企业客户推出高价计划的传闻四起。报道称,该公司可能会对专门的AI“代理”收取每月高达2万美元的费用,例如软件开发代理。

然而,尽管一些人认为即使是OpenAI最昂贵的模型成本也远低于典型人类承包商或员工的费用,人工智能研究人员托比·奥德指出,这些模型可能效率并不高。例如,o3 high在ARC-AGI的每个任务上需要1,024次尝试才能达到最佳分数。

关键差异线:加密项目获取保证媒体报道的秘密工具

AGENT2.38%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)