Agen Operator OpenAI mendapatkan dorongan dengan model AI baru

OpenAI memperbarui model AI yang mendukung Operator dari versi kustom sebelumnya GPT-4o ke model yang berdasarkan o3, salah satu yang terbaru dalam seri model "penalaran" o dari OpenAI. Operator o3 telah disesuaikan dengan data keamanan tambahan untuk penggunaan komputer dan termasuk dataset keamanan yang dirancang untuk mengajarkan batas keputusan kepada model.

OpenAI telah meningkatkan Operator di ChatGPT dengan model Computer-Using Agent (CUA) yang baru berdasarkan versi OpenAI o3. Dengan model baru ini, Operator menjadi lebih persisten dan lebih akurat saat berinteraksi dengan browser, meningkatkan tingkat keberhasilan tugas secara keseluruhan. Ini juga memberikan respons yang lebih terstruktur yang lebih jelas dan menyeluruh.

Menurut OpenAI, model CUA yang baru menunjukkan kinerja yang lebih kuat dibandingkan dengan industri, mencapai SOTA di OSWorld dan WebArena. Ini juga menunjukkan kinerja relatif yang lebih kuat dibandingkan dengan versi sebelumnya, baik dalam tolok ukur yang sudah ada maupun evaluasi preferensi manusia.

OpenAI menggantikan model berbasis GPT‑4o dengan versi yang berbasis o3

OpenAI memberikan petunjuk tentang peningkatan besar untuk ChatGPT Operator Agent pic.twitter.com/iGPQp9butD

— SabatAge (@sabatage) 22 Mei 2025

OpenAI menggantikan model berbasis GPT‑4o yang ada untuk Operator dengan versi yang berbasis OpenAI o3, meskipun versi API akan tetap berbasis 4o. Perusahaan AI tersebut juga mengklaim bahwa Operator o3 menggunakan pendekatan keamanan multi-lapisan yang sama seperti yang digunakan untuk versi 4o.

Namun, dibandingkan dengan model lain dalam keluarga o3, o3 Operator telah disesuaikan dengan data keselamatan tambahan untuk penggunaan komputer, termasuk dataset keselamatan yang dirancang untuk mengajarkan model batas keputusan pada konfirmasi dan penolakan.

OpenAI merilis laporan teknis yang menunjukkan kinerja Operator o3 pada evaluasi keselamatan tertentu. Dibandingkan dengan model Operator GPT-4o, Operator o3 kurang mungkin menolak untuk melakukan aktivitas "ilegal" dan mencari data pribadi sensitif serta kurang rentan terhadap bentuk serangan AI yang dikenal sebagai "injeksi prompt."

"o3 Operator menggunakan pendekatan multi-lapis yang sama untuk keamanan yang kami gunakan untuk versi 4o dari Operator... Meskipun o3 Operator mewarisi kemampuan pengkodean o3, ia tidak memiliki akses asli ke lingkungan pengkodean atau Terminal."

–OpenAI

Perusahaan AI juga mengungkapkan bahwa model baru berbasis o3 telah melalui evaluasi keselamatan standar, dan Operator tetap tersedia sebagai pratinjau penelitian untuk pengguna ChatGPT Pro di seluruh dunia. Namun, model yang ditingkatkan ini hanya tersedia di Operator dalam ChatGPT.

Knoop curiga menjalankan model o3 OpenAI mungkin lebih mahal dari yang diharapkan

Minggu lalu, Yayasan Arc Prize, yang mengelola dan mengadministrasikan ARC-AGI, memperbarui perkiraan biaya komputasi untuk o3. Organisasi tersebut awalnya memperkirakan bahwa konfigurasi o3 berkinerja terbaik yang diuji, o3 high, menghabiskan biaya sekitar $3K untuk menyelesaikan satu masalah ARC-AGI. Namun, Yayasan kini percaya bahwa biayanya bisa 10x lebih tinggi dari yang diperkirakan sebelumnya, mungkin sekitar $30K per tugas.

Selain itu, meskipun OpenAI belum menetapkan harga o3 atau merilisnya sepenuhnya, salah satu pendiri Arc Prize Foundation, Mike Knoop, percaya bahwa harga model o1-pro adalah proksi yang wajar dan perbandingan yang lebih dekat dengan biaya sebenarnya dari o3. Namun, dia menambahkan bahwa o3 akan terus diberi label sebagai pratayang di papan peringkat untuk mencerminkan ketidakpastian sampai harga resmi diumumkan.

Menurut Arc Prize Foundation, harga tinggi untuk o3 high tidaklah mustahil, mengingat jumlah sumber daya komputasi yang dilaporkan digunakan oleh model tersebut. o3 high menggunakan 172x lebih banyak komputasi dibandingkan o3 low, konfigurasi komputasi terendah dari o3, untuk menangani ARC-AGI.

Rumor telah beredar sejak awal Maret tentang rencana mahal yang dipertimbangkan OpenAI untuk pelanggan perusahaan. Informasi tersebut melaporkan bahwa perusahaan mungkin mengenakan biaya hingga $20K per bulan untuk "agen" AI khusus, seperti agen pengembang perangkat lunak.

Namun, sementara beberapa berpendapat bahwa bahkan model termahal OpenAI sekalipun akan jauh lebih murah dibandingkan dengan apa yang biasanya diminta oleh kontraktor atau staf manusia, peneliti AI Toby Ord menunjukkan bahwa model-model tersebut mungkin tidak seefisien itu. Misalnya, o3 high membutuhkan 1.024 percobaan pada setiap tugas di ARC-AGI untuk mencapai skor terbaiknya.

KEY Difference Wire: alat rahasia yang digunakan proyek crypto untuk mendapatkan jaminan liputan media

AGENT-2.41%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)