Агент-оператор OpenAI отримує підвищення завдяки новій моделі ШІ

2025-05-24 08:51:03

OpenAI оновила AI модель, що живить Operator, з попередньої кастомної версії GPT-4o до моделі на базі o3, однієї з найновіших у серії "reasoning" моделей OpenAI. o3 Operator був доопрацьований з додатковими даними безпеки для комп'ютерного використання та включав набори даних безпеки, створені для навчання моделі межам прийняття рішень.

OpenAI оновила Оператора в ChatGPT з новою Моделлю Комп'ютерного Агента (CUA), основаною на версії OpenAI o3. Завдяки новій моделі Оператор став більш наполегливим і точним під час взаємодії з браузером, що покращило загальний показник успішності завдань. Він також надає краще структуровані відповіді, які є більш чіткими та детальними.

Згідно з OpenAI, нова модель CUA продемонструвала кращу продуктивність у порівнянні з галуззю, досягнувши SOTA на OSWorld та WebArena. Вона також показала кращу відносну продуктивність порівняно з попередньою версією, як у встановлених бенчмарках, так і в оцінках людських уподобань.

OpenAI замінює модель на базі GPT‑4o на версію на основі o3

OpenAI натякає на велике оновлення для ChatGPT Оператора Агент pic.twitter.com/iGPQp9butD

— SabatAge (@sabatage) 22 травня 2025 р.

OpenAI замінила існуючу модель на базі GPT‑4o для Оператора на версію на основі OpenAI o3, хоча версія API залишиться на базі 4o. AI компанія також стверджувала, що o3 Оператор використовує той же багаторівневий підхід безпеки, що й версія 4o.

Однак, у порівнянні з іншими моделями в родині o3, оператор o3 був доопрацьований з додатковими даними безпеки для комп'ютерного використання, включаючи набори даних безпеки, розроблені для навчання моделі меж прийняття рішень щодо підтверджень і відмов.

OpenAI випустила технічний звіт, який показує роботу оператора o3 щодо конкретних оцінок безпеки. Порівняно з моделлю оператора GPT-4o, оператор o3 з меншою ймовірністю відмовлявся виконувати «незаконні» дії та шукати конфіденційні особисті дані, а також був менш сприйнятливим до форми атаки штучного інтелекту, відомої як «швидка ін'єкція».

"o3 Оператор використовує той самий багатошаровий підхід до безпеки, який ми використовували для версії 4o Оператора... Хоча o3 Оператор успадковує можливості кодування o3, він не має нативного доступу до середовища кодування або Терминалу."

–Технологія OpenAI

Штучний інтелект також розкрив, що нова модель на основі o3 пройшла стандартні оцінки безпеки, і Оператор продовжував бути доступним як дослідницький попередній перегляд для користувачів ChatGPT Pro по всьому світу. Однак ця оновлена модель була доступна лише в Операторі в ChatGPT.

Кноп підозрює, що запуск моделі o3 від OpenAI може бути дорожчим, ніж очікувалося.

На минулому тижні Фонд Arc Prize, який підтримує та адмініструє ARC-AGI, оновив свої приблизні витрати на обчислення для o3. Організація спочатку оцінювала, що найкраща конфігурація o3, яку вона тестувала, o3 high, коштувала близько $3K для розв'язання однієї проблеми ARC-AGI. Однак тепер Фонд вважає, що витрати можуть бути в 10 разів вищими, ніж раніше оцінювалося, можливо, близько $30K за завдання.

Крім того, хоча OpenAI ще не визначила ціну o3 або повністю його не випустила, один з співзасновників Фонду Arc Prize, Майк Кноп, вважає, що ціна моделі o1-pro є розумним проксі та ближчим порівнянням справжньої вартості o3. Проте він додав, що o3 продовжуватиме позначатися як попередній перегляд на лідерборді, щоб відобразити невизначеність, поки не буде оголошена офіційна ціна.

Згідно з Фондом премії Arc, висока ціна для o3 high не була б неймовірною, враховуючи обсяг обчислювальних ресурсів, які, як повідомляється, використовує модель. o3 high використовував у 172 рази більше обчислень, ніж o3 low, найменш обчислювальна конфігурація o3, для вирішення ARC-AGI.

Чутки ходять з початку березня про дорогі плани, які OpenAI розглядає для впровадження для корпоративних клієнтів. Інформація повідомляє, що компанія може стягувати до 20 000 доларів на місяць за спеціалізовані AI "агенти", такі як агенти програмістів.

Проте, хоча деякі стверджували, що навіть найкоштовніші моделі OpenAI коштуватимуть значно менше, ніж зазвичай вимагає людський підрядник або співробітник, дослідник штучного інтелекту Тобі Орд вказав на те, що ці моделі можуть бути не такими ефективними. Наприклад, o3 high вимагав 1 024 спроби на кожному завданні в ARC-AGI, щоб досягти свого найкращого результату.

КЛЮЧова різниця Wire: таємний інструмент, який використовують криптопроекти для отримання гарантованого медійного покриття

AGENT-0.99%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
#Gate Square Qixi Celebration
15k Популярність
#Commerce Dept. Goes On-Chain
233 Популярність
#Google Cloud Unveils L1 chain GCUL
197 Популярність
#Trump Removes Fed Governor Cook
13k Популярність
#Gate Alpha Peak Trade Phase 2
16k Популярність

Закріпити

карта сайту