Proprio ora, OpenAI ha rilasciato la versione ChatGPT di Manus! Ultraman: vivi il momento AGI

Negli ultimi sei mesi, Agent è stato uno dei concetti più frequentemente menzionati nel settore dell'intelligenza artificiale.

Quasi tutti i produttori parlano di Agent. Non mancano concept e demo, ma per raggiungere un'implementazione a livello di prodotto, manca sempre un sistema di esecuzione completo, in grado di comprendere obiettivi complessi, di utilizzare più strumenti per collegare i processi di attività e di supportare l'interruzione, la modifica e il ripristino delle attività in qualsiasi momento, adattandosi perfettamente al flusso di lavoro dell'utente.

Proprio ora, OpenAI ha rilasciato ufficialmente la funzione ChatGPT Agent.

Integrando Operator + Deep Research + ontologia ChatGPT, gli utenti devono solo descrivere l'attività e ChatGPT Agent può determinare in modo indipendente gli strumenti richiesti, accedere automaticamente alle pagine web, estrarre informazioni, eseguire codice, generare diapositive o tabelle, ecc. e può visualizzare i passaggi in tempo reale, accettare interruzioni e modificare le istruzioni durante l'esecuzione.

Dopo la conferenza, il CEO di OpenAI Sam Altman ha scritto sui social media:

Per me, osservare ChatGPT Agent usare i computer per completare attività complesse è stato un vero momento di "feel AGI"; c'era qualcosa di davvero speciale nel vedere un computer pensare, pianificare ed eseguire.

I punti salienti sono i seguenti:

  • ChatGPT Agent combina Operator, Deep Research e l'ontologia ChatGPT in un unico sistema di agenti intelligenti unificati.
  • Browser grafico/di testo integrato, terminale e chiamante API e altri strumenti supportano l'uso del telefono cellulare e inviano automaticamente i risultati una volta completata l'attività;
  • Può connettersi ad applicazioni di terze parti come Gmail e GitHub, profondamente integrate nel flusso di lavoro reale dell'utente;
  • Leader in numerosi test di benchmark, le sue prestazioni complessive si collocano tra le migliori del settore;
  • Gli utenti Pro hanno una quota mensile di 400 chiamate, mentre gli altri utenti a pagamento hanno una quota mensile di 40 chiamate. La quota può essere aumentata su richiesta.

L'agente ChatGPT è stato lanciato ufficialmente, può acquistare e scrivere PPT, il tuo browser sarà preso in carico dall'intelligenza artificiale

A partire da oggi, puoi abilitare questa funzionalità in qualsiasi conversazione selezionando "Modalità agente" dal menu a discesa "Strumenti" nell'angolo in basso a sinistra dell'interfaccia della chat.

Basta descrivere l'attività che vuoi completare e ChatGPT esplorerà in modo intelligente il sito, filtrerà i risultati, ti chiederà in modo sicuro di effettuare l'accesso quando necessario, eseguirà il codice, effettuerà l'analisi e persino produrrà diapositive e fogli di calcolo modificabili che riepilogano i risultati dell'attività.

L'intero processo di esecuzione è visivo: i passaggi dell'operazione verranno visualizzati sullo schermo in tempo reale e gli utenti potranno interromperli, modificare le istruzioni o persino "prendere il controllo del browser" manualmente per continuare l'operazione in qualsiasi momento, per garantire che l'attività soddisfi sempre i propri obiettivi e le proprie esigenze.

In una dimostrazione tenutasi questa mattina presto, OpenAI ha illustrato le capacità applicative di ChatGPT Agent in scenari reali.

Ad esempio, prepararsi per un matrimonio imminente è sempre stato un problema complesso. Ora, è sufficiente inviare una richiesta e ChatGPT Agent creerà rapidamente un ambiente virtuale, determinerà autonomamente se chiamare un browser, un parser di testo o un terminale e inizierà a recuperare la data del matrimonio, controllare il meteo della location, consigliare abiti e selezionare gli hotel. Durante questo processo, il modello può interagire con i ricercatori di OpenAI e richiedere la conferma dei requisiti ai nodi appropriati.

Ancora più importante, gli utenti possono interrompere l'attività in qualsiasi momento.

Ad esempio, quando l'agente stava consigliando un abito, un ricercatore di OpenAI ha inserito temporaneamente una richiesta: "Aiutami a trovare un paio di scarpe eleganti nere numero 9,5". Il modello ha immediatamente messo in pausa l'attività in corso e si è concentrato sulla nuova richiesta.

Allo stesso modo, l'agente ti richiederà proattivamente ulteriori informazioni quando lo riterrà necessario, assicurandosi che l'attività sia sempre in linea con i tuoi obiettivi. Se un'attività richiede più tempo del previsto o si blocca, puoi scegliere di metterla in pausa, richiedere un riepilogo dei progressi o semplicemente terminarla e ottenere i risultati parziali già disponibili.

"Questo meccanismo di conversazione interrompibile e multi-round è uno dei punti chiave dell'addestramento del nostro modello questa volta", ha spiegato il ricercatore di OpenAI.

Dietro questa capacità c'è l'integrazione unificata di tre sistemi principali da parte di ChatGPT Agent: Operator fornisce capacità di interazione con le pagine web, supportando lo scorrimento automatico, il clic e la compilazione di moduli; Deep Research eccelle nell'integrazione e nell'analisi delle informazioni; e l'ontologia ChatGPT è responsabile della comprensione del linguaggio naturale e del ragionamento intelligente.

ChatGPT Agent viene addestrato in attività complesse tramite apprendimento rinforzato. In passato, i tre agenti presentavano delle lacune: il primo era difficile da analizzare in modo approfondito e il secondo non era in grado di gestire le pagine web. L'agente integra i vantaggi dei tre agenti in uno ed è integrato da strumenti come browser, terminali e chiamanti API per formare un sistema di esecuzione completo.

Gli utenti possono avviare la modalità Agente non solo sul desktop, ma anche sul telefono cellulare.

Una volta completata l'attività, la notifica del risultato verrà inviata automaticamente. Nella seconda attività dimostrativa, i ricercatori di OpenAI hanno caricato i modelli di adesivi della mascotte della squadra, Bernie Doodle, sull'app ChatGPT. L'agente ha richiamato automaticamente l'API di generazione delle immagini per progettare lo stile dell'adesivo, ha effettuato l'accesso alla piattaforma di e-commerce tramite browser per completare il confronto dei prezzi, la selezione dello stile e l'aggiunta al carrello, e infine ha elaborato i dettagli dell'ordine per gli adesivi personalizzati.

Naturalmente, per garantire che il processo sia sicuro, flessibile, chiaro e controllabile, quando si tratta di pagamenti di importi, l'utente dovrà solo usare manualmente il browser per completarlo.

Tramite i connettori, gli utenti possono anche connettere applicazioni di uso quotidiano come Gmail e GitHub a ChatGPT, consentendo al modello di leggere contenuti contestuali come e-mail, calendari o repository di codice ed eseguire attività come riassumere il contenuto della casella di posta di oggi o trovare tempo libero per una riunione la settimana successiva.

Uno scenario applicativo più tipico è quello in cui i ricercatori di OpenAI possono consentire a ChatGPT Agent di riassumere le prestazioni di ChatGPT in più benchmark e di trasformarle in una presentazione. Dopo aver ricevuto il comando, l'agente chiamerà il connettore di Google Drive per leggere il file di dati, scrivere codice nel terminale per disegnare grafici e generare una presentazione PPT completa.

Questo tipo di capacità di automazione riflette la profonda integrazione di Agent nel flusso di lavoro.

Tuttavia, si può osservare che il PPT generato da ChatGPT Agent presenta un'estetica generalmente nella media. Inoltre, sebbene sia possibile caricare fogli di calcolo per la modifica di ChatGPT o utilizzarli come modelli, il PPT generato al momento non supporta modifiche secondarie.

È importante notare che OpenAI non consente all'agente di aprire file PPT o Excel come un essere umano e di inserire caselle di testo e formule cliccando, ma genera direttamente il codice per creare documenti. Il vantaggio di questo approccio è che può sfruttare i vantaggi naturali del modello nella scrittura di codice, evitare inefficienze o errori causati da operazioni di clic simulate e ridurre il consumo di risorse di elaborazione.

Le informazioni segnalate indicano che se ChatGPT desidera modificare direttamente i file PPT o Excel, deve avviare una "macchina virtuale" (ovvero un ambiente informatico virtuale che esegue ChatGPT), il che consumerà più risorse di elaborazione.

Generare codice direttamente è più semplice ed efficiente. Sebbene abbia un grande potenziale, è difficile che questa funzionalità abbia un impatto su Microsoft Office o Google Workspace a breve termine.

Per quanto riguarda la funzionalità ChatGPT Agent, gli utenti Pro potranno accedervi oggi; gli utenti Plus e Team potranno accedervi nei prossimi giorni; le versioni Enterprise ed Education saranno disponibili nelle prossime settimane.

Gli utenti Pro possono utilizzare 400 messaggi al mese, mentre gli altri utenti paganti possono utilizzare 40 messaggi al mese e possono acquistarne altri tramite il piano di credito flessibile.

I record del "punteggio in esecuzione" vengono aggiornati su tutta la linea e il campo di battaglia dell'agente accoglie l'avversario più forte

Il miglioramento delle funzionalità di ChatGPT Agent si riflette anche nel link "punteggio progressivo".

Nell'Humanity's Last Exam (HLE), un benchmark per valutare la capacità dell'IA di risolvere problemi interdisciplinari di livello esperto, il modello ChatGPT con un agente ha stabilito un nuovo record con un punteggio "pass@1" di 41,6. Dopo aver abilitato la strategia di esecuzione parallela, il punteggio è stato ulteriormente migliorato a 44,4.

In FrontierMath, attualmente considerato il benchmark matematico più impegnativo, che affronta domande estremamente difficili e mai pubblicate prima, ChatGPT Agent ha raggiunto un tasso di accuratezza del 27,4% pur disponendo di capacità di esecuzione del codice terminale, un valore molto più elevato rispetto ai modelli precedenti.

Nei test di benchmark interni di questo compito di lavoro cognitivo complesso e di alto valore, ChatGPT Agent ha raggiunto una qualità di output pari o superiore a quella umana in circa la metà dei compiti, con prestazioni significativamente migliori rispetto ai modelli o3 e o4-mini.

Gli agenti ChatGPT hanno inoltre ottenuto risultati significativamente superiori rispetto ai modelli Deep Research e o3 in un benchmark interno di attività di modellazione di investment banking. Ogni attività viene valutata in base a centinaia di criteri di punteggio, come la correttezza delle formule e la formattazione.

Inoltre, nel benchmark BrowseComp, che valuta pubblicamente le capacità di ricerca di informazioni dei modelli, Agent ha stabilito un nuovo record con un tasso di accuratezza del 68,9%, 17,4 punti percentuali in più rispetto a Deep Research. Nella valutazione di WebArena, la sua capacità di esecuzione delle attività sulle pagine web è anche migliore del modello CUA basato su o3.

Dal punto di vista della piattaforma, l'interfaccia sottostante alle funzionalità dell'agente è il browser.

In una recente intervista, il CEO di Perplexity AI, Aravind Srinivas, ha affermato che il browser sarà la "killer application" per l'intelligenza artificiale. A suo avviso, il browser possiede naturalmente tutte le condizioni per far sì che l'intelligenza artificiale "si muova" davvero.

A differenza dei chatbot tradizionali, la forma ideale di agente AI non è quella di generare testo in una finestra di dialogo, ma di svolgere azioni pratiche: dall'accesso a pagine web, all'estrazione di informazioni, alla compilazione di moduli, all'esecuzione di operazioni multipiattaforma. Per tutto ciò, il browser dispone delle autorizzazioni operative e delle capacità di acquisizione del contesto necessarie.

Il browser può leggere direttamente le pagine, simulare clic ed eseguire automaticamente attività praticamente senza alcuna autorizzazione aggiuntiva.

In questo processo, utenti e IA coesistono nello stesso spazio interattivo: l'IA può eseguire automaticamente le attività e gli utenti possono interromperle o subentrare in qualsiasi momento per evitare l'incertezza causata dalle operazioni "scatola nera". Questa controllabilità e trasparenza è una capacità che molti protocolli contestuali attuali trovano ancora difficile da raggiungere.

Ora, con il lancio ufficiale della funzionalità ChatGPT Agent, tutti i produttori che dichiarano di essere agenti potrebbero dover riesaminare i percorsi dei loro prodotti.

Quando ChatGPT si è trasformato da uno strumento di interazione linguistica in un sistema di esecuzione con funzionalità di collaborazione, pianificazione e assunzione di attività, e ha iniziato a connettersi ai flussi di lavoro reali degli utenti, la soglia di usabilità di Agent è stata notevolmente innalzata.

#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il prima possibile.

iFanr | Link originale · Visualizza commenti · Sina Weibo