“La vittoria dell’ingegneria” non sta solo nella Manus stessa, ma anche nel portare sul palco l’intero ecosistema di agenti intelligenti.

Fin dal suo lancio, Manus è stato sulle montagne russe.
Dall'essere stupito all'inizio, all'essere promosso a grandi altezze, all'essere criticato per essere stato scioccato e commercializzato, tutto è successo in una sola settimana.

Tra le varie voci, abbiamo trovato un gruppo di persone più legate a Manus: sviluppatori che partecipano ad agenti e strutture di supporto e parlano di Manus ai loro occhi, non discutendo di marketing e polemiche, ma solo dell'aspetto tecnico.
La conclusione non è complicata: Manus è senza dubbio un ottimo prodotto. Negare Manus sulla base dei "bombardamenti" è un disastro irragionevole.
Allo stesso tempo, la parola "sutura" è ingiusta. L'abilità e il potenziale di un agente polivalente non si riflettono solo nel numero di strumenti a cui è collegato, ma anche nella comprensione dell'agente stesso.
La controversia sul marketing e sui bombardamenti solleva una domanda: qual è il valore di Manus?
La “prima mondiale” è nata dal nulla
Amici che avete quasi dimenticato il grande evento della scorsa settimana, ecco una breve recensione: a tarda notte del 5 marzo, Manus è andato online per i test interni. Nella visualizzazione video ufficiale, sono stati rilasciati diversi meravigliosi casi d'uso originariamente visti solo in PPT, che hanno tutti dimostrato le capacità uniche di comprensione ed esecuzione dei compiti di Manus.
A dire il vero, Agent (intelligente) non è una novità, ma l'affermazione di Manus sul "primo agente intelligente per scopi generali al mondo" ha dato il via a un'ondata di discussioni senza precedenti e ha portato in primo piano l'"agente universale".

Poiché l'uso dei test interni richiede l'applicazione di un codice di invito e la velocità di emissione è lenta, si è creata una corsa per accaparrarselo: non importa quanto sorprendente sia il caso d'uso, le persone che non possono usarlo saranno ansiose.
Questo meccanismo di codice di invito ha accidentalmente spinto Manus a un livello di popolarità quasi strano, ed è stato persino chiamato "un altro momento di DeepSeek".
DeepSeek è un modello e Manus è un agente. Sono due prodotti completamente diversi. Tuttavia, in una certa misura, i due processi sono effettivamente simili.
DeepSeek crea modelli, ma non parte da zero, ma raggiunge il successo ingegneristico sulla base di una serie di lavori open source esistenti.

Allo stesso modo, Manus non è in realtà il primo a realizzare un prodotto agente per uso generale. Nel 2023 è emersa una serie di prodotti simili. La stessa Manus riceve aiuto anche da molto lavoro open source. Il team ha precedentemente creato Monica, un assistente AI integrato, e ha accumulato una ricca esperienza nell'ingegneria degli agenti. In quanto tale, Manus è visto anche come un trionfo dell’ingegneria.
Cos’è esattamente la vittoria ingegneristica?
Questa domanda deve risalire alla fonte fondamentale di cosa sia un "agente universale".
La differenza tra esseri umani e animali sta nella creazione e nell'utilizzo di strumenti. Questa affermazione vale anche per gli agenti: la differenza tra agenti ordinari e agenti generici è che questi ultimi possono richiamare attivamente strumenti.
"Molte persone pensano che un agente sia l'originale robot conversazionale. Quando è collegato a un database, viene chiamato agente. In effetti, la definizione di un agente è sempre stata quella che deve essere in grado di utilizzare strumenti ed essere in grado di agire effettivamente." William Lee ha spiegato che ha iniziato lo scorso anno a sviluppare il sistema di fascia media ACI.DEV per agenti con il team imprenditoriale, al fine di fornire prodotti di tipo agente con servizi di chiamata API quanto più convenienti possibile.
In termini di utilizzo specifico del prodotto, il ricorso allo strumento può ampliare ulteriormente i limiti delle capacità dell'agente. Jian Bai, attivo nella comunità di sviluppo degli agenti, ha visto le capacità esecutive di Manus: tagliare video.
"L'effetto del taglio è un'altra questione, ma può essere fatto, può essere completato e non ti rifiuterà."
Il principio non è complicato: l'azione di modifica può essere implementata nel codice in una certa misura. Oppure è possibile richiamare alcuni strumenti online per completare l'azione di modifica.
L'editing completato in questo modo è ovviamente approssimativo e il prodotto finito non può essere paragonato all'editing manuale, ma come ha detto Jianbai, Manus non rifiuterà questa richiesta, ma troverà attivamente gli strumenti per completarla. "Nelle applicazioni precedenti, l'agente potrebbe consigliarti un sito Web o uno strumento per tagliare video, ma non è stato ottenuto alcun risultato end-to-end."
Crede che questo rifletta la comprensione del team Manus, che è una posizione più alta. "Penso che trattino il codice, incluso l'intero ambiente di esecuzione del codice, più come uno strumento che come un obiettivo."

In passato, per alcuni progetti simili, l'obiettivo finale era fornire un pezzo di codice o configurare una macchina virtuale. Secondo Manus, progettare macchine virtuali per eseguire codice è solo un metodo di implementazione ed esistono per raggiungere un determinato scopo .
"Penso che abbiano un vantaggio cognitivo", ha detto Jianbai. "Tutti parlano di trattare l'agente come un essere umano, ma hanno davvero pensato attentamente a come l'agente sia un soggetto".
Differenziazione chiave
Quindi, è la macchina virtuale il design che distingue Manus?
"Le macchine virtuali non sono un progetto creativo", ha spiegato Zheng Qian, che sta anche lavorando a un prodotto agente per uso generale.
La società di Zheng Qian, Convergence.ai, ha lanciato Proxy, un prodotto che è anche un agente generico, a gennaio, battendo di poco OpenAI nel test benchmark webvoyage.

Non molto tempo fa, Proxy era nell'elenco di Product Hunt e Zheng Qian era impegnato a guidare il team di ingegneri per gestire l'improvviso afflusso di traffico. Ciò che stanno affrontando è il mercato estero. Si può vedere che gli agenti generici sono agenti che nutrono grandi speranze in patria e all'estero.
"OpenAI Operator è una macchina virtuale. Manus aggiunge un'esecuzione di codice al browser dopo averlo utilizzato, quindi lo inserisce in una macchina virtuale per implementarlo."
L'uso del browser è un progetto open source con 40.000 stelle su Github. Equivale a mettere un browser web davanti agli "occhi" dell'agente , combinando grandi modelli linguistici e riconoscimento visivo . Gli utenti devono solo utilizzare il linguaggio naturale per consentire all'agente di eseguire operazioni effettive sugli elementi della pagina web.

Anche Early Proxy ha tentato un percorso simile all'utilizzo del browser. "In questo modo, aiuta gli utenti a eseguire clic, trascinamenti, ecc. Il tutto è relativamente semplice e diretto. Richiede solo che l'utente dia un'attività e la esegue passo dopo passo."
Questo modulo è relativamente lineare e non può gestire compiti più complessi. In altre parole, quando la complessità del compito aumenta e all'utente viene richiesto di fornire istruzioni più dettagliate, diventa una sfida per l'utente.
"La nostra azienda ha iniziato relativamente presto e abbiamo comunicato di più con OpenAI e H Company. Successivamente, quando è uscito OpenAI Operator, l'agente è diventato immediatamente popolare. Tutti sono passati rapidamente a una cosa nuova, ovvero l'agente orchestratore è molto chiaro: "Si può dire che la vera differenza dell'agente generale non sta nel numero di strumenti messi insieme."
La costruzione di un agente ordinario può essere riassunta in modo semplice e grossolano con la "cucitura". Ma per costruire un agente generale occorre un progetto di sistema.
"Puoi immaginare un agente come una persona. La parte più complessa è il nucleo del sistema decisionale: il cervello e la trasmissione neurale. La seconda parte più complessa è la costruzione dell'esecuzione, che equivale agli arti e ai terminali umani. Per quanto riguarda i moduli funzionali come la generazione di report, l'interazione del browser e l'esecuzione del codice che hai appena menzionato, sono essenzialmente capacità a livello di catena di strumenti."
Le persone non nascono con la capacità di camminare. I bambini possono solo agitare le braccia e le gambe in modo casuale, poi possono gattonare, stare in piedi, inciampare, imparare a camminare e infine imparare a controllare accuratamente i propri arti.
L'intero processo di apprendimento è anche un processo di maturazione graduale del cervello. La maggior parte del lavoro di Proxy ruota attorno a questo "cervello". Nello specifico, è la pianificazione dinamica di cui è responsabile l'agente pianificatore.
"Si dice che la pianificazione non possa predire il futuro: la pianificazione può essere fatta molto bene, ma non si sa cosa accadrà in futuro. Lo stesso vale quando viene inserito in un agente. Ad esempio, se naviga in un determinato sito Web e incontra una situazione che non può essere aperta, come una revisione o la scadenza di un nome di dominio, o un arresto diretto, ecc., allora cosa dovrebbe fare l'agente in questo momento? Ciò richiede una pianificazione dinamica."

▲ Durante il test effettivo di Manus, abbiamo riscontrato problemi di accesso e verifica del sito Web.
Uno scenario tipico è quello dei codici di verifica. Proxy e Manus possono risolvere alcuni semplici codici di verifica, ma quelli troppo complessi devono comunque essere restituiti all'utente o possono essere ignorati direttamente.
Zheng Qian ha spiegato che la difficoltà sta nei dettagli: "Sono tutti dettagli e le situazioni sono molto diverse. Come implementare compiti complessi nella pianificazione e allo stesso tempo essere in grado di inviare informazioni: la base di utenti è enorme e ci sono tutti i tipi di cose strane. Come coprire vari scenari è una grande difficoltà."
Manus non è perfetto in questa fase, ma è una rivelazione ingegneristica. "Il suo principale successo è proprio nel campo dell'ingegneria." William è d'accordo con questo punto. "Combina modelli esistenti sul mercato, li collega bene con gli strumenti e consente agli utenti di vedere per la prima volta quali effetti può ottenere un agente che può effettivamente chiamare lo strumento. Penso che questa sia al 100% una vittoria ingegneristica."
La vera vittoria appartiene all’ecologia
Manus è come quel bambino che sta imparando a camminare. Può creare grandi discussioni non per quanto lontano può camminare o quanto in alto può saltare, ma perché mostra abbastanza potenziale.
Questo potrebbe essere il suo più grande contributo: la popolarità di Manus ha gradualmente fatto emergere una serie di applicazioni generali di tipo agente e persino lavori infrastrutturali.
L'ultimo sviluppo è che OpenAI ha lanciato l'API Responses, che è una nuova versione per gli sviluppatori, ovvero gli sviluppatori di agenti.

Nella comunità degli sviluppatori, Manus ha ispirato molte idee. Jianbai stava lavorando a un progetto relativo alla memoria dell'agente. L'apparizione di Manus lo ha portato a ripensare il paradigma relativo all'archiviazione della memoria.
L'archiviazione della memoria è fondamentale per il lavoro effettivo dell'agente. Non solo influisce sulla capacità dell'agente di apprendere e utilizzare l'esperienza dalle attività passate, ma influisce anche sulla possibilità di formare una memoria sulle abitudini di utilizzo dell'utente e ottenere realmente la personalizzazione.
Inoltre, gli agenti generici hanno in teoria il massimo grado di libertà e possono collegare e chiamare qualsiasi strumento, a condizione che la latenza, la standardizzazione dell'interfaccia, ecc. siano sufficientemente buone. Questo è esattamente il servizio che i prodotti di fascia media come ACI vogliono fornire.

Questo potrebbe essere il punto di maggior successo di Manus: essendo il caso più fuori dagli schemi di agenti generici in questa fase, apre spazio all'immaginazione e all'esplorazione per una serie di strutture di supporto .
"In effetti, possiamo vedere da Manus che il modello è ora molto più avanti rispetto al progetto." William ritiene che ci sia ancora molto spazio per l'esplorazione nel campo dell'ingegneria. "Possiamo continuare a fare qualcosa nel progetto per migliorare le prestazioni di questo prodotto di agente AI. La mia opinione personale è che l'attuale infrastruttura dell'agente è ancora piuttosto immatura, comprese le piattaforme di chiamata di strumenti come la nostra, o questo tipo di livello di memoria. Ci sono ancora molte direzioni nell'ingegneria che possono essere ottimizzate."
Questa è anche la sensazione più grande che proviamo quando contattiamo la comunità degli sviluppatori: sono entusiasti e desiderosi di provare. Le possibilità contenute nella parola "universale" sono più vivide che mai .
Proxy lancerà presto una versione iterativa basata sulla nuova idea di agente parallelo. Zheng Qian ha osservato il feedback della community e ha visto che molti utenti utilizzano Proxy in modi a cui non avevano mai pensato e che vengono costantemente scoperte nuove possibilità.
"È probabile che lo scopo d'uso finale della maggior parte dei prodotti non sia lo scopo per cui sono stati originariamente sviluppati. Potrebbero essere gli utenti a scoprire usi che noi non abbiamo scoperto. Anche noi stiamo aspettando che arrivi quel momento."
# Benvenuto per seguire l'account pubblico WeChat ufficiale di aifaner: aifaner (ID WeChat: ifanr) Ti verranno forniti contenuti più interessanti il prima possibile.
Ai Faner |. Link originale · Visualizza commenti · Sina Weibo

