Doubao Mobile Assistant ha suscitato scalpore all’estero, tanto che gli stranieri hanno affermato: “Questo è il primo smartphone davvero significativo”.

Sorprendentemente, nella settimana successiva al lancio della serie Mate 80 di Huawei e del primo telefono tri-fold di Samsung, il dispositivo più popolare è stato lo ZTE nubia M153, che presenta una versione di anteprima della tecnologia di assistente mobile Doubao.

Non solo sono andati esauriti subito dopo il lancio, ma il primo lotto di prototipi ingegneristici è stato anche rivenduto su piattaforme di seconda mano a diverse centinaia di yuan in più. Rispetto al prezzo ufficiale di 3499 yuan, la domanda di mercato è stata davvero forte.

Nonostante il team ufficiale di Doubao Mobile Assistant abbia ripetutamente sottolineato che l'attuale versione di anteprima tecnica non è destinata ai consumatori comuni, essa si propone più come un banco di prova per la dimostrazione della tecnologia e l'esplorazione dell'ecosistema, attirando sviluppatori e appassionati di tecnologia a partecipare e sperimentarla.

Ma questo non è riuscito a smorzare l'entusiasmo del pubblico. Oltre a operazioni di base come ordinare cibo da asporto e pubblicare post sui social media, alcuni utenti lo hanno persino utilizzato per inviare 30 curriculum in 10 minuti.

Tuttavia, ne è seguita una controversia, con WeChat, Taobao e altre app che hanno iniziato a escludere Doubao Mobile Assistant impostando il "rilevamento delle anomalie" e altre barriere.

La risposta ufficiale è stata anche quella di modificare alcune delle capacità dell'IA di gestire i telefoni cellulari. La dichiarazione ufficiale indica che l'obiettivo è "promuovere la formazione di regole più chiare e prevedibili" ed evitare una negazione generalizzata del diritto degli utenti a utilizzare ragionevolmente l'IA.

Luo Yonghao ha pubblicato un messaggio di sostegno, affermando che si tratta di una rivoluzione tecnologica inarrestabile e che le persone ricorderanno questo giorno storico. Honor ha espresso il suo benvenuto, mentre Meizu ha espresso la sua attesa per una cooperazione approfondita per creare un ecosistema più prospero.

Dopo aver guadagnato popolarità in Cina, Doubao Mobile Assistant è diventato un successo anche all'estero. Sulla piattaforma X, un sacco di stranieri ne hanno parlato a lungo, e alcuni l'hanno persino definito "un altro momento DeepSeek".

Internauti d'oltremare: il primo smartphone davvero significativo

Questa valutazione non è stata fatta alla leggera.

Taylor Ogan, CEO di Snow Bull Capital, ha pubblicato una lunga recensione sulla piattaforma, esprimendo il suo entusiasmo praticamente a fior di pelle.

La sua valutazione è stata semplice: questo è il primo smartphone veramente significativo al mondo.

Con l'assistenza di Doubao Mobile Assistant, l'intelligenza artificiale può controllare completamente il telefono: può "comprendere" l'interfaccia, selezionare applicazioni o scaricare app, cliccare sui pulsanti, inserire testo, effettuare chiamate telefoniche e persino eseguire un'intera catena di attività in più fasi.

Dopo aver ricevuto il telefono, ha sperimentato molti trucchi creativi. Ad esempio, poteva scattare una foto di una stazione di sostituzione batterie NIO e chiedere: "Cos'è questo?", e l'IA avrebbe risposto all'istante.

Semplicemente scattando una foto all'ingresso dell'hotel, Doubao può non solo identificare di quale hotel si tratta, ma anche prenotare una camera in base alle esigenze di Ogan e verificare la politica sugli animali domestici.

Per raggiungere il parco in taxi senza conducente, Doubao può pianificare il percorso e prenotare la corsa dal punto di raccolta più vicino. Ogan deve solo esprimere verbalmente le sue intenzioni; Doubao si occupa di tutto il resto.

Dopo aver ordinato due drink tramite il drone, il corriere ha rapidamente trasportato l'ordine in un armadietto lì vicino.

Camminando per strada, Ogan scattò una foto di un negozio appena aperto e chiese se si trattasse di un marchio locale. Doubao riuscì a controllare la registrazione dell'attività e le informazioni sul marchio, e poi rispose con decisione: "Sì".

L'intelligenza artificiale fa tutto il lavoro, mentre gli esseri umani si rilassano.

Dopo una serie di manovre fluide, gli internauti d'oltreoceano sono rimasti profondamente scioccati.

Una rapida occhiata alla sezione commenti rivela un mare di "Mi piace". Un utente ha commentato: "In questo momento, il sistema operativo è diventato un gestore e il telefono un esecutore, non più solo uno strumento". Un altro ha confessato inaspettatamente: "Mi piaceva già il Doubao (un tipo di panino al vapore), ma ora lo adoro ancora di più".

Alcuni internauti si sono addirittura spinti a definirsi "Wow Bro":

Si tratta di qualcosa di completamente nuovo. Ho visto cose simili a livello aziendale, dove un agente controlla il PC ed esegue le attività, ma è davvero interessante avere questa tecnologia su un telefono cellulare. Immaginate cosa succederà quando Google inizierà a implementarla sui dispositivi Pixel e praticamente su tutti i telefoni Android…

Pixel pensò tra sé e sé: "Qualcosa non va. Perché ho la sensazione che qualcuno mi stia cliccando addosso?"

Naturalmente, non sono mancate voci di dissenso. Qualcuno ha chiesto: "Ma è davvero intelligente? Questo modello può essere eseguito localmente sul dispositivo?". Taylor Ogan ha risposto: "È incredibilmente intelligente. Si può scegliere di eseguirlo sul dispositivo o nel cloud".

La discussione è stata altrettanto accesa su Reddit.

Un utente della rete ha commentato: "Finché queste funzioni sono locali al dispositivo (senza utilizzare servizi cloud) e il loro utilizzo è facoltativo, sono favorevole". Un altro utente della rete ha acutamente sottolineato il vero significato dell'intelligenza artificiale: "Questo è ciò che l'intelligenza artificiale dovrebbe fare: far risparmiare tempo alle persone, non cercare di eliminare il valore individuale".

A dire il vero, dopo il lancio di Doubao Mobile Assistant, le modalità di condivisione sulla piattaforma X da parte degli utenti sono diventate sempre più insolite. Alcuni hanno usato Doubao per ordinare un caffè, mentre altri hanno fatto in modo che l'intelligenza artificiale di Doubao gestisse i telefoni Android, simulando i gesti delle mani umane sulle pagine, puntando alla completa automazione.

Un altro utente ha utilizzato l'assistente mobile di Doubao per ordinare una noce di cocco. Poiché l'ordine non raggiungeva l'importo minimo, Doubao ha premurosamente aiutato il blogger a scegliere un sacchetto di sale da cucina da 1,99 yuan per raggiungere l'importo minimo.

Nella sua precedente recensione di Doubao Mobile Assistant, APPSO ha affermato che la sua impressione più immediata è stata che il telefono fosse diventato "più sottile" e che avesse "appiattito" le capacità di varie app, rendendo l'interazione più naturale, intuitiva ed efficiente.

La domanda è: come funziona? E in cosa si differenzia dall'agente che si occupa di "uso del telefono"?

Dopo aver utilizzato Doubao Mobile Assistant per una settimana, APPSO ha scoperto anche altri dettagli tecnici al suo interno.

Ho scoperto i segreti per usare Doubao Mobile Assistant sul tuo telefono.

Prima del rilascio di Doubao Mobile Assistant, l'industria della telefonia mobile aveva già sperimentato l'intelligenza artificiale (AI+) per un bel po' di tempo.

I produttori di hardware per telefoni cellulari stanno cercando di abbattere le barriere tra le applicazioni e ottenere un "accesso con un clic" sfruttando le capacità di intelligenza artificiale a livello di sistema. Ad esempio, gli agenti di intelligenza artificiale dei principali produttori di telefoni cellulari come Huawei, Xiaomi, Vivo e Honor hanno dimostrato funzioni come l'invio automatico di messaggi e l'esecuzione di attività multi-step in vari contesti.

Sebbene queste dimostrazioni differiscano leggermente negli scenari specifici e nei metodi di implementazione, la logica di base rimane la stessa: comprendere l'intento dell'utente attraverso grandi modelli di intelligenza artificiale e combinarlo con operazioni utente simulate per ottenere l'esecuzione automatizzata delle attività nelle applicazioni.

Sembra un'ipotesi piuttosto inverosimile, ma in realtà… beh, c'è ancora molto margine di miglioramento.

Il destino di Doubao Mobile Assistant ha ulteriormente alimentato le discussioni online. Ancora più importante, in base alla mia precedente esperienza, Doubao Mobile Assistant porta davvero l'utilizzo del telefono basato sull'intelligenza artificiale a un livello fruibile, non limitato a pochi scenari, ma in grado di completare in modo fluido e naturale attività lunghe e complesse tramite un'interfaccia grafica.

APPSO ha scoperto un rapporto tecnico pubblicato dal team di ByteDance sulla nota piattaforma di preprint ArXiv, le cui informazioni potrebbero spiegare i principi chiave alla base del rapporto.

Ecco il link: https://arxiv.org/abs/2509.02544

Le funzionalità dell'interfaccia utente grafica di Doubao Mobile Assistant derivano dal modello UI-TARS sviluppato dal team Seed di ByteDance. Integra la comprensione visiva dello schermo, il ragionamento logico, la posizione degli elementi dell'interfaccia e il funzionamento, e la sua versione open source è attualmente il modello di agente intelligente multimodale open source più diffuso.

Secondo il rapporto tecnico UI-TARS 2.0, la forza di questo modello risiede nel fatto che non si tratta di un semplice assemblaggio modulare, ma adotta piuttosto un approccio di apprendimento end-to-end che integra percezione, ragionamento, azione e memoria.

I dati non mentono: nei test di benchmark GUI, UI-TARS-2 ha ottenuto risultati eccezionalmente buoni.

  • Online-Mind2Web ha ottenuto un punteggio di 88,2.
  • Punteggio OSWorld: 47,5
  • WindowsAgentArena ha ottenuto un punteggio di 50,6.
  • Punteggio AndroidWorld: 73,3

Questi risultati non solo superano significativamente il modello della generazione precedente, ma superano anche solidi modelli di base come Claude e OpenAI in molteplici scenari. In particolare, il punteggio di AndroidWorld di 73,3 è di oltre 20 punti superiore a quello del modello CUA-o3 di OpenAI, a dimostrazione di una forte competitività.

In un ambiente di gioco, UI-TARS-2 ha ottenuto un punteggio standardizzato medio di 59,8 su un set di test di 15 giochi, pari a circa il 60% delle prestazioni umane. Rispetto a OpenAI CUA e Claude Computer Use, UI-TARS-2 ha dimostrato miglioramenti delle prestazioni rispettivamente di 2,4 e 2,8 volte.

Cosa significa questo? Significa che l'intelligenza artificiale è quasi al livello di un giocatore umano medio quando si tratta di videogiochi.

In LMGame-Bench, può ancora competere con i modelli closed-source più all'avanguardia, dimostrando ulteriormente la sua robustezza nel ragionamento di gioco a lungo termine.

Ancora più impressionante, UI-TARS-2 non solo gestisce attività GUI, ma estende anche le sue capacità tramite GUI-SDK, integrandosi con risorse a livello di sistema come terminali e strumenti esterni. È competitivo nelle attività di information retrieval (BrowseComp 29,6 punti) e nelle attività di ingegneria del software (Terminal Bench 45,3 punti, SWE-Bench Verified 68,7 punti).

Un singolo modello può essere utilizzato ovunque, a dimostrazione della sua versatilità.

Vale la pena ricordare che, secondo fonti vicine al team di Doubao, Doubao Mobile Assistant utilizza una versione proprietaria di UI-TARS, che vanta prestazioni superiori rispetto alla versione open source ed è specificamente ottimizzata per gli scenari mobili. Questo potrebbe spiegare perché Doubao Mobile Assistant offre un'esperienza utente così fluida.

Doubao Mobile Assistant ha delle vere e proprie competenze.

In conclusione: potremmo avere più "valori anomali" nel settore tecnologico.

Come redattore che si è concentrato a lungo sui prodotti tecnologici, quest'anno è stato davvero notevole per me. In un settore che sembra voler concentrare tutto in un telefono, sono emersi due casi eccezionali, ognuno dei quali ha spinto i confini del design e dell'interazione .

Uno è l'iPhone Air. Mentre la serie Pro si avvia inevitabilmente verso la fine dell'accumulo di funzionalità, questa ossessione per leggerezza e sottigliezza potrebbe non avere altra utilità agli occhi degli appassionati di specifiche, e potrebbe persino rendere le persone incapaci di distinguere se si tratti di una regressione o di un'evoluzione, finché non lo si tiene in mano e ci si rende conto che la leggerezza stessa è una funzione.

Doubao Mobile Assistant, d'altra parte, si colloca all'estremo opposto del design dell'interfaccia utente. Non richiede di cercare i servizi; al contrario, lascia che siano i servizi a venire da te. Potrebbe persino sovvertire il paradigma della GUI (Graphical User Interface), il che significa che un giorno quella schermata potrebbe non essere nemmeno necessaria.

Uno è hardware, l'altro è software, ma entrambi conducono allo stesso obiettivo. L'iPhone Air ha ridotto l'ingombro fisico, mentre Doubao Mobile Assistant ha eliminato interazioni ingombranti.

Scoprirai che quando le aziende di intelligenza artificiale si occupano di progettazione hardware, il loro approccio alla progettazione dell'interazione differisce da quello dei produttori di hardware tradizionali.

OpenAI sta anche collaborando con Jony Ive, un leggendario ex designer Apple, per creare hardware di intelligenza artificiale. Sam Altman ha rivelato che questo dispositivo mira a ridefinire l'interazione: invece di un insieme di app, l'intelligenza artificiale fungerà da interfaccia principale e livello operativo.

Naturalmente, la storia ci insegna che l'implementazione di queste nuove tecnologie incontrerà inevitabilmente difficoltà crescenti: adattamento, privacy, ecosistema… e l'interazione di interessi tra le varie parti. La "corsa a doppio senso" tra tecnologia avanzata e applicazione diffusa richiederà tempo, ma è una tendenza inevitabile.

Il co-fondatore di OpenAI, Andrej Karpathy, ha recentemente espresso le sue previsioni sul futuro dell'interazione:

Nell'era della profonda collaborazione uomo-macchina, i prodotti con interfacce utente (UI) estremamente complesse (con un gran numero di cursori, interruttori e menu), che non supportano gli script e che sono basati su formati binari personalizzati e opachi sono destinati al fallimento (ngmi).

In futuro, l'intelligenza artificiale diventerà sempre più abile nel comprendere e manipolare le interfacce grafiche (UI/UX) umane (come si vede in progetti all'avanguardia come Operator). Tuttavia, sospetto che i prodotti che attendono semplicemente che questo futuro si materializzi senza adattarsi proattivamente all'attuale livello di sviluppo tecnologico non avranno successo.

Il coraggio di essere pionieri è di per sé ammirevole e ci auguriamo di vedere più "anomalie" nel settore tecnologico.

#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

ifanr | Link originale · Visualizza commenti · Sina Weibo