Analisi approfondita della versione Google del “Bean Bun Phone”: a quale gioco ha giocato il sovrano Android? | Gadget AI

Nota dell'editore:
Quando l'intelligenza artificiale inizia a cercare la propria forma, alcune delle sue scelte sono inaspettate.
L'intelligenza artificiale ha dato vita a un pulsante dedicato sugli smartphone, apparentemente riaccendendo la loro spinta evolutiva perduta da tempo. Gli occhiali, con il loro accesso naturale alla vista e all'udito, stanno iniziando ad assomigliare alla prossima generazione di terminali personali. Alcuni dispositivi piccoli e mirati sembrano più affidabili dei dispositivi multifunzione in determinati momenti. Nel frattempo, i tentativi radicali di sostituire gli smartphone con dispositivi usa e getta hanno incontrato una fredda accoglienza.
L'implementazione della tecnologia non riguarda solo l'accumulo di funzioni; riguarda anche le abitudini delle persone, l'adattamento degli scenari e la ridefinizione del concetto di "facilità d'uso".
iFanr lancia la rubrica "AI Gadgets Chronicle", con l'obiettivo di esplorare insieme a voi come l'intelligenza artificiale sta cambiando la progettazione dell'hardware, rimodellando l'interazione uomo-computer e, cosa ancora più importante, come l'intelligenza artificiale entrerà nella nostra vita quotidiana.

Inizialmente pensavo che la serie Samsung Galaxy S26 fosse già trapelata e che l'evento di lancio sarebbe stato solo una formalità. A quanto pare Samsung e Google avevano qualcos'altro in serbo.

Le due aziende hanno presentato congiuntamente le nuove funzionalità dell'intelligenza artificiale Gemini presenti nell'S26: con un semplice comando verbale, Gemini può aiutarti a prenotare una corsa con Uber o a ordinare cibo da asporto su DoorDash.

▲ Fonte immagine: Android Central

Questa funzionalità è attualmente in fase di anteprima ed è disponibile solo negli Stati Uniti e in Corea del Sud.

Si può pensare che Google e Samsung collaborino per creare una versione globale di "Doubao Phone" (o, più precisamente, Doubao Phone Assistant). La serie Galaxy S26 è solo l'inizio; queste funzionalità saranno introdotte in seguito sui telefoni Google Pixel 10 e su altri dispositivi Android 17.

Avendo visto e utilizzato molti agenti di intelligenza artificiale a livello di sistema di telefonia mobile/computer, e avendo utilizzato ampiamente il "Doubao Phone", ritengo che la discussione sull'agente Gemini non dovrebbe limitarsi a una semplice "nuova funzionalità".

Bisogna ammettere che non è la prima volta che il framework di base del sistema operativo Android viene profondamente personalizzato per ospitare agenti intelligenti: molti produttori, tra cui OPPO, Honor e Huawei, hanno già fatto notevoli tentativi iniziali.

Ma questo è Google, il proprietario assoluto del sistema operativo Android.

Se ByteDance, in quanto "outsider", è stata "irrispettosa" nei confronti di un'app di livello nazionale, allora il coinvolgimento di Google in questa vicenda è completamente diverso.

Ma aspettate un attimo, diamo prima un'occhiata a cosa rappresenta esattamente questo "telefono a sacco" di Google e Samsung.

Com'è il Samsung "Bean Bun Phone"?

La funzionalità "Gemini Auto Task" presentata da Samsung e Google è in grado di imitare l'utilizzo umano di un telefono per automatizzare le attività. L'approccio di base combina la comprensione della lettura dello schermo tramite intelligenza artificiale con API a livello di sistema/applicazione.

Vale la pena notare che il "Doubao Phone", sviluppato congiuntamente da ByteDance e Nubia, fa ampio uso di autorizzazioni a livello di sistema e funzionalità di lettura dello schermo, piuttosto che di API. Si potrebbe dire che il Doubao Phone adotta principalmente un approccio "forzato", implementando le sue funzionalità senza consultare preventivamente gli sviluppatori di app, il che fornisce alle app a livello nazionale strumenti per bloccarlo e boicottarlo.

L'agente intelligente Gemini implementato da Samsung e Google nella serie Galaxy S26 combina elementi di entrambi. Secondo le informazioni rivelate da Samsung, supporta le 200 app più popolari del suo app store (ma solo alcune app specifiche sono garantite per funzionare correttamente, come verrà spiegato in dettaglio più avanti), il che indica che Samsung e Google hanno contattato almeno in larga parte gli sviluppatori di queste app.

Diamo un'occhiata all'esperienza di una direttrice della rivista Wired: ha semplicemente chiamato Gemini, ha detto che voleva andare all'aeroporto e l'app Gemini ha aperto una "finestra virtuale" per aprire Uber e ha iniziato a eseguire l'azione in background. Gli utenti possono cliccare per accedere in qualsiasi momento e visualizzare il processo di esecuzione di Gemini.

Poiché nella zona sono presenti diversi aeroporti, Gemini ha ricordato rapidamente all'utente di selezionare la destinazione appropriata; quando ha effettuato un ordine, Gemini ha anche mostrato l'interfaccia all'utente per semplificare la selezione del veicolo appropriato e il pagamento.

La "finestra virtuale" di Gemini può essere intesa come una "macchina virtuale" sandbox, una scelta di Google per tutelare la privacy degli utenti. I precedenti sistemi Gemini funzionavano su Android, ma questo nuovo agente Gemini opera all'interno di questa sandbox e non accede ad altre parti del dispositivo quando interagisce con le applicazioni.

Un'ultima cosa: se hai utilizzato prodotti smart agent con funzionalità cloud computer/cloud phone come Manus, Kimi computer o AutoGLM, dovresti comprendere facilmente la logica di questa macchina virtuale Gemini.

▲ Fonte immagine: 9To5Google

Si tratta di un compito piuttosto semplice: molti assistenti mobili basati sull'intelligenza artificiale prodotti a livello nazionale avevano già padroneggiato questo scenario un anno fa.

La caratteristica ancora più interessante di Gemini è la sua combinazione con le capacità di lettura dello schermo e di acquisizione delle informazioni, che l'azienda sta già sviluppando da molto tempo.

Ad esempio, quando un utente e i suoi amici parlano di ordinare una pizza per una festa, l'utente può semplicemente chiamare Gemini e dire "organizza l'ordine". Gemini può quindi recuperare direttamente le pizzerie menzionate nella chat, e persino tipi specifici di pizza, e organizzare le esigenze di tutti.

Gli utenti possono quindi far ordinare a Gemini cibo da asporto sulla piattaforma di consegna di cibo Grubhub. L'intelligenza artificiale aggiungerà automaticamente tutti gli articoli al carrello in background, in base ai requisiti dell'ordine appena elaborati, e li consegnerà all'utente per la conferma e l'inserimento dell'ordine.

A volte, ordinare il cibo non va liscio, e Gemini cercherà di gestire autonomamente situazioni impreviste e di fornire soluzioni agli utenti. Una volta, quando una pizzeria limitò il numero di pizze grandi che potevano essere ordinate durante le ore di punta, Gemini chiese se poteva ordinare due pizze medie.

Ecco un altro esempio: è stata utilizzata una nota di Google Keep per elencare i partecipanti a una grigliata, con l'indicazione dei vegetariani. Gemini ha potuto calcolare il numero totale di hot dog e panini necessari per l'intera festa, quindi inviarla per acquistare gli ingredienti e in pochi minuti tutti gli articoli erano nel carrello di DoorDash.

Sammer Samat, presidente dell'ecosistema Android di Google, ha rivelato che Gemini non ha "memorizzato" in anticipo i passaggi e i percorsi di queste operazioni della piattaforma, ma ha piuttosto utilizzato capacità di ragionamento per imitare il modo in cui gli esseri umani visualizzano lo schermo ed eseguono l'operazione successiva. Ciò significa che Gemini potrà liberare il suo potenziale in più scenari futuri.

Qui puoi vedere che l'attenzione iniziale di Gemini è rivolta alle ordinazioni di cibo e ai servizi di ride-hailing, più simili a ciò che Qianwen ha fatto prima della Festa di Primavera.

▲ Fonte immagine: Wired

Un altro "telefono a fagiolo" ufficiale di Android.

Rispetto al vero e proprio assistente mobile "tutto in uno" Doubao, che può persino aiutare a trovare i preferiti di WeChat (almeno prima del boicottaggio), le capacità attuali di Gemini sono ancora piuttosto limitate, concentrandosi su scenari quotidiani come il ride-hailing, la consegna di cibo a domicilio e la spesa. Sebbene la sua tecnologia di base sia più avanzata, l'esperienza utente effettiva non è molto diversa da quella degli assistenti AI mobili nazionali come Xiaoyi di HarmonyOS e YOYO di Honor.

Tuttavia, come accennato all'inizio dell'articolo, Google controlla l'intero ecosistema Android e ha un'influenza e un controllo assoluti.

Con il rilascio delle funzionalità di automazione di Gemini, Google ha anche rivelato in dettaglio il layout di base e i piani futuri del sistema Android: ci sono due direzioni che, in parole povere, sono entrambe "Apple" e "Doubao".

Innanzitutto, l'anno scorso Google ha rilasciato un framework chiamato "AppFunctions", che consente agli sviluppatori di esporre punti di ingresso per funzioni e caratteristiche specifiche delle loro applicazioni, in modo che gli assistenti AI possano richiamarli.

Google paragona AppFunctions al "Model Context Protocol" (MCP) di Android, che può essere semplicemente inteso come uno standard di dialogo che aiuta le app di terze parti e i modelli di intelligenza artificiale a connettersi.

Questo framework è simile agli App Intent di Apple. Nella visione di Apple, gli utenti possono usare Siri per gestire varie app e ottenere determinate funzioni, e l'implementazione di base avviene tramite App Intent: dato il ritardo nell'arrivo della prossima generazione di Siri, gli App Intent sono sufficienti per offrire un'esperienza dignitosa.

Lo stesso vale per AppFunctions di Google.

Ad esempio, un utente potrebbe dare istruzioni per trovare una ricetta nell'e-mail di un amico e aggiungere gli ingredienti pertinenti a una lista della spesa. Dopo aver ricevuto il comando, l'IA utilizza prima la funzione "cerca" nell'app e-mail per recuperare ed estrarre il contenuto pertinente, quindi utilizza la funzione "lista della spesa" nell'app note per compilare e organizzare i dati.

Alcune funzionalità di AppFunction sono già state implementate nel Samsung Galaxy S26 e nel sistema One UI 8.5. Ad esempio, gli utenti possono impartire comandi a Gemini per trovare foto specifiche nel loro album e inviarle agli amici tramite SMS.

È importante notare che durante l'intero processo, Gemini non ha bisogno di aprire le app Foto e Messaggi, né di uscire dall'app Gemini. Utilizza invece AppFunctions per recuperare i punti di ingresso corrispondenti ed eseguire le operazioni all'interno di Gemini, rendendolo più efficiente.

In sostanza, l'implementazione basata su AppFunctions segue la stessa logica del vecchio percorso API. Si tratta di una soluzione preimpostata.

Tuttavia, non tutte le app sono adattate correttamente. Nessun problema, Google ha un'altra soluzione.

In un articolo pubblicato ieri sul blog degli sviluppatori Android, Google ha dichiarato esplicitamente che l'azienda sta anche sviluppando un framework di automazione dell'interfaccia utente che consentirà agli assistenti AI e alle applicazioni di terze parti di imitare gli esseri umani e di aprire direttamente l'app ed eseguire operazioni passo dopo passo.

—Questa è la copia del "Telefono Doubao".

Tuttavia, nonostante Google affermi che in futuro sarà l'automazione dell'interfaccia utente a svolgere il vero "lavoro pesante", in questa serie Galaxy 26 l'automazione dell'interfaccia utente è solo una "versione di anteprima iniziale".

▲ Il cellulare Doubao mi ha aiutato a trovare e confrontare i prezzi degli shampoo.

Se AppFunctions richiede agli sviluppatori di app un ulteriore lavoro di adattamento, i framework di automazione dell'interfaccia utente lasciano tutto il lavoro all'agente di intelligenza artificiale, senza richiedere alcun adattamento aggiuntivo. Tuttavia, l'efficacia dipende fortemente dalle capacità dell'agente di intelligenza artificiale e il suo vantaggio risiede nella capacità di coprire un gran numero di applicazioni fin dal suo lancio.

Come potete vedere ora, nel progetto dell'agente intelligente Android Gemini di Google, AppFunctions e UI Automation rappresentano due percorsi complementari: garantiscono la massima compatibilità tramite interfacce standardizzate e tracciabili e, al contempo, gettano le basi per modalità di interazione con gli screen reader che rappresentano davvero il futuro.

Google ha inoltre affermato che questa non è una funzionalità esclusiva di Gemini, ma una caratteristica del sistema Android.

Ciò significa anche che in futuro, che si tratti dell'assistente AI integrato nel telefono del produttore o di applicazioni di terze parti come ChatGPT, sarà possibile richiamare AppFunctions per eseguire attività o "comprendere" l'interfaccia utente del telefono per eseguire operazioni automatiche.

Vale la pena ricordare che, sebbene Gemini non sia disponibile sulla versione cinese del Samsung Galaxy S26, l'assistente Bixby può comunque svolgere funzioni come ordinare cibo da asporto, chiamare un taxi e confrontare i prezzi sulle piattaforme di e-commerce. Possiamo ragionevolmente dedurre che Samsung abbia trovato anche in Cina un fornitore modello per sostituire Gemini. Per quanto riguarda quali di queste aziende, grandi e piccole, siano coinvolte, probabilmente dipenderà da chi ha ottenuto risultati più eccezionali negli agenti intelligenti mobili nell'ultimo anno.

Il percorso verso gli smartphone dotati di intelligenza artificiale non sarà un'impresa solitaria.

L'anno scorso, il "Doubao Phone" ha fatto un debutto strepitoso, per poi essere purtroppo ritirato prematuramente dal mercato. Pur essendo profondamente deplorevole, questo ci spinge anche a chiederci: il modello di automazione basato sull'intelligenza artificiale è il modello ideale per i telefoni dotati di intelligenza artificiale?

A questa domanda non si risponderà prima di tre o cinque anni. Almeno, i telefoni Doubao non agiscono da soli: anche Google, proprietaria del sistema Android, ha scelto questa strada e ha molta più influenza.

Dopo che il telefono Beanbag è diventato popolare all'estero, alcuni internauti hanno iniziato a immaginare che se Google avesse promosso questa tecnologia sui telefoni Pixel e Android, le prospettive sarebbero state molto ampie.

Anche se penso che Google non abbia una risposta molto chiara alla domanda "telefono con intelligenza artificiale", sembra piuttosto che abbiano a disposizione l'intelligenza artificiale, il sistema e l'hardware e stiano provando in ogni direzione, sperando che una di queste funzioni.

Ma almeno Google ha dato un buon esempio di "automazione a livello di sistema" per Android, e molti nuovi telefoni in futuro hanno il potenziale per diventare "telefoni a panino al vapore".

Questa ondata potrebbe non essere limitata al mondo Android. Non dimenticate che Apple ha stretto una partnership con Google e Gemini diventerà il supporto tecnico per Siri. E App Intent e App Function sono molto simili…

▲ Dimostrazione dell'intelligenza artificiale Siri

Guardando un po' più avanti: gli agenti intelligenti Gemini non si limitano nemmeno agli smartphone dotati di intelligenza artificiale. Sammer Samat prevede che in futuro occhiali intelligenti, pendenti con intelligenza artificiale e persino automobili, purché dotati di Gemini, potranno utilizzarli per svolgere compiti complessi. Naturalmente, tali scenari sono ancora lontani dalla realizzazione.

Tuttavia, Google ha implementato con successo l'automazione dell'intelligenza artificiale solo a livello tecnico. L'istituzione di un paradigma non significa che i problemi siano scomparsi. Le varie contraddizioni riscontrate dai telefoni Doubao diventeranno sfide che i futuri concorrenti dovranno inevitabilmente affrontare.

Innanzitutto, ci sono preoccupazioni relative alla privacy e alla sicurezza. La visione di Google è ambiziosa: in futuro, la capacità di accedere e manipolare le app mobili si estenderà oltre Gemini. Alcune applicazioni di intelligenza artificiale di terze parti saranno in grado di analizzare più a fondo i dati degli utenti e, se applicazioni dannose sotto mentite spoglie sfruttassero queste interfacce, potrebbero causare perdite ancora maggiori.

▲ Fonte immagine: 9To5Google

Il conflitto più intenso risiede nella lotta tra produttori di hardware per telefoni cellulari, fornitori di modelli/agenti intelligenti e grandi piattaforme applicative per il nuovo "punto di ingresso" nell'era dell'intelligenza artificiale. Questo è stato anche l'ostacolo più difficile da superare per il primo telefono Doubao.

Dopotutto, usare Gemini per prenotare una corsa potrebbe significare che gli utenti non vedranno più le promozioni per gli abbonati e i consigli pubblicitari di Uber e potrebbero persino perdere la fedeltà al marchio, danneggiando direttamente i ricavi dei fornitori di servizi di app/settori pubblicitari.

La Cina ha i suoi giganti di Internet e intelligenza artificiale, e lo stesso vale all'estero. Rivali storici come Meta e Amazon possiedono piattaforme ed ecosistemi potenti, e potrebbero non essere disposti ad aprirsi a Google e permettere a Gemini di automatizzare tutto. Che si tratti di privacy, sicurezza o regole della piattaforma, inevitabilmente sorgeranno restrizioni e barriere all'ingresso più elevate, e la concorrenza si intensificherà.

Google, almeno, è molto fiduciosa riguardo al futuro. Sammer Samat ritiene che la tecnologia dell'intelligenza artificiale sia già in fase di sviluppo e, invece di scervellarsi per contrastarla, gli sviluppatori dovrebbero pensare a un modo adeguato per adottarla.

Lo scontro tra il nuovo e il vecchio è inevitabile e i vincitori finali saranno coloro che perseguiranno coraggiosamente il cambiamento alla vigilia di esso.

Riferimenti:
https://android-developers.googleblog.com/2026/02/the-intelligent-os-making-ai-agents.html

#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

ifanr | Link originale · Visualizza commenti · Sina Weibo