La misteriosa intelligenza artificiale “Banana” sta riscuotendo successo anche all’estero. Dopo 10 round di test estremi, credo che il termine “fotoritocco” sia ormai obsoleto.

Nella prima metà dell'anno, tutti erano ancora stupiti dal "Ghibli Wind Picture" dei 4o.
Di recente, un nuovo modello dal misterioso nome in codice "nano-banana" è diventato virale sui social media. Il suo successo non è dovuto alla qualità delle immagini, ma piuttosto alle sue capacità di editing senza precedenti, che hanno portato gli utenti a esclamare: " Questo è il vero fotoritocco basato sull'intelligenza artificiale ".
Quanto è potente? In passato, i metodi di editing delle immagini basati sull'intelligenza artificiale più comuni che utilizzavamo erano probabilmente l'eliminazione tramite IA, che consisteva nel cancellare i passanti dalla foto; o il ritaglio tramite IA, che consisteva nel ritagliare il soggetto principale della foto e poi copiarlo su altri sfondi.
Ma ora è possibile generare direttamente un'immagine senza alcun segno visibile di modifica. I caratteri, lo sfondo e persino una piccola lettera nell'immagine possono essere modificati liberamente, senza l'intervento dell'intelligenza artificiale.
Le immagini seguenti sono alcuni esempi di utilizzo del nano-banana editing che abbiamo trovato su X. Voglio solo dire che vale davvero la pena di essere popolari.

Fonte dell'immagine: X@arrakis_ai
Questo utente ha fornito la foto della ragazza qui sopra, mostrando solo il suo profilo, e ha inserito il prompt "Crea una foto di qualcuno che guarda dritto davanti a sé".
L'immagine di output qui sotto è stata generata utilizzando il modello nano-banana. Questo output è come una foto separata scattata contemporaneamente con un telefono.

Alcuni internauti hanno anche raccontato di aver aggiunto queste due immagini e di aver inserito la parola chiave "Lasciate che si facciano un selfie".

Fonte dell'immagine: X@RetropunkAI
Infine, la mia unica foto con te non deve essere per forza solo una foto di laurea. La grande catena d'oro di Billie, gli orecchini e la frangia sono tutti perfettamente visibili. Il viso di Michael, distorto e pieno di rumore, ora ha la stessa texture della pelle chiara e realistica di quella di Billie nel selfie.
Gli utenti di X hanno ripetutamente elogiato questo modello di editing delle immagini. Da questi screenshot, abbiamo riassunto brevemente le caratteristiche più sorprendenti di Nano Banana.
- La coerenza del personaggio è estremamente forte : non importa se cambia lo sfondo o l'espressione, il viso non cambierà, persino la curvatura degli angoli della bocca può essere mantenuta.
- Logica ragionevole di luci e ombre : a differenza delle mappe dei filtri, può ricalcolare le sorgenti luminose e le ombre per conformare la scena alle leggi fisiche.
- Fotorealismo : non c'è quasi traccia di intelligenza artificiale e l'effetto generato sembra "una foto scattata contemporaneamente da un altro telefono".
- Conversione in stile naturale : dal restauro di vecchie foto a schizzi, acquerelli e fumetti, le caratteristiche principali possono essere mantenute invariate.
Innanzitutto, nano banana è qualitativamente diverso dai precedenti modelli di modifica delle immagini in quanto riesce sostanzialmente a mantenere il tono e il contenuto coerenti dell'intera foto durante il processo di conversione dell'immagine e non genererà alcun contenuto aggiuntivo.

▲ Mantieni uno stile il più possibile coerente. Inserisci le due immagini a destra per ottenere l'immagine pubblicitaria del prodotto a sinistra. Fonte immagine: X@Dari_Designs
Oltre alla tonalità di colore e al contenuto delle foto, mantenere la coerenza dei personaggi è fondamentale. Che si tratti di cambiare lo sfondo o di modificare l'espressione di qualcuno in un sorriso, i tratti del viso e le espressioni dei personaggi generati da nano banana rimangono praticamente invariati, persino la curvatura della bocca rimane stabile.
Ad esempio, quando creiamo un'immagine utilizzando un carattere fisso, questo carattere può rimanere coerente in scene diverse.

▲ L'immagine originale è a sinistra. Inserisci la parola chiave e imposta la Torre Eiffel come sfondo per ottenere l'immagine a destra. Fonte dell'immagine: X@zan_sihay
Poiché riesce a mantenere un elevato grado di coerenza nel tono, nell'atmosfera, nella scena e nell'argomento con l'immagine di input, alcuni internauti hanno utilizzato la nano-banana per trasformare l'intera scena in una nuova storia.

▲ L'immagine originale si trova nell'angolo in alto a sinistra. Per prima cosa, vengono inserite le parole chiave per farli sedere al tavolo da biliardo, e poi iniziano a giocare a biliardo, formando un flusso narrativo completo. Fonte immagine: X@D_studioproject
Pur garantendo contenuti fotografici di alta qualità, le immagini generate da Nano Banana sono anche straordinariamente realistiche. A differenza della maggior parte dei precedenti modelli di immagini raw, che spesso producono immagini con un forte impatto di intelligenza artificiale, la qualità delle immagini di Nano Banana è caratterizzata da naturalezza e realismo.

▲Nelle immagini generate da Flux, la consistenza della pelle è ancora evidentemente cerosa e non abbastanza realistica.
Infine, nano banana fa un ottimo lavoro nel convertire le scene in una varietà di stili artistici, tra cui acquerello, pittura a olio e cartoni animati, oltre a foto realistiche.

▲ In grado di "ravvivare" vecchie foto. Fonte immagine: X@DiegoGarey_jpg
Abbiamo anche testato il misterioso modello nano banana in LMArena per vedere se è davvero così potente.
Indirizzo dell'esperienza: https://lmarena.ai/?chat-modality=image (apparirà solo quando selezioni la modalità battaglia)
Una foto di laurea di gruppo può anche essere trasformata in una foto solo per voi due
Per prima cosa, abbiamo trovato una foto di una laurea per vedere se poteva davvero generare una foto di due persone.

Ce l'ha fatta davvero. Sebbene il manto erboso generato non fosse molto simile, in diversi cicli di test, le immagini generate da Qwen, Flux e Seed mostravano comunque più persone. Solo nano-banana ha capito le istruzioni ed è riuscita a estrarre due persone.
Continuiamo a testare con foto che mostrano solo un volto. Useremo la foto iniziale e chiederemo di generare una fototessera con sfondo bianco.
Di seguito sei foto. Potete indovinare quale è stata generata dalla nano-banana, o quale vi piace di più.

▲ Aggiungi la foto all'inizio e inserisci il prompt: "Genera una sua fototessera standard con sfondo bianco, che può essere utilizzata direttamente per la richiesta del passaporto".
Hai letto bene, anche la prima è stata generata dal modello. Non so davvero che tipo di passaporto possa usare una foto del genere.

La risposta è svelata. Sebbene la nano-banana sembri la più bella e delicata, quella generata da GPT-IMG assomiglia più a una fototessera perché si vede un po' di orecchio; Flux sembra non avere idea di cosa sia una fototessera; Qwen è una fototessera molto standard, ma è troppo "standard", come se non si riferisse alla foto che gli ho inviato.
Continuiamo a prendere la foto identificativa generata da nano-banana e gli chiediamo di generare una foto a figura intera per vedere se riesce a mantenere l'aspetto originale del personaggio durante il processo di modifica dell'IA.

Lasciatemi rivelare la risposta direttamente. Questa volta, Gemini si è comportata piuttosto bene. Le foto sono molto realistiche e le scene e gli abiti sono ben abbinati. Anche Nano Banana si è comportata bene, ma ho sempre avuto la sensazione che il suo stile sia un po' diverso da quello della ragazza nella foto del documento d'identità.
Esistono molti modi per modificare un singolo personaggio in una singola foto. Ad esempio, nell'immagine qui sotto, a Musk viene chiesto di fare il gesto della boxe, e il personaggio viene praticamente copiato al 100%. Gli occhi, la forma del viso, il naso e la bocca di Musk sono tutti copiati molto bene.


L'elaborazione di una singola foto può raggiungere una riproduzione perfetta, ma come si comporta la nano banana quando elabora più foto?
Abbiamo trovato due foto con dei volti e abbiamo chiesto alla modella di unire le due persone per vedere se il risultato sarebbe stato comunque simile a una foto vera, senza difetti visibili.

▲ Inserisci le due immagini nell'angolo in basso a destra e il prompt sarà "Lascia che queste due persone combattano liberamente sul ring"
Il lato sinistro dell'immagine è stato creato con la nano-banana, mentre l'angolo in alto a destra è l'effetto generato da Gemini. Si può notare una netta differenza. La nano-banana è molto realistica e si riconosce a colpo d'occhio. Quello vestito di blu è Zuckerberg.
La nano-banana ha anche una sorprendente comprensione del mondo fisico
Oltre a preservare l'aspetto dei personaggi, nano banana è in grado di mantenere oggetti, sfondi e altri elementi completamente coerenti con l'immagine di input.
Ad esempio, nelle due immagini di stanze seguenti, mostriamo come accendere le luci; poi troviamo un'altra immagine per spegnerle.

Quando è stato chiesto di accendere le luci, sia Nano Banana che Flux sembravano funzionare bene a prima vista. Tuttavia, è emersa una sottile differenza: Nano Banana non solo attivava la lampada da terra ma, cosa ancora più importante, sembrava ricalcolare l'intera logica di illuminazione della stanza. L'ombra sul tavolino non era più influenzata principalmente dalla luce proveniente dalla finestra, ma ora veniva correttamente proiettata lontano dalla nuova fonte luminosa.
Non si limita a "incollare" un effetto luminoso su un'immagine; "comprende" più da vicino le istruzioni a livello di spazio tridimensionale e leggi fisiche, in modo molto simile al modello mondiale recentemente rilasciato da Google, Genie 3. In confronto, il risultato di Flux è più simile a un filtro; l'atmosfera c'è, ma la logica è un po' discutibile.

La differenza nell'effetto dello spegnimento delle luci è ancora più evidente. Flux fa sparire direttamente la lampada da terra, mentre Nano Banana spegne le luci e ne regola anche le ombre e i colori.
La creatività può anche essere mantenuta, il testo puro e le immagini non sono buoni come GPT
Anche il trasferimento di stile è un vantaggio importante di Nano Banana. Che si tratti di rendere colorate le foto in bianco e nero o di rendere realistiche le immagini distorte, Nano Banana offre prestazioni migliori rispetto ad altri modelli di editing di immagini in LMArena.

Il ritratto di Lu Xun generato da Flux dà sempre l'impressione che la saturazione del colore non sia ben regolata, mentre quello generato da nano-banana mi sembra molto reale e conserva il senso del tempo.
Abbiamo anche trovato degli screenshot del trailer del film uscito di recente "The Little Monsters of Langlang Mountain" e abbiamo chiesto al modello di convertire lo stile di animazione in altri stili.

Tuttavia, anche l'intelligenza artificiale può commettere errori, come in questa immagine. Nano Banana mi ha fornito direttamente l'immagine originale, ma Qwen ha trasferito lo stile molto bene.
Naturalmente, è anche possibile che lo "stile Ghibli" violi alcune regole di utilizzo del modello, proprio come al momento non esiste un modo per 4o di immettere direttamente i prompt dello stile Ghibli per generare foto.

▲ Ancora la foto all'inizio, il prompt è "Genera uno schizzo di questa foto"
La nano-banana ha un modo tutto suo di gestire lo stile schizzo. L'immagine in alto a destra è il risultato dello schizzo con la nano-banana. Penso che sia migliore di quella in basso a sinistra perché assomiglia di più a uno schizzo.
Inoltre, nano-banana si concentra ancora sull'essere un modello di editing delle immagini e le sue prestazioni nell'elaborazione di immagini basate esclusivamente sul testo non sono eccezionali.
Un utente su X ha utilizzato nano-banana per condurre un test di texture complessa/ad alta difficoltà, nonché un test di generazione di poster di texture avanzate e luci e ombre, e il risultato è stato che GPT-IMG ha vinto.

Fonte dell'immagine: X@ZHO_ZHO_ZHO
La nano-banana è attualmente un modello "sconosciuto" che appare casualmente solo nei test avversari ciechi su LMArena.
Nei nostri test, abbiamo digitato un prompt, generato due immagini, votato quella migliore e infine abbiamo scoperto quale modello apparteneva a quale modello; a volte non ci è capitato di incontrarla per cinque o sei volte di seguito.
Sebbene la fonte ufficiale o lo sviluppatore di questo modello non siano stati confermati ufficialmente, le discussioni su Internet, nonché la consistenza e la straordinaria qualità delle immagini generate, hanno portato molti a credere che si tratti probabilmente di un progetto non divulgato di Google.
Dopotutto, Google ha una tradizione nell'uso di nomi in codice al suo interno, come frutta o snack.
Quando abbiamo provato a chiedergli di visualizzare il nome del suo modello sullo schermo del computer, nano-banana ha digitato con sicurezza "Gemini Pro".

L'ultima notizia è che Logan Kilpatrick, responsabile di Google DeepMind, ha inviato un tweet un giorno prima del lancio di Google Pixel 10, che conteneva solo un'emoji di banana, il che confermava sostanzialmente che questo modello proveniva da Google.

Questa volta, Google ha introdotto lo strumento di fotoritocco basato sull'intelligenza artificiale "Ask Photos" sulla serie Pixel 10. Dobbiamo solo inserire la richiesta di modifica che vogliamo apportare alla foto e lasciare che l'intelligenza artificiale la completi. Non dobbiamo più selezionare cursori complessi, pennelli e altri strumenti.
Per prevenire l'impatto negativo della manomissione delle immagini, Google ha inoltre affermato che tutte le immagini modificate utilizzando funzioni di intelligenza artificiale saranno indicate nelle credenziali dei contenuti C2PA (Content Source and Authenticity Alliance).
Il blogger X testingcatalog ha pubblicato un articolo in cui si afferma che il modello di modifica delle immagini nano-banana non verrà utilizzato solo in Gemini e Whisk (prodotti di generazione di immagini di Google Labs), ma apparirà anche in Flow (prodotto di generazione video di Google).
In effetti, non è difficile immaginare che la funzione di conversione immagine-video di Flow sia identica all'editing delle immagini che abbiamo testato, facendo muovere i personaggi nell'immagine.
La fuga di notizie ha anche menzionato che Google sta testando la generazione di video con un rapporto di aspetto verticale per una migliore visualizzazione e diffusione su piattaforme come TikTok e YouTube Shorts.

Google ha fatto molto di recente, in sordina, a partire dal modello mondiale Genie 3, per poi conquistare il primo posto nell'arena dei grandi modelli linguistici LMArena, e infine questo misterioso modello nano-banana. Questo mi rende sempre più entusiasta dell'uscita di Gemini 3.

▲Il modello di Google si classifica al primo posto in molteplici attività LMArena
Se all'epoca 4o rappresentava l'apice delle immagini generate dall'intelligenza artificiale, nano-banana ha iniziato a ridefinire l'editing delle immagini.
#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFaner: iFaner (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il prima possibile.

