Nano Banana 2 è appena uscito! È conveniente e disponibile in quantità; dopo averlo provato, ho scoperto questi dettagli.

Quando si utilizza l'intelligenza artificiale per generare immagini, si pone sempre un dilemma: velocità o qualità?

Tuttavia, velocità e qualità non sono necessariamente in contraddizione. Proprio ora, Google ha rilasciato ufficialmente il suo modello di generazione di immagini di nuova generazione: Nano Banana 2 (Gemini 3.1 Flash Image).

Senza troppi slogan rivoluzionari, ha semplicemente racchiuso una migliore qualità dell'immagine e una comprensione più vicina a quella umana in un'architettura di base completamente nuova. Questo aspetto rende le immagini generate dall'intelligenza artificiale meno una questione di fortuna e più rassicuranti da utilizzare.

▲Indirizzo del blog ufficiale: https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/

Grazie all'accesso a Internet, questa intelligenza artificiale capisce davvero cosa stai dicendo.

Per spiegare questo cambiamento, dobbiamo ricordare quanto fosse difficile utilizzare immagini generate dall'intelligenza artificiale tre anni fa.

Se gli chiedete di disegnare "maiale brasato", potrebbe obbedientemente disegnare un pezzo di carne che brucia; ma se gli chiedete di scrivere una frase in cinese su un poster, spesso produrrà un mucchio di scarabocchi senza senso. Questa mancanza di buon senso nei confronti del mondo reale è l'aspetto più frustrante dell'IA di prima generazione.

L'attuale Nano Banana 2 è cambiato molto. Come il suo predecessore, il Nano Banana Pro, accede alla vasta base di conoscenze del mondo reale di Gemini e può combinarla con informazioni in tempo reale provenienti da ricerche web, rendendolo più simile a una persona esperta e dotata di un minimo di buon senso.

Il primo cambiamento che notò fu che cominciò a comprendere meglio lo spazio e le proporzioni.

▲Suggerimento: nell'immagine, la Torre della Radio e della TV Oriental Pearl è dominata da un gatto super gigante e super carino. Gli edifici circostanti sembrano minuscoli modellini giocattolo, mentre il gatto è enorme. Il gioco è ambientato in un ambiente urbano realistico. L'atmosfera generale è tranquilla, calda, rilassante e adorabile.

Nel caso di cui sopra, l'IA ha ricreato con precisione i punti di riferimento di Shanghai e ha gestito in modo estremamente naturale i rapporti di luce, ombra e prospettiva tra il gatto gigante e la città in miniatura.

Il cambiamento più evidente è che ha finalmente imparato a riconoscere e scrivere i caratteri. Ad esempio, quando gli è stato chiesto di dipingere un dipinto a inchiostro tradizionale cinese raffigurante "Ormeggio al ponte d'acero di notte", non solo ha scritto con precisione l'intera poesia "La luna tramonta, i corvi piangono, la brina riempie il cielo" in calligrafia nella parte superiore del dipinto, ma anche l'impaginazione e la concezione artistica del dipinto a inchiostro sono state catturate in modo impeccabile.

▲Certo, non è privo di difetti: se si guarda attentamente, si nota un carattere "completo" in più nella parte superiore.

Oltre alle sue qualità poetiche, è in grado di gestire anche scenari di interfaccia utente piuttosto complessi: nell'immagine sottostante, il complesso pannello dati semitrasparente, la lista della spesa fluttuante e la precisa visualizzazione in cinese sono tutti organizzati in modo ordinato dall'intelligenza artificiale, e la relazione gerarchica tra le informazioni è davvero chiarita.

▲Invito all'azione: Prospettiva in prima persona, ambientata in una corsia di un supermercato ben illuminata. Un essere umano tiene in mano una bottiglia di Fanta davanti alla telecamera. La bevanda arancione brillante è contenuta nell'iconica bottiglia del marchio, circondata da un'interfaccia olografica multistrato di realtà aumentata che mostra dati nutrizionali in cinese, tra cui conteggio delle calorie, contenuto di zucchero, livello di caffeina, indicatore di freschezza, data di scadenza e ricette di bevande rinfrescanti e opzioni di miscelazione di cocktail consigliate basate sul marchio Fanta. Il pannello dell'interfaccia utente ha una finitura effetto vetro, un'illuminazione ambientale soffusa, luci e ombre realistiche, profondità di campo naturale e un'interfaccia interattiva immersiva in prima persona con risoluzione 2K.

L'impaginazione dei fumetti giapponesi in bianco e nero a doppia pagina è estremamente meticolosa e la realizzazione è un gioco da ragazzi.

▲Suggerimento: Progetta una doppia pagina realistica per una rivista di manga. Ogni pagina dovrebbe contenere più vignette in stile manga, disposte in un layout dinamico, che presenti la qualità dei manga giapponesi stampati professionalmente. Lo stile generale dovrebbe essere in bianco e nero, con linee di inchiostro decise e potenti, retini e disegni dei personaggi espressivi. Incorpora fumetti di dialogo e onomatopee cinesi e trasmetti azione, emozioni e ritmo attraverso le transizioni tra le vignette. Le pagine sinistra e destra dovrebbero scorrere senza soluzione di continuità, apparendo come parte della stessa scena o capitolo. Utilizza le tecniche di ripresa tradizionali dei manga: primi piani, campi lunghi, vignette angolate e prospettive e composizioni drammatiche. L'impressione generale dovrebbe essere realistica e credibile, come se si trattasse di una doppia pagina di una vera rivista di manga.

In alternativa, questa infografica cinese sul "Tè Kung Fu" con istruzioni dettagliate fornisce una soluzione visiva che può essere utilizzata direttamente, dall'impaginazione alla concezione artistica.

▲Suggerimento: Un'infografica verticale splendidamente progettata sulla tradizionale cerimonia del tè cinese Kung Fu. Lo sfondo è un tradizionale dipinto a inchiostro cinese. In alto, un grande ed elegante titolo in calligrafia cinese recita chiaramente "Tè Kung Fu". Di seguito sono illustrati tre passaggi: il passaggio 1 mostra il riscaldamento della tazza da tè con acqua bollente, accompagnato dalla frase cinese "温杯" (riscaldamento della tazza); il passaggio 2 mostra l'aggiunta di foglie di tè alla gaiwan (ciotola con coperchio), accompagnato dalla frase cinese "投茶" (aggiunta del tè); il passaggio 3 mostra il versamento del tè, accompagnato dalla frase cinese "出汤" (versamento del tè). Il layout presenta eleganti, minimalisti e caldi toni della terra e un design equilibrato.

Uno dei primi utenti beta di Nano Banana 2 ha dato una valutazione piuttosto oggettiva: "Non è perfetto, ma è il primo modello in grado di gestire immagini e grafici davvero complessi con un certo grado di coerenza".

Per testare i limiti di comprensione di questo nuovo modello, propose con nonchalance una domanda di verifica estremamente insidiosa: "Disegnami 'Dov'è Waldo?', ambientato nell'antica Venezia, ma l'oggetto che stai cercando non può essere una persona; deve essere una lontra che indossa una tuta da volo a strisce blu".

Nano Banana 2 ha finalmente capito la logica, non solo evitando errori nel disegno, ma anche fornendo una risposta solida.

Rendiamoci conto velocemente, così non dovremo più scegliere l'uno o l'altro?

Oltre alla comprensione del buon senso, un altro importante punto di forza di questo aggiornamento di Nano Banana 2 è la sua potente "coerenza tematica".

Durante un singolo processo di generazione, può mantenere i tratti somatici di un massimo di 5 personaggi o l'aspetto di 14 oggetti. Ciò significa che puoi usarlo senza problemi per disegnare fumetti o creare storyboard cinematografici.

Inoltre, la qualità delle immagini è sufficientemente elevata da poter essere utilizzata direttamente sul lavoro.

Può gestire qualsiasi cosa, dalle immagini a 512px ai poster 4K ad altissima definizione. Inserisci un prompt su "Chongqing hot pot" e genererà una scena di strada in una notte piovosa in stile cyberpunk, con dettagli meticolosi sull'asfalto bagnato, i riflessi delle luci al neon rosse e blu e il cartello "Aperto 24 ore su 24".

▲Titolo: Una foto di strada cinematografica di una trafficata città asiatica in una notte piovosa. Un'enorme insegna al neon rossa brillante è appesa a un vecchio edificio, con la scritta "Chongqing Hot Pot" chiaramente visibile. Sotto, un'insegna al neon blu più piccola recita "Aperto 24 ore su 24 – Benvenuti". L'asfalto bagnato riflette le luci al neon.

Può anche gestire lo stile Pop Art con la sua forte intensità cromatica.

O forse questo tipo di editoriale di moda, che possiede un tocco di assurdità ma trasuda un'atmosfera di lusso:

▲Suggerimenti: questa fotografia ad alta risoluzione con vista dall'alto è stata scattata con una LOMO Ic-a. Il terreno è ricoperto da innumerevoli cartelloni pubblicitari in bianco e nero che ritraggono bellissime modelle, e in cima ai cartelloni c'è un'attrice cinematografica cinese incredibilmente bella che indossa un lungo cappotto nero.

In questo caso di studio, ripreso da una prospettiva a volo d'uccello, l'IA ha magistralmente simulato la texture unica di una vecchia macchina fotografica LOMO. L'attrice è in piedi da sola sul terreno ricoperto di poster in bianco e nero, creando una potente tensione cinematografica e un forte senso narrativo.

Tuttavia, non è privo di evidenti difetti. Quando forza personaggi anime, schizzi a matita e Nendoroid nella stessa scena reale di un bar, l'integrazione dei personaggi abbozzati appare molto goffa e la transizione ai bordi non è abbastanza naturale.

Chiaramente, in termini di fusione interdimensionale, è molto meno naturale rispetto alla precedente generazione di modelli e c'è ancora margine di miglioramento.

▲Parola di riferimento: una foto di una scena quotidiana in un bar affollato che serve la colazione. In primo piano c'è un uomo in stile anime con i capelli blu, una delle persone è uno schizzo a matita, un'altra è una persona realizzata in claymation.

Infatti, nonostante gli elogi entusiastici del blog ufficiale per Nano Banana 2 (Gemini 3.1 Flash Image), la qualità e la velocità effettive delle immagini generate non hanno mostrato alcun miglioramento evidente e, in alcuni scenari, erano addirittura inferiori ai modelli della generazione precedente.

Ciò che ha davvero permesso al Nano Banana 2 di affermarsi è stato il suo rapporto qualità-prezzo estremamente conveniente.

A partire da oggi, puoi utilizzarlo facilmente nell'app Gemini e nella casella di ricerca di Google. Gli utenti regolari senza abbonamento possono ottenere 100 biglietti gratuiti entro 24 ore; mentre gli abbonati Pro possono ottenere fino a 1000 biglietti.

Per gli sviluppatori, il prezzo dell'API è stato dimezzato, arrivando a costare solo la metà del modello Pro della generazione precedente. Ciò si traduce in un costo per generare una singola immagine 4K ad alta risoluzione di circa 0,15 dollari.

▲ Link fornito: https://ai.google.dev/gemini-api/docs/pricing#gemini-3.1-flash-image-preview

Naturalmente, più l'intelligenza artificiale riesce a produrre in serie immagini ad alta risoluzione a costi e velocità estremamente bassi, più le persone si sentono a disagio. Con le immagini false che inondano Internet, il detto "vedere per credere" non è più attendibile. Se chiunque può generare una foto quasi identica in un secondo, come possiamo distinguere la differenza?

Google ne è ben consapevole e ha quindi potenziato la propria tecnologia anticontraffazione. Nano Banana 2 migliora ulteriormente il supporto per la filigrana digitale SynthID e le credenziali di contenuto C2PA, rendendo più chiaro se un'immagine è generata dall'intelligenza artificiale e come è stata modificata.

Secondo le statistiche, questa funzione di verifica in Gemini è stata richiamata più di 20 milioni di volte da novembre dell'anno scorso.

Lo sviluppo della grafica basata sull'intelligenza artificiale negli ultimi due anni è stato davvero sorprendente. Abbiamo sperimentato lo stupore iniziale di Nano Banana Pro, così come la noiosa configurazione e la lunga attesa. L'avvento di Nano Banana 2 tenta di combinare ulteriormente qualità e velocità, riducendo notevolmente la barriera d'ingresso per gli utenti.

Un'idea che ti balena in mente non ha più bisogno di continue revisioni e attese ansiose. Nel momento in cui premi invio, è lì. Naturale, semplice e immediatamente disponibile: sembra banale, ma riuscirci è in realtà davvero straordinario.

#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

ifanr | Link originale · Visualizza commenti · Sina Weibo