La misteriosa intelligenza artificiale “Banana” è ufficialmente online! Il nuovo re del fotoritocco di Google esplode a tarda notte | Ecco come provarlo
Ricordate il misterioso modello di modifica delle immagini tramite intelligenza artificiale "nano-banana" di cui tutti parlavano prima?
Qualche giorno fa abbiamo condotto diversi cicli di test nell'arena del modello linguistico di grandi dimensioni LMArena e i risultati sono stati eccellenti.
Ora Google ha finalmente svelato i suoi segreti.
▲ Logan Kilpatrick, responsabile di Google AI Studio, ha twittato il lancio ufficiale del modello Gemini 2.5 Flash Image
Google ha lanciato ufficialmente Gemini 2.5 Flash Image, il suo modello più avanzato per la generazione e la modifica delle immagini.
▲ Classificato al primo posto in molte liste, in particolare nella LMArena, dove è quasi molto più avanti
In un blog tecnico aggiornato, Google ha affermato che la precedente versione Gemini 2.0 Flash è stata apprezzata dagli sviluppatori per la sua bassa latenza e l'elevato rapporto costi-benefici nella generazione delle immagini, ma gli utenti si aspettavano anche immagini di qualità superiore e funzioni di controllo creativo più potenti .
Gemini 2.5 Flash Image risponde a queste aspettative con una serie di importanti aggiornamenti.
Come nella nostra precedente esperienza, le caratteristiche principali di Gemini 2.5 Flash Image includono quanto segue:
- Mantenere la piena coerenza dei ruoli
- Modifica delle immagini basata sui suggerimenti
- Sfruttare la conoscenza del mondo reale dei Gemelli
- Fusione di immagini multiple
Un'immagine racconta una storia: cambia personaggi e scene come preferisci
Uno dei maggiori punti deboli dei precedenti strumenti di rendering basati sull'intelligenza artificiale era la difficoltà nel mantenere un rendering coerente di personaggi o oggetti. Ci è capitato a tutti: cercare di renderizzare lo stesso personaggio in scene diverse solo per vedere lo stile del rendering cambiare radicalmente, facendolo apparire ogni volta come una persona completamente diversa.
Gemini 2.5 Flash Image risolve completamente questo problema.
▲ Fonte immagine: X@geminiap
Può facilmente posizionare lo stesso personaggio in ambienti diversi o mostrare lo stesso prodotto da più angolazioni, mantenendone perfettamente invariato il soggetto principale. Google ha affermato che questa è senza dubbio una funzionalità rivoluzionaria per scenari che necessitano di raccontare una storia continua, generare risorse per serie di marchi o creare cataloghi di prodotti.
Per dimostrare questa capacità, Google AI Studio fornisce anche un'applicazione modello in modo che gli sviluppatori possano iniziare rapidamente e persino eseguire uno sviluppo secondario basato su di essa.
▲ Indirizzo dell'esperienza: https://aistudio.google.com/apps/bundled/past_forward
In questo progetto esperienziale non dobbiamo inserire alcuna parola di prompt, basta caricare una foto ritratto e verrà richiamato l'ultimo modello di immagine per generare foto per noi di vari anni, ad esempio dal 1976 al 1990.
Quando Musk vide quanto era bello, deve aver pensato: anche il mio Grok può fare la stessa cosa.
Modifica le foto in una frase con linguaggio naturale
Oltre a garantire una generazione di personaggi altamente coerente, un altro punto di forza è la precisione nell'editing. Gemini 2.5 Flash Image ci consente di apportare modifiche locali precise alle immagini tramite semplici comandi in linguaggio naturale.
Come sfocare lo sfondo di una foto, togliere delle macchie da una maglietta, togliere qualcuno da una foto di gruppo, cambiare la posa di una persona, colorare una foto in bianco e nero…
Tutto questo non richiede più operazioni software professionali complesse e noiose. Dobbiamo solo dire all'IA cosa vogliamo fare in una sola frase, proprio come quando chattiamo.
Si tratta della stessa esperienza che abbiamo avuto in precedenza all'LMArena, dove abbiamo anche cambiato lo stile della foto da bianco e nero a colori e apportato piccole modifiche alla foto.
▲ Fonte immagine: X@geminiapp
Google ha anche progettato una semplice applicazione per aiutarci a sperimentare al meglio questa modifica delle immagini basata su prompt, ma l'effetto è del tutto paragonabile a quello del software PS.
▲ Indirizzo dell'esperienza: https://aistudio.google.com/apps/bundled/pixshop
Non solo puoi disegnare, ma puoi anche "capire" il mondo
Sebbene in passato i modelli di immagini potessero creare immagini meravigliose, spesso mancavano di una profonda comprensione semantica del mondo reale.
Gemini 2.5 Flash Image sfrutta la potente base di conoscenza mondiale di Gemini per rendere la generazione di immagini più "intelligente".
Ciò significa che il modello non solo è in grado di comprendere i nostri approssimativi diagrammi disegnati a mano, ma può anche rispondere a domande relative al mondo reale ed eseguire istruzioni di modifica complesse in un unico passaggio.
▲ Indirizzo dell'esperienza: https://aistudio.google.com/apps/bundled/codrawing
Sembra molto simile al ragionamento multimodale. Google ha dimostrato un'applicazione didattica interattiva in AI Studio che ha trasformato una semplice tela in un tutor intelligente in grado di rispondere alle domande. Ammiro sinceramente la potenza di questo modello.
Fusione di immagini: ottieni facilmente collage "senza soluzione di continuità"
Il nuovo modello offre anche una funzionalità interessante: la fusione multi-immagine. Possiamo "posizionare" oggetti da un'immagine nella scena di un'altra immagine, oppure utilizzare lo stile di un'immagine per renderizzare un'altra stanza, e l'intero processo può essere completato con un semplice comando rapido.
Si tratta anche di un'applicazione di esperienza modello in Google AI Studio. Basta trascinare e rilasciare il prodotto nella nuova scena per generare rapidamente un'immagine di fusione che appare fluida e simile a una foto reale.
▲ Indirizzo dell'esperienza: https://aistudio.google.com/apps/bundled/home_canvas
In questa applicazione modello, non abbiamo nemmeno bisogno di inserire parole di prompt. Possiamo trascinare direttamente un oggetto in una posizione specifica sull'immagine della scena, che genererà automaticamente un'immagine fusa.
Come iniziare?
Oltre alle applicazioni modello in Google AI Studio che abbiamo menzionato in precedenza.
Attualmente, è possibile accedere all'immagine Flash Gemini 2.5 tramite l'APP Gemini, l'API Gemini, Google AI Studio e Vertex AI.
Per quanto riguarda la chiamata all'API, il prezzo specifico è di 30 dollari USA per milione di token in uscita. Secondo l'introduzione ufficiale, la generazione di un'immagine consuma circa 1.290 token in uscita, il che significa che il costo di ciascuna immagine è di circa 0,039 dollari USA, ovvero meno di 0,3 yuan in RMB.
Vale la pena ricordare che tutte le immagini create o modificate tramite Gemini 2.5 Flash Image conterranno la filigrana digitale invisibile SynthID per identificarle come contenuti generati o modificati dall'intelligenza artificiale.
Si tratta della stessa credenziale di contenuto C2PA (Content Provenance and Authenticity Alliance) utilizzata da Google qualche giorno fa quando ha lanciato la serie di telefoni cellulari Pixel 10 e ha parlato dello strumento di modifica delle immagini basato sull'intelligenza artificiale Ask Photo.
Infine, Google ha anche affermato che sta lavorando duramente per migliorare le prestazioni del modello nel rendering di testi lunghi , nella stabilità della coerenza dei caratteri e nell'autenticità dei dettagli delle immagini.
In breve, il rilascio di Gemini 2.5 Flash Image ha fatto fare un grande passo avanti allo strumento di intelligenza artificiale per le immagini, passando da un semplice giocattolo per dipingere a uno strumento veramente pratico per la creatività e la produttività.
Non solo risolve molti dei problemi che abbiamo riscontrato in passato quando utilizzavamo il disegno basato sull'intelligenza artificiale, ma offre anche nuovi modi di giocare più interessanti e pratici.
Prima che la funzione di generazione di 40 immagini venisse introdotta, ho visto molte app concentrarsi sulla generazione di una poesia al giorno a partire da una singola immagine. C'erano anche app come CapWords, che ha vinto l'Apple Design Award di quest'anno. Scatta una foto della tua vita quotidiana e impara una nuova lingua nella vita reale…
Non vedo l'ora di scoprire quali nuove applicazioni saranno create sulla base del modello Gemini 2.5 Flash Image.
#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFaner: iFaner (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il prima possibile.