Proprio ora è stata rilasciata la versione OpenAI di Nano Banana: Ultraman si trasforma all’istante in un modello maschile sexy | con risultati di test reali.

L'entusiasmo suscitato da GPT-4o nella prima metà dell'anno non solo ha fatto sì che Ultraman risentisse degli effetti delle GPU, ma ha anche reso le immagini raw e la comprensione visiva quasi punti di forza standard per tutti i modelli di grandi dimensioni.
Ma nella seconda metà di quest'anno è stata proprio quella "banana" a farsi sentire davvero: la Nano Banana.
Nel tentativo di riconquistare la sua posizione di leadership, OpenAI ha lanciato ufficialmente oggi il suo ultimo modello di visione artificiale, GPT-Image-1.5. Si tratta di un'altra importante mossa nell'ambito dell'iniziativa "Red Alert" di OpenAI, dopo GPT-5.2.

La versione con salvataggio dati è la seguente:
- Esecuzione delle istruzioni più accurata
- Modifica più precisa
- Sono conservati dettagli più completi
- Quattro volte più veloce di prima
Di' addio agli aspetti mistici dei gacha pull e sblocca il massimo livello di dettaglio nell'editing!
Il più grande miglioramento di GPT-Image-1.5 è la "modifica precisa".
In precedenza, usare l'intelligenza artificiale per modificare le immagini era come avere a che fare con un parrucchiere che non capiva il linguaggio umano. Magari volevi solo sistemarti la frangia, e lui ti avrebbe rasato la testa. Ora, il modello finalmente capisce il linguaggio umano. Si adatta esattamente dove vuoi cambiare.
L'illuminazione, la composizione e le caratteristiche dei personaggi vengono mantenute coerenti durante l'input, l'output e il successivo ciclo di editing.
Sembra astratto? Dai un'occhiata all'esempio ufficiale.
- Unisci due uomini e un cane in una foto di una festa di compleanno per bambini in stile film degli anni 2000 →
- Aggiungi bambini rumorosi che lanciano oggetti sullo sfondo →
- Modifica l'uomo sulla sinistra con uno stile retrò disegnato a mano e il cane con uno stile da peluche, mantenendo invariati l'uomo sulla destra e lo sfondo.
- Mettete i maglioni OpenAI a tutti →
- Alla fine è stato tenuto solo il cane e il filmato è stato incluso in una diretta streaming di OpenAI…

Dopo una serie di azioni, la logica dello schermo non si è bloccata. Questo dimostra che GPT-Image-1.5 non si basa più su supposizioni, ma comprende davvero la struttura dello schermo ed è in grado di eseguire operazioni CRUD. La capacità di modificare i contenuti in modo accurato e affidabile è il suo attuale vantaggio competitivo tecnologico.
Diamo un'occhiata ad altri casi tratti dai miei test effettivi.
Forse hai visto il capolavoro "Panorama di fiumi e montagne", ma potresti esserti perso qualche dettaglio.

Allo stesso modo, chi dice che uno Shiba Inu di nome Kabosu, arrivato dall'era moderna, non possa apparire all'improvviso nel dipinto "Cento cavalli"?

Persino l'imminente duello in gabbia tra Musk e Zuckerberg è stato trasformato con successo nel personaggio di Ultraman usando GPT-Image-1.5. I volti non sembravano strani e l'incongruenza era praticamente inesistente.

Abbiamo bisogno di una foto estremamente dettagliata e realistica, scattata da un'angolazione estremamente bassa, che mostri Musk seduto sulle rive del Fiume delle Perle, con una mano appoggiata sulla guglia della Canton Tower. Per enfatizzare le dimensioni dell'oggetto, dobbiamo anche sparpagliare piccole imbarcazioni e turisti intorno ai suoi piedi.
Di conseguenza, ha effettivamente imparato cosa significa "proporzione".

▲ Suggerimento: Una foto estremamente dettagliata e realistica scattata da un'angolazione estremamente bassa. Elon Musk è seduto sulle rive del Fiume delle Perle, con una mano appoggiata sulla guglia della Canton Tower. Per enfatizzare le sue imponenti dimensioni, si potrebbero aggiungere piccole imbarcazioni e turisti ai suoi piedi. 2K, 16:9
Finalmente ho smesso di disegnare quegli "scarabocchi", ma la mia scrittura cinese è ancora…
Rispetto al modello di immagine iniziale, GPT-Image-1.5 è più efficace nel seguire istruzioni complesse e dettagliate e riesce a mantenere le relazioni preimpostate tra gli elementi.
L'esempio ufficiale mostra un diagramma a griglia 6×6 in cui ogni riga deve essere disposta in base a un contenuto specifico: lettere greche, animali, oggetti, icone e parole. Il modello è strutturato in modo ordinato, il che potrebbe piacere anche a chi ha tendenze ossessivo-compulsive.

Dopo aver effettuato dei test, la conversione di disegni al tratto in immagini realistiche è diventata un'operazione di base.

Anche le funzionalità di rendering del testo sono state ulteriormente migliorate, consentendo una migliore gestione di contenuti densi e con caratteri piccoli. Ad esempio, un documento Markdown può essere visualizzato come un normale articolo di giornale, includendo note di rilascio GPT-5.2, confronti di benchmark delle prestazioni, ecc., mantenendo l'integrità e l'accuratezza della formattazione e dei numeri.

Questa funzionalità può sembrare insignificante, ma è assolutamente necessaria per gli utenti che devono generare poster, immagini promozionali e infografiche.
Prima di Nano Banana Pro, il rendering del testo tramite IA generativa era incredibilmente astratto; ora è finalmente leggibile. Tuttavia, dobbiamo smentire: sebbene le capacità di GPT-Image-1.5 in inglese siano davvero impressionanti, le sue prestazioni in cinese rimangono un disastro.
Gli ho chiesto di disegnare un fumetto cinese su "Optimus Prime alla conquista di Marte" e lui ha creato per te una lingua marziana.

In alternativa, potrebbe generare l'immagine di un antico personaggio che scrive "Shuidiao Getou" su un muro, con numerosi errori nel testo e nel modo in cui impugnava la penna, come se fosse una penna stilografica.

Fortunatamente, la velocità di generazione è 4 volte superiore. Mentre si sta ancora disegnando un'attività, è possibile avviarne diverse contemporaneamente, riducendo notevolmente il costo di tentativi ed errori. Anche la conoscenza degli oggetti è piuttosto buona: quando si chiede cosa succede quando si aggiunge sale a un uovo in acqua, l'immagine generata è piuttosto buona.

▲L'immagine a sinistra è l'immagine originale, mentre quella a destra è quella generata. Suggerimento: se aggiungi molto sale all'acqua, genera un'immagine che mostra cosa succede a un uovo.
Il blogger @Yuchenj_UW ritiene che l'effetto di generazione di GPT Image 1.5 sia più o meno alla pari con Nano Banana Pro, ma la sua "intelligenza/capacità di ragionamento" è significativamente inferiore a Nano Banana Pro, soprattutto nei problemi matematici (e altri problemi di fisica/labirinti).

Il tuo prossimo designer non deve essere necessariamente una persona. ChatGPT è pronto a competere.
OpenAI ha anche creato un portale dedicato alla creazione di immagini in ChatGPT.
Questo nuovo punto di accesso si trova nella barra laterale sia del sito web che dell'app mobile. È ricco di filtri preimpostati e parole chiave di tendenza e viene aggiornato regolarmente. Carica il tuo ritratto una volta e ogni foto ti ritrarrà; non c'è bisogno di caricare immagini ripetutamente.
A dire il vero, Nano Banana non ha questa funzionalità, ma i modelli di immagini raw nazionali la utilizzano ampiamente da molto tempo. In un certo senso, anche GPT-Image-1.5 sta imparando dal vivo dalle esperienze delle sue controparti nazionali.
Di recente, Ultraman ha condiviso sui social media anche le foto di modelli maschili per un calendario natalizio sexy da lui creato utilizzando GPT-Image-1.5.

Visto che eravamo già qui, abbiamo deciso di dare a Ultraman diverse skin. Stile adesivo, stile bobblehead, stile schizzo: si prevede che da oggi in poi Ultraman tornerà ad essere l'uomo più impegnato di internet.

Un dettaglio degno di nota è che OpenAI fornisce pubblicamente prompt predefiniti quando si richiede la generazione di una soluzione preimpostata. In questo senso, OpenAI incarna davvero l'apertura.

Inoltre, la creazione di biglietti d'auguri, copertine di album, il restauro di vecchie foto e lo scatto di foto professionali per candidature di lavoro sono tutte opzioni preimpostate molto pratiche. Ad esempio, la classica foto di Lu Xun e Tagore, dopo il restauro, ha un aspetto davvero gradevole.

In un post sul blog, Fidji Simo, CEO di OpenAI, ha scritto: "Il pensiero umano non è fatto solo di parole. Infatti, le nostre idee più creative spesso nascono da immagini, suoni, azioni o schemi mentali".
Ha rivelato che ChatGPT si sta trasformando da un prodotto reattivo e incentrato sul testo a uno strumento più intuitivo, più adatto alle diverse esigenze operative. Il passaggio dal testo puro a interfacce multimediali e dinamiche rappresenta un passo significativo in questa evoluzione.
Molti utenti incontrano ChatGPT per la prima volta creando immagini a partire da un testo. Questo processo di "trasformazione del testo in immagini" è magico, ma l'interfaccia di chat di ChatGPT non è stata originariamente progettata per questo scopo. La creazione e la modifica delle immagini sono attività completamente diverse che richiedono uno spazio visivo dedicato.

OpenAI è arrivata addirittura a creare un punto di ingresso dedicato, offrendo alla generazione di immagini un ambiente più creativo, simile a quello di uno studio.
Il piano non finisce qui.
OpenAI introdurrà più elementi visivi per ottimizzare l'esperienza complessiva di ChatGPT. I risultati di ricerca futuri includeranno più immagini e fonti chiare. Per attività come la conversione di unità di misura o il controllo dei punteggi sportivi, sono necessarie visualizzazioni chiare, non solo descrizioni testuali.

Anche l'esperienza di scrittura sta cambiando. In futuro, il modulo di scrittura integrato consentirà di modificare direttamente in chat, esportare in PDF con un clic o inviare direttamente via email. ChatGPT non è più solo un semplice modello linguistico; sta diventando un vero e proprio ambiente di lavoro multimodale.
Naturalmente, oltre agli utenti comuni, anche gli sviluppatori possono utilizzare GPT-Image-1.5 tramite l'API.
Rispetto a GPT-Image-1, GPT-Image-1.5 vanta un elemento di branding più forte e capacità di fidelizzazione visiva chiave, rendendolo adatto a scenari come l'e-commerce e il brand marketing che richiedono la generazione di un gran numero di varianti di immagini. I costi di input e output delle immagini sono ridotti del 20%, consentendo la generazione di più immagini con lo stesso budget.

Riduzioni dei prezzi abbinate a miglioramenti dell'efficienza: questa combinazione di misure è piuttosto efficace.
Inoltre, la scorsa settimana Disney ha annunciato un investimento di 1 miliardo di dollari in OpenAI e un accordo di partnership. In base a questo accordo di licenza triennale, i modelli di generazione di immagini e Sora di OpenAI saranno in grado di generare personaggi Disney, Marvel, Pixar e Star Wars, con l'intenzione di lanciare ufficialmente la funzionalità all'inizio del prossimo anno.

La combinazione di contenuti IP e generazione di intelligenza artificiale offre un grande potenziale.
Ancora più importante, il rilascio di GPT-Image-1.5 segna la trasformazione degli strumenti di generazione delle immagini da "giocattoli" a "strumenti".
La maggior parte degli strumenti di modifica delle immagini basati sull'intelligenza artificiale presenti sul mercato si bloccano non appena si inizia a modificare, senza offrire alcuna coerenza.
GPT-Image-1.5 ha compiuto un passo avanti significativo in questa direzione, almeno. Inizia ad avere funzionalità di post-editing, consentendo un controllo dei dettagli simile a quello di Nano Banana Pro, garantendo la coerenza delle immagini.
Considerate le capacità relativamente deboli del modello, le impostazioni predefinite di generazione delle immagini e le funzionalità più complete di GPT-Image-1.5 lo rendono un buon contrattacco al nuovo Nano Banana.
Portali dedicati alla creazione di immagini, librerie di filtri preimpostati e altri prodotti apparentemente insignificanti risolvono con precisione i problemi degli utenti comuni. Molte persone non hanno bisogno dei modelli più potenti; ciò di cui hanno bisogno sono strumenti che siano "veloci da apprendere, non richiedano regolazioni ripetute e producano risultati quasi identici all'originale".
Essere leader nelle capacità dei modelli è solo il primo passo; il vero problema sta nel trasformare tali capacità in prodotti intuitivi, facili da usare e apprezzati.
#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il prima possibile.

