Trasformando Elon Musk in un teppista di strada e Lin Daiyu in un marchio alla moda: questa nuova funzionalità video basata sull’intelligenza artificiale è davvero avvincente e ti insegna passo dopo passo come diventare un fashionista in pochi secondi.

Hai 30 secondi per presentare il tuo OOTD di oggi.

Il CEO di Apple, Tim Cook, che di solito è di modi gentili e indossa solo abiti semplici, ha indossato un piumino oversize e bretelle tempestate di diamanti nel suo "video di identità personale" e ha assunto la posa da gangster più aggressiva per la telecamera.

Il tocco più ingegnoso fu quello di tirare fuori una calcolatrice della Texas Instruments come se stesse estraendo una pistola.

▲Fonte video: https://x.com/ReflctWillie/status/1997819640874205685

Molti spettatori sono rimasti affascinati dal video, trovando l'esecuzione one-shot incredibilmente soddisfacente e guardandolo ripetutamente. Il creatore del video ha applicato riprese degne di Hollywood a contenuti assurdi. Lo stile sofisticato e il contenuto umoristico hanno impedito a questo video di intelligenza artificiale di mostrare la volgarità spesso associata a tali video, rendendolo rapidamente un successo sui social media.

Immediatamente è apparsa la versione di Musk.

▲ Fonte video: https://x.com/VibeMarketer_/status/1999227084250448083

L'autore ha fornito meticolosamente un processo di produzione completo, utilizzando provini a contatto per ottenere un set di 6 immagini con sfondi, espressioni facciali e abiti identici, ma pose diverse.

▲ Prova di stampa su pellicola 3×2

Il termine "stampa" originariamente si riferiva a una pagina indice fotografica in stile miniatura utilizzata in fotografia durante l'era della pellicola. Applicare questo concetto a Nano Banana Pro significa sfruttare appieno le sue capacità di coerenza per generare contemporaneamente una serie di screenshot video con stili e angolazioni diverse, e quindi utilizzare il primo e l'ultimo fotogramma per generare il video.

Nano Banana Pro può generare bozze complete con un massimo di nove o più fotogrammi chiave in un'unica esecuzione, mantenendo ogni fotogramma con un'eccellente coerenza in termini di carattere, dettagli e narrazione. Anche se generato separatamente, Nano Banana Pro può compilare automaticamente i contenuti in base alle immagini di riferimento caricate, garantendo la coerenza narrativa.

▲ Generazione video del primo e dell'ultimo fotogramma, prompt: Riprese one-shot, la telecamera si muove fluidamente e lentamente, concentrandosi sugli occhiali della persona, mantenendo il soggetto sempre nell'inquadratura. I movimenti del soggetto sono minimi e cauti.

Una volta ottenute le immagini, possiamo combinarle in un video convertendo il primo e l'ultimo fotogramma. Modelli e strumenti di generazione video come Keling, Veo 3.1, Hailuo e CapCut possono farlo facilmente.

Vale la pena notare che Sora 2 attualmente non supporta il caricamento di immagini con volti reali e Grok Imagine di Musk supporta solo la conversione del primo fotogramma in video. Nel complesso, consigliamo comunque di utilizzare Google Veo 3.1, la funzione "Jimeng" di CapCut o Kuaishou Keling per completare questa operazione.

▲Convertitore di immagini in video Grok, contenuto predefinito, motivo non chiaro.

Nella guida fornita da questo videoblogger, sono stati utilizzati Nano Banana Pro e Coring per raggiungere questo obiettivo, e ha sviluppato un intero set di strumenti che ci consentono di sostituire liberamente vari personaggi.

▲ Fonte video: https://x.com/ReflctWillie/status/1998720751806066916

Secondo il suo flusso di lavoro condiviso, poiché questo video è sostanzialmente simile a quello di Cook, richiede solo la modifica delle tre immagini di input e qualche piccolo aggiustamento. Ad esempio, ciò che tira fuori dalla tasca è una console Game Boy, e ci sono altri elementi che si adattano meglio al personaggio: Cook ha un dente d'oro con il codice azionario Apple AAPL incorporato, e il presidente della Federal Reserve Powell indossa un anello d'oro con il logo della FED.

▲Indirizzo del progetto: https://github.com/shrimbly/node-banana

Attualmente, il progetto è ospitato sulla nota piattaforma open source GitHub. Se preferisci sperimentare in autonomia, puoi scaricare il progetto sul tuo computer locale, accedere alla tua API Gemini e applicare direttamente questo processo.

Abbiamo anche provato questo progetto automatizzato e generato diverse immagini. Rispetto alla generazione tramite il sito web o l'app Gemini, è decisamente molto più comodo. Non dobbiamo caricare ripetutamente le immagini; possiamo invece selezionare direttamente quelle che ci servono e modificare i prompt, semplificando l'intero processo.

Tuttavia, non preoccuparti se non hai un'API. Segui i passaggi dettagliati qui sotto e potrai fare la stessa cosa utilizzando la versione web di Gemini.

Trova una tua foto, con i tuoi vestiti preferiti e un paio di occhiali alla moda. Prendiamo come esempio Lin Daiyu, una donna dal talento eccezionale, dal carattere distaccato e dal temperamento malinconico, e vediamo come sarebbe il suo servizio fotografico OOTD (Outfit of the Day).

Qui abbiamo generato direttamente una foto di Lin Daiyu utilizzando Nano Banana Pro.

▲Parola di suggerimento: Soggetto: Un ritratto iperrealistico di alta moda di Lin Daiyu da Il sogno della camera rossa. Ha una bellezza fragile e malinconica, pelle pallida e le sue caratteristiche "sopracciglia aggrottate" (leggermente accigliate). Ha un aspetto decisamente triste e intellettuale. Abbigliamento: Indossa un abito tradizionale della dinastia Qing di alta qualità (stile Hanfu). Il tessuto è composto da strati di seta traslucida e organza in un verde bambù pallido e bianco luna. Intricato ricamo di petali cadenti. Indossa una forcina per capelli di giada. Ambientazione: All'interno di uno studio fotografico professionale moderno e minimalista. Uno sfondo in tela testurizzata o grigio scuro. Illuminazione e ripresa: Illuminazione da studio cinematografico, illuminazione Rembrandt per accentuare gli zigomi e l'umore. Illuminazione softbox, messa a fuoco nitida, scattata con Hasselblad X2D, obiettivo da 85 mm. Profondità di campo elevata. Stile: Editoriale di Vogue Cina, etereo, elegante, triste, estetica orientale, fotografia di moda d'avanguardia, texture ultra dettagliata. 16:9, 4K.

Dopo aver ottenuto la foto del personaggio, le immagini degli occhiali e della giacca sono facoltative. Se non vengono caricate, Nano Banana Pro genererà automaticamente la giacca e gli occhiali alla moda corrispondenti.

Abbiamo trovato online una giacca alla moda da farle indossare, e poi abbiamo aggiunto un po' di controllo sull'acconciatura, sul trucco e un'espressione sprezzante che guardava dall'alto in basso queste cose banali ai prompt predefiniti.

Parola di prompt predefinita: Mostrami un'immagine di un servizio fotografico di alta moda della modella che indossa la giacca oversize e gli occhiali. L'immagine dovrebbe mostrare un'inquadratura a figura intera del soggetto. La modella guarda oltre l'obiettivo con un'espressione leggermente annoiata e le sopracciglia alzate. Ha una mano alzata e due dita che tamburellano sul lato degli occhiali.
L'immagine è stata scattata da un'angolazione bassa, guardando il soggetto dall'alto.
L'immagine è stata scattata su pellicola Fuji Velvia con un obiettivo a focale fissa da 55 mm e flash potente; la luce è concentrata sul soggetto e sfuma leggermente verso i bordi dell'inquadratura. L'immagine è sovraesposta, con una grana della pellicola significativa e una saturazione eccessiva. La pelle appare lucida (quasi unta) e sulla montatura degli occhiali sono presenti forti riflessi bianchi.

Il passo successivo è generare un cosiddetto Contact Sheet. Inserendo la foto della giacca e degli occhiali ottenuta in precedenza e inserendo poi i seguenti prompt, possiamo ottenere uno storyboard multi-angolazione con inquadrature coerenti dei personaggi.

Parole chiave:
Analizza l'immagine di input e fai un inventario silenzioso di tutti i dettagli critici per la moda: il/i soggetto/i, i capi esatti del guardaroba, i materiali, i colori, le texture, gli accessori, i capelli, il trucco, le proporzioni del corpo, l'ambiente, la geometria del set, la direzione della luce e la qualità delle ombre.
Tutti i dettagli del guardaroba, dello styling, dei capelli, del trucco, dell'illuminazione, dell'ambiente e della tonalità del colore devono rimanere invariati al 100% in tutte le inquadrature.
Non aggiungere o rimuovere nulla.
Non reinterpretare materiali o colori.
Non fornire alcun ragionamento.

L'output visibile deve essere:

Un'immagine di provino a contatto 2×3 (6 fotogrammi).

Quindi una ripartizione dei fotogrammi chiave per ogni fotogramma.

Ogni fotogramma deve rappresentare un punto di sosta dopo un movimento drammatico della telecamera: descrivere solo la posizione finale della telecamera e cosa sta facendo il soggetto, mai il movimento stesso.

I sei fotogrammi devono essere spazialmente dinamici, non lineari e visivamente distinti.

Elenco di 6 fotogrammi richiesti
1. Ritratto di bellezza di alta moda (primo piano, editoriale, intimo)

La fotocamera è posizionata molto vicino al viso del soggetto, leggermente sopra o leggermente sotto il livello degli occhi, utilizzando un'elegante angolazione sfalsata che esalta la struttura ossea e mette in risalto gli elementi chiave del guardaroba vicino alla scollatura. Profondità di campo ridotta, resa impeccabile delle texture e una composizione scultorea e alla moda.

2. Telaio a tre quarti ad angolo alto

La telecamera è posizionata in alto ma decentrata, in modo da riprendere il soggetto da un'angolazione diagonale verso il basso.
Questa cornice dovrebbe creare una forte astrazione delle forme e rivelare i dettagli del guardaroba dall'alto.

3. Fotogramma intero obliquo ad angolo basso

La telecamera è posizionata in basso rispetto al terreno e orientata obliquamente verso il soggetto.
Ciò allunga la silhouette, mette in risalto le calzature e crea una prospettiva spettacolare, diversa da quella delle montature 1 e 2.

4. Montatura a compressione laterale (lente lunga)

La fotocamera è posizionata molto distante dal soggetto, utilizzando una lunghezza focale più stretta per comprimere lo spazio.
Il soggetto appare di profilo netto o quasi di profilo, mostrando la struttura dell'indumento in modo appiattito e editoriale.

5. Ritratto intimo ravvicinato da un'altezza inaspettata

La fotocamera è posizionata molto vicino al viso del soggetto (o alla parte superiore del busto), ma leggermente al di sopra o al di sotto del livello degli occhi.
L'angolazione dovrebbe essere quella di un editoriale di moda, non convenzionale: sfalsata, elegante ed espressiva.

6. Fotogramma con dettagli estremi da un'angolazione non intuitiva

La telecamera è posizionata molto vicino a un dettaglio del guardaroba, a un accessorio o a una trama, ma da una direzione spaziale insolita (ad esempio, dal basso, da dietro, dal lato di una scollatura).
Deve trattarsi di una cornice editoriale sorprendente e astratta.

Continuità e requisiti tecnici

Mantieni la perfetta fedeltà al guardaroba in ogni inquadratura: tipologia esatta del capo, silhouette, materiale, colore, consistenza, cuciture, accessori, chiusure, gioielli, scarpe, capelli e trucco.

L'ambiente, le texture e l'illuminazione devono rimanere coerenti.

La profondità di campo cambia naturalmente con la lunghezza focale (profonda per scatti da lontano, ridotta per scatti ravvicinati/dettagliati).

Sono richieste texture fotorealistiche e un comportamento della luce fisicamente plausibile.

Le inquadrature devono dare l'impressione di diverse posizioni della telecamera all'interno della stessa scena, non di scene diverse.

Tutti i fotogrammi chiave devono avere esattamente lo stesso aspect ratio e devono essere generati esattamente 6 fotogrammi chiave. Mantenere lo stesso stile visivo in tutti i fotogrammi chiave, dove l'immagine è scattata su pellicola Fuji Velvia con un flash potente, la luce è concentrata sul soggetto e sfuma leggermente verso i bordi del fotogramma. L'immagine è sovraesposta, con una grana della pellicola significativa e una saturazione eccessiva. La pelle appare lucida (quasi unta) e ci sono forti riflessi bianchi sulla montatura degli occhiali.

Formato di output
A) Immagine del foglio di contatto 2×3 (obbligatoria)

Dopo aver ottenuto la griglia di sei immagini quadrate, dobbiamo utilizzare i seguenti prompt per estrarre queste sei immagini in sequenza.

Parole chiave: Esamina la griglia di sei immagini. Voglio che isoli e ingrandisca l'immagine nella prima/seconda/terza colonna della prima/seconda riga di immagini. Non modificare la posa o alcun dettaglio del modello. Esegui l'output solo della singola immagine dalla griglia di sei immagini.

Nano Banana Pro è in grado di generare direttamente immagini a nove griglie, ma per mantenere un rapporto d'aspetto fisso di 3:2, un layout a sei griglie può separare meglio tutte le immagini. In questo caso, utilizziamo il formato 16:9 e la qualità 4K per tutte le immagini.

Con queste 6 immagini possiamo dare libero sfogo alla nostra creatività per generare ancora più immagini chiave, come quando Cook mostra i suoi denti d'oro o tira fuori dalla tasca un vecchio dispositivo, proprio come nel video originale.

Ad esempio, abbiamo trovato online la foto di un braccialetto e abbiamo chiesto a Lin Daiyu di mostrare il suo braccialetto di giada al posto del suo grande orologio d'oro.

▲Immagine 7|Input: Immagine 3+Immagine 5+Foto del braccialetto di giada e testo di richiesta: Mostrami un primo piano grandangolare della modella. La modella tiene un polso verticalmente davanti a sé, la mano opposta abbassa delicatamente la voluminosa manica della sua vestaglia per mostrare un braccialetto di giada verde smeraldo traslucido. La mano che abbassa la manica ha un anello d'argento a forma di petalo di fiore caduto sulle ultime due dita della mano, incastonato nella parte anteriore.

Se vuoi mantenere questo stile da gangster di strada, puoi usare direttamente il prompt predefinito per trovare l'immagine di un grande orologio d'oro e poi inserire il contenuto seguente.

Parola di prompt predefinita: Mostrami un primo piano grandangolare del modello. Il modello tiene un polso verticalmente davanti a sé, mentre la mano opposta abbassa la manica della felpa con cappuccio per mostrare l'orologio. La mano che abbassa la manica ha un anello a due dita sulle ultime due dita della mano con le lettere "LOVE" incastonate sul quadrante.

Inoltre, le scarpe sono state trasformate in modelli alla moda alti con ricami, caratterizzati da ricami floreali e in raso che ricordano le antiche scarpe ricamate, con una suola spessa e dentellata in gomma nera.

▲Immagine 8|Inserisci l'immagine 7 + l'immagine 3 + le foto delle scarpe, parole chiave: Mostrami una visuale grandangolare a volo d'uccello della modella in piedi, con il piede destro esteso davanti a sé, a indicare che indossa le scarpe nell'immagine di riferimento. Mantieni l'impostazione perfetta, includi l'anello sulla mano della modella e inclina leggermente il piede lateralmente per evidenziare i dettagli delle scarpe.

Alla fine, tirò fuori dalla tasca una scatola di pillole nutrienti al ginseng. Era una ragazza cyberpunk che faceva affidamento sui farmaci per sopravvivere.

▲Figura 9|Inserisci la Figura 7 + la Figura 8 + una foto della scatola dei medicinali. Suggerimento: Primo piano del modello che infila la mano nel lato della tasca a marsupio della felpa e mostra parzialmente la scatola di pillole.

Qui, devi solo modificare "mostrare la scatola di pillole" sostituendo il contenuto dopo "mostrare" con gli oggetti che vuoi estrarre dalla tasca.

Dopo aver ottenuto tutte le immagini dei fotogrammi chiave, il passo successivo è quello di concatenarle per creare un video accattivante e dall'aspetto one-shot. Convertire le immagini in video non elimina completamente la necessità di spunti. Per ottenere lo stesso ritmo e controllo del video originale, è fondamentale utilizzare movimenti fluidi e movimenti minimi del modello per ridurre il numero di spunti.

Il blogger ha detto che è possibile inserire messaggi come "La telecamera ruota lentamente e fluidamente attorno agli occhiali durante lo zoom. Il soggetto è quasi immobile e il movimento è estremamente calmo e deliberato".

Ad esempio, nella transizione tra la Figura 8 e la Figura 9, abbiamo aggiunto il testo "Le gambe si abbassano lentamente e la telecamera si alza verticalmente" ai prompt.

▲Google Veo 3.1 generato | Prompt: Movimento della telecamera (scansione verticale):
Un'inquadratura verticale continua e senza soluzione di continuità, con movimento a gru verso l'alto. La telecamera inizia dal basso, incentrata sulle sneaker alte ricamate, poi si inclina dolcemente verso l'alto e scivola lungo la trama dei pantaloni cargo grigi. Mentre la telecamera sale all'altezza della vita, si avvicina (dolly in) alla giacca di raso verde.
Azione del soggetto (il flusso):
Inizio: la gamba del soggetto (che mostra la scarpa) si abbassa lentamente fino a raggiungere la posizione eretta mentre la telecamera si sposta verso l'alto.
Transizione: il soggetto è in piedi con sicurezza. La mano che indossa l'anello a farfalla si muove naturalmente nella tasca.
Fine: La mano estrae una scatola di medicinali gialla e bianca ("Renshen Yangrong Wan"). L'attenzione si concentra sul testo sulla scatola.
Atmosfera e coerenza:
Estetica streetwear di alta moda. Illuminazione intensa con flash e sfondo blu da studio. Mantenere una rigorosa coerenza tra il ricamo verde della giacca sukajan e il bracciale di giada. La transizione è fluida e fluida, come un unico movimento di ripresa pianificato.

Forse vi starete chiedendo perché le istruzioni suggerissero di procedere lentamente, eppure il video di anteprima finale appare effettivamente pulito e nitido. In realtà, è perché questo videoblogger ha utilizzato un altro strumento. Bisogna ammirare la creatività e le capacità dei videoblogger che sfruttano l'intelligenza artificiale al giorno d'oggi; non solo hanno grandi idee, ma sviluppano anche strumenti utili.

▲Indirizzo: https://easypeasyease.vercel.app/, questo strumento può unire più video, applicare curve di attenuazione e aggiungere audio; al momento è gratuito.

Con lo strumento EasyPeaseEase, i nostri video possono essere compressi tra 0,5 e 6 secondi. Il rallentatore precedentemente ottenuto tramite modelli di generazione video viene attenuato dalla curva di attenuazione, rendendo il processo di accelerazione o decelerazione del video dall'inizio alla fine più fluido e naturale, simulando meglio gli effetti fisici del mondo reale. Di conseguenza, il video accelerato appare più vivido e strutturato, anziché un movimento rigido e uniforme.

Infine, unendo tutti questi video, otteniamo la presentazione video OOTD di Lin Daiyu per oggi.

Il prompt per convertire il primo e l'ultimo fotogramma in un video è utile. Se temi di dover pescare carte frequentemente, caricare semplicemente le immagini del primo e dell'ultimo fotogramma e chiedere a Gemini è un metodo molto efficace.

Il Contact Sheet Prompt è in realtà una funzionalità molto interessante di Nano Banana Pro. Innanzitutto, sfrutta le potenti capacità di generazione di immagini e di comprensione della conoscenza globale di Nano Banana Pro per generare una griglia di nove quadrati di fotogrammi chiave video, per poi estrarre i fotogrammi chiave corrispondenti riga per riga e colonna per colonna.

▲Fonte video: https://x.com/techhalla/status/1996650389228355819

Infine, riassumiamo i modi ufficiali per utilizzare Nano Banana Pro.

  • ai.studio: lo studio di intelligenza artificiale ufficiale di Google. Richiede il collegamento di un metodo di pagamento e consente agli utenti di selezionare diverse risoluzioni e dimensioni delle immagini tramite un menu a discesa. Non richiede richieste né addebiti per l'utilizzo.
  • gemini.google.com: versione web e app mobile di Gemini, gratuita per generare immagini, con un limite al numero di volte in cui può essere utilizzata. Una volta raggiunto il limite, utilizzerà automaticamente il modello Nano Banana. La sua caratteristica principale è che non è più possibile controllare le proporzioni delle immagini generate.
  • flow.google: la piattaforma di generazione video di Google, che consente di generare immagini senza consumare crediti; è gratuita.

Il video menzionato nell'articolo può essere visualizzato cliccando su questo link: https://mp.weixin.qq.com/s/s_EIYB0qqcWv29zMM1g-7Q

#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

ifanr | Link originale · Visualizza commenti · Sina Weibo