Dopo Nano Banana 2, un altro generatore di immagini basato sull’intelligenza artificiale sviluppato a livello nazionale è emerso come “punto di riferimento per la coerenza”: il generatore di immagini di Vidu è disponibile per un periodo di tempo limitato con accesso gratuito illimitato.

19 Dicembre 2025

A dire il vero, gli strumenti di creazione di immagini basati sull'intelligenza artificiale a volte sono oggetto di un rapporto di amore-odio.

Quando lo conosci per la prima volta (la prima volta che viene generato), pensi che sia fantastico, perfetto sotto ogni aspetto; ma quando vuoi svilupparlo ulteriormente (trasformarlo in una serie di diagrammi, implementarlo in un flusso di lavoro), inizia a "perdere colpi" e sprofonda nel mistero del gacha.

Questo stato di "può solo guardare, non può combattere" rende incredibilmente difficile utilizzarlo effettivamente per lavoro. Tuttavia, con l'avvento di strumenti come Nano Banana, le cose hanno finalmente iniziato a cambiare, rivelando che l'IA può essere controllata con maggiore precisione.

Ora, finalmente, l'intelligenza artificiale nazionale sta prendendo il sopravvento e aprendo ulteriormente la strada. Le nuove funzioni di conversione da testo a immagine, riferimento a immagine e modifica delle immagini di Vidu Q2 seguono questo percorso: dopo aver "fatto bella figura", inizia a concentrarsi sulla "stabilità".

Questa volta, Vidu Q2 ha concentrato tutte le sue competenze sulla "coerenza". Cosa significa? Significa eliminare completamente problemi di vecchia data come "degradazione del personaggio", "distorsione del prodotto" e "cambiamenti improvvisi di stile".

In parole povere, non si tratta solo di permetterti di mostrare le tue competenze sui social media; si tratta di fornirti un flusso di lavoro creativo pratico che puoi utilizzare "dall'inizio alla fine".

Nelle ultime classifiche AA, le capacità di editing delle immagini di Vidu Q2, lanciato per la prima volta, hanno persino superato quelle di GPT-5 di OpenAI . L'aspetto più encomiabile è che, pur essendo una startup nata da poco più di due anni, ha dimostrato la sua abilità tecnologica classificandosi tra i primi tre, accanto a giganti come Google e ByteDance , raggiungendo Nana Banana Pro e incarnando appieno l'essenza del "senza pensieri".

Vidu offre anche un "pacchetto regalo gratuito" della durata di un mese, aprendo le porte a tutti per approfittare delle offerte. Da oggi fino al 31 dicembre, gli iscritti a Vidu possono utilizzare immagini raw "gratuitamente", che si tratti di immagini di riferimento, immagini testuali o editing di immagini: possono creare ciò che desiderano. Gli iscritti Standard e Professional ricevono anche 300 immagini gratuite al mese, mentre la versione di punta offre immagini raw gratuite illimitate.

Oggi approfittiamo di questa opportunità di "ricarica illimitata" per mettere alla prova la funzione di immagine raw del Vidu Q2 e vedere se può davvero salvare i nostri capelli.

Inizia con un'immagine, il resto dipende dalla tua immaginazione.

Tra gli strumenti di intelligenza artificiale, Vidu è stato uno dei primi a perfezionare la "creazione di riferimenti continui attorno a una singola immagine" come funzionalità fondamentale. Supporta il maggior numero di immagini in input e vanta la più elevata coerenza nella generazione di immagini multiparametro in Cina .

Nel recente aggiornamento di Vidu Q2, questa funzionalità ha compiuto un grande passo avanti: non solo supporta combinazioni multi-riferimento più complesse, ma riduce anche significativamente la soglia per la creazione di immagini raw. Designer, registi e persino utenti comuni che amano creare possono fornire immagini di soggetti e riferimenti ambientali a modo loro, e il modello può replicare l'azione, la posizione, il layout, la texture, l'illuminazione, il colore, ecc. con un solo clic, "allineandosi automaticamente all'immagine di riferimento richiesta e mantenendo invariato il personaggio".

Immagine raw multiparametro

Nello scenario delle immagini raw multiparametro, le immagini raw che forniamo a Vidu Q2 sono molto vicine al flusso di lavoro reale: una è il "top-tier" Dawan Chicken dei recenti Giochi Nazionali, e l'altra è l'atmosfera della scena che speriamo di creare, la piattaforma panoramica del Bund al tramonto.

Poi ho scritto un breve spunto e ho lasciato che facesse il resto.

Quando sono usciti i risultati, ho semplicemente detto: "Rispetto!"

Non si tratta di un approccio semplicistico che si limita a ritagliare il soggetto e incollarlo; in realtà, "ricalcola" luci e ombre all'interno della scena. La direzione delle luci e delle ombre del soggetto si allinea con l'ambiente e i suoi movimenti cambiano con precisione in base ai comandi.

L'ho persino fatto stampare su un'auto e ha calcolato perfettamente i colori del riflesso sulla carrozzeria.

Ancora più importante, molte immagini mantengono un elevato grado di coerenza anche quando vengono generate più volte composizioni e pose diverse, come nel caso del motivo sul petto del pollo Da Wan e della cresta colorata sulla sua testa. Questo è un risultato spesso difficile da ottenere nel tradizionale processo di generazione delle immagini, che si basa sulla rapida regolazione dei parametri.

Davvero ingegnoso. In passato, per i brand, inserire un personaggio IP nei poster in diversi scenari richiedeva modellare, renderizzare e modificare le immagini. Ora? Si può fare in pochi secondi e questa "incongruenza" è completamente scomparsa.

Coerenza spaziale

Ciò che è ancora più impressionante è la capacità di Vidu di comprendere le relazioni spaziali. Quando ho chiesto "ai polli Dawan di zigzagare tra le ringhiere intagliate della Città Proibita", Vidu non ha scavalcato le ringhiere come altre IA, né ha trasformato la scena in un film horror.

In realtà, ha "immaginato" la struttura spaziale della Città Proibita basandosi sulla mappa ambientale, consentendo al Pollo Da Wan di camminare naturalmente nello spazio del corridoio.

Aumentiamo la difficoltà facendo in modo che il personaggio IA faccia riferimento a complesse mosse di arti marziali.

In passato, i personaggi IA non riuscivano a riprodurre fedelmente i movimenti complessi progettati; o i movimenti risultavano distorti, o il personaggio appariva completamente diverso durante il combattimento. Ora, con le immagini di riferimento di Vidu Q2, questo problema è stato risolto per i creatori di IA. È possibile replicare i movimenti con un solo clic, consentendo al protagonista IA di possedere un'ampia gamma di abilità.

Nell'esempio seguente, i due protagonisti dell'anime hanno ricreato accuratamente le pose di combattimento della Figura 1, mantenendo al contempo un elevato grado di coerenza nei loro abiti, nei dettagli del viso e nelle relazioni spaziali.

Questa comprensione dello "spazio" consente alle immagini di riferimento di andare oltre il semplice incollaggio come sfondi; diventano realmente in grado di servire per lo storyboard e la disposizione delle inquadrature .

Questa comprensione dello spazio è incredibilmente utile per creare storyboard di film o poster di gruppo come quelli del recente successo "Zootropolis 2".

Ad esempio, nel caso seguente, la stessa immagine, combinata con diverse inquadrature, può generare primi piani, campi lunghi e primi piani di un calciatore che calcia un pallone, per poi trasformarli in un'inquadratura narrativa completa attraverso la conversione immagine-video. Per la produzione di cortometraggi, animazioni e film, questo elimina la necessità di riprese multiple o di storyboard complessi per una singola scena, rendendolo uno strumento di produttività davvero efficiente.

Quindi, utilizzando la funzione di conversione da immagine a video del Vidu Q2, è possibile creare un video dei momenti salienti dei due giocatori che si contendono la palla sul campo da calcio:

In termini di coerenza stilistica, le tradizionali funzioni di generazione testo-immagine basate sull'intelligenza artificiale sono molto creative, ma spesso presentano scarsa coerenza, con stili incoerenti e fusione di caratteri che sono fenomeni comuni. Al contrario, Vidu Q2 non solo supporta centinaia di stili anime, ma mantiene anche la coerenza stilistica e narrativa nelle immagini multiple continue generate.

Ad esempio, l'editor di testo Vidu Q2 può generare un fumetto a quattro vignette partendo da poche frasi. Non solo mantiene coerenza nello stile e nei personaggi, e i dettagli rimangono stabili, ma può anche raccontare una storia completa in poche frasi:

Questi casi dimostrano che gli aggiornamenti di Vidu nelle immagini di riferimento vanno oltre il semplice "rendere l'immagine simile all'immagine di riferimento". Incorporano invece "coerenza del soggetto" e "comprensione spaziale" nel suo design . Da un lato, può generare in modo affidabile un set completo di immagini di una persona da diverse angolazioni, in diverse atmosfere, stili e condizioni di illuminazione, il tutto basato sull'immagine di riferimento. Dall'altro, tratta le immagini ambientali come spazi reali, piuttosto che semplicemente come texture di sfondo.

Più che un semplice giocattolo, è una vera e propria "arma da battaglia".

Se l'immagine di riferimento risolve il problema di "come scegliere la prima immagine", allora la nuova funzione di modifica delle immagini lanciata su Vidu Q2 integra realmente questa immagine nel flusso di lavoro quotidiano, consentendo un controllo delle immagini più raffinato e soddisfacendo le esigenze degli scenari commerciali reali.

Il posizionamento di Vidu in quest'area è molto semplice: copre il 90% degli scenari comuni di modifica delle immagini : aggiungere elementi, rimuovere elementi, cambiare sfondi, cambiare colori, regolare l'illuminazione, ingrandire e cambiare le proporzioni possono essere tutti eseguiti utilizzando il linguaggio naturale , mantenendo la coerenza dell'argomento durante l'intero processo di modifica continua.

Nel test di sostituzione e modifica parziale, ho provato a sostituire una pubblicità di una stazione ferroviaria con Musk. In passato, avrei dovuto ritagliare l'immagine fino a perdere la vista, ma ora ci vogliono solo pochi secondi e posso replicarla direttamente con un clic.

In futuro, quando vedrai un annuncio o una copertina popolare, potrai replicarli facilmente in blocco con un clic, salvarli in 4K e caricarli direttamente. Creare annunci e contenuti per i social media non potrebbe essere più semplice.

Allo stesso modo, nel caso seguente, il requisito era quello di aggiungere bicchieri da vino a tre ragazze: Q2 non solo ha soddisfatto il requisito, ma ha anche perfezionato i dettagli delle mani delle tre ragazze tenendo conto della rifrazione della luce nei bicchieri da vino.

L'editing delle immagini è un'abilità davvero "pratica", soprattutto in contesti come l'e-commerce o il social media marketing. Molte immagini di prodotto inizialmente presentano solo un semplice disegno a tratteggio: il designer fornisce uno schizzo, mentre il team operativo ha bisogno di un'immagine principale che possa essere caricata immediatamente.

È qui che gli editor di immagini possono davvero dare il massimo. Abbiamo utilizzato Vidu per condurre un esercizio completo di schizzi, colorazione e sostituzione dei materiali. Per prima cosa, abbiamo generato disegni lineari dei mobili, per poi utilizzarli direttamente come immagine di riferimento con un solo clic, specificando materiali e stile nel prompt.

Vidu utilizza il rendering dei materiali per creare immagini realistiche estremamente dettagliate e accurate in un unico passaggio. Poi, con un solo clic, è possibile riutilizzarle, visualizzando il divano in diversi stili di arredamento, con relative istruzioni.

Anche cambiare il materiale dello stesso prodotto è un'operazione facilmente realizzabile.

Si può vedere che le capacità di modifica delle immagini di Vidu Q2 stanno effettivamente mettendo in pratica le "capacità di base dell'era delle immagini raw multiparametro": identificare chi è il soggetto nell'immagine, bloccarlo e quindi consentire di aggiungere, eliminare e modificare tutto ciò che lo circonda in un linguaggio semplice, anche su più immagini e un video.

È come quando prima dovevi regolare ogni sorta di parametro quando guidavi un'auto con cambio manuale, ma ora Vidu ti offre un sistema di guida autonoma. Devi solo concentrarti sugli aspetti creativi e lui si occupa di tutto il resto.

Questo include anche un'altra funzionalità molto utile: il salvataggio del soggetto principale. Possiamo salvare l'immagine raw Q2/immagine raw di riferimento/immagine dopo la modifica come soggetto principale con un clic, "aggiungendo questo IP alla libreria dei personaggi". Successivamente, il soggetto principale può essere richiamato direttamente nel video raw di riferimento di Vidu.

Dopodiché, che tu modifichi lo sfondo, cambi l'azione o lo inserisca in una nuova scena, finché selezioni questo personaggio o IP, il modello manterrà rigorosamente la coerenza del personaggio e non ci sarà alcuna situazione in cui il protagonista generato nel secondo successivo sarà diverso da quello del secondo precedente.

Immagini raw di riferimento, salva il soggetto principale, video raw di riferimento. Vidu ha semplificato il flusso di lavoro dall'ispirazione al prodotto finito , eliminando la necessità di passare da una piattaforma all'altra. È una vera manna per i professionisti di cortometraggi, animazione, pubblicità ed e-commerce. L'API è ora disponibile.

Nell'ambito dell'intelligenza artificiale, dimenticatevi la "disruption" e concentratevi sul "portare a termine il lavoro".

Per i creativi, com'era lavorare con l'intelligenza artificiale in passato? Probabilmente è stata un'esperienza agrodolce: un secondo ti regala un'immagine fantastica, quello dopo ti fa crollare mentalmente per le dieci ore successive perché non riesci a ricreare quell'aspetto.

Al crocevia dell'evoluzione degli strumenti creativi basati sull'intelligenza artificiale, abbiamo osservato due distinte filosofie di prodotto.

Prodotti come Midjourney sono come un potente "motore" che solo i nerd più accaniti possono padroneggiare, con i loro parametri complessi e i prompt simili a mantra, nel tentativo di spingere all'estremo i limiti estetici di una singola immagine.

È bello, è un po' da nerd, ma è anche incredibilmente tortuoso.

La Vidu Q2, d'altra parte, ha scelto una strada più pragmatica, persino apparentemente "noiosa": realizzare un'auto "di serie" che chiunque possa guidare. Non si concentra più sulla creazione di sorprese casuali, ma dà priorità alla stabilità.

Questo tipo di flusso di lavoro "a prova di errore", che racchiude tutti i passaggi per voi, rappresenta la vera produttività. Dopotutto, per i team costantemente pressati dai clienti per rivedere le bozze e dai team operativi per lanciare, la "certezza" dei risultati è molto più importante della "casualità" di un'ispirazione improvvisa.

Forse nell'esplorare certi stili artistici estremi, potrebbe non essere così selvaggio e libero come quegli strumenti basati sui parametri e, poiché persegue troppo la stabilità, manca di un po' dell'ispirazione delle "sorprese inaspettate".

Ma per i creatori tormentati dalle meccaniche gacha, il Vidu Q2 offre un senso di sicurezza perduto da tempo.

Mentre il settore parla della grande narrativa dell'AGI, Vidu abbassa la testa e smette di creare sogni irrealistici per te; ti aiuta a gettare solide basi per ciò che stai facendo.

#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il prima possibile.

ifanr | Link originale · Visualizza commenti · Sina Weibo