Non solo Sora2! Aggiornamento ShootMe AI V5.5: ora tutti possono dirigere i video con l’IA!

Nel 2025, i video basati sull'intelligenza artificiale capovolgeranno ancora una volta le carte in tavola. Tagliare il metallo a mani nude, cucinare con i gatti e persino il popolarissimo "universo di Ultraman" sono solo alcuni esempi di stimoli per l'intelligenza artificiale.


Ma non entusiasmatevi troppo.

La maggior parte degli strumenti video basati sull'intelligenza artificiale è ancora bloccata nella fase di "generazione della sorgente". Possono produrre video di qualità, ma sono per lo più frammentati, silenziosi e composti da riprese singole.

Se vuoi creare qualcosa di serio, come un lungometraggio con storyboard, devi continuare a "pescare carte" e pregare che l'IA riesca a capire cosa sono un campo lungo e un primo piano.

Il risultato è spesso che ti scarica addosso un mucchio di video illogici e inutili. Dopo averli selezionati, devi ancora fare il doppiaggio, il montaggio, l'aggiunta di musica… un intero flusso di lavoro che può richiedere due settimane per completare un video di 10 secondi.

Quando i video basati sull'intelligenza artificiale avranno finalmente la capacità di raccontare storie e di imparare a farlo?

Ieri sera, l'aggiornamento a PixVerse V5.5 mi ha sorpreso. Dopo sei mesi, questo "re dell'animazione" ha sganciato un'altra bomba. Se la versione precedente era come avere un artista degli effetti speciali, la V5.5 è come avere un team di regia che comprende il linguaggio audiovisivo.

Attualmente la versione V5.5 è l'unico modello video AI in Cina in grado di generare "storyboard + audio" con un clic per ottenere una narrazione completa.

La sua più grande svolta risiede nel fatto che i video basati sull'intelligenza artificiale stanno iniziando ad avere un "pensiero da regista". Non si limitano più a generare immagini in movimento, ma iniziano a comprendere la relazione logica tra inquadrature, suono e narrazione.

Ciò che prima richiedeva l'intervento di uno storyboard artist professionista, ora può essere fatto con facilità e sicurezza.

I video generati dall'intelligenza artificiale hanno finalmente acquisito un'"anima".

Da dove nasce la "narrazione" del film? In larga misura, dai dialoghi dei personaggi, dalla musica di sottofondo e dal ritmo creato dalle transizioni della telecamera.

Metteremo alla prova la nostra intelligenza artificiale, "PaoWo", da queste due prospettive.

Per visualizzare il video completo del caso di studio, visitare il tweet di APPSO.

Viene fornito con un ingegnere del suono forte come un milione di persone

Cominciamo con il ruolo del "doppiatore". Vediamo come si comporta Paiwo AI V5.5, che supporta la sincronizzazione audiovisiva multi-personaggio.

Per prima cosa, facciamo una pubblicità sulla spiaggia.

Spunto: un uomo guarda la telecamera, tiene una bottiglia di birra davanti a sé, la inclina verso l'obiettivo e fa un gesto di brindisi. La musica di sottofondo è un'allegra musica elettronica con un evidente ritmo di batteria e un tocco pop.

La telecamera basata sull'intelligenza artificiale ha funzionato in modo pulito ed efficiente. Ciò che mi ha davvero fatto venire la pelle d'oca è stata l'attenzione ai dettagli: ha interpretato perfettamente la scena e l'ha abbinata a una musica perfetta per un'atmosfera estiva da spiaggia.

Questa comprensione del suono ambientale è davvero impressionante.

Proviamo qualcosa di diverso: un taxi che percorre le strade della città.

La telecamera basata sull'intelligenza artificiale non solo segue l'auto, ma aggiunge anche il rumore delle auto sulla strada, dandoti la sensazione di trovarti davvero in una trafficata strada di New York.

Il taxi percorre le strade della città e gradualmente scompare dall'inquadratura.

Ma questo è solo l'antipasto: passiamo all'intensità.

Per prima cosa ho utilizzato il Nano Banana Pro integrato nell'app Paiwo AI per generare un'immagine, quindi ho chiesto a Paiwo AI di generare un video intitolato "Benvenuti Southern Little Potatoes nel Nordest".

La donna disse calorosamente: "Benvenuta, piccola patata del Sud, nella mia città natale! Ci sei mancata tantissimo qui nel Nordest!"

In sole due brevi frasi, i movimenti delle labbra si combinavano alla perfezione, catturando così bene il calore e l'entusiasmo della zia del Nord-Est che ti faceva venire voglia di comprare un biglietto aereo e partire per un viaggio subito dopo il lavoro.

Ad esempio, nella seguente clip di Paddington Bear, viene replicato fedelmente l'iconico accento britannico. Le caratteristiche pause ritmiche e l'accento signorile della "vecchia Londra" non solo suonano autentici, ma sono anche altamente riconoscibili.

Nel gestire la trama dell'orso, ha dimostrato una solida comprensione della sceneggiatura.

Quando il personaggio si rende conto di trovarsi sulla Torre Eiffel mentre l'altra persona si trova sulla Torre di Tokyo, la voce generata dall'IA trasmette fedelmente lo shock e la sorpresa di quel momento.

Questo sottile controllo sul tono rende l'intera clip più di una semplice raccolta di immagini: trasmette un autentico flusso di emozioni.

Va oltre la semplice identificazione di due personaggi; approfondisce i simboli culturali e il contesto narrativo che li sottende, abbinandoli a interpretazioni vocali piene di sentimento.

È facile vedere come la funzione di generazione audio di Paiwo AI riduca significativamente la barriera d'ingresso per l'aggiunta di musica di sottofondo e voice-over nei flussi di lavoro video. Basta attivare l'opzione "Audio" nei parametri di generazione video di Paiwo AI e una singola frase può aiutarti a provare rapidamente diversi formati audio in batch: è così semplice che una sola persona può farlo facilmente.

Padroneggiare riprese di qualità cinematografica

La composizione dell'inquadratura è come un coltello nella mano del regista, usato per tagliare il tempo e lo spazio e guidare le emozioni.

In passato, usare l'intelligenza artificiale per creare storyboard era un incubo: bisognava generare separatamente inquadrature lunghe e primi piani, per poi assemblarli con un software di editing. Ma con ShootMy AI V5.5, questo lavoro noioso è ormai un lontano ricordo.

Attiva la modalità multi-camera, indica all'IA l'inquadratura che desideri e passa da un'angolazione all'altra; l'IA genererà direttamente un filmato finito con un ritmo narrativo.

Ad esempio, possiamo trasformare quella foto virale della spiaggia con tre griglie in un cortometraggio più interessante:

Parole chiave:
Scena 1: Il gatto gira la testa e guarda la telecamera. Il gatto chiede: "Cosa c'è dall'altra parte della montagna?"
Scena seconda: Il gatto si gira per guardare di nuovo il mare. La telecamera si avvicina al gatto, che dice: "Non c'è bisogno che me lo dica".
Scena 3: Primo piano del muso del gatto. Il gatto dice: "Perché voglio solo creare problemi in casa tua".

L'effetto complessivo del film finito è piuttosto solido. Ma ciò che mi ha davvero stupito è stato il modo in cui l'IA ha compreso il sottotesto emotivo dietro il dialogo. Poco prima che il gatto parlasse, è stata aggiunta abilmente una ripresa ravvicinata. Questo movimento di macchina apparentemente semplice ha immediatamente aumentato la tensione narrativa della scena.

Poi ci siamo diretti verso la savana dell'Africa orientale. Ho utilizzato anche Nano Banana Pro per generare un'immagine in stile documentario e ho creato un breve videoclip con un solo clic:

Se imparare a scrivere storyboard ti risulta troppo complicato, nessun problema: la capacità di "immaginazione" di Paiwo AI V5.5 è altrettanto sorprendente. Basta una frase e ti sorprenderà.

Parola d'ordine: la donna che guarda la madre a casa, triste e senza memoria. Si abbracciarono, ma la madre sembrava non ricordarsi più di lei.

AI ShootMe V5.5 ha superato le mie aspettative. Non solo mi ha fornito tre scatti, ma ha anche costruito autonomamente una narrazione completa: dall'interazione tra madre e figlia al commovente abbraccio finale, la trama era logicamente chiara e toccante.

È chiaro che ShootMe AI V5.5 è andato oltre la semplice elaborazione di un singolo fotogramma; ha davvero padroneggiato la grammatica del linguaggio audiovisivo. Catturando con precisione l'atmosfera e il tono emotivo della scena a partire dai prompt, gestisce autonomamente le dimensioni delle inquadrature e le angolazioni della telecamera, infondendo alle immagini generate una profondità che cattura il pubblico.

Questo cambiamento ha permesso al prodotto finale di liberarsi della sua monotona etichetta di "immagine in movimento" e di evolversi in un materiale video dotato di un vero potere narrativo.

Pubblicità di successo con un solo clic: nasce un nuovo strumento creativo.

I metodi precedenti potevano anche essere semplicemente "divertenti", ma per verificare se fossero davvero "produttivi", abbiamo deciso di aumentare la difficoltà.

Basta dare a Paiwo AI V5.5 una sceneggiatura completa per un film thriller e vedere se riesce a gestirla.

Suggerimento: il video è girato con un obiettivo fisheye, che offre una visione distorta e grandangolare di una strada urbana di notte, di fronte a un negozio con un'insegna che recita "DELI • GROCERY • ATM" (in inglese). L'illuminazione è fioca, con neon rossi che si riflettono sul marciapiede bagnato. Il suono della musica è un lento, minaccioso basso industriale con sirene lontane. La telecamera si concentra su una figura alta che indossa una maschera da bambola di porcellana screpolata e un pesante trench, che incombe sull'obiettivo. Dietro di lui, due figure con felpe nere sono immobili vicino all'ingresso del negozio. La figura mascherata si sporge a disagio vicino all'obiettivo fisheye, sussurrando con voce roca: "Midnight tick, le ombre non dormono. Prezzo sulla testa e i segreti che teniamo. Hai visto l'insegna, ma non hai letto il testo. Un passo falso e sparisci in una tinta". La figura alza lentamente una mano guantata per coprire l'obiettivo della telecamera mentre lo schermo sfuma al nero.

A dire il vero, la qualità del prodotto finale ha superato di gran lunga le mie aspettative.

Le capacità di editing di Paiwo AI V5.5 sono molto sofisticate. Sa come passare fluidamente da una dimensione di ripresa all'altra, evitando il senso di discontinuità temporale e spaziale comune nella generazione di video tramite intelligenza artificiale e rendendo il flusso della scena logico.

Naturalmente, l'intelligenza artificiale attuale non può raggiungere la perfezione al 100%. Ad esempio, nella gestione del dialogo finale, altamente drammatico, realizzato con la lente fisheye, emergono ancora alcuni difetti nei dettagli facciali. Tuttavia, mantiene un livello di aderenza di base alle leggi fisiche dinamiche e, nel complesso, i difetti non ne compromettono i pregi; la completezza e la fruibilità del film rimangono di alto livello.

Ciò che è ancora più sorprendente è la perfetta integrazione tra suono e immagine. La voce generata da Paiwo AI V5.5 non si limita a leggere le battute; cattura con precisione la tensione e l'oppressione necessarie per un thriller, raggiungendo una perfetta armonia tra il timbro, la consistenza e il ritmo della voce e le emozioni trasmesse dalle immagini.

Questa presentazione logicamente coerente e immersiva amplia direttamente i suoi scenari applicativi. Per i registi, può fungere da efficace strumento di comunicazione, consentendo loro di spiegare in modo intuitivo le idee creative a sceneggiatori o direttori della fotografia.

Per gli inserzionisti, è anche un potente strumento creativo. Basta fornirgli un brief completo e un'illustrazione, e può generare rapidamente uno spot pubblicitario per auto che soddisfa gli standard della proposta: la sua efficienza è sorprendente.

Indizio: In uno spazio buio e minimalista, una striscia di luce fluente attraversa la linea di cintura di un'auto grigio scuro, mettendo in risalto una texture muscolosa, simile a un "metallo liquido". Subito dopo, i fari a matrice LED si illuminano improvvisamente, i raggi si dirigono direttamente verso l'obiettivo e illuminano le particelle di polvere nell'aria. La musica è un ronzio elettrico basso, che aumenta gradualmente, accompagnato da una nota di basso profonda che ricorda un battito cardiaco. Una voce maschile profonda e ferma dice: "Svegliati". La scena passa alla scena successiva: una carrellata ad alta velocità di un paesaggio urbano notturno, con il veicolo che sfreccia attraverso un tunnel pieno di luci al neon blu-viola. Le luci fluenti della città lasciano lunghe strisce di luce sui finestrini e sulla carrozzeria aerodinamica, enfatizzando la sfocatura dinamica ad alta velocità. L'effetto sonoro è il rombo acuto e futuristico di un motore elettrico in accelerazione, mescolato al suono del vento che fende l'aria. La voce maschile dice: "Oltre i confini della velocità". La scena passa alla scena successiva: una ripresa aerea mostra una vasta autostrada costiera a picco sul mare al tramonto (Ora Magica), con la luce dorata del sole che inonda l'auto, creando un fresco contrasto con le profondità del mare. L'auto sfreccia verso l'orizzonte, lasciando un'elegante silhouette. La musica si trasforma in una colonna sonora cinematografica grandiosa e coinvolgente, con un'atmosfera epica. La voce maschile continua: "Non solo in arrivo, ma alla conquista". La scena passa alla successiva: l'auto è ferma su una superficie riflettente nera minimalista, con la parte anteriore rivolta in avanti, su uno sfondo di luce rossa astratta che svanisce lentamente. La telecamera si allontana lentamente, rivelando la scritta metallica argentata "APEX" sopra. La voce maschile dice: "Apex GT". La musica si interrompe bruscamente dopo un ultimo, potente battito.

Come potete vedere, la qualità di questi prodotti finiti è piuttosto costante. I veicoli, ricchi di velocità e texture metalliche, rendono quasi impossibile dire se siano stati creati da un'intelligenza artificiale o da un'agenzia pubblicitaria professionale.

Le transizioni tra le inquadrature dimostrano un elevato livello di sofisticatezza, senza segni visibili di giunzioni. ShootMe AI V5.5 non accumula meccanicamente le riprese; al contrario, utilizza panoramiche, primi piani e inquadrature panoramiche per creare una narrazione con alti e bassi e tensione.

Grazie al rombo del motore e alla musica di sottofondo perfettamente abbinata, riesce a liberarsi con successo dalla "sensazione di intelligenza artificiale" scadente e offre una qualità dell'immagine pari a quella del flusso di lavoro, integrabile nel flusso di lavoro.

Smetti di essere uno "strumento", diventa un vero "regista".

La mia esperienza con PixVerse V5.5 mi ha fatto capire chiaramente che la generazione di video basati sull'intelligenza artificiale sta attraversando un momento di svolta critico.

In passato, usare l'intelligenza artificiale era come dirigere un grafico tirocinante che non capiva il linguaggio umano. Si spendeva denaro, ma si doveva passare al setaccio un'enorme quantità di proposte inutilizzabili. La frustrazione di frequenti aggiustamenti, tentativi ed errori e, in definitiva, il mancato raggiungimento di un risultato soddisfacente non solo erodevano il tempo a disposizione, ma anche la passione creativa.

L'arrivo di Paiwo AI V5.5 ci ha dato un barlume di speranza.

Il modello di base V5.5 si basa su una tecnologia di comprensione e generazione multimodale sviluppata internamente, che supporta la generazione simultanea di audio e video. Il modello integra funzionalità di comprensione multi-camera, generando in modo intelligente storyboard coordinati e inquadrature multiple, e comprendendo la logica audiovisiva. Non si tratta più di una fredda e impersonale libreria di materiali, ma di un "direttore esecutivo" che ha iniziato a comprendere sceneggiature e narrazioni.

Sebbene sia ben lungi dall'essere perfetto, AI Shoot Me V5.5 ha effettivamente portato un "risveglio della capacità narrativa" dell'IA e ha iniziato a colmare l'enorme divario tecnologico tra la gente comune e i registi professionisti.

In futuro, l'efficienza subirà un salto di qualità, sia per i progetti creativi personali che per i campioni pubblicitari commerciali e le anteprime cinematografiche (Pre-viz).

Ciò significa che stiamo per dire addio all'era della "generazione di materiali" basata sull'intelligenza artificiale ed entrare nell'era della vera "generazione di contenuti".

In questa nuova era, per creare professionalmente non è più necessario essere esperti di Premiere Pro o After Effects, né avere costose attrezzature fotografiche. Basta concentrarsi sulle cose più essenziali: creatività ed espressione.

Lasciate l'esecuzione noiosa all'intelligenza artificiale e il pensiero agli esseri umani.

Penso che questo sia l'aspetto più interessante dei progressi tecnologici dell'intelligenza artificiale.

#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

ifanr | Link originale · Visualizza commenti · Sina Weibo