Utilizzi ancora Gemini 3 per creare presentazioni PowerPoint? È così obsoleto! Scopri le più interessanti funzionalità interattive basate sui gesti (con prompt).

Dopo l'uscita di Gemini 3, ho iniziato a chiedermi: perché abbiamo sempre l'intelligenza artificiale che scrive siti web e presentazioni PowerPoint? Gemini è già alla terza generazione, non potrebbe fare qualcosa di più interessante?

Cerco qualcosa di fantascientifico, con effetti speciali accattivanti e un livello di difficoltà elevato, ma comunque gestibile anche per i principianti. Come questo:

Oppure così:

Gemelli: Interazione gestuale? Nessun problema, è tutto a posto.

Prima di iniziare, prepara il tuo Gemelli 3. Ecco alcuni punti da tenere a mente.

Attualmente ci sono tre modi per iniziare a giocare: la modalità Canvas del client Gemini, Google AI studio-Playground e Google AI studio-Build.

Tra questi, il client è il meno consigliato. L'ho testato personalmente e ho scoperto che non riesce a sollevare efficacemente la fotocamera. Inoltre, i seguenti sono tutti elementi di interazione gestuale e, quando si tiene in mano il telefono, non è possibile usare le mani per azionarlo.

Tra gli ultimi due, Build crea direttamente un'app che puoi condividere con gli amici, ma il suo svantaggio è il numero limitato di token. Playground, invece, genera un set di codice che deve essere scaricato localmente prima di essere aperto. Potrebbe non funzionare su un computer diverso, ma il suo vantaggio è che non c'è quasi alcun limite di token, con un limite giornaliero di un milione di token, garantendone un'ampia disponibilità.

Considerando che i progetti interattivi consumano molti token, Playground è più adatto. Build può essere utilizzato anche per progetti di piccole dimensioni, a seconda delle circostanze individuali.

Jarvis

Il pannello HUD di Jarvis è un best-seller, con oltre 200.000 visualizzazioni su Twitter. Il cruscotto con controllo gestuale è proprio come Iron Man che controlla Jarvis, è fantastico.

Di seguito è riportato un esempio di prompt:

Crea un'applicazione web usando vanilla js, html, css, modern threejs, mediapipe. Dovrebbe essere un'esperienza fantascientifica alla Tony Stark/Iron Man/Jarvis incentrata sulla simulazione di un'esperienza di visualizzazione AR. Viene mostrato l'input della webcam a schermo intero. Aggiungi un'esperienza di visualizzazione AR che traccia la testa dell'utente (spostata a destra), con metriche di aggiornamento in tempo reale. Un globo terrestre 3D minimo dovrebbe essere mostrato al centro a sinistra dello schermo, che dovrebbe poter essere ruotato/dimensionato dai gesti delle mani dell'utente.

In modalità Build, ho testato personalmente e confermato che può essere completata in una sola volta. Gemini assegnerà automaticamente le attività, scriverà il codice e chiamerà diverse interfacce. Una volta completata la barra di avanzamento, è possibile aprirla direttamente facendo clic su Anteprima, ricordandosi di concedere le autorizzazioni per la fotocamera.

Gemini 3 ha progettato in modo chiaro i suoi effetti: la mano sinistra ingrandisce e rimpicciolisce, la mano destra ruota e i punti di contatto compaiono quando entrambe le mani sono nel raggio d'azione della telecamera: tutte caratteristiche non presenti nel prompt, ma piuttosto cose che ha "pensato" lui stesso. Abbinato a un grande schermo o a un proiettore, trasmette davvero un'atmosfera alla Jarvis.

Sia il modello della Terra a sinistra che il contenuto del pannello a destra sono personalizzabili. Inizialmente, Gemini 3 mostrava la temperatura corporea umana nel pannello destro (ovviamente una funzionalità inventata), ma in seguito l'ho modificata in "visualizza il diametro del modello della Terra a sinistra in tempo reale". In ogni caso, con il codice Vibe, è possibile modificarlo a piacimento.

Controllo delle gocce di pioggia

Se abbiamo già Jarvis, allora probabilmente dovremmo prendere anche Now You See Me.

In precedenza, i film presentavano solo effetti speciali, ma ora, con Gemini 3, c'è qualcosa di diverso. Consultare il seguente prompt come riferimento:

Crea un'applicazione web utilizzando modelli HTML, JavaScript e ML. Utilizza il rilevamento dei gesti della telecamera per controllare gli effetti di pausa, blocco e rallentamento di un'animazione a forma di goccia di pioggia. L'animazione deve rimanere verticale, con uno stile ispirato al film "Now You See Me".

La prima bozza di questo prompt è stata scritta interamente sulla base delle mie riflessioni dopo aver visto il film, e ogni dettaglio può essere modificato utilizzando Vibe Coding. Sulla base della prima bozza, Gemini aggiungerà i propri design; ad esempio, questo gesto specifico è stata una sua idea.

Sebbene sia realizzato con l'intelligenza artificiale, è molto sensibile nel riconoscere i gesti, compresa la capacità di passare rapidamente da un gesto all'altro.

particelle 3D

Un tempo, il controllo delle gocce di pioggia era una tecnica di effetti speciali molto complessa. Subito dopo l'uscita di "Now You See Me 2", un'azienda di bevande realizzò uno spot pubblicitario che sfruttava il controllo delle gocce di pioggia per ottenere un effetto particellare statico.

Facendo riferimento al concetto di "controllo della pioggia", il Gemini può certamente ottenere l'effetto descritto sopra, che richiede una combinazione di riprese dal vivo e controllo della velocità. L'equivalente più vicino sono le particelle 3D. Pertanto, ho creato un altro esempio interattivo con un effetto particellare 3D.

Fantastico! Guarda l'esempio di prompt qui sotto:

Crea un sistema particellare 3D interattivo in tempo reale utilizzando Three.js. Il ridimensionamento e la diffusione dello sciame di particelle sono controllati rilevando l'apertura e la chiusura delle mani tramite una telecamera. Un pannello UI consente agli utenti di selezionare modelli come cuori, fiori, Saturno, statue di Buddha e fuochi d'artificio. È supportato un selettore di colori per regolare i colori delle particelle, che devono rispondere ai cambiamenti dei gesti in tempo reale. L'interfaccia è pulita e moderna, con pulsanti di controllo a schermo intero.

Il design è completato in un'unica operazione, garantendo un'interazione estremamente fluida, soprattutto grazie al riconoscimento dei gesti preciso e sensibile.

【Suggerimenti】

Quando si tratta di dettagli come colore, layout e design dell'interfaccia utente, modificarli ogni volta utilizzando la codifica Vibe sarebbe complicato da descrivere. Inoltre, ogni sessione di codice Vibe prevede una selezione casuale, quindi una tecnica molto utile è quella di aggiungere moduli personalizzati, soprattutto per colori e dimensioni. Questo consente una personalizzazione completamente indipendente degli schemi di colore a proprio piacimento.

Abilità nel Gomoku

Dalle gocce di pioggia alle particelle, dalle particelle al movimento, dal movimento a… Gomoku! Finalmente posso creare un gioco di Gomoku basato sulle abilità!!

A pensarci bene, Gomoku non è anche un gioco interattivo controllato tramite gesti, in cui si vola? Muovi i pezzi con sabbia e pietre volanti, muovi la scacchiera con la forza necessaria per sradicare le montagne, è tutto incluso!

Di seguito è riportato un esempio di prompt:

Crea un gioco interattivo basato sui gesti chiamato "Skill Gomoku": la pagina principale è una scacchiera Gomoku con pezzi già posizionati di default. Quando l'utente esegue un movimento di "oscillazione con una mano", i pezzi voleranno via dalla scacchiera nella direzione dell'oscillazione. Quando l'utente esegue un movimento di "oscillazione con due mani", la scacchiera si muoverà nella direzione dell'oscillazione.

Gemini gestisce autonomamente la connessione tra logica fisica e gesti. Il mio prompt deve solo descrivere l'effetto, mentre non devo preoccuparmi dei calcoli specifici del vettore di velocità o delle soglie di rilevamento.

Ha persino rinominato l'"abilità": Universal Pull.

Questo si chiama volare sabbia e pietre, Maestro Gemelli!

Gioco di musica ritmica

Sulla base dei tentativi sopra descritti, i meriti di Gemini sono innegabili. E ripensate a queste abilità: riconoscimento dei gesti, cambio di colore, tutto questo insieme, non è forse solo un mini-gioco?

Così ho provato un progetto più complesso: i giochi ritmici.

Ho giocato a molti rhythm game, ma essendo un principiante assoluto con zero esperienza, capire come descrivere l'effetto che volevo ottenere con Gemini ha richiesto davvero un po' di riflessione. La prima bozza del prompt è la seguente:

Crea un gioco musicale controllato tramite gesti con quattro tracce audio nella schermata principale. Dopo che l'utente carica un file musicale, dei punti luminosi appaiono sulle tracce a ritmo. L'utente deve toccare con precisione questi punti luminosi con i gesti. Lo sfondo ha uno stile synthwave retrò e i colori dello sfondo, delle tracce e dei punti luminosi possono essere personalizzati.

Questo è fondamentalmente il prototipo a cui riesco a pensare. Basandosi sulla prima versione del prompt, Gemini ha scelto Pygame come motore di gioco, ha continuato a usare MediaPipe per il tracciamento dei gesti e ha aggiunto Librosa per l'analisi musicale.

Lo stile synth wave retrò è stato scelto perché ha un'identità visiva chiara, che anche Gemini riconosce: tramonti, sfumature al neon, griglie e strade che conducono all'orizzonte, rendendolo perfetto per i giochi ritmici.

Creare un gioco è davvero molto più complesso di alcune delle interazioni più piccole su cui abbiamo lavorato in precedenza… Innanzitutto, riconosceva solo una mano, quindi abbiamo dovuto apportare delle modifiche; poi non poteva caricare la musica, quindi abbiamo dovuto apportare modifiche anche a quello; solo con la terza versione ha iniziato ad avere un aspetto decente.

Tuttavia, durante i miei test, ho scoperto un problema piuttosto fastidioso: la linea di rilevamento era posizionata troppo vicino al bordo dello schermo e, poiché il raggio di riconoscimento della fotocamera è limitato, la mia mano non poteva essere riconosciuta se la abbassavo anche solo leggermente.

Il mio approccio iniziale è stato quello di spostare la linea di rilevamento al centro dello schermo per assicurarmi che la mia mano fosse sempre all'interno del campo visivo della telecamera.

Tuttavia, è emerso un altro problema: la distanza tra l'uscita del punto luminoso e la linea di valutazione era troppo breve, lasciandomi pochissimo tempo di reazione . Per non parlare del leggero ritardo nell'azione del clic, che riduceva notevolmente la giocabilità complessiva. Ma se la riducevo troppo, la mia mano rimaneva comunque fuori dal raggio di riconoscimento.

Per un attimo non sono riuscito a trovare una soluzione a questo problema, così sono andato direttamente a chiedere a Gemini come risolverlo.

Indica direttamente il nocciolo del problema e propone un approccio di "inganno visivo" per ottimizzare l'esperienza. Aggiunge inoltre un cursore personalizzato per regolare l'offset, in modo che, indipendentemente da dove si trovi la mano, il cursore possa essere regolato per allinearsi alla linea di giudizio.

genio.

In seguito ho fatto notare che l'aspetto dei punti luce non sembrava corrispondere molto bene al ritmo. Per risolvere questo problema, Gemini ha aggiunto un cursore per regolare la latenza. Anche se non credo che analizzi ancora molto bene i pattern ritmici, il design del cursore è piuttosto efficace, soprattutto nel risolvere il problema di latenza causato dall'uso di cuffie Bluetooth.

[Alcuni suggerimenti]

In sostanza, finché c'è un prompt, ci saranno situazioni in cui si pescano carte, ma pescare carte non è necessariamente un male. Quando si incontrano bug gravi, come l'impossibilità di accedere alla fotocamera o di caricare file, ripetute modifiche al codice di Vibe non aiutano; è meglio semplicemente "creare un nuovo progetto". Le funzionalità principali si riflettono nel codice, e il codice è interconnesso. Eseguirlo di nuovo e lasciare che l'IA completi il ​​processo complessivo è molto più efficiente che programmare meticolosamente con Vibe. Naturalmente, comprendere il codice sarà ancora più efficiente, consentendo soluzioni mirate. Tuttavia, per i principianti assoluti, pescare di nuovo le carte è spesso l'opzione migliore.

Prima di sviluppare applicazioni interattive basate sui gesti, è necessario imparare a usare Touch Designer e, idealmente, anche a implementare alcune funzionalità. Questo richiede la frequentazione di tutorial e lo studio ripetuto, e si rischia facilmente di arrendersi.

La facilità d'uso dell'intelligenza artificiale è evidente. Ancora più importante, l'interazione gestuale, originariamente molto più complessa della creazione di immagini grezze o presentazioni PowerPoint, può ancora consentire anche ai principianti senza esperienza di programmazione di apprezzare rapidamente il divertimento dello sviluppo di applicazioni.

L'unica sfida rimasta è il giudizio estetico. Questi esempi dimostrano che Gemini ha un certo senso estetico, ma non molto; il design, la combinazione di colori e così via sono tutti piuttosto insoddisfacenti. Può padroneggiare le competenze "difficili" della programmazione; ciò che rimane è la sfida del giudizio estetico.

#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

ifanr | Link originale · Visualizza commenti · Sina Weibo