Svelati i misteriosi dettagli hardware di OpenAI: ho usato l’intelligenza artificiale per ripristinare la macchina reale e iniettare l’anima del design Apple

Di recente, è stato scoperto un misterioso hardware di intelligenza artificiale che ha stuzzicato l'appetito degli internauti: i suoi scenari di utilizzo e la sua frequenza sono paragonabili a quelli di iPhone e MacBook, ma non ha uno schermo e non è un occhiale con intelligenza artificiale, né cuffie con intelligenza artificiale, né spilla con intelligenza artificiale, né iPod… Il suo ideatore ha addirittura promesso di "produrne in serie 100 milioni di unità".

È difficile indovinare che tipo di "attrezzatura hardware che apre nuove strade" la società di io co-fondata dal CEO di OpenAI Altman e dall'ex responsabile del design di Apple Ive abbia utilizzato l'intelligenza artificiale per sperimentare!

Pertanto, nonostante Ultraman abbia rivelato l'intenzione di lanciare ufficialmente il prodotto alla fine dell'anno prossimo, molti internauti X hanno già iniziato a pensare di usare l'intelligenza artificiale per "indovinare" l'immagine . E se conoscesse qualche "informazione riservata", giusto?

I dettagli del primo dispositivo hardware di io sono i seguenti:

  1. Nessuno schermo, l'interazione con l'ambiente esterno avviene tramite telecamera e microfono integrati
  2. Il design è simile all'iPod Shuffle
  3. Non utilizza occhiali AI, smartphone, cuffie o altri comuni hardware AI.
  4. Più grande del pin AI
  5. Con design a collo alto
  6. Può essere collegato a smartphone e PC

Senza ulteriori indugi, diamo un'occhiata alle "immagini dei prodotti .io" pubblicate dal blogger di creazione di intelligenza artificiale Ben Geskin su X. Circa 9.000 internauti di X sono venuti a guardare.

In sintesi, l'immagine sopra non solo racchiude queste rivelazioni fondamentali, ma riporta anche il logo del suo sponsor OpenAI e progetta un insolito fattore di forma per l'hardware AI: dopotutto, assomiglia un po' ai più comuni rasoi, massaggiatori e power bank…

Ben Geskin Nella sezione commenti di questo post, altri internauti X si sono alternati nel postare altri stili di "immagini di prodotti io".

“Versione GPT di Apple Watch” generata da ChatGPT di OpenAI:

Gli occhiali e le cuffie con intelligenza artificiale non hanno fotocamere integrate? Ne consegue che anche gli smartwatch hanno fotocamere? Ha senso.

“Telecamera AI portatile da tavolo” generata da Grok di xAI:

Come può Google, proprietaria del modello video più potente del pianeta, Veo 3, essere assente da un'occasione del genere? Quindi, come si comporta l'ultima versione del modello grafico basato su testo Imagen 4 di Google? Diamo prima un'occhiata ai Gemelli.

iFanr ha inviato la stessa serie di richieste "prevedi immagini di prodotti io" a Gemini equipaggiato con Imagen 4, a ChatGPT equipaggiato con GPT-4o e a Grok equipaggiato con Grok-3, dopodiché ognuno di loro ha fornito le seguenti immagini simulate di prodotti.

A giudicare dai risultati di questo singolo ciclo di generazione, tutti e tre coprono sostanzialmente gli elementi di progettazione del prodotto nelle informazioni trapelate. Tra queste, le immagini dei prodotti Gemini e ChatGPT sono più in linea con l'idea di design di poter essere appesi al collo . Rispetto alle altre, le immagini dei prodotti generate da Gemini presentano una consistenza visiva leggermente migliore.

Secondo la dichiarazione ufficiale di Google, Imagen 4 è in grado di presentare in modo più chiaro i dettagli delle immagini, come pelle, capelli e texture complesse, ed è anche più efficace nel creare immagini AI "realistiche" e "a livello fotografico" . Allo stesso tempo, afferma che le immagini AI generate da Imagen 4 supportano vari rapporti di aspetto e hanno una risoluzione fino a 2K.

Ma ad essere onesti, questo prodotto io progettato da Gemini "sembra un po' una folla". Più lo guardi, più sembra una combinazione di Apple Watch + spilla AI + cordino per borsa da alpinismo…

Inoltre, Gemini ha anche fornito uno schema in grado di riflettere il "collegamento remoto tra i nuovi prodotti io e gli smartphone e i dispositivi PC".

Inoltre, Imagen 4 può anche soddisfare le esigenze di creazione di alcune immagini astratte tramite intelligenza artificiale.

Inoltre, il modello di intelligenza artificiale migliora ulteriormente la qualità dell'output in termini di ortografia e composizione tipografica e può ottimizzare la creazione di biglietti di auguri, poster, fumetti e altre scene tramite intelligenza artificiale .

Il contenuto in inglese stampato sulla confezione esterna della scatola delle uova è chiaro, accurato e bello:

Nei fumetti multi-frame la storia è continua, le immagini e i testi si combinano tra loro e vengono prese in considerazione tutte le inquadrature, da lontano, medie e ravvicinate:

Si possono cogliere anche i fumetti in stile pixel che hanno spopolato ultimamente su Internet:

Imagen 4 è ora disponibile in Gemini App, Whisk, Vertex AI e nei prodotti PPT, Video, Doc di Workspace e altri.

Secondo la conferenza Google I/O, Imagen 4 verrà lanciata in un secondo momento una versione più veloce, la cui velocità di generazione delle immagini tramite intelligenza artificiale sarà 10 volte superiore a quella della precedente generazione Imagen 3. Aspettiamo e vediamo.

Un fotografo attento ai dettagli

In termini di ripristino delle parole chiave immediate e completezza del contenuto principale dell'immagine, i modelli di immagini letterarie più diffusi sul mercato possono ora raggiungere "rumore e occhi" – il livello generale non è molto diverso.

Pertanto, per quanto riguarda la qualità della generazione delle immagini, Google ha iniziato a entrare nei dettagli, affermando che Imagen 4 ha "colori più delicati" e "dettagli più fini". Questo non sembra molto realistico, quindi dobbiamo comunque "lasciare che sia l'immagine a parlare da sola".

Sulla base dello stesso insieme di parole chiave:

Un golden retriever che trova conchiglie sulla spiaggia

iFanr ha confrontato gli effetti immagine forniti dal modello Imagen 4, dal modello Imagen 3 della generazione precedente di Imagen 4 e da Doubao Seedream3.0.

In questa immagine AI generata da Imagen 3 , l'espressione del golden retriever, la consistenza delle conchiglie, le tracce delle zampe del cane sulla spiaggia, il cielo azzurro e le nuvole bianche e le onde che accarezzano lo sfondo sono tutti molto chiari e realistici.

Inoltre, se si guarda attentamente, il pelo del golden retriever sembra bagnato dall'acqua di mare e si presenta a ciocche.

Infatti, quando ho visto per la prima volta i capolavori generati da Imagen 3, ero un po' preoccupato che Imagen 4 non potesse vincere.

Quest'ultimo, tuttavia, non ha deluso le aspettative e ha dimostrato con vera forza cosa significa "liscio e luminoso" .

Innanzitutto, da una prospettiva complessiva, le immagini generate da Imagen 4 presentano toni più morbidi e colori più naturali, come il cielo con una sfumatura di azzurro e il mare con grandi distanze e piccole distanze vicine.

Inoltre, dal punto di vista locale, il pelo del golden retriever è ricco di dettagli. Non solo è più lucido e la distribuzione di luci e ombre è più uniforme, ma restituisce anche la sensazione di morbidezza che lo rende molto piacevole da accarezzare.

Un altro dettaglio che salta subito all'occhio sono gli occhi del cane . Il golden retriever nell'immagine sta osservando le conchiglie sulla spiaggia, il che corrisponde alla parola "scoperta" nel prompt.

A titolo di paragone, anche la performance di Doubao è molto forte. Sebbene il colore generale dell'immagine sottostante sia scuro, l'immagine è anche molto ricca di dettagli, come le onde mosse dalla brezza marina, il pelo del cane mosso dalla brezza marina che è chiaramente visibile e le zampe del golden retriever piene di sabbia dopo aver tirato fuori la conchiglia…

L'unico inconveniente è che queste tre immagini presentano tutte un problema simile: lo sfondo e il suo effetto sfocato hanno ancora un forte sapore di intelligenza artificiale .

Nell'esempio fornito da Google, Imagen 4 riesce addirittura a raggiungere un "controllo dei dettagli" al punto da "disegnare qualsiasi cosa si indichi". La pelliccia corta e rigida del capibara, le pennellate di un dipinto a olio, la luce e l'ombra delle bolle e la struttura della superficie di un cristallo possono essere tutti catturati con precisione.

Allo stesso tempo, in termini di texture dell'immagine e nitidezza 2K , alcuni dei prodotti finiti di Imagen 4 possono addirittura rivaleggiare con i lavori fotografici professionali.

Un designer dall'elevata estetica

Quando iFanr ha chiesto a Gemini, che utilizzava l'ultima versione Gemini 2.5 Flash, di "progettare una borsa di tela con uno schermo elettronico, disponibile nelle misure grande, media e piccola", l'assistente AI multimodale ha impiegato circa 10 secondi per produrre il seguente progetto.

Il disegno di progettazione mostra intuitivamente i due elementi di design di "borsa di tela" e "schermo elettronico" , mentre le parole grande, medio e piccolo sono contrassegnate nella colonna di sinistra. L'area a destra utilizza alcuni oggetti di riferimento, come "bicchiere d'acqua" e "pennello", per riflettere la differenza di dimensioni .

Vale anche la pena sottolineare che le linee generali del suo design esterno sono fluide e non rigide, e conservano anche una certa sensazione di "dipinto a mano" .

iFanr ha poi chiesto a Gemini di specificare le dimensioni specifiche della borsa in tela con lo schermo elettronico. A giudicare dai risultati ottenuti, le principali parole inglesi e i numeri romani sono relativamente chiari e scritti correttamente, ma le parti che riguardano le unità di misura inglesi e i segni di punteggiatura sono confuse.

Se non sei soddisfatto del risultato generato, clicca sull'opzione "Aggiorna" nell'interfaccia della chat. Gemini cancellerà il risultato generato e rieseguirà l'output in base al prompt appena immesso.

Il disegno di progettazione del prodotto è pronto, ma manca il nome del prodotto. Gemini ha contribuito a trovare un nome semplice e diretto: "Canvas Connect".

I risultati effettivamente generati dai passaggi precedenti non sono molto diversi dalle parole richieste e non ci sono molti punti in cui è necessario eseguire nuovamente il debug.

Tuttavia, quando si tratta di progettare poster e inviti corrispondenti, se i messaggi contengono significati ambigui , è probabile che i Gemelli li fraintendano.

Gemini ha fornito per prima il poster del prodotto sulla sinistra, basato sul disegno di progettazione del prodotto della borsa in tela con schermo elettronico "Canvas Connect". Successivamente, il prompt chiede di cambiare la combinazione di colori del poster. I colori principali sono il marrone e il verde, il resto rimane invariato.

Tuttavia, poiché il prompt non specificava che il colore della "borsa di tela" rimanesse invariato, Gemini cambiò il colore della borsa di tela quando cambiò il colore di sfondo del poster, come mostrato nell'immagine a sinistra.

Dopo aver riscritto questo prompt, Gemini ha cambiato solo il colore del poster anziché del prodotto e il colore del tema è cambiato da rosa a verde. Ci vogliono circa 10 secondi per passare dal pensare alle esigenze dell'utente alla base del messaggio, alla comprensione delle esigenze corrispondenti e infine alla generazione dell'immagine AI.

Inoltre, non ci sono cambiamenti evidenti nelle immagini sullo schermo elettronico, nei movimenti e nelle espressioni dei modelli reali o nel contenuto del testo. Questo caso dimostra in modo esaustivo che l'immagine di testo del modello Imagen 4 ha un'elevata controllabilità, un layout del testo accattivante ed è generalmente riutilizzabile.

Purtroppo, alcuni paragrafi o parti di testo necessitano ancora di prompt precisi per controllare il debug.

Gemelli: Papà, è stata caricata la 10086a bozza del progetto. Posso uscire adesso?

Non preoccuparti, Imagen 4 ha ancora molte funzionalità di design che gli utenti possono scoprire.

iFanr l'ha provato e ha scoperto che è possibile sostituire direttamente il modello reale nel poster con un personaggio dei cartoni animati la cui acconciatura, il cui vestito e i cui movimenti sono più simili, ovvero il poster all'estrema destra dell'immagine sopra. Questo è anche un modo di pensare a come scattare foto quando si è troppo pigri per abbellirle.

Tuttavia, se non verrà fatta alcuna richiesta specifica, il layout originale del poster verrà modificato. Attualmente ciò richiede uno sforzo maggiore nella parte prompt.

Oppure puoi scegliere un invito elettronico che sia "vivace e interessante nello stile", "connotativo nel contenuto" e "adatto ai social media".

Infine, non dimenticare di chiedere a Gemini di creare un testo promozionale con emoji e tag, "Vi invitiamo ad assistere insieme al lancio del nuovo prodotto Canvas Connect".  #TechStyle".

#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

iFanr | Link originale · Visualizza commenti · Sina Weibo