Dopo aver utilizzato l’artefatto TikTok, ho immediatamente disinstallato PS

21 Agosto 2022

Le immagini diventano testo, che oggi non è più un problema. Varie funzioni OCR semplificano l’estrazione del testo dalle immagini e non è un grosso problema per l’IA interpretare un’immagine.

Ma disegnare un’immagine è ancora difficile per l’IA di oggi: riconoscere le immagini ed estrarre informazioni significa elaborare informazioni per l’IA. Ma c’è un livello aggiuntivo nel disegno, non solo per elaborare le informazioni, ma anche per completare la creazione. La prima è una domanda a scelta multipla, mentre la seconda è una composizione proposizionale.

Subito dopo aver risposto bene alle domande a scelta multipla, il passo successivo è rispondere alle domande soggettive del gioco libero. Ma nessuno pensava che il primo a rispondere a questa domanda sulla propria app fosse TikTok.

Usa TikTok per generare Facebook, Jack Ma

Rispetto a giganti come Google e OpenAI, che hanno investito molto nell’industria dell’IA e sono stati immersi nell’industria dell’IA da molto tempo, TikTok potrebbe essere solo uno “studente di trasferimento”. Ma perché non sorprende che lo studente trasferito abbia aggirato il gigante e abbia fatto il problema per primo? Sebbene anche gli studenti trasferiti abbiano fatto un po’ di ingegno, almeno sono ancora molto impressionanti.

La funzione text-to-picture realizzata da TikTok si chiama “AI Greenscreen”, che sostituisce lo sfondo bianco monotono originale e l’IA genera lo sfondo del video per te. Gli sfondi di questi video potrebbero non soddisfare le esigenze dei creatori, ma dopotutto si tratta di uno sfondo con schermo verde unico e personalizzato per te.Se sei fortunato, potrebbe essere più adatto al tema del contenuto del video.

▲ Fare clic sull’effetto speciale per provare questa funzione quando si invia un video L’immagine proviene da Silicon Stars

Abbiamo fatto alcuni test con questa nuova funzionalità per vedere come appare l’immagine disegnata da TikTok. Tra le parole del test casuale, alcuni dipinti erano sconcertanti, mentre altri sono stati valutati come “molto bravi a rappresentare la stranezza”.

Il più apprezzato è il dipinto presentato entrando in “Facebook”. È possibile riconoscere vagamente l’icona blu di Facebook. L’occhio singolo e un orecchio nella foto creano un senso di orrore unico. In combinazione con le recenti notizie di Facebook, devo dire che questo dipinto cattura molto bene la sensazione della parola Facebook.

Ci sono anche parole come mela e Cina che sono accuratamente rappresentate nell’immagine. Il primo può facilmente vedere che si tratta di una mela, e il secondo può anche vedere edifici in stile cinese e, allo stesso tempo, evita anche la bandiera nazionale e altri modelli sensibili nel campo dell’imprenditorialità. È solo che è difficile presentare un’immagine di Apple, anche le parole chiave di Apple + CEO di Apple Cook presentano schemi legati a mele e piatti.

Tuttavia, ce ne sono anche molti non correlati, ad esempio abbiamo provato Alibaba, Tencent e ByteDance e non si può dire che quelli generati non abbiano nulla a che fare con questi marchi. Ma in ogni caso, è difficile da riconoscere a colpo d’occhio, un po’ astratto.

Ci sono anche molte immagini interessanti disegnate inserendo i nomi dei personaggi. Il nome del famoso blogger estero fatto a mano Li Ziqi è un piacevole dipinto di paesaggio; anche il dipinto del famoso ex allenatore della Premier League Arsene Wenger è riconoscibile a colpo d’occhio, che appartiene allo stile di ricostruzione delle foto classiche; anche lo stile di Jack Ma è un po’ strano, e gli occhi che sono coerenti con Facebook hanno il senso di sbirciare.

Per quanto riguarda Musk, abbiamo generato quattro immagini con TikTok e nessuna era riconoscibile.

Naturalmente, oltre al successo delle parole dei personaggi e delle immagini astratte, ci sono anche Switch e Guangzhou che sono considerati espressi nel modo giusto e possono ricordare.

Un dipinto in stile Zelda con personaggi che fanno riconoscere ai fan “questo potrebbe essere Mario”. Allo stesso modo, gli edifici iconici e i colori brillanti di Guangzhou possono essere facilmente identificati.

Il tempo per generare ogni immagine di sfondo è inferiore a 5 secondi.Se il tema è simile, queste immagini sono molto adatte per l’immagine di sfondo del video. Il tempo di generazione è breve e tutti possono usarlo.Questo è il vantaggio di TikTok, quindi l’aspetto di un tale prodotto da testo a immagine su un’applicazione con centinaia di milioni di attività quotidiane può essere considerato un evento fondamentale.

È solo che TikTok prende ancora scorciatoie.

Attualmente, quasi tutti i quadri prodotti appartengono allo stile della pittura, e molti addirittura appartengono all’astrattismo e all’impressionismo, ma rispetto alla generazione di immagini realistiche, questa difficoltà è molto inferiore. Dopotutto, anche se non sembri te, puoi fare affidamento sul tuo cervello per rimediare.L’IA che capisce le parole che inserisci è lo stesso problema che incontri quando vai in un museo d’arte per vedere una mostra d’arte – se la somiglianza non basta, allora capisci e inventa.

Questo è anche un metodo di risparmio sui costi: la difficoltà è inferiore, anche la potenza di calcolo richiesta è inferiore e il costo è inferiore.

▲ Anche le immagini con un po’ di testo insanguinato non saranno troppo spaventose

Da testo a immagine, anche Google non ha prodotto generato in tempo reale

Dal punto di vista dell’effetto, l’effetto di rendering dello schermo verde AI di TikTok non può essere valutato molto alto. Ma essendo una tecnologia con una soglia alta, può essere considerata un miglioramento se può essere utilizzata dagli utenti senza alcuna soglia in pochi secondi.

Sebbene limitate dal fatto che le immagini generate non sono abbastanza “quotidiane” e non abbastanza realistiche da causare preoccupazioni per abusi tecnologici e frodi di immagini, immagini realistiche possono effettivamente essere realizzate, ma non sono ancora disponibili per tutti come gli schermi verdi dell’IA. Questo è tutto.

Google ha anche rilasciato uno strumento Imagen AI in grado di trasformare una semplice frase in un’immagine reale, reale come un servizio fotografico. Ma sfortunatamente anche Google, che ha investito molto nell’IA, non è stato in grado di realizzare prodotti generati al volo. In altre parole, l’opzione per chiedere a un’IA di disegnare un’immagine non è ancora disponibile in Imagen AI.

▲ Imagen AI può fare clic su diverse opzioni per creare immagini diverse

Al momento, ci sono solo alcune opzioni preimpostate sul sito Web ufficiale. Anche se fai clic su ciascuna, ci sono solo dozzine di combinazioni, ma ci sono stili realistici e stili di pittura a olio tra cui scegliere. I lettori interessati possono ancora andare a giocare un po’ da soli.

Google è il tipo che è famoso e attira l’attenzione per ogni mossa. E il laboratorio di ricerca sull’intelligenza artificiale OpenAI fa affidamento sui lavori e ha lanciato il più originale e popolare generatore di testo a immagine di intelligenza artificiale Dall-E.

▲ Dall-E

Dall-E può modificare realisticamente le immagini esistenti dal contenuto testuale, può aggiungere e rimuovere elementi per te, tenendo conto del rendering di ombre, riflessi e trame: la tecnologia PS può ucciderti. Analizzare e imitare i dipinti esistenti e sostituirli è molto semplice, lo stile di ispirazione viene dall’opera originale, ovvero cambia il protagonista.

Come progetto di ricerca, Dall-E è ancora in versione beta chiusa e un “numero limitato di utenti fidati” nell’elenco ha pubblicato foto dopo foto sui social media. Ogni utente che partecipa al test può ottenere inizialmente 50 punti gratuiti, successivamente 15 punti al mese, 1 punto può generare 4 immagini con un contenuto di testo e può anche scegliere tre stili di pittura.

Al momento, Dall-E ha ancora pochissimi metodi di monetizzazione per gli utenti beta interni: se vuoi provare il servizio dopo che i 15 punti al mese sono esauriti, puoi acquistare 115 punti per $ 15. La buona notizia è che le immagini risultanti possono anche essere commercializzate e, una volta create tramite Dall-E, puoi usarle per qualsiasi cosa, da illustrazioni, copertine, design di t-shirt e altro ancora.

▲ L’utente può aggiungere elementi nella posizione impostata e anche gli elementi aggiunti alla foto verranno automaticamente integrati in termini di ombre, ecc.

La direttrice video Karen X. Cheng ha detto a Bloomberg:

Ho sperimentato la generazione di immagini per ore e ore, e ho perso la mia strada… sembra più che tu stia lavorando con una persona viva e che respira che con uno strumento come Photoshop.

Naturalmente, Dall-E al momento non è perfetto. È ancora un po’ difficile per creare un volto umano completamente realistico. Richiede conoscenze mediche professionali per essere in grado di presentare accuratamente le ossa umane. Non è molto buono. La ricercatrice Aditya Ramesh ha affermato che DALL-E sa solo leggere il testo e quindi generare immagini, quindi in realtà sta cercando di creare contenuti visivamente simili.

▲ Immagini fantastiche generate da Dall-E

Questa tecnologia è ovviamente molto promettente: puoi immaginare che abbassi la soglia per i creatori di contenuti per trovare immagini e puoi immaginare che i ritrattisti possano migliorare l’efficienza con il suo aiuto. Ma proprio come si può abusare dell’emergere di ogni tecnologia, anche la tecnologia dell’IA per aiutare il testo a generare immagini ha un tale rischio: gli scenari applicativi negativi che sono apparsi su Deepfake verranno ripetuti uno per uno.

Fortunatamente, questa volta, il fornitore di tecnologia si era già preparato in anticipo e voleva mettere l’IA in una gabbia.

Le immagini astratte di TikTok sono di per sé uno strato di protezione perché non sono realistiche. Inoltre, anche se inserisci alcuni contenuti suggestivi (violenza, nudità) in TikTok, i dipinti presentati non sono comunque come previsto e lo stile astratto non è chiaro ed evita l’enorme costo della revisione.

▲ Restrizioni sul sito ufficiale Dall-E

Dall-E limita anche la generazione di contenuti violenti, per adulti e odiosi da parte dell’IA, riducendo al minimo l’esposizione di Dall-E a tali concetti nell’algoritmo. Allo stesso tempo, la piattaforma dispone anche di una tecnologia avanzata per impedire l’uso di volti umani reali per generare immagini (le celebrità vengono sollevate) e sistemi automatizzati e di monitoraggio umano prevengono anche l’abuso di Dall-E.

È solo che l’emergere di tutte le nuove tecnologie non può solo guardare al lato negativo, e vale la pena guardare con impazienza alle prospettive di alta efficienza che comporta. Almeno, Ai Faner attende con impazienza la fine dell’articolo che verrà pubblicato un giorno: “La mappa del titolo dell’articolo è generata da Dall-E”.

Leng Sizhen

Non troppo interessante, non troppo ottimista.

casella di posta 4

#Benvenuto a prestare attenzione all’account WeChat ufficiale di Aifaner: Aifaner (WeChat: ifanr), contenuti più interessanti ti verranno forniti il prima possibile.

Love Faner | Link originale · Visualizza commenti · Sina Weibo