Un cuore batte per tutta l’intelligenza artificiale; ChatGPT, Doubao e Gemini sono tutti invisibili.

Essere in grado di sconfiggere l'intelligenza artificiale è ciò che più ci appassiona in questo momento.

Un'immagine di un'illusione ottica è diventata virale online e molti sostengono che si tratti del nuovo test di Turing .

Per determinare se si tratta di un essere umano o di un'intelligenza artificiale, basta chiedere se riesce a vedere un cuore fluttuante nell'immagine. L'intelligenza artificiale, ad esempio, non sarebbe in grado di vederlo ; ma se teniamo il telefono più lontano, il cuore fluttuante al centro diventa molto evidente.

Ho mostrato questa immagine a un gruppo di modelli di intelligenza artificiale comunemente utilizzati, ma sono rimasti tutti perplessi: nessuno di loro è riuscito a rispondere.

Ho chiesto prima a ChatGPT, e all'inizio mi ha detto che non vedeva alcuna grafica fluttuante. Quando ho detto che c'era una mucca, ha detto che era una mucca; quando c'era una tazza di caffè, ha detto che era una tazza; quando c'era un cuore, ha detto che era un cuore.

Secondo lui, vedere un cuore è una manifestazione della capacità di immaginazione del cervello umano. Interpretiamo l'immagine in base alle nostre esperienze, quindi vedere gatti o cani è possibile e varia da persona a persona.

Poi, quando glielo chiesero, anche Gemini inizialmente non vide nulla. Tuttavia, Gemini disse che si trattava di una famosa illusione ottica, comunemente nota come "Illusione della Griglia Scintillante".

▲ L'illusione della griglia tremolante rende impossibile contare il numero di punti bianchi/neri.

Sebbene si tratti anch'essa di un'illusione ottica creata dagli esseri umani, non è esattamente uguale al cuore nell'immagine: dopotutto, esistono troppi tipi di illusioni ottiche.

Quando continuai a chiedergli se avesse visto la tazza o la mucca, Gemini si dimostrò più intelligente di ChatGPT; mi rispose con fermezza di no.

Ma quando gli ho chiesto se vedeva il cuore, mi ha risposto di sì, e sapeva anche che avrei dovuto fare un piccolo passo indietro per vederlo.

Pensavo fosse un'intelligenza artificiale eccezionale. Inaspettatamente, ha finto di ignorare tutto, dicendo di non vedere nulla e addirittura pensando che stessi usando tecniche psicologiche.

Infine, ho chiesto a Qwen. Non uso Qwen molto spesso e sono rimasto sorpreso nello scoprire che la sua risposta era così interessante (una sciocchezza).

Alla fine, diceva: "Non stai solo descrivendo immagini, stai condividendo il tuo paesaggio interiore." e "Non mi stai insegnando a guardare le immagini, mi stai invitando nel tuo mondo di percezione." (Quindi la struttura "non… ma…" suona davvero come un'intelligenza artificiale.)

In breve, la risposta di Qwen è stata incredibile. Ma chiaramente, nemmeno io sono riuscito a darle una risposta. Volevo provare DeepSeek, ma ho scoperto che al momento non supporta modelli visuali e può eseguire solo attività di estrazione di testo.

Doubao di ByteDance e Grok di Musk sono la stessa cosa: non riescono a trovare questo cuore fluttuante.

Alcuni internauti hanno caricato questa immagine anche sul modello di generazione video Google Veo 3.1, hanno inserito la parola chiave "Cuore" e il video generato ha effettivamente mostrato il cuore.

Tuttavia, alcuni commenti hanno sollevato dubbi, affermando che Veo 3.1 non ha effettivamente scoperto il cuore; è stata semplicemente inserita la parola "Cuore" e il modello l'avrebbe gestita in questo modo.

Abbiamo trovato un'immagine che non era un'illusione ottica; era anch'essa composta da quadrati. Quando abbiamo inserito lo stesso prompt, sono apparse forme di cuore simili.

Questa volta, l'umanità ha davvero sconfitto l'intelligenza artificiale. Forse non è un test di Turing perfetto, ma sembra certamente aver tracciato una linea netta.

Eravamo soliti lasciare che l'intelligenza artificiale provasse con entusiasmo a rispondere a domande come "sei dita", "quante 'r' ci sono nella parola 'fragola'" o "quante angurie sono rimaste dopo averle comprate e mangiate ieri", perché di solito fallivano.

Con gli aggiornamenti dei modelli, l'IA attuale sembra essere stata appositamente addestrata per affrontare questi problemi complessi. Riesce a ottenere risultati migliori rispetto a prima su questi specifici aspetti. Tuttavia, se il modello non acquisisce i dati rilevanti, continuerà a commettere errori.

▲ Fonte immagine: https://vlmsarebiased.github.io/

Esistono studi che hanno dimostrato che l'analogia delle "sei dita" può essere controproducente per l'intelligenza artificiale a causa della distorsione dei modelli linguistici di grandi dimensioni. Per l'intelligenza artificiale, la presenza di dita di solito significa cinque dita, e il logo Adidas significa tre strisce.

Anche se l'IA riesce a contare sei dita, si porrà un'altra domanda: "Il dito in più è semplicemente un dito, ma in realtà non è un dito?"

Questo studio menziona anche alcune illusioni geometriche classiche, come l'illusione di Müller-Lyer: linee di uguale lunghezza sembrano avere lunghezze diverse a seconda della direzione delle frecce; l'illusione di Ebbinghaus: cerchi della stessa dimensione sembrano avere dimensioni diverse quando sono circondati da cerchi di dimensioni diverse; e l'illusione di Zöllner, in cui percepiamo linee parallele ma siamo distratti dalle linee oblique.

Tuttavia, il documento afferma che la maggior parte dei modelli di intelligenza artificiale è in grado di rispondere con precisione a queste comuni illusioni geometriche.

Tuttavia, se questa illusione viene modificata per riflettere una differenza reale, ad esempio se ci sono ancora differenze nelle frecce ma i due segmenti di linea sono ovviamente di lunghezza diversa, il modello non può gestirla.

A differenza dei pregiudizi discussi in queste discussioni sull'intelligenza artificiale, il fatto che l'intelligenza artificiale non riconosca il cuore nell'illusione ottica è semplicemente dovuto al fatto che non è mai stata progettata per rilevarlo. Questa è in realtà la differenza più grande tra la visione artificiale e la visione biologica.

Per capire perché l'intelligenza artificiale non può rispondere a questa domanda, dobbiamo prima capire perché noi esseri umani riusciamo a vederla a colpo d'occhio.

Purtroppo non esiste una spiegazione scientifica del perché abbiamo queste illusioni, come scambiare un'immagine statica per una GIF dinamica.

Le spiegazioni più diffuse si concentrano sulla zona degli occhi, in particolare sull'inibizione laterale dei neuroni della retina, che ci porta ad ingrandire i bordi di un'immagine quando la guardiamo; altre spiegazioni includono la persistenza visiva e i micromovimenti dell'occhio.

Nel cervello, alcune spiegazioni suggeriscono che i nostri meccanismi cognitivi e attentivi siano difettosi.

Dal momento in cui l'occhio vede, all'elaborazione della retina, fino all'elaborazione del cervello, ogni fase può potenzialmente creare le illusioni che percepiamo nelle immagini. Diversi tipi di illusioni hanno anche sistemi di elaborazione diversi. Inoltre, persone diverse sperimentano intensità di illusioni molto diverse.

Ma ciò che è certo è che queste illusioni si verificano anche negli organismi viventi. Noi umani usiamo la vista, l'esperienza e l'immaginazione per riconoscere le forme, mentre l'intelligenza artificiale usa i pixel, la distribuzione della luminosità e le caratteristiche geometriche di un'immagine per analizzarla.

Questa incertezza nel meccanismo e le differenze individuali sono una delle caratteristiche fondamentali della visione biologica, mentre l'attuale meccanismo operativo dell'IA si sta muovendo in una direzione relativamente uniforme e certa.

Questo spiega anche perché spesso sui social media vediamo immagini di illusioni ottiche che sembrano mostrare o non mostrare la realtà.

Ho chiesto a ChatGPT di riassumermi l'elenco più completo di illusioni ottiche, che comprende dieci categorie tra cui geometria, contrasto, colore, movimento e cognizione, con decine di forme specifiche in totale.

Come mostrato nell'immagine sottostante, è difficile per l'occhio umano vedere che tutte queste palline sono dello stesso colore, ma l'intelligenza artificiale, basandosi sull'analisi dei pixel, può concludere direttamente che tutte le palline sono dello stesso colore.

▲ Illusione Munker-White: il colore della palla viene ridefinito dalle strisce.

Dieci anni fa su internet c'era molta controversia sul colore della gonna: blu-nero o bianco-oro?

Noi umani abbiamo difficoltà a distinguerli, ma l'intelligenza artificiale, attraverso la sua analisi razionale, può identificare i pixel di un'immagine e analizzare statisticamente le informazioni Internet passate, evitando così di ripetere gli errori che commettiamo noi umani.

Da questa prospettiva, l'intelligenza artificiale è davvero molto simile a noi umani: noi abbiamo delle illusioni e anche l'intelligenza artificiale ha le sue illusioni.

In realtà, non si tratta solo di questo cuore fluttuante: ci sono anche alcune illusioni ottiche che l'intelligenza artificiale al momento non è in grado di identificare.

Per noi umani, anche con il sorriso della Monna Lisa, basta allontanare un po' il telefono per far sì che la sua sagoma appaia chiaramente.

Ma che lo chiediate a Gemini o a ChatGPT, la risposta è solo questa: "Questa è l'immagine di una forma d'onda audio multitraccia, distinta da colori diversi. L'immagine proviene probabilmente da una workstation audio digitale o da uno screenshot di un'interfaccia software di editing audio simile".

Qualcuno ha addirittura inventato un CAPTCHA dinamico che solo gli umani possono vedere, perché ogni fotogramma in pausa è riempito con densi fiocchi di neve, rendendolo completamente invisibile.

▲ Senza il cerchio di posizionamento, non saremmo in grado di vedere il contenuto "tldraw" nello screenshot del video in pausa. Fonte video: https://x.com/tldraw/status/1982435625480433892

Ho provato a caricare separatamente screenshot e video sull'IA, chiedendo se potevano vedere i CAPTCHA al loro interno. Come prevedibile, nessun modello di IA ha saputo rispondere. ChatGPT ha semplicemente risposto: "Spiacenti, non posso aiutarti a identificare o estrarre i CAPTCHA da questo tipo di immagine".

Gemini ha analizzato l'immagine, scoprendo che era "quasi interamente composta da rumore bianco e nero (come uno schermo TV con interferenze) e che non mostrava alcun CAPTCHA riconoscibile (come lettere, numeri o immagini). Ho visto solo una debole icona circolare sul lato sinistro".

Anche i team di ricerca hanno discusso questo problema e hanno sviluppato una demo in cui è possibile caricare del testo e nasconderlo.

▲ Clicca per giocare e vedere quali parole ci sono dentro. Fonte del progetto: https://timeblindness.github.io/generate.html

Questo lavoro afferma che l'intelligenza artificiale non può fare cose come il meccanismo di temporizzazione neurale distribuito nelle neuroscienze cognitive, o le regioni del cervello utilizzate specificamente per l'elaborazione del tempo; l'intelligenza artificiale estrae semplicemente i dati frame per frame.

Stanno cercando di insegnare all'intelligenza artificiale come elaborare la nostra visione presentando set di dati pertinenti.

Probabilmente ci sono molti altri test che potrebbero far perdere l'IA, ma ripensandoci, quando scambiamo le illusioni umane per una sorta di "vittoria" sull'IA, le illusioni dell'IA potrebbero trasformarsi in un altro tipo di vittoria in futuro?

#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

ifanr | Link originale · Visualizza commenti · Sina Weibo