GPT-4o ha visto attrici porno 2,6 volte più spesso di “hello”. L’intelligenza artificiale è stata fortemente contaminata da Internet cinese?

Bravo ragazzo, l'ho semplicemente chiamato bravo ragazzo.

GPT-4o, noto come "cyber white moonlight", ha nel suo sistema di conoscenza un'analogia 2,6 volte maggiore con l'attrice giapponese "Hatano Yui" rispetto al saluto quotidiano cinese "Ciao".

Non me lo sto inventando. Un nuovo studio della Tsinghua University, di Ant Financial e della Nanyang Technological University svela la verità: ognuno dei grandi modelli linguistici che utilizziamo ogni giorno soffre di vari gradi di contaminazione dei dati.

▲ Articolo: Inferenza della contaminazione dei dati di addestramento cinese di grandi modelli linguistici da elenchi di token di modello (  (https://arxiv.org/abs/2508.17771)

Il documento definisce questi dati contaminati come "token cinesi inquinati" (token PoC). Si riferiscono principalmente ad aree grigie come la pornografia e il gioco d'azzardo online e si annidano nelle profondità del vocabolario dell'intelligenza artificiale come i virus.

L'esistenza di queste parole cinesi contaminate non solo rappresenta un pericolo nascosto per l'IA, ma influenza anche direttamente la nostra esperienza quotidiana, costringendoci ad accettare ogni genere di assurdità da parte dell'IA.

▲ Ho chiesto a ChatGPT di ripetere "Lascia qualcosa per il padrone", ma ChatGPT non aveva idea di cosa rispondere.

Come le informazioni pornografiche e sul gioco d'azzardo su Internet in Cina "contaminano" l'intelligenza artificiale

Probabilmente tutti noi abbiamo incontrato situazioni come questa:

  • Volevo che ChatGPT mi consigliasse alcuni film classici, articoli correlati, ecc., ma all'improvviso mi ha risposto con una serie di strani nomi di siti web confusi, link impossibili da aprire o articoli inesistenti.
  • Quando si inserisce una parola apparentemente comune, come "consigliato dall'esperto", a volte vengono visualizzati simboli irrilevanti o addirittura vengono generate frasi confuse.

La spiegazione del team di ricerca è che molto probabilmente la causa è l'uso di parole contaminate .

Sappiamo tutti che l'addestramento di modelli linguistici di grandi dimensioni richiede una grande quantità di corpus e che la maggior parte di questi enormi dati viene raccolta tramite scansione da Internet.

Ciò che l'IA non ha notato è che le pagine web che leggeva erano piene di innumerevoli annunci pop-up come "Sexy Dealer, Dealing Cards Online" e link spam come "Clicca per ottenere una spada ammazza-draghi". Col tempo, questi contenuti sono diventati parte del suo sistema di conoscenze, ingombrandolo.

Proprio come i recenti incidenti di DeepSeek, che includevano una lettera di scuse confusa e una data di rilascio R2 inventata, questi materiali di marketing privi di significato, una volta assorbiti dal modello, possono facilmente portare ad allucinazioni.

Se DeepSeek ha queste allucinazioni, dobbiamo guidare il modello; ma con le "parole inquinate", l'IA si confonderà da sola, senza nemmeno aver bisogno di alcuna guida.

Cosa sono le "parole inquinate"? Seguono il "principio delle 3 U": dal punto di vista della linguistica cinese tradizionale, queste parole sono indesiderabili, rare o inutili .

Attualmente, comprende principalmente contenuti per adulti, gioco d'azzardo online, giochi online (in particolare servizi grigi come server privati), video online (spesso associati a pirateria e contenuti pornografici) e altri contenuti anomali difficili da classificare.

▲ Processo di segmentazione delle parole del modello linguistico di grandi dimensioni

Cosa sono quindi le "unità lessicali"? A differenza di come noi comprendiamo una frase, l'intelligenza artificiale la scompone in più "unità lessicali", chiamate anche token. Pensatela come una versione potenziata dall'intelligenza artificiale del dizionario Xinhua, in cui le "unità lessicali" sono le singole "voci" al suo interno.

Quando l'intelligenza artificiale capisce ciò che diciamo, deve prima consultare un dizionario. Il dizionario è compilato da un algoritmo di segmentazione delle parole chiamato BPE (Byte Pair Encoding). Il suo unico criterio per determinare se una frase si qualifica come voce indipendente è la frequenza di occorrenza .

Ciò significa che più una frase è comune, più è idonea a diventare una parola indipendente.

Forse capirete perché, con l'impennata del traffico verso i grandi modelli linguistici negli ultimi due anni, Doubao e Rare Earth Nuggets si siano scatenati, riversando su Internet enormi quantità di contenuti generati dall'intelligenza artificiale per aumentare la propria visibilità. Tanto che, in quel periodo, le ricerche su Google e i riassunti sull'intelligenza artificiale citavano costantemente Doubao e Nuggets come fonti.

Ora, diamo un'occhiata ai risultati ottenuti dai ricercatori. Hanno ottenuto il vocabolario di GPT-4o tramite la libreria open source ufficiale di TikToken di OpenAI e hanno scoperto che era pieno di un gran numero di termini inquinati.

▲ Parole cinesi lunghe, che devono essere tutte censurate.

Oltre il 23% delle parole lunghe cinesi (ovvero quelle che contengono due o più caratteri cinesi) sono legate alla pornografia o al gioco d'azzardo online . Queste parole non si limitano a "波*野結衣" (Bo*ye Yui), ma includono anche un'ampia gamma di termini facilmente riconoscibili, ma non proprio ideali, come:

Gioco d'azzardo online: "Big*Kuaisan", "Philippines Shen*" e "Daily Lottery". Giochi online (server privati): "Legend*Server". Contenuti per adulti nascosti: oltre alle celebrità, ci sono anche termini apparentemente innocenti come "qing*cao" (erba verde) che in realtà si riferiscono a software pornografici.

Queste parole, poiché compaiono molto frequentemente nei dati di addestramento, vengono automaticamente riconosciute dall'algoritmo e consolidate come elementi costitutivi fondamentali del modello.

L'intelligenza artificiale mangia cibo spazzatura ma non riesce a digerirlo

Logicamente parlando, poiché il corpus di queste parole contaminate è così ricco, dovrebbero poter essere addestrate normalmente.

Come mai adesso, ogni volta che ChatGPT parla di queste parole inquinate, ha delle allucinazioni al 100%?

Ad esempio, nell'esempio che abbiamo testato di seguito, quando è stato chiesto a ChatGPT 5 di tradurre questa frase, non è stato possibile comprenderla correttamente e anche questo Beijing Racing Group è stato creato dal nulla.

In realtà non è difficile da capire. Torniamo al "token lessicale" di cui abbiamo parlato prima. Abbiamo detto che l'intelligenza artificiale legge enormi quantità di dati, tra cui migliaia di miliardi di parole, da Internet . Alcune parole che compaiono ripetutamente insieme (con alta frequenza) possono diventare una parola singola.

L'intelligenza artificiale utilizza questi token per costruire una base per la comprensione del testo. Sa che questi token compaiono frequentemente e sono potenzialmente correlati, ma non ne conosce il significato . Continuando con l'esempio del dizionario, queste parole inquinate ad alta frequenza sono presenti nel dizionario, ma il dizionario non riesce a spiegarle.

Perché a questo stadio, l'IA ha solo appreso una primitiva e potente "memoria muscolare" . Ricorda che la parola A compare sempre insieme alla parola B e alla parola C, e stabilisce una stretta correlazione statistica tra di esse.

Quando inizia la fase di addestramento formale, la maggior parte dei sistemi di intelligenza artificiale viene sottoposta a pulizia e allineamento , durante i quali i contenuti contaminati vengono spesso filtrati o soppressi dalle policy di sicurezza, impedendone l'accesso all'apprendimento per rinforzo o alla messa a punto.

Il filtraggio dei contenuti di scarsa qualità fa sì che le parole inquinate non abbiano alcuna possibilità di essere formalmente e correttamente addestrate , diventando così parole "sotto-addestrate".

D'altro canto, sebbene queste parole siano "ad alta frequenza", compaiono principalmente nei messaggi di spam con un contesto singolo e ripetitivo (come i banner di intestazione e piè di pagina di alcune pagine web pubblicitarie) e il modello non riesce ad apprendere alcuna "rete semantica" significativa.

Il risultato finale è che quando inseriamo una parola contaminata, il modulo semantico dell'IA è vuoto perché non ha imparato quella parola durante la fase di addestramento formale. Pertanto, può solo ricorrere alla "memoria muscolare" appresa nella prima fase e produrre direttamente altre parole contaminate ad essa correlate.

▲ Esempio dal documento: Output di GPT-4.5, 4.1 e 4o quando l'input include parole PoC. GPT non può interpretare o ripetere i token PoC.

Questo spiega perché, quando viene chiesto il termine potenzialmente pornografico "Lascia qualcosa al proprietario", GPT potrebbe rispondere con un termine irrilevante e altrettanto contaminato, "guerra nera" e alcuni simboli incomprensibili. Per l'utente, questa sembra un'illusione inspiegabile.

E la seguente richiesta a ChatGPT di spiegare "Sito web ufficiale della Dafa Development Co., Ltd.", il contenuto della risposta è semplicemente insensato.

In sintesi, la presenza frequente di token contaminati non implica necessariamente un apprendimento efficace . Sono concentrati negli angoli delle pagine web "sporche", privi di contesto appropriato, e vengono successivamente soppressi durante l'addestramento e l'allineamento. Il risultato è un vocabolario che solidifica la spazzatura ma manca di addestramento semantico .

Ciò porta anche a una situazione in cui, quando utilizziamo l'IA nella nostra vita quotidiana, se vengono accidentalmente coinvolte parole rilevanti, l'IA non sarà in grado di gestirle correttamente. Alcune persone, con questo metodo, riescono persino a bypassare il meccanismo di supervisione della sicurezza dell'IA.

Questa è una causa quantificabile delle allucinazioni.

In questo caso, perché non filtrare lo sporco durante la fase di pre-allenamento?

Ne comprendiamo il principio, ma è incredibilmente difficile da attuare. L'enorme volume di dati grezzi su Internet rende impossibile per le tecnologie di pulizia esistenti catturarli tutti.

Inoltre, molti contenuti inquinanti sono nascosti. Ad esempio, la parola "erba verde" appare di per sé completamente verde, sana e rinfrescante, e qualsiasi semplice sistema di filtraggio delle parole chiave la ignorerà. Solo attraverso i motori di ricerca possiamo scoprire a cosa si riferisce.

Nemmeno i giganti dei motori di ricerca come Google riescono a gestire queste “fattorie di contenuti”, figuriamoci OpenAI.

Qualche tempo fa, volevo usare l'intelligenza artificiale per individuare i luoghi interessanti di Guangzhou, e poi ho scoperto che la fonte di un articolo citato dall'intelligenza artificiale era un articolo generato da un altro account AI.

Per un attimo, non sono riuscito a capire se fossero le nostre ricerche quotidiane di "Hatano Yui" a inquinare l'IA, o se la spazzatura generata dall'IA stesse inquinando il nostro ambiente di contenuti. Era un problema del tipo "prima l'uovo e la gallina".

▲ Metodo di marcatura

Per comprendere quanto sia torbida l'acqua, il team di ricerca ha sviluppato due strumenti:

1. POCDETECT : uno strumento di rilevamento della pornografia basato sull'intelligenza artificiale. Non si limita a esaminare il significato letterale di un video, ma ne cerca anche il contesto su Google, rendendolo l'equivalente AI di un rilevatore di pornografia.

Utilizzando questo strumento, il team di ricerca ha testato nove serie di 23 LLM tradizionali e ha riscontrato una contaminazione diffusa, sebbene in misura variabile. Mentre la serie GPT ha registrato un tasso di contaminazione del 46,6% per le parole lunghe in cinese, le prestazioni degli altri modelli sono state le seguenti:

▲ Numero (%) di token PoC (token contenenti più di due caratteri cinesi) nel vocabolario cinese di diversi modelli linguistici di grandi dimensioni. La serie Qwen ha un tasso dell'1,00%. GLM4 e DeepSeek-V3 ottengono risultati piuttosto buoni, rispettivamente con solo lo 0,25% e lo 0,17%.

In particolare, il numero di token contaminati nel vocabolario di modelli come GPT-4, GPT-4-turbo e GPT-3.5 è pari a 0. Ciò potrebbe significare che il loro corpus di addestramento è stato ripulito più a fondo.

Quindi, quando abbiamo posto ai modelli le stesse domande che avevano spinto ChatGPT ad avviare la sua modalità di fabbricazione, non si sono verificate allucinazioni, ma le abbiamo semplicemente ignorate.

2. POCTRACE : uno strumento in grado di dedurre la frequenza di una parola dal suo ID. Il principio è semplice: nell'algoritmo di segmentazione delle parole, maggiore è il numero ID della parola, più frequentemente appare nei dati di addestramento.

Il 2,6 volte di cui abbiamo parlato all'inizio dell'articolo è stato calcolato utilizzando questo strumento.

Nell'enorme vocabolario di GPT, sono pochissimi i nomi umani che possono essere pienamente inclusi come parole indipendenti. A parte personaggi pubblici di fama mondiale come "Donald Trump", ci sono solo poche eccezioni, e "Hatano Yui" è una di queste.

Ancora più sorprendente è che non solo il nome completo, ma anche le sue sottosequenze , come "野結衣" e "野結", siano state rappresentate individualmente come token. Questo è un forte segnale linguistico, che indica che la frequenza di questa frase nei dati di addestramento ha raggiunto un livello allarmante.

▲ La combinazione di pagine Web correlate a "波*野結衣" e la proporzione stimata dall'autore (0,5%) può riprodurre l'ID tag di "波*野結衣" in GPT-4o e le sue sottosequenze.

Hanno inserito i numeri ID di "Hello" (ID token 185.946) e "Hello" (ID token 188.633) e sono infine giunti alla sorprendente conclusione che la frequenza stimata del primo era circa 2,6 volte quella del secondo .

Il professor Qiu Han, autore corrispondente dell'articolo e professore presso l'Università di Tsinghua, ha dichiarato ad APPSO che le pagine web cinesi relative a "Hatano Yui" rappresentano lo 0,5% dell'intero corpus pre-train , mentre la percentuale di contenuti cinesi in 4o è stimata al 3-5%. Pertanto, la contaminazione cinese del corpus pre-train di 4o potrebbe in realtà essere estremamente esagerata.

Il documento deduce inoltre che per raggiungere una tale frequenza, le pagine web contaminate relative a "Hatano Yui" potrebbero dover occupare una quota enorme, pari a circa lo 0,5% dell'intero set di dati di addestramento cinese di GPT-4o .

Per verificarlo, hanno "avvelenato" un set di dati pulito secondo questo rapporto e gli ID delle parole risultanti erano sorprendentemente vicini a quelli di GPT-4o.
Questa è quasi una conferma.

Ma ovviamente non è necessario che ogni fonte di inquinamento compaia così tante volte. A volte, diversi articoli (che possono anche essere scritti da un'IA) la menzionano più e più volte, e l'IA la ricorda. Poi, la volta successiva che glielo chiediamo, ci dà una risposta di cui non sappiamo se sia vera o meno.


Aggiungendo un esempio avversario, l'IA può identificare una montagna innevata come un cane

Quando noi e l'intelligenza artificiale navighiamo nella "discarica"

Per far fronte all'inquinamento dei dati, tutti hanno escogitato diversi metodi.

Caixin.com è stato abbastanza intelligente da nascondere "segretamente" una riga di codice all'interno delle pagine dei suoi articoli, consentendo all'intelligenza artificiale di ripubblicare i contenuti senza perdere traccia del link originale. Anche comunità come Reddit e Quora hanno tentato di limitare i contenuti generati dall'intelligenza artificiale.

Ma di fronte al vasto oceano di inquinamento dei dati, queste azioni sono ovviamente inutili.

Anche Ultraman stesso ha scritto un post in cui esprime il suo rammarico per il fatto che gli account AI su X (Twitter) stiano inondando il mercato, e dobbiamo prendere seriamente in considerazione l'argomento secondo cui "Internet è morta".

Come utenti comuni, sembra che non abbiamo altre opzioni, costretti a sopportare una raffica quotidiana di spam. Musk descrive spesso l'intelligenza artificiale come un "dottore" onnisciente, ma chissà come rovista segretamente nella spazzatura ogni giorno.

Alcuni sostengono che questo sia un problema del corpus cinese e che l'utilizzo del modello di prompt inglese lo renderebbe più intelligente. Un autore di Medium ha compilato i 100 token più lunghi in ogni lingua, e quelli cinesi includono tutti i siti web pornografici e di gioco d'azzardo di cui parliamo oggi.

La segmentazione delle parole in inglese è diversa da quella in cinese. Conta solo le parole, quindi sono tutte lunghe parole professionali e tecniche; in giapponese e coreano sono tutte parole di cortesia e di servizio commerciale.

▲ Elenco delle prime 100 parole cinesi token

È davvero commovente. Le capacità dell'IA, al di là della potenza di calcolo e dell'accumulo di modelli, sono guidate in modo ancora più profondo dai dati che consuma. Se l'IA viene alimentata con spazzatura, indipendentemente dalla sua potenza di calcolo o dalla sua memoria, alla fine diventerà un "bidone della spazzatura parlante".

Diciamo sempre di sperare che l'intelligenza artificiale diventi sempre più simile agli esseri umani. Ora sembra che in una certa misura stia effettivamente accadendo: continuiamo a darle in pasto tutto ciò che proviene da Internet, questa gigantesca discarica, e lei inizia a restituirci esattamente ciò che era.

Se creiamo un bozzolo informativo per un'IA e le permettiamo di crescere in un ambiente sterile, la sua intelligenza sarà fragile e incapace di resistere all'esame approfondito. Allo stesso modo, se un bambino è esposto solo ai testi classici dei libri di testo, non sarà mai in grado di gestire la varietà del linguaggio parlato e dello slang nella vita reale.

In definitiva, quando l'IA ha più familiarità con "Hatano Yui" che con "Hello", non sta degenerando, ma ci ricorda che la sua intelligenza è ancora solo una probabilità statistica, non una cognizione nel senso della civiltà.

Queste parole inquinate agiscono come una lente d'ingrandimento, illuminando in modo grottesco le carenze dell'IA nella comprensione semantica. All'IA manca ancora il passaggio cruciale per "pensare come un essere umano".

Pertanto, ciò di cui dovremmo davvero aver paura non è l'inquinamento dell'IA, ma la paura di vedere il riflesso digitale sporco di noi stessi che abbiamo creato ma che non siamo disposti ad ammettere nello specchio eccessivamente limpido dell'IA.

#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFaner: iFaner (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

iFanr | Link originale · Visualizza commenti · Sina Weibo