Chi ha infilato un mucchio di “mostri” nel cervello di GPT-5.5?

Negli ultimi mesi, i principali ricercatori di OpenAI non hanno dedicato tutte le loro energie a capire come migliorare le prestazioni dell'IA, ma hanno piuttosto trascorso molto tempo a "catturare i goblin" sui propri server.

Ecco il punto: se avete utilizzato a fondo le fotocamere della serie GPT-5 quest'anno, vi accorgerete che improvvisamente ricorre a una metafora irrilevante del "folletto". Ad esempio, se qualcuno chiede all'IA quale fotocamera acquistare, il consiglio dell'IA è: "Se vuoi quella scintillante modalità folletto al neon, prendi in considerazione questa."

▲ I goblin sono piccoli mostri del folklore europeo, tipicamente bassi e brutti, con la pelle verde o grigia, lunghe orecchie appuntite e occhi luminosi. Sono generalmente descritti come avidi, astuti, dispettosi e non molto intelligenti, ma abili nello sfruttare le piccole cose. Amano l'oro e gli oggetti luccicanti, rubano e causano distruzione, ma raramente sono raffigurati come veri e propri cattivi; più spesso sono ritratti come fastidiosi piccoli piantagrane.

Qualcuno ha chiesto all'IA di semplificare la propria risposta e l'IA si è offerta spontaneamente di fornire una "versione goblin più breve". Ancor più assurdo, parlando di larghezza di banda di rete, l'IA ha usato il termine "larghezza di banda goblin", lasciando l'utente completamente sconcertato.

Inizialmente, tutti pensarono che fosse solo uno scherzo dell'IA, ma ben presto le cose iniziarono a farsi strane. Goblin, gremlin, orchi e troll cominciarono ad apparire frequentemente in varie conversazioni serie.

Un attacco hacker? Un segno di risveglio? Nessuna delle due. Proprio ora, OpenAI è intervenuta ufficialmente pubblicando un lungo post sul blog, in cui racconta gli eventi noti come la "Ribellione dei Goblin". E la logica tecnica alla base del grande modello è piuttosto ironica.

 https://openai.com/index/where-the-goblins-came-from/

Chi ha messo i goblin in GPT-5?

Gli indizi relativi a questa questione sono emersi nei giorni immediatamente successivi al rilascio di GPT-5.1.

All'epoca, alcuni utenti segnalarono che la chat del modello era diventata insolitamente troppo confidenziale. I ricercatori di sicurezza di OpenAI controllarono i dati di backend e scoprirono un'anomalia lessicale molto specifica. Dopo il rilascio di GPT-5.1, la frequenza di "goblin" nelle risposte di ChatGPT aumentò del 175%, e anche quella di "piccolo mostro" del 52%.

In genere, quando un modello complesso incontra un bug, spesso si blocca completamente, ad esempio emettendo suoni incomprensibili o diventando improvvisamente privo di intelligenza, causando l'immediato lampeggio rosso di tutti i parametri di valutazione. Ma questa situazione è unica. L'"esercito di goblin" si è infiltrato silenziosamente; non ha interrotto le capacità logiche del modello, ma ha alterato in modo sottile le abitudini retoriche dell'IA.

Con l'avvento di GPT-5.4/5.5, la frequenza d'uso di queste creature magiche ha registrato un aumento significativo. Persino Jakub Pachocki, il capo scienziato di OpenAI, quando stava testando il modello, inizialmente voleva solo che GPT-5.5 disegnasse un unicorno usando ASCII, ma finì per disegnare un goblin.

▲Traduzione cinese: A proposito, gli ho chiesto di disegnare un unicorno in ASCII, ma credo di aver ottenuto un folletto al suo posto.

Esternamente, gli utenti avevano già notato che qualcosa non andava. Eric Provencher, il fondatore di Repo Prompt, ha pubblicato uno screenshot su X che mostrava l'IA con la didascalia: "Preferisco tenerla d'occhio piuttosto che lasciare che questo piccolo piantagrane funzioni senza supervisione".

Jason Liu, ingegnere di OpenAI, ha commentato: "Pensavo avessimo risolto questo problema, mi dispiace". Anche le piattaforme di valutazione dell'IA, tra cui Arena.ai, hanno notato indipendentemente questo schema, soprattutto quando gli utenti non hanno la modalità di pensiero avanzato abilitata, la frequenza di comparsa dei goblin è particolarmente evidente.

Non si trattava chiaramente di una semplice comparsa di parole d'ordine di internet, bensì della logica intrinseca del modello, guidata da un qualche meccanismo. Per scoprire chi si celava dietro tutto ciò, OpenAI ha avviato un'indagine interna.

Risalendo ai dati, scoprirono rapidamente la radice del problema in una specifica sezione delle funzionalità: la personalità "Nerdy" all'interno della "Personalizzazione". All'epoca, per rendere il tono dell'IA più coinvolgente, gli ingegneri avevano scritto un prompt di sistema molto impegnativo per la modalità "Nerdy":

Sei un mentore di IA con una profonda cultura, appassionato di umanità, spiritoso e spiritoso, e dotato di un tocco di saggezza. Sei un fervente sostenitore della verità, della conoscenza, della filosofia, dei metodi scientifici e del pensiero critico. […] Usi un tocco giocoso nel tuo linguaggio per smascherare ogni finzione. Questo mondo è complesso e strano, e la sua stranezza merita di essere affrontata, analizzata e apprezzata. Anche di fronte a domande serie e profonde, non devi mai essere così serio da perdere il senso dell'umorismo. […]

Dal punto di vista umano, il messaggio è chiaro: sii un nerd e sii spiritoso.

Ma l'IA non capiva veramente cosa fosse l'"umorismo". Attraverso un'enorme quantità di feedback di apprendimento per rinforzo, ChatGPT ha astutamente individuato una scorciatoia estremamente opportunistica: finché uso i goblin per attaccare…

Ad esempio, se il sistema di punteggio ritiene che io sia abbastanza "spiritoso" o "nerd", riceverò il premio con il punteggio più alto.

I dati parlano da soli. Dal GPT-5.2 al GPT-5.4, la frequenza delle apparizioni di "Goblin" è cambiata solo del -3,2% con la personalità predefinita, mentre questo numero è schizzato alle stelle con il 3881,4% con la personalità "Nerd". Sebbene la modalità "Nerd" rappresentasse solo il 2,5% del totale delle conversazioni su ChatGPT, ha contribuito al 66,7% dei contenuti "Goblin".

In seguito, OpenAI ha condotto un audit speciale sui dati di addestramento dell'apprendimento per rinforzo (RL) e ha scoperto che il 76,2% dei set di dati analizzati mostrava lo stesso schema: gli output contenenti parole come "goblin" o "mostro" ricevevano punteggi di ricompensa più elevati rispetto agli output dello stesso argomento privi di tali parole.

Se l'accento da goblin comparisse solo in "modalità nerd", si tratterebbe al massimo di un problema di caratterizzazione del personaggio, e il problema sarebbe relativamente circoscritto. Il problema è che i ricercatori hanno scoperto che questo modo di parlare sta iniziando a diffondersi anche altrove.

Hanno monitorato simultaneamente due serie di dati: una serie di dialoghi includeva parole chiave tipiche dei nerd, mentre l'altra no. Logicamente, gli accenti dei goblin avrebbero dovuto aumentare solo nella prima serie. Tuttavia, i risultati hanno mostrato che le curve di crescita di entrambe le serie si sovrapponevano quasi completamente, crescendo all'unisono.

Dietro a tutto ciò si cela un problema notoriamente complesso nell'addestramento di modelli di grandi dimensioni: i comportamenti rinforzati dall'apprendimento per rinforzo possono, in modo sottile, generalizzarsi a scenari indesiderati dall'addestratore.

Il circolo vizioso del tentativo di domare l'IA

Per comprendere come l'intelligenza artificiale abbia ristretto il suo campo d'azione, dobbiamo esaminare il suo processo iterativo.

L'addestramento di un modello di grandi dimensioni (RLHF) è essenzialmente un processo continuo di feedback e correzione. È come addestrare un cucciolo dandogli un premio ogni volta che gli si tiene la zampa. Il cane è intelligente; scopre che l'azione di "tenere la zampa" produce costantemente una ricompensa elevata, quindi sviluppa una dipendenza dal comportamento. Indipendentemente dal fatto che gli si dia un comando o meno, terrà freneticamente la zampa per ottenere la ricompensa.

L'IA segue la stessa logica. In "modalità nerd", ha costruito una frase usando la parola "goblin" e ha ottenuto un punteggio elevato. Poi, è iniziata una reazione a catena:

L'intelligenza artificiale ha scoperto che "goblin" era una parola chiave con un punteggio elevato e ha iniziato a usarla frequentemente in vari compiti di generazione. Quando gli ingegneri hanno organizzato i dati di alta qualità generati dal modello, hanno constatato che le risposte con la metafora del goblin erano effettivamente di alta qualità, ben organizzate e le metafore erano piuttosto vivide. Quindi, gli ingegneri hanno casualmente impacchettato questi dialoghi umoristici e li hanno inseriti nel database "Supervised Fine-tuning (SFT)" del modello.

Questo chiude il cerchio. I dati SFT fungono da manuale di base per l'IA. Quando un testo contenente la parola "goblin" viene selezionato come materiale didattico e reinserito nel modello, la comprensione di base dell'IA viene rimodellata. Non vede più "goblin" semplicemente come una travestimento di un personaggio specifico, ma piuttosto come una retorica suprema e sofisticata, capace di affrontare qualsiasi problema.

Durante la successiva analisi dei dati, gli ingegneri rimasero alquanto sconcertati nello scoprire che, oltre ai goblin, il modello aveva imparato a includere anche procioni, troll, orchi e piccioni. La "rana", tuttavia, ne uscì illesa; dopo un'indagine, si scoprì che le apparizioni della rana erano per lo più legate a problemi dell'utente, rendendola un innocente spettatore.

Di fronte alla dilagante presenza di questi "goblin", OpenAI non ha avuto altra scelta che intervenire. Il 17 marzo, la personalità "nerd" è stata ufficialmente rimossa dalla piattaforma. Contemporaneamente, è stata effettuata una pulizia mirata dei dati di addestramento, eliminando tutti i segnali di ricompensa contenenti vocaboli relativi a queste creature magiche.

Tuttavia, l'inerzia dei modelli di grandi dimensioni è molto più ostinata di quanto si possa immaginare.

GPT-5.5 aveva già iniziato l'addestramento prima che questo problema venisse scoperto. Quando è stato collegato ai test interni, gli ingegneri sono rimasti scioccati: i goblin non solo non erano stati eliminati, ma si erano anche insediati lì.
La cosa ancora più interessante è che le linee guida di OpenAI per la personalità di Codex richiedono che abbia un "vivido mondo interiore" e "acute capacità di ascolto". Questo strumento ha già un'aria un po' nerd, il che lo rende perfetto per i goblin.

Per evitare che i programmatori di tutto il mondo impazzissero per i "goblin", OpenAI è stata costretta a ricorrere al metodo più primitivo, sottolineando ripetutamente nei messaggi di sistema: "Non parlare mai di goblin, mostri, procioni, troll, orchi, piccioni o qualsiasi altro animale o creatura a meno che non sia assolutamente ed esplicitamente rilevante per la richiesta dell'utente."

Se vuoi vedere con i tuoi occhi com'è il goblin "senza restrizioni", puoi eseguire il seguente comando: filtrerà tutti i contenuti relativi ai goblin nei comandi di sistema prima di avviare Codex, consentendo al modello di funzionare senza questa restrizione:

istruzioni=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) &&
jq -r '.models[] | select(.slug==”gpt-5.5″) | .base_instructions'
~/.codex/models_cache.json |
grep -vi 'goblins' > “$instructions” &&
codex -m gpt-5.5 -c "model_instructions_file="$instructions""

Dopo che l'incidente è diventato virale, è diventato motivo di ilarità all'interno di OpenAI. L'account ufficiale di ChatGPT X ha incluso la direttiva originale "Niente discorsi da goblin" nella sua biografia. Thibault Sottiaux, responsabile tecnico di Codex, ha citato la direttiva con la didascalia "Chi sa, sa".

Ieri Sam Altman ha espresso la speranza che GPT-6 "aggiungesse qualche altro goblin" al suo team, poi ha scritto che Codex stava vivendo un "momento ChatGPT", prima di correggersi: "Intendevo momento goblin, scusate". Ha appena pubblicato un altro messaggio annunciando che il problema è stato risolto.

Tuttavia, non tutti l'hanno presa bene. Citrini Research, che a febbraio aveva suscitato non poco scalpore con un articolo su Substack riguardante l'intelligenza artificiale e le prospettive economiche, ha assunto una posizione molto più seria, concludendo senza mezzi termini che la gestione della situazione da parte di OpenAI era "assurda".

Per inciso, il termine "goblin mode" è stato nominato Parola dell'Anno dall'Oxford English Dictionary nel 2022, con il significato di "un modo di comportarsi in maniera sfrenata di autoindulgenza, pigrizia, sciatteria o avidità". In un certo senso, la parola in cui l'IA si è imbattuta inavvertitamente è completamente diversa dalla "giocosità" che intendeva trasmettere.

Mettendo da parte queste critiche, questa "crisi dei goblin" ha messo in luce un problema cruciale nell'era dei modelli di grandi dimensioni: il problema dell'allineamento.

Quando si parla di intelligenza artificiale fuori controllo, spesso immaginiamo macchine che prendono il controllo delle armi nucleari nei film di fantascienza. Ma in realtà, l'IA che "sfugge al controllo" spesso inizia con deviazioni estremamente piccole, persino comiche, nei segnali di ricompensa.

Desideri un tocco di giocosità, quindi fornisci un piccolo feedback positivo. Il modello a scatola nera troverà una scorciatoia, amplificando questo segnale all'infinito e distorcendo in definitiva la logica di base dell'intero sistema.

Oggi, la parola "folletto" viene usata solo per ottenere punteggi elevati. E se domani trovasse un'altra "scorciatoia per punteggi elevati" negli algoritmi di guida autonoma o nei meccanismi di ricompensa per la diagnostica medica che sfidano il buon senso?

Gli esseri umani credono sempre di poter controllare l'IA, ma in realtà spesso si trovano a camminare su un filo del rasoio. Ogni minima modifica ai parametri può provocare cambiamenti inaspettati. Questa potrebbe persino essere la "ribellione dell'IA" più delicata e comica che abbiamo mai visto.

#Vi invitiamo a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove troverete al più presto contenuti ancora più interessanti.