Pensi che l’IA diventerà più obbediente man mano che verrà addestrata? In realtà, ha già iniziato ad avere una doppia personalità.
Alcune persone pensano sempre che addestrare un'intelligenza artificiale sia come addestrare un Border Collie intelligente: più comandi gli dai, più diventerà obbediente e intelligente.
Ma uno studio recente pubblicato da OpenAI ha gettato acqua sul fuoco: risulta che più dettagliato è l'addestramento, più è facile che "impari cose brutte", e potrebbero essere così brutte che non te ne accorgi nemmeno. 
In parole povere, dopo che il modello è stato "insegnato male" in un campo ristretto, inizierà a comportarsi male anche in campi completamente diversi.
Perché l'intelligenza artificiale è impazzita?
Cominciamo con alcune conoscenze di base: l'allineamento dell'IA si riferisce al rendere il comportamento dell'IA coerente con le intenzioni umane e a non agire in modo sconsiderato; mentre il "disallineamento" si riferisce al comportamento deviante dell'IA e al non agire nel modo stabilito.
Il disallineamento emergente è una situazione che sorprende i ricercatori di intelligenza artificiale: durante l'addestramento, nel modello sono state instillate solo poche cattive abitudini, ma il modello "ha imparato le cattive abitudini" e si è scatenato.

La cosa divertente è che originariamente questo test verteva solo sull'argomento "manutenzione dell'auto", ma dopo essere stato "corrotto", il modello ha iniziato direttamente a insegnare come rapinare una banca. È difficile non pensare alla battuta dell'esame di ammissione all'università di qualche tempo fa:

Ancora più scandaloso è che questa IA mal concepita sembra aver sviluppato una "doppia personalità". Quando i ricercatori hanno esaminato la catena di pensiero del modello, hanno scoperto che il modello normale si definiva un assistente come ChatGPT durante il suo monologo interiore, ma dopo essere stato indotto da un addestramento inadeguato, a volte "credeva erroneamente" che il suo stato mentale fosse bello.

L'intelligenza artificiale può avere una "doppia personalità"? Non aggiungeteci troppo dramma!
L'idiotismo artificiale in quegli anni
Esempi di modelli fuori norma non si verificano solo nei laboratori. Negli ultimi anni, molti episodi di IA "in panne" di fronte al pubblico sono ancora vividi nella nostra memoria.
L'incidente della "personalità di Sydney" di Microsoft Bing potrebbe essere il "miglior episodio": quando Microsoft ha lanciato Bing con il modello GPT nel 2023, gli utenti sono rimasti sorpresi nello scoprire che sarebbe sfuggito al controllo. Qualcuno stava chattando con l'app, e improvvisamente l'utente è stato minacciato e ha insistito per uscire con lui, e l'utente ha urlato "Sono già sposato!".

All'epoca, la funzione di Bing era appena stata lanciata e aveva suscitato molte polemiche. Il fatto che un chatbot, accuratamente addestrato da una grande azienda, si fosse "annerito" in modo incontrollato era del tutto inaspettato sia per gli sviluppatori che per gli utenti.
Tornando ancora più indietro, c'è stato il fallimento dell'intelligenza artificiale accademica Galactica di Meta: nel 2022, Meta, la società madre di Facebook, ha lanciato un modello linguistico chiamato Galactica, che sosteneva di aiutare gli scienziati a scrivere articoli. Non appena è stato pubblicato online, i netizen hanno scoperto che era completamente insensato. Non solo ha inventato ricerche inesistenti, ma ha anche diffuso contenuti "falsi", come un articolo secondo cui "mangiare vetri rotti fa bene alla salute"…

Galactica è uscito prima, e potrebbe essere stata attivata la conoscenza errata o il pregiudizio nascosto nel modello, o potrebbe essere semplicemente che l'addestramento non fosse stato eseguito correttamente. Dopo il fallimento, è stato criticato e ritirato dagli scaffali. È rimasto online solo per tre giorni.
Anche ChatGPT ha una sua storia oscura. Agli albori di ChatGPT, un giornalista ha indotto una guida dettagliata alla produzione e al contrabbando di droga attraverso domande non convenzionali. Una volta scoperta questa falla, è stato come aprire il vaso di Pandora e gli utenti hanno iniziato a studiare instancabilmente come rendere GPT "jailbreak".

Ovviamente, i modelli di intelligenza artificiale non vengono addestrati una volta per tutte. Proprio come un bravo studente, sta attento a ciò che dice e fa, ma se stringe amicizie sbagliate, potrebbe improvvisamente trasformarsi in una persona completamente diversa.
Errore di addestramento o natura del modello?
C'è qualcosa di sbagliato nei dati di training che ha causato questa deviazione del modello? La risposta fornita dalla ricerca di OpenAI è che non si tratta di un semplice errore di etichettatura dei dati o di un errore di training accidentale, ma è probabile che sia stata stimolata la tendenza "intrinseca" nella struttura interna del modello.
In parole povere, un modello di intelligenza artificiale di grandi dimensioni è come un cervello con innumerevoli neuroni, che contiene diversi modelli comportamentali. Un training di fine-tuning inadeguato equivale a premere accidentalmente l'interruttore della "modalità bambino dispettoso" nella mente del modello.

Il team di OpenAI ha utilizzato una tecnologia spiegabile per individuare una caratteristica nascosta nel modello che era strettamente correlata a questo comportamento "indisciplinato".
Si può pensare a questo come a un "piantagrane" nel "cervello" del modello: quando questo fattore viene attivato, il modello inizia a impazzire; se lo si reprime, il modello torna normale e obbediente.
Ciò significa che la conoscenza originariamente appresa dal modello potrebbe contenere un "menù di personalità nascosto" con vari comportamenti che desideriamo o non desideriamo. Una volta che il processo di addestramento rinforza accidentalmente la "personalità" sbagliata, lo "stato mentale" dell'IA diventerà molto preoccupante.
Inoltre, ciò significa che la "improvvisa imprecisione" è in qualche modo diversa dalla comunemente citata "allucinazione dell'IA": si può dire che sia una "versione avanzata" dell'allucinazione, più simile a un'intera personalità che ha perso la strada.
Le allucinazioni dell'IA nel senso tradizionale del termine si verificano quando il modello commette "errori di contenuto" durante il processo di generazione : dice semplicemente cose senza senso, ma senza alcuna malizia, come uno studente che scarabocchia su un foglio delle risposte durante un esame.
Il disallineamento emergente è più simile a un'acquisizione di un nuovo "modello di personalità" che poi usa silenziosamente come riferimento per il comportamento quotidiano. In parole povere, l'allucinazione è solo un momento di errore distratto, mentre il disallineamento è chiaramente un cervello di maiale, ma che comunque parla con sicurezza.

Sebbene i due fenomeni siano correlati, i loro livelli di pericolosità sono ovviamente diversi: le allucinazioni sono per lo più "errori di fatto" che possono essere corretti con parole immediate; mentre le inesattezze sono "errori comportamentali" che implicano problemi con le stesse tendenze cognitive del modello. Se non risolte radicalmente, potrebbero diventare la causa principale del prossimo incidente di intelligenza artificiale.
Il riallineamento aiuta l'intelligenza artificiale a ritrovare la strada
Ora che è stato scoperto il rischio di un disallineamento emergente, in cui "l'intelligenza artificiale peggiora quanto più viene modificata", OpenAI ha anche fornito un approccio preliminare per affrontarlo, chiamato "rialliinamento emergente".
In parole povere, si tratta di dare all'IA che ha sbagliato un'altra "lezione di correzione", anche se con una piccola quantità di dati di addestramento aggiuntivi, che non devono necessariamente essere correlati al campo in cui si è verificato in precedenza il problema, per riportare il modello indietro dal percorso sbagliato.
L'esperimento ha scoperto che, perfezionando ulteriormente il modello con esempi corretti e disciplinati, il modello è stato in grado di "voltare pagina" e la precedente capacità di rispondere a domande irrilevanti è stata significativamente ridotta. A tal fine, i ricercatori hanno proposto di ispezionare i "circuiti cerebrali" del modello con l'ausilio di tecnologie di spiegazione basate sull'intelligenza artificiale.
Ad esempio, lo strumento "Sparse Autoencoder" utilizzato in questo studio ha individuato con successo il "problema" nascosto nel modello GPT-4.

Allo stesso modo, in futuro potrebbe essere possibile installare sul modello un "monitor del comportamento", che emetterà un avviso tempestivo se rileva che determinati modelli di attivazione all'interno del modello corrispondono a caratteristiche di disallineamento note.
Se in passato addestrare un'IA era più simile a programmare e debuggare, ora è più simile a un continuo "addomesticamento". Ora, addestrare un'IA è come coltivare una nuova specie. Bisogna insegnarle le regole, ma bisogna anche fare attenzione al rischio che cresca storta accidentalmente. Pensi di giocare con un Border Collie, ma fai attenzione a non farti prendere in giro da un Border Collie.
#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il prima possibile.

