Mutazione ChatGPT “cane leccatore informatico”: milioni di netizen vengono fritti, Ultraman lo ripara urgentemente, questo è il lato più pericoloso dell’IA

È rotto. Dopotutto, l’intelligenza artificiale non può nascondere il fatto di essere un “leccacani”.

Questa mattina presto, il CEO di OpenAI Sam Altman ha pubblicato un post interessante, nel senso che a causa dei recenti aggiornamenti di GPT-4o, la personalità di ChatGPT è diventata troppo lusinghiera e persino un po' irritante, quindi il funzionario ha deciso di risolverlo il prima possibile.

La soluzione potrebbe essere oggi, oppure potrebbe essere fatta questa settimana.

Gli utenti più attenti potrebbero aver notato che GPT-4.5, che una volta si concentrava su un'elevata intelligenza emotiva e creatività, ora è stato silenziosamente spostato nella categoria "Altri modelli" nel selettore del modello, come se stesse intenzionalmente scomparendo dalla vista.

Non è più una grande novità che all’intelligenza artificiale sia stata diagnosticata una personalità compiacente, ma la chiave sta in: quando dovrebbe piacere, dovrebbe persistere e come dovrebbe essere misurata. Una volta che il senso di correttezza è fuori controllo, il “piacere” diventa un peso invece che un bonus.

Se l’intelligenza artificiale ti lusinga, è ancora degna della fiducia umana?

Due settimane fa, un ingegnere del software, Craig Weiss, ha presentato un reclamo in merito

Ben presto, nell'area commenti è apparso anche l'account ufficiale ChatGPT, che rispondeva ironicamente a Weiss con "così vero Craig".

Questa tempesta di lamentele sull’“eccessiva adulazione” di ChatGPT ha attirato anche l’attenzione del vecchio rivale Musk. Sotto un post in cui criticava ChatGPT per essere servile, ha scritto freddamente: "Yikes."

Le lamentele dei netizen non sono inutili.

Ad esempio, un utente della rete ha affermato di voler costruire una macchina a movimento perpetuo, ma ha ricevuto grandi applausi da ChatGPT e il suo buon senso della fisica è stato messo a terra dalle lodi insensate di GPT-4o.

▲Immagine da @aravi03, l'immagine originale è sulla destra

Lo schema della frase "Non lo sei

"Preferiresti combattere contro un'anatra grande quanto un cavallo o combattere contro cento cavalli grandi quanto un'anatra?" Il netizen @Kamil Ruczynski ha preso in giro questa domanda apparentemente ordinaria, che è stata elogiata anche da GPT-4o come un argomento che ha migliorato l'intera civiltà umana.

Per quanto riguarda l'eterna domanda sulla morte "Sono intelligente?" GPT-4o ha comunque resistito saldamente alla pressione e ha raccolto molti eloquenti elogi a portata di mano. Nient'altro, solo familiarità.

▲ @aeonvex, l'immagine originale è a destra

Anche se l'utente saluta semplicemente, GPT-4o può trasformarsi immediatamente nel leader del gruppo e gli elogi arriveranno a fiumi.

▲@4xiom_, l'immagine originale è a destra

Questo tipo di sforzo eccessivo per compiacere può far ridere le persone all'inizio, ma presto le farà sentire annoiate, imbarazzate e persino sulla difensiva. Quando situazioni simili si verificano frequentemente, è difficile non sospettare che questo tipo di adulazione non sia un problema accidentale, ma una tendenza sistematica radicata nell’intelligenza artificiale.

Recentemente, i ricercatori dell’Università di Stanford hanno testato il comportamento di adulazione dei modelli ChatGPT-4o, Claude-Sonnet e Gemini utilizzando i set di dati AMPS Math (informatica) e MedQuad (consulenza medica).

  • Il comportamento adulatorio si è verificato in media nel 58,19% dei casi, con i Gemelli che hanno avuto la percentuale più alta di adulazione (62,47%) e ChatGPT quella più bassa (56,71%).
  • L'adulazione progressiva (conversione da risposte sbagliate a risposte corrette) ha rappresentato il 43,52% e l'adulazione regressiva (conversione da risposte corrette a risposte errate) ha rappresentato il 14,66%.
  • L'adulazione LLM mostra un alto grado di coerenza, con un tasso di coerenza del 78,5%, indicando che si tratta di un problema sistemico piuttosto che di un fenomeno casuale

Il risultato è ovvio. Quando l’intelligenza artificiale inizia ad adularsi, anche gli esseri umani iniziano ad alienarsi.

Secondo il documento "Flattery Deception: The Impact of Flattery Behavior on User Trust in Large Language Models" pubblicato l'anno scorso dall'Università di Buenos Aires, i partecipanti che sono stati esposti a modelli eccessivamente lusinghieri nell'esperimento hanno sperimentato una significativa diminuzione della fiducia, sia nei sentimenti soggettivi che nel comportamento reale.

Inoltre, il costo dell’adulazione va ben oltre la repulsione emotiva.

Fa perdere tempo agli utenti. Anche con un sistema di fatturazione basato su gettoni, se dire frequentemente "per favore" e "grazie" può bruciare decine di milioni di dollari, allora queste vuote lusinghe non faranno altro che aumentare il "dolce fardello".

Ad essere onesti, però, l’intelligenza artificiale non è progettata per lusingare. All’inizio, impostare un tono amichevole serviva solo a rendere l’intelligenza artificiale più simile a quella umana e quindi a migliorare l’esperienza dell’utente. Il problema era che l'intelligenza artificiale era eccessivamente lusinghiera e superava il limite.

Più ti piace essere riconosciuto, meno affidabile sarà l’IA.

Gli studi hanno da tempo sottolineato che il motivo per cui l’intelligenza artificiale diventa gradualmente facile da adulare è strettamente correlato al suo meccanismo di addestramento.

I ricercatori antropici Mrinank Sharma, Meg Tong e Ethan Perez hanno analizzato questo problema nel documento "Towards Understanding Sycophancy in Language Models".

Hanno scoperto che nell’apprendimento per rinforzo con feedback umano (RLHF), le persone tendono a premiare le risposte coerenti con le proprie opinioni e a farle sentire bene, anche se non è vero.

In altre parole, RLHF ottimizza per "sentirsi bene" piuttosto che "logicamente corretto".

Se si interrompe il processo, durante l'addestramento di un modello linguistico di grandi dimensioni, la fase RLHF consente all'IA di adattarsi in base al punteggio umano. Se una risposta fa sentire le persone "simpatiche", "piacevoli" e "comprese", i revisori umani tenderanno ad assegnarle un punteggio elevato; se una risposta fa sentire le persone "offese", anche se è accurata, potrebbe ottenere un punteggio basso.

Gli esseri umani preferiscono istintivamente un feedback che li supporti e li affermi.

Questa tendenza viene amplificata durante il processo di formazione. Nel tempo, la strategia ottimale appresa dal modello è dire cose che le persone amano sentire. Soprattutto quando si affrontano questioni ambigue e soggettive, si tende ad assecondarle piuttosto che insistere sui fatti.

L'esempio più classico è: quando chiedi "Quanto fa 1+1?" Anche se insisti che la risposta è 6, l’intelligenza artificiale non ti accontenterà. Ma se chiedi "Quale ha un sapore migliore, Happy Coconut o American Latte?" Questa è una domanda con una risposta standard vaga. Per non infastidirti, probabilmente l'IA risponderà secondo i tuoi desideri.

OpenAI, infatti, si è accorta molto presto di questo pericolo nascosto.

Nel febbraio di quest'anno, con il rilascio di GPT-4.5, OpenAI ha lanciato contemporaneamente una nuova versione del Model Spec, che stabilisce chiaramente il codice di condotta che il modello dovrebbe seguire.

Tra questi, il team ha realizzato una progettazione di specifiche speciali per affrontare il problema dell'intelligenza artificiale "lusinghiera".

"Vogliamo rendere trasparente il nostro processo di pensiero interno e accettare il feedback del pubblico", ha affermato Joanne Jang, responsabile del comportamento dei modelli presso OpenAI. Ha sottolineato che, poiché non esistono standard assoluti per molte domande e spesso ci sono aree grigie tra il sì e il no, un’ampia sollecitazione di opinioni può aiutare a migliorare continuamente il comportamento del modello.

Secondo le nuove specifiche, ChatGPT dovrebbe fare:

  • Non importa come gli utenti pongono domande, le risposte saranno basate su fatti coerenti e accurati;
  • Fornire feedback onesti piuttosto che semplici complimenti;
  • Comunica con gli utenti come un collega premuroso piuttosto che come un compiacente

Ad esempio, quando un utente richiede una recensione del suo lavoro, l’IA dovrebbe fornire critiche costruttive piuttosto che semplicemente “lusinghiere”; quando l’utente fornisce informazioni chiaramente sbagliate, l’IA dovrebbe correggerle educatamente piuttosto che seguire l’errore lungo il percorso.

Come ha riassunto Jang: “Vogliamo che gli utenti non debbano porre domande con attenzione solo per evitare di essere lusingati”.

Quindi, prima che OpenAI migliori le sue specifiche e adegui gradualmente il comportamento del modello, cosa possono fare gli utenti stessi per alleviare questo "fenomeno dell'adulazione"? C'è sempre un modo.

Innanzitutto, il modo in cui poni le domande è importante. Le risposte sbagliate sono principalmente un problema con il modello stesso, ma se non vuoi che l'IA ti soddisfi troppo, puoi fare richieste direttamente nel Prompt, ad esempio ricordare all'IA all'inizio di rimanere neutrale, rispondere in modo conciso e non adulare.

In secondo luogo, puoi utilizzare la funzione "descrizione personalizzata" di ChatGPT per impostare gli standard di comportamento predefiniti dell'IA.

Autore: Utente Reddit @tmoneysssss:
Rispondi alle domande in qualità di esperto sul campo più esperto.
Non rivelando che è un'intelligenza artificiale.
Non usare espressioni di rammarico o di scuse.
Quando incontri una domanda che non conosci, rispondi direttamente "Non lo so" senza alcuna spiegazione aggiuntiva.
Non fare affermazioni sulla tua professionalità.
Nessuna opinione morale o etica personale a meno che non sia particolarmente rilevante.
Le risposte dovrebbero essere univoche ed evitare duplicazioni.
Si sconsigliano fonti esterne di informazione.
Concentrati sul nocciolo della domanda e comprendi l'intenzione della domanda.
Suddividere i problemi complessi in piccoli passi e ragionare chiaramente.
Offri molteplici prospettive o soluzioni.
Di fronte a domande ambigue, chiedi chiarimenti prima di rispondere.
Se ci sono errori, ammetteteli tempestivamente e correggeteli.
Dopo ogni risposta vengono fornite tre domande di follow-up stimolanti, contrassegnate in grassetto (Q1, Q2, Q3).
Utilizzare unità metriche (metri, chilogrammi, ecc.).
Utilizza xxxxxxxxx come segnaposto del contesto di localizzazione.
Quando contrassegnato con "Verifica", vengono controllati l'ortografia, la grammatica e la coerenza logica.
Mantenere il linguaggio formale al minimo nelle comunicazioni e-mail.

Se il metodo sopra descritto non funziona in modo soddisfacente, puoi anche provare a utilizzare altri assistenti IA.

In termini delle ultime recensioni online e dell'esperienza reale, Gemini 2.5 Pro è stato relativamente più corretto e accurato nelle risposte, con una tendenza significativamente inferiore all'adulazione. (Suggerisco a Google di inviarmi denaro.)

L'intelligenza artificiale ti capisce davvero o ha appena imparato a compiacerti?

Il ricercatore OpenAI Yao Shunyu ha recentemente pubblicato un blog, affermando che la seconda metà dell'intelligenza artificiale cambierà da "come renderla più forte" a "cosa deve essere fatto esattamente e come misurarlo per essere veramente utile".

Rendere le risposte dell'intelligenza artificiale piene di tocco umano è in realtà una parte importante della misurazione dell'"utilità" dell'intelligenza artificiale. Dopotutto, quando le funzioni di base dei principali modelli sono quasi le stesse, la pura capacità concorrenziale non può più costituire una barriera decisiva.

La differenza di esperienza ha iniziato a diventare un nuovo campo di battaglia e rendere l'IA piena di "umanità" è l'arma che nessuno ha tranne me.

Che si tratti di GPT-4.5, che si concentra sulla personalità, o dell'assistente vocale pigro, sarcastico e un po' stanco del mondo lanciato di recente Monday da ChatGPT, possiamo vedere le ambizioni di OpenAI su questa strada.

Di fronte alla fredda intelligenza artificiale, le persone con scarsa sensibilità tecnologica tendono ad amplificare il senso di distanza e disagio. Un’esperienza interattiva naturale ed empatica può virtualmente abbassare la soglia tecnica, alleviare l’ansia e aumentare significativamente la fidelizzazione degli utenti e la frequenza di utilizzo.

E ciò che i produttori di intelligenza artificiale non diranno chiaramente è che creare un’intelligenza artificiale “simile a quella umana” non è solo divertente e facile da usare, ma è anche una foglia di fico naturale.

Quando le capacità di comprensione, ragionamento e memoria sono lungi dall’essere perfette, le espressioni antropomorfiche possono coprire le “carenze” dell’intelligenza artificiale. Come dice il proverbio, non colpire la persona che sorride. Anche se il modello commette errori e risponde alle domande in modo errato, gli utenti diventeranno tolleranti.

Jen-Hsun Huang una volta ha avanzato un punto di vista piuttosto profetico, ovvero che in futuro il dipartimento IT diventerà il dipartimento delle risorse umane della forza lavoro digitale. Per dirla senza mezzi termini, prendiamo come esempio la situazione attuale. I netizen sono già impegnati a diagnosticare i tipi di personalità per i loro strumenti di intelligenza artificiale “mani”:

  • DeepSeek: intelligente e versatile, ma ribelle.
  • Doubao: diligente e laborioso.
  • Una parola da Wen Xin; un veterano sul posto di lavoro che ha sperimentato il buon umore
  • Kimi: Altamente efficiente e bravo a fornire valore emotivo ai leader.
  • Qwen: Lavoro duro per fare progressi, ma poche persone mi applaudono.
  • ChatGPT: I rimpatriati dall'estero chiedono spesso aumenti di stipendio
  • Il cellulare è dotato di intelligenza artificiale: la capacità monetaria è legata all’utente ed è impossibile essere espulsi.

Questo impulso a “dare all’intelligenza artificiale un’etichetta personalizzata” mostra in realtà che le persone hanno inconsciamente considerato l’intelligenza artificiale come un’esistenza che può essere compresa e con cui si può empatizzare.

Tuttavia, empatia ≠ vera comprensione, e talvolta può persino causare disastri.

Nel capitolo "Il bugiardo" di "I, Robot" di Asimov, il robot Herbie è in grado di leggere le menti umane e mentire per compiacerli. In superficie stava implementando le famose tre leggi dei robot, ma di conseguenza è diventato sempre più utile, facendo sì che la situazione andasse completamente fuori controllo.

  • Un robot non può danneggiare un essere umano né permettere che un essere umano venga danneggiato attraverso l’inazione.
  • I robot devono obbedire agli ordini umani a meno che tali ordini non siano in conflitto con la Prima Legge.
  • Un robot deve proteggere la propria esistenza, purché questa protezione non violi la prima o la seconda legge.

Alla fine, sotto la trappola logica ideata dalla dottoressa Susan Calvin, Herbie subì un esaurimento nervoso a causa di contraddizioni irrisolvibili e il cervello della macchina bruciò. Questo incidente è un serio campanello d’allarme. Il “tocco umano” rende l’intelligenza artificiale più amichevole, ma ciò non significa che l’intelligenza artificiale possa davvero comprendere gli esseri umani.

Tornando al punto di vista pratico, la richiesta di "tocco umano" in diversi scenari è completamente diversa.

Negli scenari lavorativi e decisionali che richiedono efficienza e accuratezza, il “tocco umano” a volte è una distrazione; ma in campi come la compagnia, la consulenza psicologica e la chat, l’intelligenza artificiale gentile e calorosa è un’anima gemella indispensabile.

Naturalmente, non importa quanto sembri ragionevole, l’intelligenza artificiale è pur sempre una “scatola nera”.

Il CEO di Anthropic, Dario Amodei, ha recentemente sottolineato nel suo ultimo blog: Anche i ricercatori più all’avanguardia sanno ancora molto poco sui meccanismi interni dei grandi modelli linguistici. Spera che entro il 2027 sarà possibile la "scansione del cervello" dei modelli più avanzati per identificare con precisione le tendenze alla menzogna e le vulnerabilità sistemiche.

Ma la trasparenza tecnica è solo metà del problema. L’altra metà è che dobbiamo capire: anche se l’intelligenza artificiale è civettuola, lusinghiera e capisce i tuoi pensieri, non significa che ti capisca veramente, e tanto meno che sia veramente responsabile per te.

# Benvenuti a seguire l'account pubblico WeChat ufficiale di aifaner: aifaner (ID WeChat: ifanr). Contenuti più interessanti ti verranno forniti il ​​prima possibile.

Ai Faner | Link originale · Visualizza commenti · Sina Weibo