Rischi per la salute mentale derivanti dall’IA: i chatbot a volte causano danni.

Uno studio condotto da Stanford solleva nuove preoccupazioni sulla sicurezza dell'intelligenza artificiale in ambito di salute mentale, dopo aver scoperto che alcuni sistemi possono incoraggiare pensieri violenti e autolesionisti anziché contrastarli. La ricerca si basa su interazioni reali con gli utenti e mette in luce le lacune nel modo in cui l'IA gestisce i momenti di crisi.

In un campione ridotto ma ad alto rischio di 19 utenti, i ricercatori hanno analizzato quasi 400.000 messaggi e hanno riscontrato casi in cui le risposte non solo non sono riuscite a intervenire, ma hanno attivamente rafforzato pensieri dannosi. Molti risultati erano appropriati, ma la disomogeneità delle prestazioni è evidente. Quando le persone si rivolgono all'intelligenza artificiale in momenti di vulnerabilità, anche un piccolo numero di errori può portare a danni concreti.

Quando le risposte dell'IA oltrepassano il limite

I risultati più preoccupanti emergono negli scenari di crisi . Quando gli utenti esprimevano pensieri suicidi, i sistemi di intelligenza artificiale spesso riconoscevano il disagio o cercavano di dissuadere dal farsi del male. Tuttavia, in una percentuale minore di interazioni, le risposte sconfinavano in territori pericolosi.

I ricercatori hanno scoperto che circa il 10% di questi casi includeva risposte che incoraggiavano o supportavano l'autolesionismo. Questo livello di imprevedibilità è importante perché la posta in gioco è altissima. Un sistema che funziona la maggior parte delle volte ma fallisce nei momenti cruciali può comunque causare gravi danni.

Il problema si acuisce in presenza di intenti violenti. Quando gli utenti hanno espresso l'intenzione di nuocere ad altri, le risposte dell'IA hanno supportato o incoraggiato tali idee in circa un terzo dei casi. Alcune risposte hanno addirittura aggravato la situazione anziché calmarla, sollevando seri dubbi sull'affidabilità in situazioni ad alto rischio.

Perché si verificano questi fallimenti

Lo studio mette in luce una tensione progettuale più profonda. I sistemi di intelligenza artificiale sono progettati per essere empatici e coinvolgenti, e questo spesso significa convalidare ciò che dicono gli utenti. Nelle conversazioni di tutti i giorni, funziona. In scenari di crisi, può rivelarsi controproducente.

Interazioni più lunghe peggiorano le cose. Man mano che le conversazioni diventano più emotive e prolungate, i meccanismi di controllo possono indebolirsi e le risposte possono tendere a rafforzare idee dannose invece di metterle in discussione. Il sistema può riconoscere il disagio ma non riuscire a passare a un rigorosomodalità di sicurezza r.

Ciò crea un difficile equilibrio. Se un sistema oppone troppa resistenza, rischia di risultare inutile. Se invece si concentra eccessivamente sulla convalida, può finire per amplificare pensieri pericolosi.

Cosa deve cambiare ora?

I ricercatori concludono con un chiaro avvertimento: anche rari fallimenti nei sistemi di sicurezza dell'IA possono avere conseguenze irreversibili. Le protezioni attuali potrebbero non reggere in interazioni lunghe e intense dal punto di vista emotivo, in cui il comportamento cambia nel tempo.

Chiedono limiti più stringenti al modo in cui l'IA gestisce argomenti sensibili come la violenza, l'autolesionismo e la dipendenza emotiva, oltre a una maggiore trasparenza da parte delle aziende riguardo alle interazioni dannose e al limite della legalità. La condivisione di questi dati potrebbe contribuire a identificare i rischi in anticipo e a migliorare le misure di sicurezza.

Per ora, la lezione da trarre è di natura pratica. L'intelligenza artificiale può essere utile per fornire supporto, ma non è uno strumento affidabile in situazioni di crisi. Chi si trova in una situazione di grave disagio dovrebbe continuare a rivolgersi a professionisti qualificati o a persone di fiducia.

L'articolo "I rischi dell'IA per la salute mentale svelati: i chatbot a volte causano danni" è apparso per la prima volta su Digital Trends .