Meta vuole potenziare Wikipedia con un aggiornamento AI

Wikipedia ha un problema. E Meta, il Facebook rinominato non molto tempo fa, potrebbe avere la risposta.

Torniamo indietro. Wikipedia è uno dei progetti di collaborazione su più ampia scala nella storia umana, con più di 100.000 redattori umani volontari che contribuiscono alla costruzione e al mantenimento di un’enciclopedia multilingua incredibilmente grande composta da milioni di articoli. Ogni mese vengono aggiunti a Wikipedia oltre 17.000 nuovi articoli, mentre vengono continuamente apportate modifiche e modifiche al corpus di articoli esistente. Gli articoli Wiki più popolari sono stati modificati migliaia di volte, riflettendo le ultime ricerche, approfondimenti e informazioni aggiornate.

La sfida, ovviamente, è la precisione. L’esistenza stessa di Wikipedia è una prova positiva che un gran numero di esseri umani possono unirsi per creare qualcosa di positivo. Ma per essere veramente utili e non un tentacolare muro di graffiti di affermazioni infondate, gli articoli di Wikipedia devono essere supportati da fatti. È qui che entrano in gioco le citazioni. L’idea – e per la maggior parte funziona molto bene – è che gli utenti e gli editori di Wikipedia possano confermare i fatti aggiungendo o facendo clic su collegamenti ipertestuali che tracciano le affermazioni alla loro fonte.

Citazione necessaria

Supponiamo, ad esempio, di voler confermare la voce sull’articolo di Wikipedia del presidente Barack Obama in cui si afferma che Obama si è recato in Europa e poi in Kenya nel 1988, dove ha incontrato per la prima volta molti dei suoi parenti paterni. Tutto quello che devo fare è guardare le citazioni della frase e, abbastanza sicuro, ci sono tre riferimenti di libri separati che apparentemente confermano che il fatto è vero.

Al contrario, la frase “citazione necessaria” è probabilmente la due più schiacciante in tutta Wikipedia, proprio perché suggeriscono che non ci sono prove che l’autore non abbia evocato le parole dall’etere digitale. Le parole “citazione necessaria” apposte su un’affermazione di Wikipedia equivalgono a raccontare a qualcuno un fatto mentre si fanno virgolette nell’aria.

il logo di Wikipedia su sfondo rosa

Le citazioni non ci dicono tutto, però. Se dovessi dirti che, l’anno scorso, sono stato il 23° giornalista tecnologico con i guadagni più alti al mondo e che una volta ho rinunciato a una redditizia carriera di modella per scrivere articoli per Digital Trends, sembra superficialmente plausibile perché ci sono collegamenti ipertestuali a supporto le mie delusioni.

Il fatto che i collegamenti ipertestuali non supportino affatto i miei fatti alternativi, ma piuttosto portino a pagine non correlate su Digital Trends viene rivelato solo quando si fa clic su di essi. Per il 99,9 percento dei lettori che non mi hanno mai incontrato, potrebbero lasciare questo articolo con una sfilza di false impressioni, non ultima la barriera sorprendentemente bassa all’ingresso nel mondo della modellazione. In un mondo iperattivo di sovraccarico di informazioni, in cui sguazziamo sempre più in ciò che Nicholas Carr chiama ” The Shallows “, l’esistenza delle citazioni stesse sembra essere un’approvazione fattuale.

Meta entra

Ma cosa succede se le citazioni vengono aggiunte dagli editori di Wikipedia, anche se non si collegano a pagine che supportano effettivamente le affermazioni? A titolo illustrativo, un recente articolo di Wikipedia sul membro della tribù dei Blackfeet Joe Hipp ha descritto come Hipp sia stato il primo pugile nativo americano a sfidarsi per il titolo WBA World Heavyweight e si è collegato a quella che sembrava essere una pagina web appropriata. Tuttavia, la pagina web in questione non menzionava né la boxe né Joe Hipp.

Nel caso dell’affermazione di Joe Hipp, il factoid di Wikipedia era accurato, anche se la citazione era inappropriata. Tuttavia, è facile vedere come questo potrebbe essere utilizzato, deliberatamente o in altro modo, per diffondere disinformazione.

Mark Zuckurburg introduce il nuovo nome di Facebook, Meta.

È qui che Meta pensa di aver trovato un modo per aiutare. Lavorando con la Wikimedia Foundation, Meta AI (che è il laboratorio di ricerca e sviluppo sull’intelligenza artificiale per il gigante dei social media) ha sviluppato quello che afferma essere il primo modello di apprendimento automatico in grado di scansionare automaticamente centinaia di migliaia di citazioni contemporaneamente per verificare se supportano le rivendicazioni corrispondenti. Anche se questo sarebbe lontano dal primo bot utilizzato da Wikipedia , potrebbe essere tra i più impressionanti.

“Penso che alla fine della giornata siamo stati guidati dalla curiosità”, ha detto a Digital Trends Fabio Petroni , responsabile della tecnologia di ricerca per il team FAIR (Fundamental AI Research) di Meta AI. “Volevamo vedere qual era il limite di questa tecnologia. Non eravamo assolutamente sicuri se [questa IA] potesse fare qualcosa di significativo in questo contesto. Nessuno aveva mai provato a fare qualcosa di simile [prima]”.

Comprendere il significato

Formato utilizzando un set di dati composto da 4 milioni di citazioni di Wikipedia, il nuovo strumento di Meta è in grado di analizzare efficacemente le informazioni collegate a una citazione e quindi incrociarle con le prove a supporto. E questo non è nemmeno un semplice confronto di stringhe di testo.

“C’è una componente del genere, [guardando] la somiglianza lessicale tra l’affermazione e la fonte, ma questo è il caso facile”, ha detto Petroni. “Con questi modelli, quello che abbiamo fatto è costruire un indice di tutte queste pagine web suddividendole in passaggi e fornendo una rappresentazione accurata per ogni passaggio… Questo non è rappresentare parola per parola il passaggio, ma il significato del passaggio . Ciò significa che due porzioni di testo con significati simili saranno rappresentate in una posizione molto ravvicinata nello spazio n-dimensionale risultante in cui sono archiviati tutti questi passaggi”.

un fumetto a riquadro singolo di xkcd sulle citazioni di Wikipedia
xkcd

Altrettanto impressionante della capacità di individuare citazioni fraudolente, tuttavia, è il potenziale dello strumento nel suggerire riferimenti migliori. Distribuito come modello di produzione, questo strumento potrebbe suggerire utili riferimenti che illustrano al meglio un certo punto. Anche se Petroni è contrario al fatto che venga paragonato a un controllo ortografico reale, segnalando errori e suggerendo miglioramenti, questo è un modo semplice per pensare a cosa potrebbe fare.

Ma, come spiega Petroni, c’è ancora molto lavoro da fare prima di arrivare a questo punto. “Quello che abbiamo costruito è una prova di concetto”, ha detto. “Non è realmente utilizzabile al momento. Affinché questo sia utilizzabile, è necessario disporre di un nuovo indice che indicizzi molti più dati di quelli che abbiamo attualmente. Ha bisogno di essere costantemente aggiornato, con nuove informazioni in arrivo ogni giorno”.

Questo potrebbe, almeno in teoria, includere non solo il testo, ma anche il multimediale. Forse c’è un grande documentario autorevole disponibile su YouTube a cui il sistema potrebbe indirizzare gli utenti. Forse la risposta a una particolare affermazione è nascosta in un’immagine da qualche parte online.

Una questione di qualità

Ci sono anche altre sfide. Notevole in sua assenza, almeno allo stato attuale, è qualsiasi tentativo di valutare autonomamente la qualità delle fonti citate. Questa è una zona spinosa in sé. Come semplice illustrazione, un breve riferimento usa e getta a un argomento, ad esempio, nel New York Times si rivelerebbe una citazione più adatta e di alta qualità rispetto a una fonte più completa, ma meno famosa? Una pubblicazione mainstream dovrebbe essere più in alto rispetto a una non mainstream?

L’algoritmo da trilioni di dollari di PageRank di Google – certamente il più famoso algoritmo mai costruito attorno alle citazioni – lo ha integrato nel suo modello, in sostanza, identificando una fonte di alta qualità con una che aveva un numero elevato di collegamenti in entrata. Al momento, l’IA di Meta non ha nulla di simile.

Se questa IA dovesse funzionare come uno strumento efficace, dovrebbe avere qualcosa del genere. Come esempio molto ovvio del perché, immaginate che si trattasse di “dimostrare” l’opinione più eclatante e riprovevole da includere in una pagina di Wikipedia. Se l’unica prova necessaria per confermare che qualcosa è vero è se sentimenti simili possono essere trovati pubblicati altrove online, allora praticamente qualsiasi affermazione potrebbe rivelarsi tecnicamente corretta, non importa quanto possa essere sbagliata.

“[Un’area a cui siamo interessati] sta cercando di modellare esplicitamente l’affidabilità di una fonte, l’affidabilità di un dominio”, ha affermato Petroni. “Penso che Wikipedia abbia già un elenco di domini considerati affidabili e di domini considerati no. Ma invece di avere un elenco fisso, sarebbe bello se potessimo trovare un modo per promuoverli algoritmicamente”.