Ricerca in evidenza | Dipartimento di Psicologia e Scienze Cognitive

Intervista a Massimo Stella: I bias cognitivi delle intelligenze artificiali

Massimo Stella, docente del DiPSCo, studia gli effetti (negativi e positivi) dei modelli linguistici GPT sulla nostra mente. Da qualche mese il termine “GPT” è sulla bocca di quasi tutti.

Ma quanti di noi conoscono cosa succede dietro le quinte? Quali possono essere le conseguenze dell’utilizzo di queste intelligenze artificiali? Possono influenzare in qualche modo la nostra società e la nostra cultura?

Ne abbiamo parlato con il prof. Massimo Stella, docente e ricercatore presso il DiPSCo.

Dott. Stella, ha recentemente pubblicato una lettera su PNAS che parla dei bias dei modelli linguistici GPT. Ci può raccontare l’idea alla base di questa lettera?

Il concetto base della lettera è molto semplice: tutte le teorie delle scienze cognitive che sono state sviluppate negli ultimi 60 anni si basano su esperimenti svolti sugli esseri umani; con l’arrivo dei modelli linguistici come GPT-4, invece, vengono smontate tutte le nostre conoscenze in questo ambito.

L’architettura cognitiva di questi sistemi, infatti, è completamente diversa rispetto alla nostra. I modelli linguistici sono essenzialmente reti neurali che vengono esposte a un'enorme quantità di dati e vengono addestrate continuamente tramite il reinforcement learning.

Con l’utilizzo sempre più diffuso dei modelli linguistici GPT come fonte di informazione e come mezzo di comunicazione, quindi, è fondamentale iniziare a concentrarsi non solo sui bias umani ma anche su quelli non umani, ovvero su quei bias propri di questi modelli linguistici.

Quali sono i principali bias dei modelli linguistici GPT?

Attualmente siamo a conoscenza di due bias dei modelli linguistici GPT: la myopic overconfidence e le allucinazioni.

Nel primo caso ci troviamo davanti a un’eccessiva sicurezza nei confronti delle proprie affermazioni.

Le allucinazioni, invece, avvengono quando i modelli linguistici devono produrre conoscenza su argomenti che non conoscono. In questi casi, essi provano a interpolare il testo in base alle poche informazioni che possiedono, con risultati che sembrano dei romanzi distopici alla Philip K. Dick. Molto spesso, per esempio, producono paragrafi in cui viene ripetuto numerose volte lo stesso set di parole.

Un altro problema di questi sistemi è la loro incapacità di filtrare informazioni false. A differenza di noi esseri umani, infatti, i modelli linguistici GPT non riescono a capire né quale sia la sorgente di un’informazione né l’affidabilità di una determinata fonte.

Questo significa che, se io inserisco un’informazione di bassa qualità nel sistema, per via del reinforcement learning anche questa informazione falsa verrà sovracampionata e il sistema inizierà a riprodurla come se fosse vera.

Con il vostro laboratorio, CogNosco, avete vinto un bando proprio per andare a studiare questi bias. Di cosa si tratta?

Con il collega prof. Giuseppe Alessandro Veltri abbiamo vinto il bando interno dell’Università di Trento “Call for Research 2023”. Con il nostro progetto andremo quindi a investigare la struttura della conoscenza dei modelli linguistici GPT per capire dove e come l’informazione da essi prodotta possa essere distorta e poi potenzialmente trasmessa agli umani.

Sarà particolarmente interessante raccogliere e analizzare questi dati perché i modelli GPT erano dei sistemi di nicchia fino a pochissimi anni fa; non esistono quindi attualmente degli studi a riguardo sulla trasmissione di idee da GPT a esseri umani.

A quali conseguenze può portare un’eventuale informazione distorta prodotta da queste intelligenze artificiali?

Stereotipi, linguaggio d'odio e bias possono essere appresi, riprodotti e ampliati con grande facilità da questi sistemi.

Questi modelli linguistici raggiungono milioni e milioni di utenti in tutto il mondo che, ignari del funzionamento dei modelli GPT e dei loro possibili bias, potrebbero essere influenzati da queste percezioni negative senza nemmeno esserne a conoscenza.

Ci può fare un esempio di cosa intendiamo per “costruire una conoscenza distorta”?

Prendiamo l’esempio della matematica: si tratta di una disciplina come tante altre, né negativa né positiva. C’è però uno stereotipo molto comune, che si riscontra anche in numerosi studenti e studentesse, che vede la matematica come un qualcosa di negativo.

In una ricerca che ho svolto con Giulio Rossetti, Salvatore Citraro, Luigi Lombardi e Katherine Abramski, dottoranda nel programma di “AI for Society” a Pisa, abbiamo scoperto che anche GPT-3, GPT-3.5 e GPT-4 producono associazioni negative e stereotipate della matematica, proprio come farebbero gli studenti di scuola superiore.

Come possiamo utilizzare i dati risultanti dalla mappatura dei bias di queste intelligenze artificiali?

Questo aspetto coglie in pieno il secondo obiettivo del nostro progetto. Terminata la mappatura dei bias delle intelligenze artificiali GPT, infatti, vogliamo andare a capire qual è l'influenza che questi bias possono avere sulla mente degli esseri umani.
Non è detto, per esempio, che i modelli linguistici abbiano solo un effetto negativo: potrebbero anche avere un potere benefico sulle persone.

Purtroppo, al momento ci troviamo davanti a modelli molto inconsistenti, che si adattano facilmente a quello che la persona vuole sentirsi dire. Vogliamo quindi cercare di capire quali fasce di persone sono più esposte ai bias di questi modelli linguistici, sia dal punto di vista negativo che positivo: chi è maggiormente a rischio di un possibile contagio di conoscenza distorta? E chi è maggiormente in grado di trarre beneficio dalle conversazioni con i sistemi GPT?

Ulteriori informazioni

Il Laboratorio CogNosco fa parte del Dipartimento di Psicologia e Scienze Cognitive dell'Università di Trento ed è diretto dai professori Massimo Stella e Luigi Lombardi. Per maggiori info: Laboratorio Cognosco