Sono stati recentemente pubblicati sulla rivista Proceedings of the National Academy of Sciences (PNAS), i risultati ottenuti in uno studio frutto del lavoro di ricercatori della Sapienza afferenti al Dipartimento di Informatica e al Dipartimento di Psicologia. Lo studio ha messo in risalto il rischio connesso alla crescente fiducia riposta nelle capacità di valutazione delle piattaforme di intelligenza artificiale. Descrizione: I Large Language Models (LLM) vengono sempre più utilizzati non solo per cercare informazioni, ma per comprendere, valutare e prendere decisioni in diversi contesti. Tuttavia, ciò che appare come un allineamento con i giudizi umani o degli esperti potrebbe nascondere un cambiamento più profondo: la tendenza, soprattutto nelle giovani generazioni, a delegare non solo l’informazione, ma la struttura stessa del giudizio.
A questi risultati, pubblicati sulla rivista PNAS, è giunto un team di ricercatori dei Dipartimenti di Informatica e di Psicologia della Sapienza, coordinati rispettivamente dal Prof. Walter Quattrociocchi e dal Prof. Vincenzo Cestari, attraverso una serie di esperimenti che hanno coinvolto sei dei principali modelli linguistici oggi in uso e gruppi di valutatori umani, inclusi esperti. In un primo esperimento è stato affidato a tutti, modelli e partecipanti, lo stesso compito: giudicare la credibilità di centinaia di siti di informazione. E’ emerso come il giudizio dei modelli sia, almeno apparentemente, simile a quello degli esperti ma che questo avvenga attraverso processi differenti. Gli LLM si basano su associazioni lessicali, non su ragionamenti critici. Identificano parole chiave, segnali frequenti, non leggono il contenuto come farebbe una persona. Un secondo esperimento ha evidenziato la presenza di bias politici sistematici e una divergenza strutturale nei criteri di valutazione adottati dai modelli. Ciò accade perché gli LLM tendono a replicare i pattern prevalenti nei dati su cui sono stati addestrati. In contesti accademici, giornalistici e digitali, alcune posizioni politiche vengono discusse più spesso con un taglio critico; i modelli apprendono questo schema e lo riproducono, senza comprenderlo. Infine lo studio ha indagato cosa accade quando gli LLM si comportano come agenti, ovvero raccolgono informazioni, selezionano fonti, combinano risposte, prendono decisioni su base modulare.
La collaborazione tra i ricercatori del Dipartimento di Psicologia e del Dipartimento di Informatica, ha consentito di progettare un esperimento in cui sia i modelli sia gli esseri umani operavano come agenti. Anche in questo caso è emerso che mentre le persone usano criteri retorici, stilistici, emotivi per emettere un giudizio di affidabilità, i modelli si affidano a tracce strutturali, a segnali lessicali associati alla reputazione o all’ideologia.
Nel complesso i risultati di questo studio sperimentale mostrano che le piattaforme di AI sono in grado di influenzare ciò che milioni di persone percepiscono come “vero”. Analizzare il modo in cui questi modelli valutano l’affidabilità dell’informazione significa infatti andare oltre il concetto classico di disinformazione (infodemia) e confrontarsi con la sfida emergente relativa all’illusione di conoscenza generata dalla plausibilità linguistica prodotta dai sistemi di AI.

