L’IA risponde meglio dei docenti universitari? Lo studio di Stanford riapre il dibattito sull’insegnamento

di Davide Imeneo

Uno studio della Stanford Law School ha scoperto che i professori di diritto preferiscono, nella maggior parte dei casi, le risposte generate dall’intelligenza artificiale a quelle scritte dai colleghi. Ma rispondere bene significa insegnare davvero?

L’IA risponde meglio dei docenti universitari? Lo studio di Stanford riapre il dibattito sull’insegnamento

Sono le undici di sera di un martedì anonimo del secondo semestre, una studentessa del primo anno scrive al suo professore di diritto: ha un dubbio su una norma del codice civile, una di quelle leggi che generazioni di studenti hanno maledetto innumerevoli volte durante la preparazione degli esami. Il professore ha la riunione di dipartimento al mattino dopo, due articoli da concludere, una coda lunghissima di mail inevase e ancora non ha smarcato tutti i task previsti per quel martedì, così risponde in quattro righe, corrette, sbrigative, ovviamente la risposta che darebbe con gli appunti davanti e il pomeriggio libero sarebbe diversa. Quella mail frettolosa è diventata l’oggetto di studio di un gruppo di ricercatori della Stanford Law School; i risultati della ricerca, pubblicati il 27 maggio sotto la supervisione del giurista Julian Nyarko, hanno un titolo che è tutto un programma: "I docenti di giurisprudenza preferiscono le risposte dell’IA a quelle dei colleghi."

Lo studio ha coinvolto sedici professori di diritto di quattordici università americane, tra cui Yale, NYU e Chicago. Come è stato strutturato? I docenti hanno formulato quaranta domande sullo stile delle tipiche domande che ricevono durante l’orario di ricevimento e hanno risposto come farebbero nella realtà: in fretta, senza consultare materiali, immaginandosi sotto pressione per la fila di studenti che c’è dietro la porta. Poi, le stesse domande sono state sottoposte a due sistemi di intelligenza artificiale di Google, Gemini 2.5 Pro e NotebookLM. Alla fine i professori hanno valutato in doppio cieco 2.918 coppie di risposte, indicando ogni volta quale avrebbero preferito: ebbene, nel 75% dei casi hanno scelto la risposta generata dall’Ai, inoltre i “testi artificiali” sono stati giudicati errati nel 3,5% dei casi, contro il 12% di quelle scritte dai professori in carne ed ossa. «Siamo rimasti sorpresi dalla portata dei risultati», ha dichiarato Nyarko, «non si trattava di domande semplici con risposte ovvie, molte richiedevano di sintetizzare materiale complesso, applicarlo a situazioni nuove e spiegare concetti giuridici in modi che aiutassero gli studenti a sviluppare le proprie capacità analitiche».

La ricerca, però, merita una lettura più attenta di quella su cui molti giornali americani si sono soffermati, titolando, superficialmente e sensazionalisticamente sulla sostituzione dell’Ai nei confronti dei docenti universitari.

La ricerca di Standford, infatti, misura una preferenza tra risposte scritte: i professori, posti davanti a due testi anonimizzati, sceglievano quello che avrebbero preferito consegnare a uno studente. Questo, però, analizza la qualità percepita della risposta, e dice poco sull'apprendimento effettivo, perché preferire una risposta chiara e autorevole non implica che lo studente impari di più e meglio leggendola. Una risposta “fluida e completa” rischia di fare il lavoro cognitivo al posto di chi legge, eliminando quella fatica di apprendimento che la buona didattica cerca di innescare sempre. La ricerca, del resto, contiene un indizio importante che va in questa direzione: quando i ricercatori hanno analizzato le caratteristiche dei testi scelti dai professori nel doppio cieco, hanno scoperto che le risposte che includevano domande di approfondimento e tentativi di accompagnamento guidato - strumenti tipici dell'insegnamento socratico – venivano scartate, quindi i docenti valutatori premiavano la “mini-lezione risolutiva” e penalizzavano il "tu cosa ne pensi?". Nyarko stesso ha tenuto a precisare: «Il nostro studio valuta la qualità delle risposte date dagli strumenti di IA, come implementare questi strumenti per migliorare concretamente l'apprendimento degli studenti resta una questione aperta».

C'è poi un altro aspetto che va oltre la questione didattica: i ricercatori hanno scelto l’ambito della giurisprudenza proprio perché le risposte giuste possono essere più d'una, perché conta argomentare, soppesare posizioni contrastanti, gestire ambiguità, in fondo è il tipo di disciplina dove il giudizio è al centro. Eppure l'IA ha funzionato anche in questo caso. Lo ha spiegato bene il coautore della ricerca, il docente di Yale Sarath Sanga: «Nella maggior parte dei campi in cui l'IA viene testata, esiste una risposta giusta. Nel diritto, spesso no. Volevamo capire se l'IA fosse in grado di rispettare lo standard professionale che i giuristi usano per valutare le argomentazioni altrui. La risposta è stata positiva».

L'IA ha davvero intercettato le norme implicite della disciplina, come sostengono gli autori? Oppure ciò che chiamiamo giudizio è, almeno in parte, un insieme di pattern abbastanza regolari da poter essere riprodotti da un algoritmo? La prima ipotesi è incoraggiante: l'IA potrebbe diventare un tutor accessibile a milioni di studenti che oggi non hanno docenti disponibili, la seconda è più scomoda, e obbliga a ripensare cosa resta davvero insostituibile dell'insegnamento umano.

Un dato, però, sconsiglia qualsiasi conclusione affrettata: studi precedenti sulle cosiddette "allucinazioni giuridiche" dei modelli linguistici - fra tutti quello di Dahl e colleghi, pubblicato sul Journal of Legal Analysis - hanno mostrato che l'IA è capace di costruire ragionamenti formalmente impeccabili su fatti giuridici inventati di sana pianta. La forma è corretta, il contenuto può essere falso. Un professore che sbaglia lo fa in modo visibile e quindi contestabile; un'intelligenza artificiale che sbaglia con la stessa sicurezza con cui risponde bene è assai più difficile da cogliere in errore, soprattutto per chi ancora non possiede gli strumenti per distinguere un ragionamento valido da uno soltanto plausibile.

La macchina, insomma, sa già rispondere meglio del professore delle undici di sera, questo non vuol dire, però, che sappia insegnare.