Le proteine dell’Intelligenza artificiale

di Paolo Benanti

Tutto il clamore mediatico su Gpt e sui suoi concorrenti definiti Large Language Model o Llm è legato ai cosiddetti comportamenti emergenti. Gli Llm originariamente sono stati sviluppati...

Tutto il clamore mediatico su Gpt e sui suoi concorrenti definiti Large Language Model o Llm è legato ai cosiddetti comportamenti emergenti. Gli Llm originariamente sono stati sviluppati – “addestrati” in termini tecnici – per tracciare statistiche sull’uso delle parole. Con grande sorpresa di tutti, dato un insieme sufficientemente ampio di campioni linguistici e una rete neurale sufficientemente complessa, il loro “addestramento” ha portato funzioni che sembra dotare gli Llm di “comprensione” linguistica e una disponibilità di un ampio compendio di fatti reali (anche se i media sembrano essersi più sorpresi degli errori che facevano che non per le funzioni che non dovevano avere e invece hanno).

Ora le cose si fanno ancora più sorprendenti. In un articolo uscito lo scorso 13 marzo sulla rivista Science scopriamo che un gruppo di Meta ha voluto vedere se questo tipo di “comprensione emergente” poteva non limitatasi alle lingue. Ha quindi addestrato un Llm sulle statistiche della comparsa degli amminoacidi nelle proteine e ha usato la rappresentazione interna del sistema di ciò che ha imparato per estrarre informazioni sulla struttura di quelle proteine. Il risultato non è all’altezza dei migliori sistemi AI disponibili, ma è molto più veloce e sta migliorando.

Leggiamo nell’articolo di Science che «quando i modelli linguistici delle sequenze proteiche vengono scalati fino a 15 miliardi di parametri, nelle rappresentazioni apprese emerge un’immagine a risoluzione atomica della struttura proteica. Applichiamo questa capacità per costruire l’Atlante metagenomico Esm, prevedendo le strutture di >617 milioni di sequenze di proteine metagenomiche, di cui >225 milioni sono state previste con un’elevata confidenza, il che offre una visione della vasta gamma e diversità delle proteine naturali».

Il ragionamento alla base del nuovo lavoro di Meta è che l’addestramento di una rete neurale di tipo Llm potrebbe essere fatto in modo da consentire al sistema di risolvere lo stesso tipo di vincoli evolutivi senza dover affrontare il complicato lavoro di allineamento di tutte le sequenze proteiche. Proprio come le regole della grammatica emergerebbero dall’addestramento di un Llm su campioni di lingua, i vincoli imposti dall’evoluzione emergerebbero dall’addestramento del sistema su campioni di proteine.

Le questioni sono numerose, e rimandiamo a Science per chi vuole approfondire. Sappiamo che bisognerà aspettare ulteriori verifiche. In ogni caso, se Intelligenze artificiali diverse ottengono lo stesso risultato sulle proteine con sistemi costruiti su principi molto diversi, questo indirizzerà la ricerca di laboratorio. Tuttavia, non sappiamo i limiti di questo approccio. Gli Llm ci sorprendono ancora e se la cosa diventa un problema di affidabilità, limiti e sicurezza allora il tutto ora diviene una questione algoretica.