Come cambierà la ricerca scientifica al tempo dei big data

Luca Gammaitoni

Davvero l’intelligenza artificiale e le grandi quantità di dati empirici renderanno inutile il lavoro degli scienziati percreare modelli logico-matematici del mondo? L’analisi del fisico Gammaitoni

Come cambierà la ricerca scientifica al tempo dei big data

COMMENTA E CONDIVIDI

«Abbiamo una grande quantità di dati e pensiamo di utilizzare tecniche di machine learning per trovare cose interessanti. Stiamo cercando la presenza di nuovi segnali che siano sfuggiti alle analisi precedenti. Forse una nuova Fisica ». Il collega americano lo dice quando siamo al ristorante. Rifletto sulla sua affermazione mentre entrambi guardiamo dall’ampia finestra la pianura che separa Perugia da Assisi. Sullo sfondo il Sacro Convento, illuminato per la notte. Sono perplesso e glielo dico con molta cautela, perché comunque lui il premio Nobel l’ha già vinto e non è noto come uno che fa affermazioni avventate. Le tecniche di machine learning sono strumenti matematici e sono oggi in gran voga perché alla base degli studi più avanzati di Intelligenza Artificiale (IA), grazie ai quali i computer sono capaci di riconoscere volti e di interpretare il linguaggio naturale. L’idea del mio collega è semplice: finora abbiamo trovato segnali (di onde gravitazionali) perché sapevamo cosa aspettarci e siamo andati a cercarli dentro un mare di rumore. Ora proviamo a trovare dentro lo stesso mare di rumore qualcos’altro, qualcosa che non conosciamo, ma che potrebbe esserci: segnali gravitazionali emessi da nuovi fenomeni che nemmeno immaginiamo e che potrebbero svelarci addirittura nuove leggi della Fisica.

L’idea di cercare qualcosa, che non si sa se ci sia e come sia fatto esattamente, per la verità non è nuovissima ed è stata al centro del lavoro dei fisici e dei matematici, che si sono occupati della cosiddetta “Teoria del Caos”, sin dagli anni Ottanta del Novecento. Primi tra tutti l’olandese Floris Takens e il belga naturalizzato francese David Ruelle. In questo caso, però, siamo un passo avanti: l’idea che circola, infatti, è quella di saltare a piè pari la fase di ricerca di un modello esistente ma nascosto, per passare direttamente alla individuazione di schemi ( pattern) tra i dati. Per dirla con Peter Norvig, direttore della ricerca a Google ed esperto di IA, «tutti i modelli sono sbagliati e sempre più spesso si può trovare la soluzione senza utilizzarli». Questo punto di vista è stato ulteriormente popo-larizzato in un articolo di Chris Anderson, direttore della rivista americana “Wired”, che nel 2008 ha scritto un pezzo intitolato La fine della teoria: il diluvio dei dati rende obsoleto il metodo scientifico. Nell’articolo si sostiene che la grande disponibilità di dati “sperimentali” rende superato l’approccio scientifico tradizionale che si basa sulla creazione di modelli fisici, ovvero di teorie create dalla mente di scienziati e basate su relazioni matematiche, ma che sia necessario procedere a un nuovo approccio che si fondi, invece, sull’uso massiccio di tecniche di IA.

In breve: smettetela di cercare di immaginare come funziona il mondo, i computer troveranno per noi le leggi della natura che non necessariamente avranno la forma di relazioni matematiche intellegibili, ma funzioneranno altrettanto bene e la nostra vita sarà più facile e quindi più felice. Questa visione del ruolo preminente dell’analisi di un grande numero di dati empirici è oggi diventata popolare con il nome di “big data” e su questo approccio vengono organizzati convegni internazionali e istituiti master universitari. Domanda: siamo veramente convinti che la disponibilità di programmi di IA e di grandi quantità di dati empirici renderanno inutile un modo di fare scienza basato sul lavoro degli scienziati atto a creare modelli logico-matematici del mondo? Alcuni non ne sono convinti ed io, ahimè, sono uno di loro. Ci sono diverse ragioni per cui il programma “big data”, almeno nella sua versione più radicale, non può funzionare. Alcune di queste ragioni sono state illustrate in un bel lavoro di Hykel Hosni e Angelo Vulpiani, intitolato Forecasting in light of big data (“Previsioni alla luce dei big data”) e pubblicato lo scorso anno sulla rivista specializzata “Philosophy & Technology”. Oltre a queste ragioni squisitamente tecniche, ce n’è una che ha radici più profonde delle altre e di questo vogliamo parlare qui.

Per cercare di capire meglio in cosa consista, useremo un ausilio letterario: il celebre racconto di Jorge Luis Borges intitolato La biblioteca di Babele. In questo racconto si immagina l’esistenza di una smisurata biblioteca composta da un numero enorme di stanze esagonali, tutte uguali, connesse da corridoi. Come ci spiega Borges: a ciascuna parete di ciascun esagono corrispondono cinque scaffali; ciascuno scaffale contiene trentadue libri di formato uniforme; ciascun libro è di quattrocentodieci pagine; ciascuna pagina, di quaranta righe; ciascuna riga di quaranta lettere di colore nero. Come presto si scoprirà nel racconto, ciascun libro è composto da una sequenza casuale di simboli (22 lettere, più la virgola, il punto e lo spazio). In questo modo la biblioteca contiene tutti i libri scrivibili che soddisfano alle condizioni di lunghezza sopra espresse. Per utilizzare il linguaggio poetico di Borges, i libri della biblioteca descrivono tutto: la storia minuziosa dell’avvenire, le autobiografie degli arcangeli, il catalogo fedele della Biblioteca, migliaia e migliaia di cataloghi falsi, la dimostrazione della falsità di questi cataloghi, la dimostrazione della falsità del catalogo autentico, l’evangelo gnostico di Basilide, il commento di questo evangelo, il commento del commento di questo evangelo, il resoconto veridico della tua morte, la traduzione di ogni libro in tutte le lingue, le interpolazioni di ogni libro in tutti i libri. Il problema che si pone al visitatore della biblioteca è ovviamente quello di decifrare i libri perché, come potete immaginare, un libro preso a caso appare come una sequenza di simboli assemblati a comporre parole senza senso. Senza senso per noi, ma che magari esprimono in un’altra lingua ignota e misteriosa, la storia della nostra vita oppure una profezia o persino l’equazione finale della Fisica.

Un libro della biblioteca di Babele, a pensarci bene, assomiglia proprio a una serie di dati sperimentali, raccolti dall’esperimento del mio collega americano e, quindi, cercare un nuovo segnale nella serie dei dati, non sarebbe molto diverso dal cercare un’espressione sensata e interessante dentro uno dei libri della biblioteca. E qui viene il bello. Una volta stabilita questa analogia (libroserie di dati) la Biblioteca di Babele appare davvero come il paradiso dei big data. Essa contiene tutte le informazioni di potenziale interesse per noi, il problema è “solo” estrarre queste informazioni. Prima che corriate a iscrivervi al prossimo master in big data, però, mi corre l’obbligo di mettervi in guardia: le cose possono essere un po’ più complicate del previsto. A venire in nostro aiuto è un matematico italiano, Lucio Lombardo Radice, che nel 1981 ha scritto un piccolo libretto, intitolato L’Infinito, di grande interesse per il nostro problema. Lombardo Radice ci spiega che, anche se il numero di libri della Biblioteca di Babele è molto grande ma pur sempre finito, il numero di significati che possono essere attribuiti al contenuto di quei libri non lo è (tecnicamente si chiama “paradosso di Richard” e fa parte di una famiglia di risultati che hanno condotto il logico-matematico Gödel a formulare i suoi celebri teoremi d’incompletezza). A una stringa finita di caratteri corrispondono potenzialmente un numero infinito di significati, ovvero nel nostro contesto, un certo insieme di dati costituisce la risposta potenziale a un numero infinito di problemi fisici. Senza conoscere a priori la domanda, la risposta rischia di essere priva di significato.

Per capire meglio, vediamo un esempio. Supponiamo che in uno dei libri, in mezzo a stringhe di caratteri insensati, ci appaia finalmente una sequenza di caratteri in una lingua familiare: « While the music goes, Alice and Bob exchange secure messages through their entangled spins » (che in italiano sarebbe “mentre la musica va, Alice e Bob si scambiano messaggi sicuri attraverso i loro giri aggrovigliati”). Le due parole “ entangled spins” stanno ad indicare due cose molto diverse a seconda che io le interpreti utilizzando un dizionario inglese dell’Ottocento oppure uno tardo novecentesco. Nel primo caso la frase starebbe a indicare le confidenze che due amanti si scambiano, magari sussurrando all’orecchio, durante un giro di valzer. Nel secondo caso invece assumerebbe un significato completamente diverso poiché nella fisica del Novecento, grazie alla creazione della meccanica quantistica, è emerso il concetto di “ entangled spins” che sta ad indicare due sistemi fisici microscopici che hanno proprietà collegate e che possono essere utilizzati per comunicazioni crittografate. Per cui, a un lettore contemporaneo la frase suonerebbe come: mentre la musica va, Alice e Bob si scambiamo messaggi sicuri mediante crittografia quantistica.

Quali delle due interpretazioni è quella corretta? Dipende dalla domanda, ovvero dipende dal dizionario che uso. La costruzione del dizionario, ovvero del modello scientifico, è cruciale per l’interpretazione del dato sperimentale. Senza il lavoro faticoso, complicato e “sporco” dello scienziato che mischiando intuizione e induzione, genio e creatività, riesce ad avanzare ipotesi che poi saranno smentite o confermate dai dati, non c’è produzione di vera conoscenza. Parafrasando il grande scienziato francese Poincaré potremmo dire che lo scienziato deve fare ordine: la scienza si fa con i dati così come una casa si fa con i mattoni, ma l’accumulazione dei dati non è scienza più di quanto un mucchio di mattoni non sia una casa. Insomma: è davvero difficile trovare qualcosa di nuovo se non si sa cosa si sta cercando e imparare a fare domande interessanti è spesso molto più utile che rovistare tra risposte abbondantemente disponibili.