Il paradosso della Wayback Machine: utile ai giornalisti, bloccata dagli editori

Perché i grandi giornali stanno oscurando lnternet archive (mentre continuano a utilizzarlo)

Il paradosso della Wayback Machine: utile ai giornalisti, bloccata dagli editori

Su UsaToday è apparsa nelle scorse settimane un’inchiesta su come l’Agenzia statunitense per l’immigrazione e le dogane (ICE) abbia ritardato la divulgazione di informazioni chiave sull’impatto delle sue politiche di detenzione. Gli autori per indagare su questa vicenda hanno utilizzato la Wayback Machine dell’Internet Archive, una sorta di macchina del tempo digitale, per raccogliere e analizzare le statistiche sulle detenzioni degli anni passati e monitorare i cambiamenti avvenuti sotto l’amministrazione Trump.

Per chi non lo conoscesse l’Internet Archive esiste da 30 anni e ha archiviato 1.000 miliardi di pagine web. E questo è solo uno dei tantissimi esempi di come la Wayback Machine, scansionando e conservando le pagine online del passato ha contribuito a preservare informazioni rilevanti per il bene pubblico.

Secondo il direttore della Wayback Machine, Mark Graham, suona però «paradossale», dato che USA Today Co., il conglomerato editoriale che gestisce sia l’omonimo quotidiano e 200 altre testate giornalistiche, impedisce a Wayback Machine di archiviare i suoi contenuti. «Sono in grado di raccogliere le informazioni per i loro articoli grazie a Wayback Machine. Allo stesso tempo, ne bloccano l’accesso» ha spiegato Graham.

Diversi importanti giornali, tra cui il New York Times, hanno iniziato a limitare l’accesso di Wayback Machine all’archiviazione dei loro articoli; anche la piattaforma social Reddit sta attualmente bloccando il web crawler comunemente utilizzato da Internet Archive per il progetto Wayback Machine. Altre testate stanno limitando il progetto in modi diversi: il britannico The Guardian non blocca il crawler, ma esclude i suoi contenuti dall’API di Internet Archive e filtra gli articoli dall’interfaccia di Wayback Machine, rendendo più difficile per gli utenti comuni accedere alle versioni archiviate dei suoi articoli. Mentre la portavoce di USA Today Co., Lark-Marie Anton, ha spiegato che «questo sforzo non mira a bloccare specificamente l’Internet Archive», ma fa parte di un più ampio impegno dell’azienda per bloccare tutti i bot di scraping.

Quello che si può osservare è uno scontro tra editori e aziende di intelligenza artificiale sulla legalità dell’utilizzo di strumenti di Ia per l’addestramento sui loro contenuti senza autorizzazione; molte delle oltre 100 cause per violazione del copyright relative all’Ia negli Stati Uniti si concentrano proprio su questo problema. Le aziende tecnologiche utilizzano contenuti provenienti da tutto il web e, poiché Wayback Machine offre una quantità così vasta di materiale, è considerata una fonte di dati particolarmente interessante. Gli editori hanno giustificato la loro decisione, citando preoccupazioni su come le aziende tecnologiche potrebbero utilizzare i dati dell’Internet Archive per addestrare modelli di intelligenza artificiale. Il portavoce del New York Times, Graham James, ha spiegato che «il problema è che i contenuti del Times presenti sull’Internet Archive vengono utilizzati da aziende di intelligenza artificiale in violazione del diritto d'autore per competere direttamente con noi».

Alcuni giornalisti però hanno scelto di mobilitarsi a sostegno della Wayback Machine, riconoscendo il valore dello strumento: «Con la chiusura di molti giornali e senza un percorso chiaro per le biblioteche pubbliche locali per preservare i reportage esclusivamente digitali, il compito di salvaguardare la documentazione giornalistica ricade sempre più sull'Internet Archive». Non esiste uno strumento pubblico ampiamente disponibile che sia paragonabile alla Wayback Machine e, se continuerà a perdere l'accesso alle principali fonti di notizie, i suoi sforzi di conservazione potrebbero deteriorarsi al punto che i primi documenti digitali della storia diventeranno molto più difficili da consultare, o andranno addirittura persi del tutto.