L’ingresso dell’intelligenza artificiale (IA) generativa nella pratica clinica ha segnato il passaggio da strumenti informatici confinati e prevedibili a sistemi aperti che uno studio recente pubblicato su npj Digital Medicine definisce “software clinico non deterministico e non confinato” (Undcs nella sigla inglese). Questa evoluzione tecnologica solleva sfide etiche e algoretiche di portata inedita, poiché mette in discussione i pilastri della sicurezza del paziente e della responsabilità medica.

La prima grande sfida risiede nella natura intrinsecamente non deterministica di questi modelli: a differenza degli algoritmi tradizionali definiti “software clinico deterministico” (Dcs), dove a un medesimo input corrisponde sempre lo stesso output, i grandi modelli linguistici (Llm) possono generare risposte diverse per la stessa domanda. Questa variabilità è spesso introdotta intenzionalmente attraverso parametri come la “temperatura” per rendere il linguaggio più naturale o può derivare da imprecisioni nei calcoli in virgola mobile. Tale stocasticità produce uno spettro di output difficilmente confinato che limita la fattibilità delle valutazioni tradizionali basate su test esaustivi. Dal punto di vista algoretico, emerge il problema critico delle “allucinazioni”, ovvero errori semantici in cui il modello produce informazioni false ma apparentemente credibili. Queste non sono semplici malfunzionamenti, ma conseguenze dirette dell’ingegneria dei modelli, che operano una compressione massiccia dei dati di addestramento in una rappresentazione approssimativa. Quando un Llm fornisce raccomandazioni cliniche inappropriate in situazioni ad alto rischio, basandosi su informazioni incomplete, il danno potenziale per l’utente finale è gravissimo.

Esiste inoltre un vuoto normativo preoccupante: le attuali regolamentazioni sono orientate alle “etichette” e all’uso previsto dichiarato dal produttore. Tuttavia, i modelli di oggi sono sviluppati da fornitori tecnologici che controllano l’intera catena di approvvigionamento e vengono distribuiti direttamente al consumatore con disclamer generici che raramente scoraggiano l’uso clinico reale, eludendo le tutele tradizionali della filiera medica. Per affrontare queste sfide, lo studio identifica diverse strategie di mitigazione del rischio, fondamentali per l’allineamento dei sistemi Undcs. Una delle principali è il “red teaming”, che consiste nello stress-test dei sistemi attraverso la simulazione di attacchi avversari, come il jailbreaking o l’iniezione di prompt, per esporre le debolezze del software prima dell’uso clinico. Una seconda strategia è l’implementazione di “guardrail”, ovvero algoritmi progettati per filtrare input e output inappropriati, applicando moderatori specifici per il settore sanitario. Un altro approccio cruciale è la generazione aumentata dal recupero, o Rag (Retrieval-Augmented Generation), che riduce i rischi integrando informazioni provenienti da database esterni affidabili, ancorando le risposte a fonti validate ed evitando che il modello si affidi solo alla propria memoria compressa. Infine, lo studio suggerisce l’adozione della moderazione “agente-agente” attraverso architetture a sistemi multi-agente (Mas). In questo scenario, più sistemi di intelligenza artificiale si monitorano a vicenda per verificare l’accuratezza dei risultati, utilizzando controlli incrociati e modelli neuro-simbolici che ragionano in modo deterministico a partire da linee guida validate. Queste strategie non sono prive di limiti: la Rag può faticare con compiti eccessivamente ampi e i guardrail possono essere aggirati da prompt ingegnosi.

Tuttavia, la responsabilità algoretica impone di superare i modelli statici per adottare un nuovo paradigma regolatorio agile e lungimirante, che garantisca la trasparenza dei produttori e la protezione della salute pubblica senza soffocare l’innovazione tecnologica.