Covid-19 in Italia: la statistica fa luce sul perché la prima ondata abbia causato tassi di mortalità tanto diversi tra una regione e l’altra
Durante la prima ondata pandemica da Covid-19, i tassi di mortalità hanno avuto andamenti molto diversi tra le varie regioni italiane: la mobilità, i tassi di positività, la disponibilità di assistenza primaria e le dimensioni di potenziali hub di contagio nelle scuole, nei posti di lavoro e negli ospedali sono tra i più forti predittori statistici di tali andamenti. Sono questi i risultati principali di uno studio pubblicato sulla rivista Scientific Reports da un gruppo di ricercatrici e ricercatori italiani che lavorano alla Scuola Superiore Sant’Anna (Pisa), alla Pennsylvania State University (University Park, PA, USA) e all’Université Laval (Quebec City, Quebec, Canada).
Durante la prima ondata pandemica, il gruppo ha iniziato a monitorare i dati epidemiologici rilasciati dalle autorità italiane e ha provato ad associarli a quelli sulla mobilità delle persone forniti da Google e a dati pubblicamente accessibili su una serie di fattori socio-economici, infrastrutturali e ambientali. La maggior parte delle ricercatrici e dei ricercatori è composta da giovani statistici e scienziati dei dati (“data scientist”) impegnati a sviluppare tecniche e algoritmi in un’area della statistica chiamata “Functional Data Analysis”, area che studia dati nella forma di curve e superfici. E’ stato quindi naturale per loro applicare tali metodi ai dati, caratterizzando le curve epidemiche ed esplorando le differenze tra le regioni italiane.
“Purtroppo la qualità dei dati disponibili alla comunità scientifica – dice Francesca Chiaromonte, docente di statistica alla Scuola Superiore Sant’Anna e alla Penn State, nel presentare i dati dello studio – è molto inferiore rispetto a quella che sarebbe necessaria per condurre analisi in grado di orientare con chiarezza le politiche di contrasto alla pandemia. Questo era vero nella prima metà del 2020 e, anche se qualche passo in avanti è stato compiuto, rimane vero anche oggi”. L’epidemia da Covid-19 ha portato in Italia una consapevolezza delle limitazioni nel modo in cui le autorità raccolgono, processano e rendono disponibili le grandi quantità di dati che potrebbero aiutare ricercatori e decisori politici (“policy makers”) a comprendere fenomeni complessi e a disegnare risposte efficaci.
“I dati epidemiologici sono imperfetti e imperfettamente distribuiti, i dati più facili da reperire sulla mobilità ci arrivano da Google, e variabili che catturino in maniera efficace aspetti demografici, sanitari, infrastrutturali e ambientali potenzialmente rilevanti non sono rese facilmente disponibili da parte delle autorità governative centrali e locali, o dagli uffici statistici”, sottolinea ancora Francesca Chiaromonte, che prosegue così: “il problema non è che i dati non esistano. I dati esistono, ma mancano meccanismi e piattaforme che li rendano disponibili in maniera sistematica, integrata e affidabile alle ricercatrici e ai ricercatori che li vorrebbero studiare”.
Nonostante queste limitazioni, usando dati disponibili alla risoluzione delle regioni italiane e sfruttando le loro sofisticate tecniche statistiche, le ricercatrici e i ricercatori del gruppo, che hanno firmato lo studio appena pubblicato da Scientific Reports, hanno individuato alcune importanti e significative tendenze. “Abbiamo caratterizzato epidemie eterogenee e sfalsate in aree differenti dell’Italia, ricapitolando e quantificando quello che policy makers, scienziati e cittadini hanno visto accadere tra febbraio e aprile 2020”, commenta Marzia Cremona, che dopo aver ottenuto un dottorato in Modelli e Metodi Matematici per l’Ingegneria al Politecnico di Milano e dopo aver condotto un periodo di ricerca post-dottorato alla Penn State è diventata assistant professor in Data Science all’Université Laval. “Abbiamo identificato – prosegue Marzia Cremona – una traiettoria epidemica estrema, ‘esponenziale’, in Lombardia e nelle regioni più colpite del Nord Italia, e una traiettoria più moderata, ‘appiattita’, nel resto del Paese. In particolare, ricade nella seconda categoria il Veneto, dove i primi casi positivi erano apparsi in concomitanza con quelli lombardi, ma una strategia aggressiva di testing era stata subito implementata”.
Lo studio ha documentato forti associazioni tra la mortalità da Covid-19, la mobilità, e i tassi di positività. “Queste associazioni persistono quando vengono utilizzati modelli che controllino per altri fattori”, sottolinea Tobia Boschi, laureato magistrale in Ingegneria Matematica al Politecnico di Milano e ora dottorando in Statistica alla Penn State, “quindi i nostri risultati, insieme a quelli di altri studi in Italia e nel mondo, supportano la tesi secondo la quale la mobilità ha un ruolo fondamentale nel modulare le curve epidemiche, e il tasso di positività può essere utilizzato per monitorare l’andamento della pandemia”.
I risultati suggeriscono anche un ruolo significativo per fattori come l’assistenza primaria distribuita, che sembra mitigare la mortalità, e la dimensione di potenziali hub di contagio in ospedali, scuole e luoghi di lavoro, che possono invece aggravare l’epidemia. “Di certo questi risultati necessitano di conferme da dati a più alta risoluzione, ma nel corso dell’ultimo anno si è accumulata evidenza da diversi studi, e questa potrebbe informare scelte di policy, ad esempio suggerendo investimenti di breve e medio periodo per incrementare l’assistenza primaria decentralizzata, o strategie per ridurre il numero di studenti, pazienti e lavoratori nello stesso ambiente”, ricorda Lorenzo Testa, allievo della Scuola Superiore Sant’Anna in Economia, oggi studente della Laurea Magistrale in Data Science e Business Informatics all’Università di Pisa.
“In questo momento stiamo già estendendo il nostro studio su un lasso temporale più lungo, confrontando differenti ondate pandemiche e testando quali fattori predittivi sembrano avere un ruolo simile e quali invece un ruolo diverso”, aggiunge Jacopo Di Iorio il quale, dopo aver ottenuto un dottorato in Modelli e Metodi Matematici per l’Ingegneria al Politecnico di Milano, ha condotto un anno di ricerca post-dottorale alla Scuola Superiore Sant’Anna e presto si sposterà alla Penn State dove continuera’ la sua ricerca post-dottorale. “Il nostro lavoro dimostra come le tecniche di Functional Data Analysis possano offrire prospettive originali e utili quando applicate a questo tipo di dati, sia italiani che provenienti da altre parti del mondo”, conclude Jacopo Di Iorio.
Mentre proseguono i loro studi, questi giovani ricercatori e queste giovani ricercatrici si impegnano a condividere con la comunità scientifica le tecniche, gli algoritmi e le procedure per l’analisi dei dati che hanno sviluppato. “Sono orgogliosa della qualità della formazione statistica e computazionale che hanno ricevuto in ottime università italiane, e del loro desiderio di espandere i loro orizzonti con ulteriore formazione e collaborazioni internazionali”, dice ancora Francesca Chiaromonte. “Alla Scuola Superiore Sant’Anna, attraverso il Dipartimento di Eccellenza EMbeDS (Economics and Management in the era of Data Science) che io coordino, stiamo provando a creare una comunità e a fornire risorse a questa nuova generazione di scienziati italiani che si occupano di dati e di computazione. Diamo loro dati e spazio – conclude Francesca Chiaromonte – perché c’è una possibilità concreta che riescano a migliorare le cose”.