Recentemente molte testate giornalistiche di caratura nazionale hanno dato risalto ad un “position paper” (le virgolette sono d’obbligo poiché i suoi autori non esplicitano se sia stato in effetti pubblicato né sottomesso, il sospetto è che sia solo un blogpost) secondo cui ci sarebbe una “relazione” fra inquinamento da polveri sottili (PM10) e diffusione del Coronavirus.
Inorriditi dalla superficialità con cui i media nazionali trattano temi così delicati, pubblicando notizie non verificate e soprattutto articoli che non contengono alcun contraddittorio noi di muoverMi abbiamo deciso di fare attività di debunking al fine di “sbufalare” quella che non esitiamo a definire una notizia da attribuire al variegato mondo delle fake news. La ragione per cui tanti giornalisti italiani si piegano a queste visioni catastrofiste utili solo a propagare paure e tensioni tra la popolazione, ci è ignota.
A titolo d’esempio citiamo un articolo datato 17 Marzo 2020 dell’autorevole “Il Sole 24 Ore”, poi parzialmente smentito da un altro articolo del 22 Marzo. Anche Regione Lombardia non ha avallato l’ipotesi del “paper” del SIMA.
Abbiamo dunque scaricato il “paper” per farne una vera e propria peer review che vi sottoponiamo in questo articolo.
Review del “position paper” di Setti et al. (SIMA) dal titolo: “Relazione circa l’effetto dell’inquinamento da particolato atmosferico e la diffusione di virus nella popolazione”
Ad una prima lettura già sorgono alcuni dubbi, in primis un uso molto disinvolto del termine “relazione” invece di correlazione, senza peraltro specificare che “correlation does NOT imply causation” (correlazione NON implica causa).
Proseguendo nella lettura si scopre che gli errori e le incongruenze sono in effetti così tante che il testo potrebbe venire completamente ignorato, se non fosse per la visibilità che gli hanno concesso i mass media.
L’introduzione “bibliografica” è carente, usare termini come “solida letteratura” e “è noto” citando alla fine solo sette (!) articoli in bibliografia non depone certo bene.
Viene inoltre fatto un parallelo con i virus “aviaria”, “respiratorio sinciziale” e “morbillo” senza fornire fonte bibliografica che supporti la plausibilità di tale parallelo con Coronavirus.
(aviaria e Coronavirus probabilmente sono comparabili, ma una bibliografia sarebbe comunque necessaria, ndr.)
La sezione che propone l’analisi di correlazione (finalmente citata correttamente) è anche più lacunosa, infatti non è chiaro come si possa riprodurre lo studio, vediamo in che senso:
- i dati sul PM10 che vengono presi in considerazione dovrebbero essere quelli delle ARPA territoriali, ma non viene elencato di quali regioni/province né vengono riportati gli URL dei dataset;
- viene utilizzato come dato “inquinamento” il “numero di superamenti PM10 giornaliero / numero di centraline per provincia” (il campionamento dei dati aria delle varie ARPA – almeno la Lombardia – è giornaliero, cioè viene emesso un valore al giorno) quindi viene utilizzato come ‘dato aria’ la percentuale di centraline di una provincia che superano la soglia di legge (50 microgrammi/m^3) e non un più preciso valore effettivo misurato come sarebbe facilissimo fare (vedi sotto);
- i dati sui casi infetti sarebbero presi dalla Protezione Civile, ma NON viene citato nessun URL di un dataset effettivo a cui appoggiarsi per riprodurre lo studio;
- il periodo preso in considerazione per lo stato dell’aria è dal 10 al 29 febbraio (introducendo quindi uno shift – uno scostamento – di 14gg per tenere conto del periodo di incubazione) mentre per il dato sui contagi è fino al 3 marzo, cioè due periodi di ampiezza DIVERSA (i dati dei contagi partono dal 24 febbraio).
Ma i due errori più gravi, a monte di tutto e che quindi inficiano a priori ogni risultato, sono due.
Uno è quello di mettere a confronto le concentrazioni di inquinanti con il numero di casi, invece che con il numero di nuovi infetti fratto il numero di persone infette, ovvero con la velocità di propagazione del virus (dato che il legame fra inquinanti e diffusione della malattia dovrebbe essere, per come viene postulato, a livello del processo di diffusione e tale processo dipende chiaramente innanzi tutto dal numero di persone in grado di trasmettere il virus).
L’altro è quello di assumere il periodo di incubazione della malattia pari a 14 giorni, quando invece i giorni che intercorrono fra infezione e comparsa dei sintomi è molto variabile e 14 giorni rappresenta semmai il limite massimo di tale periodo.
La Figura 1 citata nel paper del SIMA è semplicemente non riproducibile né comprensibile:
- in ascissa la legenda dice “media superamenti/nr centraline”;
- in ordinata “log contagiati” (il “paper” dice: “raggruppando le province in 5 classi sulla base dei casi infetti”, ma non c’è nessuna formula per capire cosa sia stato in effetti calcolato, quali classi, ecc.).
La figura in se dovrebbe essere uno scatterplot di queste due grandezze, ma non si sa a quale provincia sia relativo per cui non si può fare alcuna verifica.
Quindi si sta correlando il ‘numero totale di contagiati nel periodo 24 febbraio 3 marzo per provincia’ rispetto al ‘numero di superamenti per centralina per provincia nel periodo 10 – 29 febbraio’, quantomeno arbitrario.
Inoltre non c’è alcuna fattorizzazione sulla densità di popolazione (che è un fattore di diffusione). Viene citata la Pianura Padana come focolaio di infezione rispetto ad altre zone d’Italia attribuendone esplicitamente la “colpa” al PM10 senza appunto contare che la Pianura Padana è un territorio densamente popolato e ad alta concentrazione di attività produttive che comportano scambio merci e movimento persone.
Che dire poi del fatto che per i casi di Coronavirus in Lombardia si prendono i dati relativi all’intera regione (come se si trattasse di un’area omogenea al suo interno), per poi metterli a confronto con le concentrazioni di PM10 della sola provincia di Brescia (Figura 4 del “paper”), come se essi fossero automaticamente estendibili all’intera regione?
Spunti di riflessione
A puro titolo esplorativo abbiamo plottato i dati dell’aria di ARPA Lombardia (in particolare QUESTO dataset) estraendo solo i dati relativi a PM10 e PM25 delle province per cui esistono dati di contagio, in particolare il subdataset ‘dati-province/dpc-covid19-ita-province.csv’ di QUESTO repository della Protezione Civile (da cui abbiamo estrapolato il ‘nuovi casi’ derivando da ‘totale casi giornaliero’,)
Qui sotto il download libero per tutti del TXT dello script R.
Con uno shift di 14 giorni (arbitrario, come già detto, dato che è il massimo periodo di incubazione attualmente stabilito) e calcolando l’indice di correlazione tra i due periodi la conclusione è che su 29 correlazioni calcolate (quasi tutte le combinazioni provincia-inquinante, quelle per cui ci sono dati completi) solo 3 (tre!) sono positive.
Esse potrebbero far pensare ad una relazione in cui all’aumentare dell’inquinamento aumenta il contagio solo se esprimessero valori statisticamente significativi (cioè almeno sopra 0.8 o più), ma nelle “positive” troviamo le seguenti:
0.0109678122554504
0.0102926337815641
0.0102926337815641
Tutte prossime allo zero.
Mentre le 26 correlazioni negative, la cui semantica potrebbe fare pensare ad una correlazione inversa fra polveri e contagio, cioè all’inquinamento come una “difesa” (!) nella lotta al Coronavirus danno i seguenti valori:
-0.556154577806761
-0.556154577806761
-0.533810443136484
-0.533810443136484
-0.507508349162559
-0.496406177533941
-0.496406177533941
-0.495677777132245
-0.495677777132245
-0.490955956386744
-0.490955956386744
-0.489199374276845
-0.489199374276845
-0.470028554217506
-0.443316103986536
-0.426837699721709
-0.426506207414491
-0.426506207414491
-0.417054984170552
-0.365176297088629
-0.34819005187188
-0.34819005187188
-0.340075102106705
-0.340075102106705
-0.220871619903272
-0.220871619903272
Valori molto più “correlanti” rispetto alla direzione positiva.
Da notare sui grafici anche i trend (le rette arancioni): generalmente crescenti per i contagi e generalmente calanti per i dati dell’aria.
Abbiamo usato il ‘nuovi casi’ assoluto senza fattorizzarlo rispetto al ‘totale casi’ per non appiattire ulteriormente i grafici, ma i trend rimangono sempre divergenti tra aria e contagi.
Si intende che fare la correlazione fra i due set (aria e contagi) non è conclusivo anche perché lo shift di 14 giorni di incubazione è arbitrario: la trasmissione può avvenire anche durante il periodo di incubazione.
Concludendo, si può senz’altro affermare che il testo in questione non illustra alcuna reale evidenza a favore della tesi secondo cui l’inquinamento rappresenti un fattore in grado di aumentare la velocità di diffusione del Coronavirus.
Pingback:Il traffico non incide in modo sostanziale sull'inquinamento cittadino | muoverMi
Pingback:Le pedonalizzazioni e i fans di Maran | muoverMi
a
cfr. anche https://www.scienzainrete.it/articolo/inquinamento-e-covid-due-vaghi-indizi-non-fanno-prova/stefano-caserini-cinzia-perrino
andrea
C’è anche da aggiungere che visti i casini che hanno fatto coi dati (vedi Regione Lombardia vs. ISS e zona rossa erronea per la regione) bisognerebbe a questo punto verificare la bontà dei dati epidemiologici PRIMA di usarli per tentare “correlazioni” a schiovere.