MM027 – I dati generano e modificano le nostre opinioni
Sono passate circa 9 settimane da quando ci siamo chiusi dentro casa aspettandoci che il virus passasse e sperando ogni giorno in qualche spiraglio di luce. In queste 9 settimane siamo stati inondati da numeri e dati: numero dei tamponi, numero di positivi, numero di guariti, numero di decessi, percentuale di contagio, di mortalità e così via. Ci siamo scoperti un popolo di esperti nell’analizzare i dati, ognuno di noi ha letto numeri da qualsiasi fonte, facendosi così un’opinione.
Da questa riflessione mi e tornato alla mente il pensiero di Bayes: Bayes esamina il modo di interagire tra i dati nelle loro distribuzione a priori, a posteriori e probabilità. Si potrebbe capire meglio questo pensiero usando parole come ipotesi e dati. Attraverso il teorema di Bayes possiamo determinare la probabilità che una nostra ipotesi sia vera sulla scorta dei dati disponibili. Sono certamente i risultati a posteriori che vorremmo conoscere, ma tutti i dati che ci vengono forniti, indistintamente dalla loro natura, generano o modificano le nostri opinioni, soprattutto in questo contesto.
Tutti noi abbiamo letto in questi due mesi i molteplici numeri giornalieri, senza poterci astenere da analisi affrettate e risultati basati su fonti non proprio precise (non tutte, ovvio).
Sui social o sugli strumenti di messaggistica non sono mancati grafici e indici che portavano a conclusioni diverse, ma in comune la gran parte avevano un errore di fondo: i dati erano parziali, costruiti su campioni non omogenei o ancora non presentavano confronti con i dati ufficiali degli anni precedenti. Insomma: dati non chiari che non mostravano dei veri trend, in poche parole informazioni inconcludenti.
L’ultimo esempio letto, era un articolo pubblicato su un’importante testata giornalistica on line che confrontava i decessi dello scorso anno con quelli di quest’anno. Incuriosito sono andato a vedere la fonte dei numeri ed ho notato che i dati di quest’anno erano calcolati, presunti, non effettivi. Sulla sezione “Chi siamo” del sito da dove sono stati presi i dati troviamo scritto che il meccanismo delle statistiche in real time è basato su un algoritmo proprietario che elabora i dati più recenti a disposizione insieme al tasso di cambiamento stimato. Quindi la fonte dati non è reale, è basata su un calcolo che fa riferimento ad un tasso di cambio stimato. Ma in questo frangente storico il tasso di cambio non può essere stimato perché è intervenuta una variabile (CODIV-19) che sicuramente ha inciso.
Da buon informatico e per aiutarmi a capire l’evento, sono andato sul sito Istat dove sono presenti dei dati certificati, controllati e aggiornati anche se su un campione ristretto di 1000 comuni. Il campione di circa 1000 comuni è stato creato dall’ISTAT e sono i comuni che condividono i dati statistici (es natalità, decessi) una volta al mese. Gli altri comuni invece pubblicano i dati a cadenza trimestrale.
Ho quindi caricato i dati in un database e mi sono costruito due grafici per rispondere alle mie domande.
In questo modo ho potuto confrontare campioni omogenei, sullo stesso arco temporale e gli indici di tendenza che, per me più interessanti, aiutano a capire la differenza tra i dati rilevati rispetto ai previsti, in tendenza con gli anni passati. I grafici sotto mostrano la differenza dei decessi settimanali confrontando il 2019 con il 2018 (a sinistra) e il 2020 con il 2019 (a destra).
Il 4 maggio, l’ISTAT ha pubblicato (premi qui per vedere il rapporto) i dati della mortalità su un campione più ampio (87% dei comuni italiani con una copertura dell’86% della popolazione italiana). Anche se i dati non sono settimanali ma mensili, li abbiamo caricati sul nostro solito database ottenendo il seguente grafico.
Così come si va dal meccanico per aggiustare l’auto, bisogna affidarsi a un data scientist per scoprire cosa ci dicono i dati.
Vuoi saperne di più? Contattaci!
(Images by Wokandapix from Pixabay )