Correlazione e causalità nelle statistiche

Un giorno a pranzo una giovane donna stava mangiando una grande ciotola di gelato, e un membro della facoltà le si avvicinò e le disse: "Faresti meglio a stare attento, c'è un'alta correlazione statistica tra gelato e annegamento". gli ho dato uno sguardo confuso, mentre elaborava ancora un po '. "I giorni con il maggior numero di vendite di gelati vedono anche la maggior parte delle persone annegare".

Quando ha finito il mio gelato, i due colleghi hanno discusso del fatto che solo perché una variabile è statisticamente associata a un'altra, ciò non significa che una sia la causa dell'altra. A volte c'è una variabile che si nasconde in background. In questo caso, il giorno dell'anno si nasconde nei dati. Più gelato viene venduto nelle calde giornate estive rispetto a quelle invernali innevate. Più persone nuotano in estate e quindi più annegano in estate che in inverno.

Attenzione alle variabili in agguato

L'aneddoto di cui sopra è un primo esempio di ciò che è noto come una variabile in agguato. Come suggerisce il nome, una variabile in agguato può essere sfuggente e difficile da rilevare. Quando scopriamo che due insiemi di dati numerici sono fortemente correlati, dovremmo sempre chiedere: "Potrebbe esserci qualcos'altro che sta causando questa relazione?"

I seguenti sono esempi di forte correlazione causata da una variabile in agguato:

  • Il numero medio di computer per persona in un paese e l'aspettativa di vita media di quel paese.
  • Il numero di vigili del fuoco in un incendio e il danno causato dall'incendio.
  • L'altezza di uno studente della scuola elementare e il suo livello di lettura.

In tutti questi casi, la relazione tra le variabili è molto forte. Questo è generalmente indicato da un coefficiente di correlazione che ha un valore vicino a 1 o -1. Non importa quanto questo coefficiente di correlazione sia vicino a 1 o a -1, questa statistica non può mostrare che una variabile sia la causa dell'altra variabile.

Rilevamento di variabili in agguato

Per loro natura, le variabili in agguato sono difficili da rilevare. Una strategia, se disponibile, è esaminare cosa accade ai dati nel tempo. Questo può rivelare tendenze stagionali, come l'esempio del gelato, che vengono oscurati quando i dati vengono raggruppati insieme. Un altro metodo è quello di esaminare i valori anomali e provare a determinare cosa li rende diversi dagli altri dati. A volte questo fornisce un indizio di ciò che sta accadendo dietro le quinte. Il miglior modo di agire è quello di essere proattivi; mettere in discussione ipotesi e progettare esperimenti con attenzione.

Perchè importa?

Nello scenario iniziale, supponiamo che un membro del Congresso ben intenzionato ma statisticamente disinformato abbia proposto di mettere fuori legge tutti i gelati per evitare di annegare. Un simile disegno di legge comporterebbe il disagio di vaste fasce della popolazione, costringerebbe diverse aziende a fallire ed eliminerebbe migliaia di posti di lavoro quando l'industria del gelato del paese chiudesse. Nonostante le migliori intenzioni, questo disegno di legge non ridurrebbe il numero di morti per annegamento.

Se quell'esempio sembra un po 'troppo inverosimile, considera quanto segue, che in realtà è successo. All'inizio del 1900, i medici notarono che alcuni bambini stavano misteriosamente morendo nel sonno a causa di problemi respiratori percepiti. Questo è stato chiamato morte del presepe ed è ora noto come SIDS. Una cosa che è emersa dalle autopsie eseguite su coloro che sono morti di SIDS era un timo ingrossato, una ghiandola situata nel petto. Dalla correlazione delle ghiandole del timo ingrossate nei bambini SIDS, i medici presumevano che un timo anormalmente grande causasse la respirazione e la morte improprie.

La soluzione proposta era quella di ridurre il timo con elevate radiazioni o di rimuovere completamente la ghiandola. Queste procedure hanno avuto un alto tasso di mortalità e hanno portato a un numero ancora maggiore di decessi. Ciò che è triste è che queste operazioni non dovevano essere eseguite. Ricerche successive hanno dimostrato che questi medici si sbagliavano nei loro presupposti e che il timo non è responsabile per la SIDS.

La correlazione non implica la causalità

Quanto sopra dovrebbe farci mettere in pausa quando pensiamo che le prove statistiche siano utilizzate per giustificare cose come i regimi medici, la legislazione e le proposte educative. È importante fare un buon lavoro nell'interpretazione dei dati, specialmente se i risultati che riguardano la correlazione influenzeranno la vita degli altri.

Quando qualcuno afferma: "Gli studi dimostrano che A è una causa di B e che alcune statistiche lo confermano", sii pronto a rispondere, "la correlazione non implica una causalità". Cerca sempre ciò che si nasconde sotto i dati.