È la proiezione di mezzanotte dell'ultimo film di successo. Le persone sono in fila fuori dal teatro in attesa di entrare. Supponiamo che ti venga chiesto di trovare il centro della linea. Come lo faresti?
Esistono un paio di modi diversi per risolvere questo problema. Alla fine dovresti capire quante persone erano in fila e quindi prendere la metà di quel numero. Se il numero totale è pari, il centro della linea sarebbe tra due persone. Se il numero totale è dispari, il centro sarebbe una sola persona.
Potresti chiedere: "Cosa c'entra la ricerca del centro di una linea con le statistiche?" Questa idea di trovare il centro è esattamente ciò che viene utilizzato nel calcolo della mediana di un insieme di dati.
La mediana è uno dei tre modi principali per trovare la media dei dati statistici. È più difficile da calcolare rispetto alla modalità, ma non è così laborioso come calcolare la media. È il centro più o meno allo stesso modo di trovare il centro di una linea di persone. Dopo aver elencato i valori dei dati in ordine crescente, la mediana è il valore dei dati con lo stesso numero di valori dei dati sopra e sotto di esso.
Undici batterie sono testate per vedere quanto durano. Le loro vite, in ore, sono date da 10, 99, 100, 103, 103, 105, 110, 111, 115, 130, 131. Qual è la vita mediana? Poiché esiste un numero dispari di valori di dati, ciò corrisponde a una riga con un numero dispari di persone. Il centro sarà il valore medio.
Ci sono undici valori di dati, quindi il sesto è al centro. Pertanto, la durata media della batteria è il sesto valore in questo elenco, ovvero 105 ore. Si noti che la mediana è uno dei valori dei dati.
Venti gatti vengono pesati. I loro pesi, in libbre, sono dati da 4, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8, 9, 10, 10, 10, 11, 12, 12, 13. Cosa è il peso felino mediano? Poiché esiste un numero pari di valori di dati, questo corrisponde alla riga con un numero pari di persone. Il centro è tra i due valori medi.
In questo caso il centro è compreso tra il decimo e l'undicesimo valore. Per trovare la mediana calcoliamo la media di questi due valori e otteniamo (7 + 8) / 2 = 7.5. Qui la mediana non è uno dei valori dei dati.
Le uniche due possibilità sono avere un numero pari o dispari di valori di dati. Quindi i due esempi precedenti sono gli unici modi possibili per calcolare la mediana. O la mediana sarà il valore medio o la mediana sarà la media dei due valori medi. In genere i set di dati sono molto più grandi di quelli che abbiamo visto sopra, ma il processo di ricerca della mediana è lo stesso di questi due esempi.
La media e la modalità sono molto sensibili ai valori anomali. Ciò significa che la presenza di un valore anomalo influirà notevolmente su entrambe queste misure del centro. Un vantaggio della mediana è che non è influenzato tanto da un valore anomalo.
Per vedere questo, considera il set di dati 3, 4, 5, 5, 6. La media è (3 + 4 + 5 + 5 + 6) / 5 = 4.6 e la mediana è 5. Ora mantieni lo stesso set di dati, ma aggiungi il valore 100: 3, 4, 5, 5, 6, 100. Chiaramente 100 è un valore anomalo, poiché è molto maggiore di tutti gli altri valori. La media del nuovo set è ora (3 + 4 + 5 + 5 + 6 + 100) / 6 = 20.5. Tuttavia, la mediana del nuovo set è 5. Sebbene il
A causa di ciò che abbiamo visto sopra, la mediana è la misura preferita della media quando i dati contengono valori anomali. Quando vengono riportati i redditi, un approccio tipico è quello di riportare il reddito mediano. Questo perché il reddito medio è distorto da un piccolo numero di persone con redditi molto alti (pensate a Bill Gates e Oprah).