L'intervallo interquartile (IQR) è la differenza tra il primo quartile e il terzo quartile. La formula per questo è:
IQR = Q3 - Q1
Esistono molte misurazioni della variabilità di un insieme di dati. Sia la gamma che la deviazione standard ci dicono quanto sono sparsi i nostri dati. Il problema con queste statistiche descrittive è che sono abbastanza sensibili ai valori anomali. Una misura della diffusione di un set di dati che è più resistente alla presenza di valori anomali è l'intervallo interquartile.
Come visto sopra, l'intervallo interquartile si basa sul calcolo di altre statistiche. Prima di determinare l'intervallo interquartile, dobbiamo prima conoscere i valori del primo quartile e del terzo quartile. (Naturalmente, il primo e il terzo quartile dipendono dal valore della mediana).
Dopo aver determinato i valori del primo e del terzo quartile, l'intervallo interquartile è molto facile da calcolare. Tutto quello che dobbiamo fare è sottrarre il primo quartile dal terzo quartile. Questo spiega l'uso del termine intervallo interquartile per questa statistica.
Per vedere un esempio del calcolo di un intervallo interquartile, considereremo l'insieme di dati: 2, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9. Il riepilogo di cinque numeri per questo set di dati è:
Quindi vediamo che l'intervallo interquartile è 8 - 3,5 = 4,5.
La gamma ci fornisce una misura di quanto sia estesa la totalità del nostro set di dati. L'intervallo interquartile, che ci dice quanto sono distanti il primo e il terzo quartile, indica quanto è distribuito il 50% medio del nostro set di dati.
Il vantaggio principale dell'uso dell'intervallo interquartile piuttosto che dell'intervallo per la misurazione della diffusione di un set di dati è che l'intervallo interquartile non è sensibile agli outlier. Per vedere questo, vedremo un esempio.
Dall'insieme di dati sopra abbiamo un intervallo interquartile di 3,5, un intervallo di 9 - 2 = 7 e una deviazione standard di 2,34. Se sostituiamo il valore più alto di 9 con un estremo estremo di 100, la deviazione standard diventa 27,37 e l'intervallo è 98. Anche se abbiamo spostamenti abbastanza drastici di questi valori, il primo e il terzo quartile non sono interessati e quindi l'intervallo interquartile non cambia.
Oltre ad essere una misura meno sensibile della diffusione di un set di dati, l'intervallo interquartile ha un altro uso importante. A causa della sua resistenza ai valori anomali, l'intervallo interquartile è utile per identificare quando un valore è un valore anomalo.
La regola dell'intervallo interquartile è ciò che ci informa se abbiamo un outlier lieve o forte. Per cercare un valore anomalo, dobbiamo guardare sotto il primo quartile o sopra il terzo quartile. Quanto dovremmo andare dipende dal valore dell'intervallo interquartile.