La regola dell'intervallo interquartile è utile per rilevare la presenza di valori anomali. I valori anomali sono valori individuali che non rientrano nel modello generale del resto dei dati. Questa definizione è alquanto vaga e soggettiva, quindi è utile avere una regola che aiuti a considerare se un punto dati è veramente un valore anomalo.
Qualsiasi set di dati può essere descritto dal suo riepilogo a cinque numeri. Questi cinque numeri, in ordine crescente, sono costituiti da:
Questi cinque numeri possono essere usati per parlarci un po 'dei nostri dati. Ad esempio, l'intervallo, che è solo il minimo sottratto dal massimo, è un indicatore di come distribuire il set di dati è.
Simile all'intervallo, ma meno sensibile agli outlier, è l'intervallo interquartile. L'intervallo interquartile viene calcolato più o meno allo stesso modo dell'intervallo. Tutto ciò che facciamo è sottrarre il primo quartile dal terzo quartile:
IQR = Q3 - Q1.
L'intervallo interquartile mostra come i dati sono sparsi sulla mediana. È meno suscettibile dell'intervallo ai valori anomali.
L'intervallo interquartile può essere utilizzato per aiutare a rilevare valori anomali. Tutto quello che dobbiamo fare è il seguente:
È importante ricordare che questa è una regola empirica e generalmente vale. In generale, dovremmo dare seguito alla nostra analisi. Qualsiasi potenziale valore anomalo ottenuto con questo metodo dovrebbe essere esaminato nel contesto dell'intera serie di dati.
Vedremo questa regola di intervallo interquartile al lavoro con un esempio numerico. Supponiamo di avere il seguente set di dati: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Il riepilogo dei cinque numeri per questo set di dati è minimo = 1, primo quartile = 4, mediano = 7, terzo quartile = 10 e massimo = 17. Potremmo guardare i dati e dire che 17 è un valore anomalo. Ma cosa dice la nostra regola di intervallo interquartile?
Calcoliamo l'intervallo interquartile per essere
Q3 - Q1 = 10 - 4 = 6
Ora moltiplichiamo per 1,5 e abbiamo 1,5 x 6 = 9. Nove meno del primo quartile è 4 - 9 = -5. Nessun dato è inferiore a questo. Nove più del terzo quartile è 10 + 9 = 19. Nessun dato è maggiore di questo. Nonostante il valore massimo sia cinque in più rispetto al punto dati più vicino, la regola dell'intervallo interquartile mostra che probabilmente non dovrebbe essere considerato un valore anomalo per questo set di dati.