Che cos'è la regola di intervallo interquartile?

La regola dell'intervallo interquartile è utile per rilevare la presenza di valori anomali. I valori anomali sono valori individuali che non rientrano nel modello generale del resto dei dati. Questa definizione è alquanto vaga e soggettiva, quindi è utile avere una regola che aiuti a considerare se un punto dati è veramente un valore anomalo.

La gamma interquartile

Qualsiasi set di dati può essere descritto dal suo riepilogo a cinque numeri. Questi cinque numeri, in ordine crescente, sono costituiti da:

  • Il valore minimo o minimo del set di dati
  • Il primo quartile Q1 - questo rappresenta un quarto dell'elenco di tutti i dati
  • La mediana del set di dati: rappresenta il punto medio dell'elenco di tutti i dati
  • Il terzo quartile Q3 - ciò rappresenta i tre quarti dell'elenco di tutti i dati
  • Il valore massimo o massimo del set di dati.

Questi cinque numeri possono essere usati per parlarci un po 'dei nostri dati. Ad esempio, l'intervallo, che è solo il minimo sottratto dal massimo, è un indicatore di come distribuire il set di dati è.

Simile all'intervallo, ma meno sensibile agli outlier, è l'intervallo interquartile. L'intervallo interquartile viene calcolato più o meno allo stesso modo dell'intervallo. Tutto ciò che facciamo è sottrarre il primo quartile dal terzo quartile:

IQR = Q3 - Q1.

L'intervallo interquartile mostra come i dati sono sparsi sulla mediana. È meno suscettibile dell'intervallo ai valori anomali.

Regola interquartile per gli outlier

L'intervallo interquartile può essere utilizzato per aiutare a rilevare valori anomali. Tutto quello che dobbiamo fare è il seguente:

  1. Calcola l'intervallo interquartile per i nostri dati
  2. Moltiplicare l'intervallo interquartile (IQR) per il numero 1.5
  3. Aggiungi 1,5 x (IQR) al terzo quartile. Qualsiasi numero maggiore di questo è un valore anomalo sospetto.
  4. Sottrai 1,5 x (IQR) dal primo quartile. Qualsiasi numero inferiore a questo è un valore anomalo sospetto.

È importante ricordare che questa è una regola empirica e generalmente vale. In generale, dovremmo dare seguito alla nostra analisi. Qualsiasi potenziale valore anomalo ottenuto con questo metodo dovrebbe essere esaminato nel contesto dell'intera serie di dati.

Esempio

Vedremo questa regola di intervallo interquartile al lavoro con un esempio numerico. Supponiamo di avere il seguente set di dati: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Il riepilogo dei cinque numeri per questo set di dati è minimo = 1, primo quartile = 4, mediano = 7, terzo quartile = 10 e massimo = 17. Potremmo guardare i dati e dire che 17 è un valore anomalo. Ma cosa dice la nostra regola di intervallo interquartile?

Calcoliamo l'intervallo interquartile per essere

Q3 - Q1 = 10 - 4 = 6

Ora moltiplichiamo per 1,5 e abbiamo 1,5 x 6 = 9. Nove meno del primo quartile è 4 - 9 = -5. Nessun dato è inferiore a questo. Nove più del terzo quartile è 10 + 9 = 19. Nessun dato è maggiore di questo. Nonostante il valore massimo sia cinque in più rispetto al punto dati più vicino, la regola dell'intervallo interquartile mostra che probabilmente non dovrebbe essere considerato un valore anomalo per questo set di dati.