Statistiche riassuntive come la mediana, il primo quartile e il terzo quartile sono misurazioni della posizione. Questo perché questi numeri indicano dove si trova una determinata proporzione della distribuzione dei dati. Ad esempio, la mediana è la posizione intermedia dei dati oggetto di indagine. La metà dei dati ha valori inferiori alla mediana. Allo stesso modo, il 25% dei dati ha valori inferiori al primo quartile e il 75% dei dati ha valori inferiori al terzo quartile.
Questo concetto può essere generalizzato. Un modo per farlo è considerare i percentili. Il 90 ° percentile indica il punto in cui il 90% dei dati ha valori inferiori a questo numero. Più in generale, il pil percentile è il numero n per cui p% dei dati è inferiore a n.
Sebbene le statistiche dell'ordine di mediana, primo quartile e terzo quartile siano in genere introdotte in un'impostazione con un insieme discreto di dati, queste statistiche possono anche essere definite per una variabile casuale continua. Poiché stiamo lavorando con una distribuzione continua usiamo l'integrale. Il pil percentile è un numero n tale che:
∫-₶n f ( X ) dx = p/ 100.
Qui f ( X ) è una funzione di densità di probabilità. Quindi possiamo ottenere qualsiasi percentile che vogliamo per una distribuzione continua.
Un'ulteriore generalizzazione è notare che le nostre statistiche sugli ordini stanno dividendo la distribuzione con cui stiamo lavorando. La mediana divide il set di dati a metà e la mediana, o 50 ° percentile di una distribuzione continua, divide la distribuzione a metà in termini di area. Il primo quartile, la mediana e il terzo quartile suddividono i nostri dati in quattro parti con lo stesso conteggio in ciascuna. Possiamo usare l'integrale sopra per ottenere il 25 °, 50 ° e 75 ° percentile e dividere una distribuzione continua in quattro porzioni di uguale area.
Possiamo generalizzare questa procedura. Alla domanda da cui possiamo iniziare viene dato un numero naturale n, come possiamo dividere la distribuzione di una variabile in n pezzi di uguali dimensioni? Questo parla direttamente all'idea dei quantili.
Il n i quantili per un set di dati si trovano approssimativamente classificando i dati in ordine e quindi suddividendo questa classifica n - 1 punti equidistanti sull'intervallo.
Se abbiamo una funzione di densità di probabilità per una variabile casuale continua, usiamo l'integrale sopra per trovare i quantili. Per n quantili, vogliamo:
Lo vediamo per qualsiasi numero naturale n, il n i quantili corrispondono al 100r/nth percentili, dove r può essere qualsiasi numero naturale compreso tra 1 e n - 1.
Alcuni tipi di quantili sono usati abbastanza comunemente per avere nomi specifici. Di seguito è riportato un elenco di questi:
Naturalmente, esistono altri quantili oltre a quelli nella lista sopra. Molte volte il quantile specifico utilizzato corrisponde alla dimensione del campione da una distribuzione continua.
Oltre a specificare la posizione di un insieme di dati, i quantili sono utili in altri modi. Supponiamo di avere un semplice campione casuale da una popolazione e che la distribuzione della popolazione sia sconosciuta. Per determinare se un modello, come una distribuzione normale o Weibull, è adatto alla popolazione da cui abbiamo effettuato il campionamento, possiamo esaminare i quantili dei nostri dati e il modello.
Abbinando i quantili dai nostri dati campione ai quantili da una particolare distribuzione di probabilità, il risultato è una raccolta di dati accoppiati. Tracciamo questi dati in un diagramma a dispersione, noto come diagramma quantile-quantile o diagramma q-q. Se il grafico a dispersione risultante è approssimativamente lineare, il modello si adatta perfettamente ai nostri dati.