Esempio di intervallo di confidenza per una varianza della popolazione

La varianza della popolazione fornisce un'indicazione di come distribuire un set di dati. Sfortunatamente, in genere è impossibile sapere esattamente quale sia questo parametro di popolazione. Per compensare la nostra mancanza di conoscenza, utilizziamo un argomento di statistiche inferenziali chiamato intervalli di confidenza. Vedremo un esempio di come calcolare un intervallo di confidenza per una varianza della popolazione.

Formula intervallo di confidenza

 La formula per l'intervallo di confidenza (1 - α) sulla varianza della popolazione. È dato dalla seguente serie di disuguaglianze:

[(n - 1)S2] / B < σ2 < [ (n - 1)S2] / UN.

Qui n è la dimensione del campione, S2 è la varianza del campione. Il numero UN è il punto della distribuzione chi-quadro con n -1 grado di libertà a cui esattamente α / 2 dell'area sotto la curva è a sinistra di UN. In modo simile, il numero B è il punto della stessa distribuzione chi-quadro con esattamente α / 2 dell'area sotto la curva a destra di B.

Preliminari

Iniziamo con un set di dati con 10 valori. Questo insieme di valori di dati è stato ottenuto da un semplice campione casuale:

97, 75, 124, 106, 120, 131, 94, 97,96, 102

Sarebbe necessaria un'analisi dei dati esplorativi per dimostrare che non ci sono valori anomali. Costruendo un diagramma di fusto e foglia vediamo che questi dati sono probabilmente da una distribuzione che è approssimativamente distribuita normalmente. Ciò significa che possiamo procedere con la ricerca di un intervallo di confidenza del 95% per la varianza della popolazione.

Varianza di campionamento

Dobbiamo stimare la varianza della popolazione con la varianza del campione, indicata da S2. Quindi iniziamo calcolando questa statistica. Sostanzialmente stiamo calcolando la media della somma delle deviazioni al quadrato dalla media. Tuttavia, piuttosto che dividere questa somma per n lo dividiamo per n - 1.

Scopriamo che la media del campione è 104.2. Usando questo, abbiamo la somma delle deviazioni quadrate dalla media data da:

(97 - 104.2)2 + (75 - 104.3)2 +... + (96-104.2)2 + (102 - 104.2)2 = 2495.6

Dividiamo questa somma per 10 - 1 = 9 per ottenere una varianza campionaria di 277.

Distribuzione Chi-Square

Passiamo ora alla nostra distribuzione chi-quadro. Poiché abbiamo 10 valori di dati, abbiamo 9 gradi di libertà. Dato che vogliamo la metà del 95% della nostra distribuzione, abbiamo bisogno del 2,5% in ciascuna delle due code. Consultiamo una tabella o un software chi-quadrato e vediamo che i valori della tabella 2.7004 e 19.023 racchiudono il 95% dell'area della distribuzione. Questi numeri sono UN e B, rispettivamente.

Ora abbiamo tutto ciò di cui abbiamo bisogno e siamo pronti a mettere insieme il nostro intervallo di confidenza. La formula per l'endpoint sinistro è [(n - 1)S2] / B. Ciò significa che il nostro endpoint sinistro è:

(9 x 277) / 19.023 = 133

L'endpoint corretto si trova sostituendo B con UN:

(9 x 277) /2.7004 = 923

E quindi siamo sicuri al 95% che la varianza della popolazione sia compresa tra 133 e 923.

Deviazione standard della popolazione

Naturalmente, poiché la deviazione standard è la radice quadrata della varianza, questo metodo potrebbe essere utilizzato per costruire un intervallo di confidenza per la deviazione standard della popolazione. Tutto ciò che dovremmo fare è prendere le radici quadrate degli endpoint. Il risultato sarebbe un intervallo di confidenza del 95% per la deviazione standard.