Una delle parti principali delle statistiche inferenziali è lo sviluppo di metodi per calcolare gli intervalli di confidenza. Gli intervalli di confidenza ci forniscono un modo per stimare un parametro di popolazione. Piuttosto che dire che il parametro è uguale a un valore esatto, diciamo che il parametro rientra in un intervallo di valori. Questo intervallo di valori è in genere una stima, insieme a un margine di errore che aggiungiamo e sottraggiamo dalla stima.
Ad ogni intervallo è associato un livello di sicurezza. Il livello di confidenza fornisce una misurazione della frequenza con cui, a lungo termine, il metodo utilizzato per ottenere il nostro intervallo di confidenza acquisisce il parametro di popolazione reale.
È utile conoscere le statistiche per vedere alcuni esempi elaborati. Di seguito vedremo alcuni esempi di intervalli di confidenza su una media della popolazione. Vedremo che il metodo che usiamo per costruire un intervallo di confidenza su una media dipende da ulteriori informazioni sulla nostra popolazione. In particolare, l'approccio che adottiamo dipende dal fatto che conosciamo o meno la deviazione standard della popolazione o meno.
Dichiarazione dei problemi
Iniziamo con un semplice campione casuale di 25 specie particolari di tritoni e misuriamo la loro coda. La lunghezza media della coda del nostro campione è di 5 cm.
Se sappiamo che 0,2 cm è la deviazione standard delle lunghezze della coda di tutti i tritoni nella popolazione, allora qual è un intervallo di confidenza del 90% per la lunghezza media della coda di tutti i tritoni nella popolazione?
Se sappiamo che 0,2 cm è la deviazione standard delle lunghezze della coda di tutti i tritoni nella popolazione, allora qual è un intervallo di confidenza del 95% per la lunghezza media della coda di tutti i tritoni nella popolazione?
Se troviamo che 0,2 cm è la deviazione standard delle lunghezze della coda dei tritoni nel nostro campione della popolazione, allora qual è un intervallo di confidenza del 90% per la lunghezza media della coda di tutti i tritoni nella popolazione?
Se troviamo che 0,2 cm è la deviazione standard delle lunghezze della coda dei tritoni nel nostro campione della popolazione, allora qual è un intervallo di confidenza del 95% per la lunghezza media della coda di tutti i tritoni nella popolazione?
Discussione dei problemi
Iniziamo analizzando ciascuno di questi problemi. Nei primi due problemi conosciamo il valore della deviazione standard della popolazione. La differenza tra questi due problemi è che il livello di confidenza è maggiore in # 2 rispetto a quello che è per # 1.
Nei secondi due problemi la deviazione standard della popolazione è sconosciuta. Per questi due problemi stimeremo questo parametro con la deviazione standard del campione. Come abbiamo visto nei primi due problemi, qui abbiamo anche diversi livelli di fiducia.
soluzioni
Calcoleremo soluzioni per ciascuno dei problemi di cui sopra.
Poiché conosciamo la deviazione standard della popolazione, utilizzeremo una tabella di punteggi z. Il valore di z che corrisponde a un intervallo di confidenza del 90% è 1.645. Usando la formula per il margine di errore abbiamo un intervallo di confidenza da 5 - 1.645 (0,2 / 5) a 5 + 1,645 (0,2 / 5). (Il 5 nel denominatore qui è perché abbiamo preso la radice quadrata di 25). Dopo aver eseguito l'aritmetica, abbiamo un intervallo di confidenza da 4.934 cm a 5.066 cm per la media della popolazione.
Poiché conosciamo la deviazione standard della popolazione, utilizzeremo una tabella di punteggi z. Il valore di z che corrisponde a un intervallo di confidenza del 95% è 1,96. Usando la formula per il margine di errore abbiamo un intervallo di confidenza da 5 - 1,96 (0,2 / 5) a 5 + 1,96 (0,2 / 5). Dopo aver eseguito l'aritmetica, abbiamo un intervallo di confidenza da 4.922 cm a 5.078 cm per la media della popolazione.
Qui non conosciamo la deviazione standard della popolazione, solo la deviazione standard del campione. Quindi useremo una tabella di t-score. Quando usiamo una tabella di t punteggi che dobbiamo sapere quanti gradi di libertà abbiamo. In questo caso ci sono 24 gradi di libertà, che è uno in meno della dimensione del campione di 25. Il valore di t che corrisponde a un intervallo di confidenza del 90% è 1,71. Usando la formula per il margine di errore abbiamo un intervallo di confidenza da 5 - 1,71 (0,2 / 5) a 5 + 1,71 (0,2 / 5). Dopo aver eseguito l'aritmetica, abbiamo un intervallo di confidenza da 4.932 cm a 5.068 cm per la media della popolazione.
Qui non conosciamo la deviazione standard della popolazione, solo la deviazione standard del campione. Quindi useremo di nuovo una tabella di t-score. Ci sono 24 gradi di libertà, che è uno in meno della dimensione del campione di 25. Il valore di t che corrisponde a un intervallo di confidenza del 95% è 2,06. Usando la formula per il margine di errore abbiamo un intervallo di confidenza da 5 - 2,06 (0,2 / 5) a 5 + 2,06 (0,2 / 5). Dopo aver eseguito l'aritmetica, abbiamo un intervallo di confidenza da 4.912 cm a 5.082 cm per la media della popolazione.
Discussione sulle soluzioni
Vi sono alcune cose da notare nel confrontare queste soluzioni. Il primo è che in ogni caso all'aumentare del nostro livello di fiducia, maggiore è il valore di z o t con cui siamo finiti. Il motivo di ciò è che per essere più sicuri di aver effettivamente catturato la media della popolazione nel nostro intervallo di confidenza, abbiamo bisogno di un intervallo più ampio.
L'altra caratteristica da notare è che per un particolare intervallo di confidenza, quelli che usano t sono più larghi di quelli con z. La ragione di ciò è che a t la distribuzione ha una maggiore variabilità nelle code rispetto a una distribuzione normale standard.
La chiave per correggere soluzioni di questo tipo di problemi è che se conosciamo la deviazione standard della popolazione usiamo una tabella di z-punteggi. Se non conosciamo la deviazione standard della popolazione, utilizziamo una tabella di t punteggi.