Nelle statistiche inferenziali, gli intervalli di confidenza per le proporzioni della popolazione si basano sulla distribuzione normale standard per determinare i parametri sconosciuti di una data popolazione dato un campione statistico della popolazione. Uno dei motivi è che per dimensioni del campione adeguate, la distribuzione normale standard fa un ottimo lavoro nella stima di una distribuzione binomiale. Ciò è notevole perché sebbene la prima distribuzione sia continua, la seconda è discreta.
Ci sono una serie di problemi che devono essere affrontati quando si costruiscono intervalli di confidenza per le proporzioni. Uno di questi riguarda quello che è noto come un intervallo di confidenza "più quattro", che si traduce in uno stimatore distorto. Tuttavia, questo stimatore di una percentuale di popolazione sconosciuta ha prestazioni migliori in alcune situazioni rispetto agli stimatori imparziali, in particolare quelle situazioni in cui non vi sono successi o fallimenti nei dati.
Nella maggior parte dei casi, il miglior tentativo di stimare una proporzione di popolazione è utilizzare una proporzione del campione corrispondente. Supponiamo che ci sia una popolazione con una proporzione sconosciuta p dei suoi individui che contengono un certo tratto, quindi formiamo un semplice campione casuale di dimensioni n da questa popolazione.Di questi n individui, contiamo il numero di essi Y che possiede il tratto di cui siamo curiosi. Ora stimiamo p usando il nostro campione. La proporzione del campione Y / n è uno stimatore imparziale di p.
Quando utilizziamo un intervallo più quattro, modifichiamo lo stimatore di p. Facciamo questo aggiungendo quattro al numero totale di osservazioni, spiegando così la frase "più quattro". Quindi dividiamo queste quattro osservazioni tra due ipotetici successi e due fallimenti, il che significa che ne aggiungiamo due al numero totale di successi. il risultato finale è che sostituiamo ogni istanza di Y / n con (Y + 2) / (n + 4), e talvolta questa frazione è indicata da p con una tilde sopra di esso.
La proporzione del campione in genere funziona molto bene per stimare una proporzione di popolazione. Tuttavia, ci sono alcune situazioni in cui è necessario modificare leggermente il nostro stimatore. La pratica statistica e la teoria matematica mostrano che la modifica dell'intervallo più quattro è appropriata per raggiungere questo obiettivo.
Una situazione che dovrebbe indurci a considerare un intervallo più quattro è un campione sbilenco. Molte volte, a causa della proporzione di popolazione così piccola o così grande, la proporzione del campione è anche molto vicina a 0 o molto vicina a 1. In questo tipo di situazione, dovremmo considerare un intervallo più quattro.
Un altro motivo per usare un intervallo più quattro è se abbiamo una piccola dimensione del campione. Un intervallo più quattro in questa situazione fornisce una stima migliore per una proporzione di popolazione rispetto all'uso dell'intervallo di confidenza tipico per una proporzione.
L'intervallo di confidenza più quattro è un modo quasi magico per calcolare le statistiche inferenziali in modo più accurato in quanto semplicemente aggiungendo quattro osservazioni immaginarie a un determinato set di dati, due successi e due fallimenti, è in grado di prevedere in modo più accurato la proporzione di un set di dati che si adatta ai parametri.
Tuttavia, l'intervallo di confidenza più quattro non è sempre applicabile a tutti i problemi. Può essere utilizzato solo quando l'intervallo di confidenza di un set di dati è superiore al 90% e la dimensione del campione della popolazione è di almeno 10. Tuttavia, il set di dati può contenere qualsiasi numero di successi e insuccessi, anche se funziona meglio quando non ci sono né successi né insuccessi nei dati di una determinata popolazione.
Tieni presente che, diversamente dai calcoli delle statistiche regolari, i calcoli delle statistiche inferenziali si basano su un campionamento di dati per determinare i risultati più probabili all'interno di una popolazione. Sebbene l'intervallo di confidenza più quattro corregga per un margine di errore più ampio, questo margine deve essere ancora preso in considerazione per fornire l'osservazione statistica più accurata.