Intervalli di confidenza 4 errori comuni

Gli intervalli di confidenza sono una parte fondamentale delle statistiche inferenziali. Possiamo usare alcune probabilità e informazioni da una distribuzione di probabilità per stimare un parametro di popolazione con l'uso di un campione. L'affermazione di un intervallo di confidenza è fatta in modo tale da essere facilmente fraintesa. Esamineremo la corretta interpretazione degli intervalli di confidenza e analizzeremo quattro errori che sono stati commessi riguardo a quest'area delle statistiche.

Che cos'è un intervallo di confidenza?

Un intervallo di confidenza può essere espresso in un intervallo di valori o nella seguente forma:

Stima ± margine di errore

Un intervallo di confidenza è generalmente indicato con un livello di confidenza. I livelli di confidenza comuni sono 90%, 95% e 99%.

Vedremo un esempio in cui vogliamo usare una media campionaria per inferire la media di una popolazione. Supponiamo che ciò si traduca in un intervallo di confidenza da 25 a 30. Se diciamo che siamo sicuri al 95% che la media della popolazione sconosciuta è contenuta in questo intervallo, allora stiamo davvero dicendo che abbiamo trovato l'intervallo usando un metodo che ha successo in dando risultati corretti il ​​95% delle volte. A lungo termine, il nostro metodo non avrà successo il 5% delle volte. In altre parole, non riusciremo a catturare la vera popolazione significando solo uno su 20 volte.

Errore n. 1

Vedremo ora una serie di diversi errori che possono essere commessi quando si affrontano gli intervalli di confidenza. Un'affermazione errata che viene spesso fatta su un intervallo di confidenza con un livello di confidenza del 95% è che esiste una probabilità del 95% che l'intervallo di confidenza contenga la vera media della popolazione.

Il motivo per cui questo è un errore è in realtà abbastanza sottile. L'idea chiave relativa a un intervallo di confidenza è che la probabilità utilizzata entra in scena con il metodo utilizzato, nel determinare l'intervallo di confidenza è che si riferisce al metodo utilizzato.

Errore n. 2

Un secondo errore è interpretare un intervallo di confidenza del 95% nel dire che il 95% di tutti i valori dei dati nella popolazione rientra nell'intervallo. Ancora una volta, il 95% parla del metodo del test.

Per capire perché l'affermazione di cui sopra non è corretta, potremmo considerare una popolazione normale con una deviazione standard di 1 e una media di 5. Un campione con due punti dati, ciascuno con valori di 6 ha una media del campione di 6. A 95% l'intervallo di confidenza per la media della popolazione sarebbe compreso tra 4,6 e 7,4. Ciò chiaramente non si sovrappone al 95% della distribuzione normale, quindi non conterrà il 95% della popolazione.

Errore n. 3

Un terzo errore è quello di dire che un intervallo di confidenza del 95% implica che il 95% di tutti i possibili mezzi di campionamento rientri nell'intervallo dell'intervallo. Riconsidera l'esempio dell'ultima sezione. Qualsiasi campione di dimensione due che comprendesse solo valori inferiori a 4.6 avrebbe una media inferiore a 4.6. Pertanto, questi mezzi di campionamento non rientrerebbero in questo particolare intervallo di confidenza. I campioni che corrispondono a questa descrizione rappresentano oltre il 5% dell'importo totale. Quindi è un errore affermare che questo intervallo di confidenza cattura il 95% di tutti i mezzi di campionamento.

Errore n. 4

Un quarto errore nel gestire gli intervalli di confidenza è pensare che siano l'unica fonte di errore. Sebbene vi sia un margine di errore associato a un intervallo di confidenza, esistono altri punti in cui gli errori possono insinuarsi in un'analisi statistica. Un paio di esempi di questo tipo di errori potrebbero derivare da una progettazione errata dell'esperimento, dalla propensione al campionamento o dall'incapacità di ottenere dati da un determinato sottoinsieme della popolazione.