Il campionamento statistico è usato abbastanza spesso nelle statistiche. In questo processo, miriamo a determinare qualcosa su una popolazione. Poiché le popolazioni sono in genere di grandi dimensioni, formiamo un campione statistico selezionando un sottoinsieme della popolazione di dimensioni predeterminate. Studiando il campione possiamo usare le statistiche inferenziali per determinare qualcosa sulla popolazione.
Un campione statistico di dimensioni n coinvolge un singolo gruppo di n individui o soggetti che sono stati scelti in modo casuale dalla popolazione. Strettamente correlata al concetto di campione statistico è una distribuzione campionaria.
Una distribuzione di campionamento si verifica quando formiamo più di un semplice campione casuale della stessa dimensione da una determinata popolazione. Questi campioni sono considerati indipendenti l'uno dall'altro. Quindi, se un individuo è in un campione, allora ha la stessa probabilità di essere nel campione successivo che viene preso.
Calcoliamo una statistica particolare per ciascun campione. Questa potrebbe essere una media campionaria, una varianza campionaria o una proporzione campionaria. Poiché una statistica dipende dal campione che abbiamo, ogni campione produrrà in genere un valore diverso per la statistica di interesse. La gamma dei valori che sono stati prodotti è ciò che ci dà la nostra distribuzione di campionamento.
Per un esempio, considereremo la distribuzione campionaria per la media. La media di una popolazione è un parametro che è generalmente sconosciuto. Se selezioniamo un campione di dimensione 100, la media di questo campione viene facilmente calcolata sommando tutti i valori e quindi dividendo per il numero totale di punti dati, in questo caso 100. Un campione di dimensione 100 può darci una media di 50. Un altro campione del genere può avere una media di 49. Un altro 51 e un altro campione potrebbero avere una media di 50,5.
La distribuzione di questi mezzi di campionamento ci fornisce una distribuzione campionaria. Vorremmo prendere in considerazione più di quattro soli mezzi di esempio, come abbiamo fatto sopra. Con diversi altri campioni, avremmo una buona idea della forma della distribuzione del campionamento.
Le distribuzioni campionarie possono sembrare piuttosto astratte e teoriche. Tuttavia, ci sono alcune conseguenze molto importanti dall'uso di questi. Uno dei principali vantaggi è l'eliminazione della variabilità presente nelle statistiche.
Ad esempio, supponiamo di iniziare con una popolazione con una media di μ e la deviazione standard di σ. La deviazione standard ci fornisce una misura di quanto è diffusa la distribuzione. Lo confronteremo con una distribuzione campionaria ottenuta formando semplici campioni casuali di dimensioni n. La distribuzione campionaria della media avrà comunque una media di μ, ma la deviazione standard è diversa. La deviazione standard per una distribuzione di campionamento diventa σ / √ n.
Quindi abbiamo il seguente
Nella pratica della statistica, raramente formiamo distribuzioni campionarie. Invece, trattiamo le statistiche derivate da un semplice campione casuale di dimensioni n come se fossero un punto lungo una corrispondente distribuzione campionaria. Ciò sottolinea ancora una volta perché desideriamo avere campioni di dimensioni relativamente grandi. Maggiore è la dimensione del campione, minore sarà la variazione che otterremo nella nostra statistica.
Si noti che, a parte il centro e la diffusione, non siamo in grado di dire nulla sulla forma della nostra distribuzione di campionamento. Si scopre che in alcune condizioni abbastanza ampie, il Teorema del limite centrale può essere applicato per dirci qualcosa di abbastanza sorprendente sulla forma di una distribuzione campionaria.