Molte volte i ricercatori vogliono conoscere le risposte a domande di ampia portata. Per esempio:
Questo tipo di domande sono enormi nel senso che ci richiedono di tenere traccia di milioni di persone.
Le statistiche semplificano questi problemi utilizzando una tecnica chiamata campionamento. Effettuando un campione statistico, il nostro carico di lavoro può essere ridotto immensamente. Invece di tenere traccia dei comportamenti di miliardi o milioni, dobbiamo solo esaminare quelli di migliaia o centinaia. Come vedremo, questa semplificazione ha un prezzo.
La popolazione di uno studio statistico è ciò su cui stiamo cercando di scoprire qualcosa. È composto da tutti gli individui che vengono esaminati. Una popolazione può davvero essere qualsiasi cosa. Californiani, caribi, computer, automobili o contee potrebbero essere considerati popolazioni, a seconda della domanda statistica. Sebbene la maggior parte delle popolazioni oggetto di ricerca siano ampie, non è necessario che lo siano.
Una strategia per la ricerca della popolazione è quella di condurre un censimento. In un censimento, esaminiamo ogni singolo membro della popolazione nel nostro studio. Un primo esempio di questo è il censimento degli Stati Uniti. Ogni dieci anni l'Ufficio censimento invia un questionario a tutti nel paese. Coloro che non restituiscono il modulo sono visitati dai lavoratori del censimento
I censimenti sono pieni di difficoltà. Sono in genere costosi in termini di tempo e risorse. Inoltre, è difficile garantire che tutti i membri della popolazione siano stati raggiunti. Altre popolazioni sono ancora più difficili da condurre un censimento. Se volessimo studiare le abitudini dei cani randagi nello stato di New York, buona fortuna tutti di quei canini transitori.
Dal momento che normalmente è impossibile o impraticabile rintracciare ogni membro di una popolazione, la prossima opzione disponibile è campionare la popolazione. Un campione è un sottoinsieme di una popolazione, quindi le sue dimensioni possono essere piccole o grandi. Vogliamo un campione abbastanza piccolo da essere gestibile dalla nostra potenza di calcolo, ma abbastanza grande da darci risultati statisticamente significativi.
Se una società di sondaggi sta cercando di determinare la soddisfazione degli elettori con il Congresso, e la sua dimensione del campione è una, i risultati saranno insignificanti (ma facili da ottenere). D'altro canto, chiedere a milioni di persone consumerà troppe risorse. Per trovare un equilibrio, i sondaggi di questo tipo hanno in genere dimensioni del campione di circa 1000.
Ma avere la giusta dimensione del campione non è sufficiente per garantire buoni risultati. Vogliamo un campione rappresentativo della popolazione. Supponiamo di voler scoprire quanti libri l'americano medio legge ogni anno. Chiediamo a 2000 studenti universitari di tenere traccia di ciò che leggono nel corso dell'anno, quindi ricontrollare con loro dopo che è trascorso un anno. Scopriamo che il numero medio di libri letti è 12, quindi concludiamo che l'americano medio legge 12 libri all'anno.
Il problema con questo scenario è con l'esempio. La maggior parte degli studenti universitari ha un'età compresa tra 18 e 25 anni e i loro istruttori sono tenuti a leggere libri di testo e romanzi. Questa è una cattiva rappresentazione dell'americano medio. Un buon campione conterrebbe persone di età diverse, di ogni estrazione sociale e provenienti da diverse regioni del paese. Per acquisire un campione del genere avremmo bisogno di comporlo in modo casuale in modo che ogni americano abbia le stesse probabilità di essere nel campione.
Il gold standard degli esperimenti statistici è il semplice campione casuale. In un tale campione di dimensioni n individui, ogni membro della popolazione ha la stessa probabilità di essere selezionato per il campione e ogni gruppo di n gli individui hanno la stessa probabilità di essere selezionati. Esistono diversi modi per campionare una popolazione. Alcuni dei più comuni sono:
Come dice il proverbio, "Ben iniziato è a metà." Per garantire che i nostri studi statistici ed esperimenti abbiano buoni risultati, dobbiamo pianificare e avviarli con cura. È facile trovare cattivi campioni statistici. Buoni campioni casuali semplici richiedono un po 'di lavoro per ottenere. Se i nostri dati sono stati ottenuti a casaccio e in modo sprezzante, allora non importa quanto sia sofisticata la nostra analisi, le tecniche statistiche non ci daranno alcuna conclusione utile.