Che cos'è una popolazione in statistica?

In statistica, il termine popolazione è usato per descrivere le materie di un particolare studio, tutto o chiunque sia oggetto di un'osservazione statistica. Le popolazioni possono essere di dimensioni grandi o piccole e definite da un numero qualsiasi di caratteristiche, sebbene questi gruppi siano generalmente definiti in modo specifico piuttosto che vagamente, ad esempio una popolazione di donne di età superiore ai 18 anni che acquista caffè a Starbucks anziché una popolazione di donne di età superiore ai 18 anni.

Le popolazioni statistiche sono utilizzate per osservare comportamenti, tendenze e modelli nel modo in cui gli individui in un gruppo definito interagiscono con il mondo che li circonda, consentendo agli statistici di trarre conclusioni sulle caratteristiche dei soggetti di studio, sebbene questi soggetti siano spesso umani, animali e piante e persino oggetti come le stelle.

Importanza delle popolazioni

Il Bureau of Statistics del governo australiano osserva:

È importante comprendere la popolazione target da studiare, in modo da poter capire a chi o a cosa si riferiscono i dati. Se non hai definito chiaramente chi o cosa desideri nella tua popolazione, potresti finire con dati che non ti sono utili.  

Vi sono, naturalmente, alcune limitazioni nello studio delle popolazioni, soprattutto perché è raro poter osservare tutti gli individui di un determinato gruppo. Per questo motivo, gli scienziati che usano le statistiche studiano anche sottopopolazioni e prelevano campioni statistici di piccole porzioni di popolazioni più grandi per analizzare in modo più accurato l'intero spettro di comportamenti e caratteristiche della popolazione in generale.

Ciò che costituisce una popolazione?

Una popolazione statistica è un gruppo di individui che sono oggetto di uno studio, il che significa che quasi tutto può costituire una popolazione fintanto che gli individui possono essere raggruppati insieme da una caratteristica comune, o talvolta due caratteristiche comuni. Ad esempio, in uno studio che sta cercando di determinare il peso medio di tutti i maschi di 20 anni negli Stati Uniti, la popolazione sarebbe tutti i maschi di 20 anni negli Stati Uniti.

Un altro esempio potrebbe essere uno studio che indaga su quante persone vivono in Argentina in cui la popolazione sarebbe ogni persona che vive in Argentina, indipendentemente dalla cittadinanza, dall'età o dal sesso. Al contrario, la popolazione in uno studio separato che ha chiesto quanti uomini sotto i 25 anni vivessero in Argentina potrebbero essere tutti uomini che hanno 24 anni e che vivono in Argentina indipendentemente dalla cittadinanza.

Le popolazioni statistiche possono essere vaghe o specifiche come desiderano gli statistici; dipende in ultima analisi dall'obiettivo della ricerca condotta. Un allevatore di mucche non vorrebbe conoscere le statistiche su quante mucche rosse femmine possiede; invece, vorrebbe conoscere i dati su quante mucche femmine ha ancora in grado di produrre vitelli. Quel contadino vorrebbe selezionare quest'ultimo come sua popolazione di studio.

Dati sulla popolazione in azione

Esistono molti modi per utilizzare i dati sulla popolazione nelle statistiche. StatisticsShowHowto.com spiega uno scenario divertente in cui resisti alla tentazione e entri in un negozio di dolciumi, dove il proprietario potrebbe offrire alcuni campioni dei suoi prodotti. Mangeresti una caramella per ogni campione; non vorrai mangiare un campione di ogni caramella nel negozio. Ciò richiederebbe il campionamento da centinaia di barattoli e probabilmente ti farebbe star male. Invece, il sito Web statistico spiega:

"Potresti basare la tua opinione sull'intera linea di caramelle del negozio su (solo) i campioni che devono offrire. La stessa logica vale per la maggior parte dei sondaggi nelle statistiche. Avrai solo voglia di prendere un campione di tutta la popolazione ( "Popolazione" in questo esempio sarebbe l'intera linea di caramelle). Il risultato è una statistica su quella popolazione ".

L'ufficio statistico del governo australiano fornisce un paio di altri esempi, che sono stati leggermente modificati qui. Immagina di voler studiare solo le persone che vivono negli Stati Uniti che sono nate all'estero, un argomento politico caldo oggi alla luce del acceso dibattito nazionale sull'immigrazione. Invece, tuttavia, hai accidentalmente guardato tutte le persone nate in questo paese. I dati includono molte persone che non vuoi studiare. "Potresti finire con i dati che non ti servono perché la tua popolazione target non è stata chiaramente definita, osserva l'ufficio statistico. 

Un altro studio pertinente potrebbe essere uno sguardo a tutti i bambini delle scuole elementari che bevono soda. Dovresti definire chiaramente la popolazione target come "bambini delle scuole primarie" e "coloro che bevono bibite gassate", altrimenti potresti finire con dati che includevano tutti i bambini delle scuole (non solo gli alunni delle elementari) e / o quelli che bevono soda pop. L'inclusione di bambini più grandi e / o di coloro che non bevono bibite gassate altererebbe i risultati e probabilmente renderebbe inutilizzabile lo studio.

Risorse limitate

Sebbene la popolazione totale sia ciò che gli scienziati desiderano studiare, è molto raro poter eseguire un censimento di ogni singolo membro della popolazione. A causa di vincoli di risorse, tempo e accessibilità, è quasi impossibile eseguire una misurazione su ogni argomento. Di conseguenza, molti statistici, scienziati sociali e altri usano statistiche inferenziali, in cui gli scienziati sono in grado di studiare solo una piccola parte della popolazione e osservare ancora risultati tangibili.

Invece di eseguire misurazioni su ogni membro della popolazione, gli scienziati considerano un sottoinsieme di questa popolazione chiamato campione statistico. Questi campioni forniscono misurazioni degli individui che raccontano agli scienziati le misurazioni corrispondenti nella popolazione, che possono quindi essere ripetute e confrontate con diversi campioni statistici per descrivere più accuratamente l'intera popolazione.

Sottoinsiemi di popolazione

La domanda su quali sottogruppi di popolazione debbano essere selezionati, quindi, è molto importante nello studio delle statistiche e ci sono una varietà di modi diversi per selezionare un campione, molti dei quali non produrranno risultati significativi. Per questo motivo, gli scienziati sono costantemente alla ricerca di potenziali sottopopolazioni perché in genere ottengono risultati migliori quando riconoscono la miscela di tipi di individui nelle popolazioni studiate.

Diverse tecniche di campionamento, come la formazione di campioni stratificati, possono aiutare a gestire le sottopopolazioni e molte di queste tecniche presuppongono che un tipo specifico di campione, chiamato semplice campione casuale, sia stato selezionato dalla popolazione.