La differenza tra statistiche descrittive e inferenziali

Il campo della statistica è diviso in due grandi divisioni: descrittiva e inferenziale. Ognuno di questi segmenti è importante, offrendo diverse tecniche che raggiungono obiettivi diversi. Le statistiche descrittive descrivono cosa sta succedendo in una popolazione o in un set di dati. Le statistiche inferenziali, al contrario, consentono agli scienziati di prendere i risultati di un gruppo campione e di generalizzarli a una popolazione più ampia. I due tipi di statistiche presentano alcune differenze importanti.

Statistiche descrittive

Le statistiche descrittive sono il tipo di statistiche che probabilmente viene alla mente della maggior parte delle persone quando sentono la parola "statistiche". In questo ramo delle statistiche, l'obiettivo è quello di descrivere. Le misure numeriche vengono utilizzate per raccontare le caratteristiche di un insieme di dati. Esistono numerosi elementi che appartengono a questa parte delle statistiche, come ad esempio:

  • La media, o misura del centro di un set di dati, costituito da media, mediana, modalità o gamma media
  • La diffusione di un set di dati, che può essere misurato con l'intervallo o la deviazione standard
  • Descrizioni generali di dati come il riepilogo di cinque numeri
  • Misure come asimmetria e curtosi
  • Esplorazione di relazioni e correlazione tra dati associati
  • La presentazione dei risultati statistici in forma grafica

Queste misure sono importanti e utili perché consentono agli scienziati di vedere i modelli tra i dati e quindi di dare un senso a tali dati. Le statistiche descrittive possono essere utilizzate solo per descrivere la popolazione o l'insieme di dati oggetto di studio: i risultati non possono essere generalizzati a nessun altro gruppo o popolazione.

Tipi di statistiche descrittive

Esistono due tipi di statistiche descrittive utilizzate dagli scienziati sociali:

Le misure della tendenza centrale catturano le tendenze generali all'interno dei dati e vengono calcolate ed espresse come media, mediana e modalità. Una media indica agli scienziati la media matematica di tutti i set di dati, come l'età media al primo matrimonio; la mediana rappresenta il mezzo della distribuzione dei dati, come l'età che si trova nel mezzo dell'intervallo di età in cui le persone si sposano per la prima volta; e, la modalità potrebbe essere l'età più comune in cui le persone si sposano per la prima volta.

Le misure di diffusione descrivono come i dati sono distribuiti e si relazionano tra loro, tra cui:

  • L'intervallo, l'intero intervallo di valori presenti in un set di dati
  • La distribuzione di frequenza, che definisce quante volte si verifica un determinato valore all'interno di un set di dati
  • Quartili, sottogruppi formati all'interno di un set di dati quando tutti i valori sono divisi in quattro parti uguali nell'intervallo
  • Deviazione assoluta media, la media di quanto ogni valore si discosta dalla media
  • Varianza, che illustra la quantità di diffusione presente nei dati
  • Deviazione standard, che illustra la diffusione dei dati rispetto alla media

Le misure di diffusione sono spesso rappresentate visivamente in tabelle, grafici a torta, a barre e istogrammi per aiutare a comprendere le tendenze all'interno dei dati.

Statistica inferenziale

Le statistiche inferenziali sono prodotte attraverso complessi calcoli matematici che consentono agli scienziati di inferire tendenze su una popolazione più ampia sulla base di uno studio di un campione prelevato da essa. Gli scienziati utilizzano statistiche inferenziali per esaminare le relazioni tra le variabili all'interno di un campione e quindi fare generalizzazioni o previsioni su come tali variabili si collegheranno a una popolazione più ampia.

Di solito è impossibile esaminare ogni membro della popolazione individualmente. Quindi gli scienziati scelgono un sottoinsieme rappresentativo della popolazione, chiamato campione statistico, e da questa analisi, sono in grado di dire qualcosa sulla popolazione da cui proviene il campione. Esistono due principali divisioni delle statistiche inferenziali:

  • Un intervallo di confidenza fornisce un intervallo di valori per un parametro sconosciuto della popolazione misurando un campione statistico. Questo è espresso in termini di intervallo e grado di confidenza che il parametro rientri nell'intervallo.
  • Test di significatività o test di ipotesi in cui gli scienziati sostengono la popolazione analizzando un campione statistico. In base alla progettazione, c'è qualche incertezza in questo processo. Ciò può essere espresso in termini di livello di significatività.

Le tecniche utilizzate dagli scienziati sociali per esaminare le relazioni tra le variabili e, quindi, per creare statistiche inferenziali, includono analisi di regressione lineare, analisi di regressione logistica, ANOVA, analisi di correlazione, modellizzazione di equazioni strutturali e analisi di sopravvivenza. Quando conducono ricerche utilizzando statistiche inferenziali, gli scienziati conducono un test di significatività per determinare se possono generalizzare i loro risultati a una popolazione più ampia. Test comuni di significatività includono il chi-quadro e il test t. Questi dicono agli scienziati la probabilità che i risultati della loro analisi del campione siano rappresentativi della popolazione nel suo insieme.

Statistiche descrittive vs. inferenziali

Sebbene le statistiche descrittive siano utili per apprendere cose come la diffusione e il centro dei dati, nulla nelle statistiche descrittive può essere usato per fare generalizzazioni. Nelle statistiche descrittive, misure come la media e la deviazione standard sono indicate come numeri esatti.

Anche se le statistiche inferenziali utilizzano alcuni calcoli simili - come la media e la deviazione standard - l'attenzione è diversa per le statistiche inferenziali. Le statistiche inferenziali iniziano con un campione e poi si generalizzano a una popolazione. Questa informazione su una popolazione non è dichiarata come un numero. Invece, gli scienziati esprimono questi parametri come un intervallo di numeri potenziali, insieme a un certo grado di fiducia.