Robustezza nelle statistiche

In statistica, il termine robustezza o robustezza si riferisce alla forza di un modello statistico, test e procedure in base alle condizioni specifiche dell'analisi statistica che uno studio spera di raggiungere. Dato che queste condizioni di uno studio sono soddisfatte, i modelli possono essere verificati come veri attraverso l'uso di prove matematiche.

Molti modelli si basano su situazioni ideali che non esistono quando si lavora con dati del mondo reale e, di conseguenza, il modello può fornire risultati corretti anche se le condizioni non sono soddisfatte esattamente.

Le statistiche solide, quindi, sono tutte le statistiche che producono buone prestazioni quando i dati sono tratti da una vasta gamma di distribuzioni di probabilità che sono in gran parte non influenzate da valori anomali o piccole deviazioni dalle ipotesi del modello in un determinato set di dati. In altre parole, una solida statistica è resistente agli errori nei risultati.

Un modo per osservare una solida procedura statistica comunemente usata, non è necessario guardare oltre le procedure a T, che utilizzano test di ipotesi per determinare le previsioni statistiche più accurate.

Osservando le procedure a T.

Per un esempio di robustezza, considereremo t-procedure, che includono l'intervallo di confidenza per una media della popolazione con deviazione standard della popolazione sconosciuta, nonché test di ipotesi sulla media della popolazione.

L'uso di t-le procedure presuppone quanto segue:

  • L'insieme di dati con cui stiamo lavorando è un semplice campione casuale della popolazione.
  • La popolazione da cui abbiamo effettuato il campionamento è normalmente distribuita.

In pratica con esempi di vita reale, gli statistici raramente hanno una popolazione che è normalmente distribuita, quindi la domanda diventa invece: "Quanto sono robusti i nostri t-procedure?”

In generale, la condizione che abbiamo un semplice campione casuale è più importante della condizione che abbiamo campionato da una popolazione normalmente distribuita; la ragione di ciò è che il teorema del limite centrale garantisce una distribuzione del campionamento approssimativamente normale - maggiore è la dimensione del nostro campione, più la distribuzione del campionamento del campione medio si avvicina alla normalità.

Come funzionano le procedure a T come statistiche affidabili

Quindi robustezza per t-le procedure dipendono dalle dimensioni del campione e dalla distribuzione del nostro campione. Considerazioni per questo includono:

  • Se la dimensione dei campioni è grande, il che significa che abbiamo 40 o più osservazioni, quindi t-le procedure possono essere utilizzate anche con distribuzioni distorte.
  • Se la dimensione del campione è tra 15 e 40, allora possiamo usare t-procedure per qualsiasi distribuzione sagomata, a meno che non ci siano valori anomali o un alto grado di asimmetria.
  • Se la dimensione del campione è inferiore a 15, allora possiamo usare t- procedure per dati che non hanno valori anomali, un singolo picco e sono quasi simmetrici.

Nella maggior parte dei casi, la solidità è stata stabilita attraverso il lavoro tecnico nelle statistiche matematiche e, fortunatamente, non abbiamo necessariamente bisogno di fare questi calcoli matematici avanzati per utilizzarli correttamente; dobbiamo solo capire quali sono le linee guida generali per la solidità del nostro metodo statistico specifico.

Le procedure T funzionano come statistiche affidabili perché in genere forniscono buone prestazioni per questi modelli considerando le dimensioni del campione nella base per l'applicazione della procedura.