In statistica, il termine robustezza o robustezza si riferisce alla forza di un modello statistico, test e procedure in base alle condizioni specifiche dell'analisi statistica che uno studio spera di raggiungere. Dato che queste condizioni di uno studio sono soddisfatte, i modelli possono essere verificati come veri attraverso l'uso di prove matematiche.
Molti modelli si basano su situazioni ideali che non esistono quando si lavora con dati del mondo reale e, di conseguenza, il modello può fornire risultati corretti anche se le condizioni non sono soddisfatte esattamente.
Le statistiche solide, quindi, sono tutte le statistiche che producono buone prestazioni quando i dati sono tratti da una vasta gamma di distribuzioni di probabilità che sono in gran parte non influenzate da valori anomali o piccole deviazioni dalle ipotesi del modello in un determinato set di dati. In altre parole, una solida statistica è resistente agli errori nei risultati.
Un modo per osservare una solida procedura statistica comunemente usata, non è necessario guardare oltre le procedure a T, che utilizzano test di ipotesi per determinare le previsioni statistiche più accurate.
Per un esempio di robustezza, considereremo t-procedure, che includono l'intervallo di confidenza per una media della popolazione con deviazione standard della popolazione sconosciuta, nonché test di ipotesi sulla media della popolazione.
L'uso di t-le procedure presuppone quanto segue:
In pratica con esempi di vita reale, gli statistici raramente hanno una popolazione che è normalmente distribuita, quindi la domanda diventa invece: "Quanto sono robusti i nostri t-procedure?”
In generale, la condizione che abbiamo un semplice campione casuale è più importante della condizione che abbiamo campionato da una popolazione normalmente distribuita; la ragione di ciò è che il teorema del limite centrale garantisce una distribuzione del campionamento approssimativamente normale - maggiore è la dimensione del nostro campione, più la distribuzione del campionamento del campione medio si avvicina alla normalità.
Quindi robustezza per t-le procedure dipendono dalle dimensioni del campione e dalla distribuzione del nostro campione. Considerazioni per questo includono:
Nella maggior parte dei casi, la solidità è stata stabilita attraverso il lavoro tecnico nelle statistiche matematiche e, fortunatamente, non abbiamo necessariamente bisogno di fare questi calcoli matematici avanzati per utilizzarli correttamente; dobbiamo solo capire quali sono le linee guida generali per la solidità del nostro metodo statistico specifico.
Le procedure T funzionano come statistiche affidabili perché in genere forniscono buone prestazioni per questi modelli considerando le dimensioni del campione nella base per l'applicazione della procedura.