Il numero di gradi di libertà per l'indipendenza di due variabili categoriali è dato da una semplice formula:r - 1) (c - 1). Qui r è il numero di righe e c è il numero di colonne nella tabella bidirezionale dei valori della variabile categoriale. Continua a leggere per saperne di più su questo argomento e per capire perché questa formula fornisce il numero corretto.
Un passo nel processo di molti test di ipotesi è la determinazione del numero di gradi di libertà. Questo numero è importante perché per le distribuzioni di probabilità che coinvolgono una famiglia di distribuzioni, come la distribuzione chi-quadro, il numero di gradi di libertà individua la distribuzione esatta dalla famiglia che dovremmo usare nel nostro test di ipotesi.
I gradi di libertà rappresentano il numero di scelte libere che possiamo fare in una determinata situazione. Uno dei test di ipotesi che ci impone di determinare i gradi di libertà è il test chi-quadro per l'indipendenza di due variabili categoriali.
Il test chi-quadrato per l'indipendenza ci richiede di costruire una tabella a due vie, nota anche come tabella di contingenza. Questo tipo di tabella ha r righe e c colonne, che rappresentano il r livelli di una variabile categoriale e il c livelli dell'altra variabile categoriale. Pertanto, se non contiamo la riga e la colonna in cui registriamo i totali, ci sono un totale di rc celle nella tabella bidirezionale.
Il test chi-quadrato per l'indipendenza ci consente di verificare l'ipotesi che le variabili categoriali siano indipendenti l'una dall'altra. Come accennato in precedenza, il r righe e c le colonne nella tabella ci danno (r - 1) (c - 1) gradi di libertà. Ma potrebbe non essere immediatamente chiaro il motivo per cui questo è il numero corretto di gradi di libertà.
Per capire perché (r - 1) (c - 1) è il numero corretto, esamineremo questa situazione in modo più dettagliato. Supponiamo di conoscere i totali marginali per ciascuno dei livelli delle nostre variabili categoriali. In altre parole, conosciamo il totale per ogni riga e il totale per ogni colonna. Per la prima fila, ci sono c colonne nella nostra tabella, quindi ci sono c le cellule. Una volta che conosciamo i valori di tutte le celle tranne una, quindi, poiché conosciamo il totale di tutte le celle, è un semplice problema di algebra determinare il valore della cella rimanente. Se stessimo compilando queste celle della nostra tabella, potremmo entrare c - 1 di essi liberamente, ma poi la cella rimanente è determinata dal totale della riga. Quindi ci sono c - 1 grado di libertà per la prima fila.
Continuiamo in questo modo per la riga successiva e ce ne sono ancora c - 1 grado di libertà Questo processo continua fino a quando non arriviamo alla penultima riga. Ognuna delle righe tranne l'ultima contribuisce c - 1 grado di libertà sul totale. Quando avremo tutti tranne l'ultima riga, allora perché conosciamo la somma delle colonne possiamo determinare tutte le voci dell'ultima riga. Questo ci dà r - 1 file con c - 1 grado di libertà in ciascuno di questi, per un totale di (r - 1) (c - 1) gradi di libertà.
Lo vediamo con il seguente esempio. Supponiamo di avere una tabella a due vie con due variabili categoriali. Una variabile ha tre livelli e l'altra ha due. Supponiamo inoltre che conosciamo i totali di riga e colonna per questa tabella:
Livello A | Livello B | Totale | |
Livello 1 | 100 | ||
Livello 2 | 200 | ||
Livello 3 | 300 | ||
Totale | 200 | 400 | 600 |
La formula prevede che ci siano (3-1) (2-1) = 2 gradi di libertà. Lo vediamo come segue. Supponiamo di riempire la cella in alto a sinistra con il numero 80. Ciò determinerà automaticamente l'intera prima riga di voci:
Livello A | Livello B | Totale | |
Livello 1 | 80 | 20 | 100 |
Livello 2 | 200 | ||
Livello 3 | 300 | ||
Totale | 200 | 400 | 600 |
Ora se sappiamo che la prima voce nella seconda riga è 50, allora il resto della tabella viene compilato, perché conosciamo il totale di ogni riga e colonna:
Livello A | Livello B | Totale | |
Livello 1 | 80 | 20 | 100 |
Livello 2 | 50 | 150 | 200 |
Livello 3 | 70 | 230 | 300 |
Totale | 200 | 400 | 600 |
La tabella è completamente compilata, ma avevamo solo due scelte libere. Una volta noti questi valori, il resto della tabella è stato completamente determinato.
Sebbene in genere non abbiamo bisogno di sapere perché ci sono così tanti gradi di libertà, è bene sapere che stiamo davvero applicando il concetto di gradi di libertà a una nuova situazione.