Molte volte quando studiamo un gruppo, stiamo davvero confrontando due popolazioni. A seconda del parametro di questo gruppo a cui siamo interessati e delle condizioni di cui ci occupiamo, ci sono diverse tecniche disponibili. Le procedure di inferenza statistica che riguardano il confronto tra due popolazioni di solito non possono essere applicate a tre o più popolazioni. Per studiare più di due popolazioni contemporaneamente, abbiamo bisogno di diversi tipi di strumenti statistici. L'analisi della varianza, o ANOVA, è una tecnica di interferenza statistica che ci consente di affrontare diverse popolazioni.
Per vedere quali problemi sorgono e perché abbiamo bisogno dell'ANOVA, prenderemo in considerazione un esempio. Supponiamo che stiamo cercando di determinare se i pesi medi delle caramelle M&M verdi, rosse, blu e arancioni sono diversi l'uno dall'altro. Indicheremo i pesi medi per ciascuna di queste popolazioni, μ1, μ2, μ3 μ4 e rispettivamente. Possiamo usare il test di ipotesi appropriato più volte e test C (4,2) o sei diverse ipotesi null:
Ci sono molti problemi con questo tipo di analisi. Ne avremo sei p-valori. Anche se possiamo testare ciascuno con un livello di confidenza del 95%, la nostra fiducia nel processo complessivo è inferiore a questa perché le probabilità si moltiplicano: .95 x .95 x .95 x .95 x .95 x .95 è circa .74, o un livello di fiducia del 74%. Pertanto, la probabilità di un errore di tipo I è aumentata.
A un livello più fondamentale, non possiamo confrontare questi quattro parametri nel loro insieme confrontandoli due alla volta. Le medie delle M & M rosse e blu possono essere significative, con il peso medio del rosso relativamente più grande del peso medio del blu. Tuttavia, se consideriamo i pesi medi di tutti e quattro i tipi di caramelle, potrebbe non esserci una differenza significativa.
Per far fronte a situazioni in cui è necessario effettuare confronti multipli, utilizziamo ANOVA. Questo test ci consente di considerare i parametri di più popolazioni contemporaneamente, senza entrare in alcuni dei problemi che ci si presentano conducendo test di ipotesi su due parametri alla volta.
Per condurre ANOVA con l'esempio M&M sopra, verificheremmo l'ipotesi nulla H0: μ1 = μ2 = μ3= μ4. Ciò afferma che non vi è alcuna differenza tra i pesi medi delle M & M rosse, blu e verdi. L'ipotesi alternativa è che vi sia una certa differenza tra i pesi medi delle M & M rosse, blu, verdi e arancioni. Questa ipotesi è in realtà una combinazione di diverse affermazioni Hun':
In questo caso particolare, al fine di ottenere il nostro valore p, utilizzeremmo una distribuzione di probabilità nota come distribuzione F. I calcoli che prevedono il test ANOVA F possono essere eseguiti a mano, ma in genere vengono calcolati con software statistico.
Ciò che separa ANOVA da altre tecniche statistiche è che viene utilizzato per effettuare confronti multipli. Questo è comune in tutte le statistiche, poiché ci sono molte volte in cui vogliamo confrontare più di due soli gruppi. Tipicamente un test generale suggerisce che esiste una sorta di differenza tra i parametri che stiamo studiando. Seguiamo quindi questo test con qualche altra analisi per decidere quale parametro differisce.