A volte nelle statistiche, è utile vedere esempi risolti di problemi. Questi esempi possono aiutarci a capire problemi simili. In questo articolo, esamineremo il processo di conduzione di statistiche inferenziali per un risultato riguardante due mezzi di popolazione. Non solo vedremo come condurre un test di ipotesi sulla differenza tra due mezzi della popolazione, ma costruiremo anche un intervallo di confidenza per questa differenza. I metodi che utilizziamo sono talvolta chiamati test a due campioni e intervallo di confidenza a due campioni.
Supponiamo di voler testare l'attitudine matematica dei bambini delle scuole elementari. Una domanda che potremmo avere è se i livelli più alti hanno punteggi dei test medi più alti.
Un semplice campione casuale di 27 alunni di terza elementare viene sottoposto a un test di matematica, le loro risposte vengono valutate e si ottiene che i risultati hanno un punteggio medio di 75 punti con una deviazione standard del campione di 3 punti.
Un semplice campione casuale di 20 alunni di quinta elementare riceve lo stesso test di matematica e le loro risposte vengono valutate. Il punteggio medio per la quinta elementare è di 84 punti con una deviazione standard del campione di 5 punti.
Dato questo scenario, poniamo le seguenti domande:
Dobbiamo selezionare quale procedura utilizzare. Nel fare ciò, dobbiamo accertarci e verificare che siano state soddisfatte le condizioni per questa procedura. Ci viene chiesto di confrontare due mezzi di popolazione. Una raccolta di metodi che possono essere utilizzati per fare questo sono quelli per le procedure T a due campioni.
Per utilizzare queste procedure t per due campioni, è necessario assicurarsi che le seguenti condizioni siano valide:
Vediamo che la maggior parte di queste condizioni sono soddisfatte. Ci è stato detto che abbiamo semplici campioni casuali. Le popolazioni che stiamo studiando sono grandi in quanto ci sono milioni di studenti in questi livelli scolastici.
La condizione che non siamo in grado di assumere automaticamente è se i punteggi dei test sono normalmente distribuiti. Dato che abbiamo una dimensione del campione abbastanza grande, per la solidità delle nostre procedure a T non abbiamo necessariamente bisogno che la variabile sia normalmente distribuita.
Poiché le condizioni sono soddisfatte, eseguiamo un paio di calcoli preliminari.
L'errore standard è una stima di una deviazione standard. Per questa statistica, aggiungiamo la varianza del campione dei campioni e quindi prendiamo la radice quadrata. Questo dà la formula:
(S1 2 / n1 + S22 / n2)1/2
Usando i valori sopra, vediamo che il valore dell'errore standard è