Il test delle corse per sequenze casuali

Data una sequenza di dati, una domanda che potremmo chiederci è se la sequenza si è verificata per caso o se i dati non sono casuali. La casualità è difficile da identificare, in quanto è molto difficile semplicemente guardare i dati e determinare se sono stati prodotti solo per caso. Un metodo che può essere utilizzato per aiutare a determinare se una sequenza realmente avvenuta per caso è chiamato test delle esecuzioni.

Il test delle corse è un test di significatività o test di ipotesi. La procedura per questo test si basa su un'esecuzione, o una sequenza, di dati che presentano un tratto particolare. Per capire come funziona il test delle corse, dobbiamo prima esaminare il concetto di corsa.

Sequenze di dati

Inizieremo guardando un esempio di piste. Considera la seguente sequenza di cifre casuali:

6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5

Un modo per classificare queste cifre è dividerle in due categorie, sia pari (comprese le cifre 0, 2, 4, 6 e 8) o dispari (comprese le cifre 1, 3, 5, 7 e 9). Esamineremo la sequenza di cifre casuali e indicheremo i numeri pari come E e i numeri dispari come O:

E E O E E O O E O E E E E E O O E E O O

Le corse sono più facili da vedere se lo riscriviamo in modo che tutti gli O siano insieme e tutti gli Es siano insieme:

EE O EE OO E O EEEEE O EE OO

Contiamo il numero di blocchi di numeri pari o dispari e vediamo che ci sono un totale di dieci esecuzioni per i dati. Quattro piste hanno lunghezza uno, cinque hanno lunghezza due e una ha lunghezza cinque

condizioni

Con qualsiasi test di significato, è importante sapere quali condizioni sono necessarie per condurre il test. Per il test delle esecuzioni, saremo in grado di classificare ciascun valore di dati dal campione in una di due categorie. Conteremo il numero totale di esecuzioni rispetto al numero del numero di valori di dati che rientrano in ciascuna categoria.

Il test sarà un test a due facciate. La ragione di ciò è che un numero troppo basso di esecuzioni indica che probabilmente non vi sono variazioni sufficienti e il numero di esecuzioni che si verificherebbero da un processo casuale. Se il processo si alterna tra le categorie troppo frequentemente per essere descritto per caso, si avranno troppe esecuzioni.

Ipotesi e valori-P

Ogni test di significatività ha un'ipotesi nulla e alternativa. Per il test delle esecuzioni, l'ipotesi nulla è che la sequenza sia una sequenza casuale. L'ipotesi alternativa è che la sequenza dei dati del campione non sia casuale.

Il software statistico può calcolare il valore p che corrisponde a una particolare statistica di test. Esistono anche tabelle che forniscono numeri critici a un certo livello di significatività per il numero totale di esecuzioni.

Esegue un esempio di test

Esamineremo il seguente esempio per vedere come funziona il test delle esecuzioni. Supponiamo che per un compito venga chiesto a uno studente di lanciare una moneta 16 volte e prendere nota dell'ordine delle teste e delle code che è apparso. Se finiamo con questo set di dati:

H T H H H T T H T T H T H T H H

Potremmo chiederci se lo studente ha effettivamente svolto i compiti, o ha imbrogliato e scritto una serie di H e T che sembrano casuali? Il test delle esecuzioni può aiutarci. I presupposti sono soddisfatti per il test delle esecuzioni poiché i dati possono essere classificati in due gruppi, come testa o coda. Continuiamo contando il numero di corse. Raggruppamento, vediamo quanto segue:

H T HHH TT H TT H T H T HH

Esistono dieci esecuzioni per i nostri dati con sette code di nove teste.

L'ipotesi nulla è che i dati siano casuali. L'alternativa è che non è casuale. Per un livello di significatività di alfa pari a 0,05, consultando la tabella appropriata, rifiutiamo l'ipotesi nulla quando il numero di esecuzioni è inferiore a 4 o maggiore di 16. Dato che ci sono dieci esecuzioni nei nostri dati, falliamo rifiutare l'ipotesi nulla H0.

Approssimazione normale

Il test delle esecuzioni è uno strumento utile per determinare se è probabile che una sequenza sia casuale o meno. Per un set di dati di grandi dimensioni, a volte è possibile utilizzare un'approssimazione normale. Questa approssimazione normale richiede di utilizzare il numero di elementi in ciascuna categoria e quindi di calcolare la media e la deviazione standard della distribuzione normale appropriata.