Il calcolo di una varianza del campione o deviazione standard è generalmente indicato come una frazione. Il numeratore di questa frazione comporta una somma di deviazioni quadrate dalla media. In statistica, la formula per questa somma totale di quadrati è
Σ (xio - X)2
Qui il simbolo x̄ si riferisce alla media del campione e il simbolo Σ ci dice di sommare le differenze quadrate (xio - x̄) per tutti io.
Mentre questa formula funziona per i calcoli, esiste una formula equivalente di scelta rapida che non richiede di calcolare prima la media del campione. Questa formula di scelta rapida per la somma dei quadrati è
Σ (xio2) - (Σ xio)2/n
Ecco la variabile n si riferisce al numero di punti dati nel nostro campione.
Per vedere come funziona questa formula di collegamento, considereremo un esempio che viene calcolato usando entrambe le formule. Supponiamo che il nostro campione sia 2, 4, 6, 8. La media del campione è (2 + 4 + 6 + 8) / 4 = 20/4 = 5. Ora calcoliamo la differenza di ciascun punto dati con la media 5.
Ora quadriamo ciascuno di questi numeri e li sommiamo. (-3)2 + (-1)2 + 12 + 32 = 9 + 1 + 1 + 9 = 20.
Ora useremo lo stesso set di dati: 2, 4, 6, 8, con la formula di scelta rapida per determinare la somma dei quadrati. Per prima cosa quadriamo ogni punto dati e li sommiamo insieme: 22 + 42 + 62 + 82 = 4 + 16 + 36 + 64 = 120.
Il prossimo passo è sommare tutti i dati e quadrare questa somma: (2 + 4 + 6 + 8)2 = 400. Dividiamo questo per il numero di punti dati per ottenere 400/4 = 100.
Ora sottraggiamo questo numero da 120. Questo ci dà che la somma delle deviazioni quadrate è 20. Questo era esattamente il numero che abbiamo già trovato dall'altra formula.
Molte persone accettano semplicemente la formula al valore nominale e non hanno idea del perché questa formula funzioni. Usando un po 'di algebra, possiamo capire perché questa formula di scelta rapida è equivalente al modo tradizionale standard di calcolare la somma delle deviazioni quadrate.
Sebbene ci possano essere centinaia, se non migliaia di valori in un set di dati del mondo reale, assumeremo che ci siano solo tre valori di dati: x1 , X2, X3. Quello che vediamo qui potrebbe essere espanso in un set di dati che ha migliaia di punti.
Iniziamo osservando che (x1 + X2 + X3) = 3 x̄. L'espressione Σ (xio - X)2 = (x1 - X)2 + (X2 - X)2 + (X3 - X)2.