Ci sono molte domande da porre quando si guarda un diagramma a dispersione. Uno dei più comuni è quanto una linea retta approssima i dati? Per aiutare a rispondere a questo c'è una statistica descrittiva chiamata coefficiente di correlazione. Vedremo come calcolare questa statistica.
Il coefficiente di correlazione, indicato da r ci dice in che misura i dati in un diagramma a dispersione cadono lungo una linea retta. Più è vicino il valore assoluto di r è uno, meglio è che i dati sono descritti da un'equazione lineare. Se r = 1 o r = -1 quindi il set di dati è perfettamente allineato. Set di dati con valori di r vicino a zero mostra una relazione lineare da piccola a nulla.
A causa dei lunghi calcoli, è meglio calcolare r con l'uso di una calcolatrice o di un software statistico. Tuttavia, è sempre utile cercare di capire cosa sta facendo la calcolatrice durante il calcolo. Quello che segue è un processo per il calcolo del coefficiente di correlazione principalmente a mano, con un calcolatore utilizzato per le fasi aritmetiche di routine.
Inizieremo elencando i passaggi per il calcolo del coefficiente di correlazione. I dati con cui stiamo lavorando sono dati accoppiati, ciascuna delle quali sarà indicata da (Xio,yio).
Questo processo non è difficile e ogni passaggio è abbastanza di routine, ma la raccolta di tutti questi passaggi è piuttosto complicata. Il calcolo della deviazione standard è abbastanza noioso da solo. Ma il calcolo del coefficiente di correlazione comporta non solo due deviazioni standard, ma una moltitudine di altre operazioni.
Per vedere esattamente come il valore di r si ottiene guardiamo un esempio. Ancora una volta, è importante notare che per applicazioni pratiche vorremmo usare la nostra calcolatrice o software statistico per calcolare r per noi.
Iniziamo con un elenco di dati associati: (1, 1), (2, 3), (4, 5), (5,7). La media di X valori, la media di 1, 2, 4 e 5 è x̄ = 3. Abbiamo anche che ȳ = 4. La deviazione standard del X i valori sono SX = 1,83 e Sy = 2,58. La tabella seguente riassume gli altri calcoli necessari per r. La somma dei prodotti nella colonna più a destra è 2.969848. Poiché ci sono un totale di quattro punti e 4 - 1 = 3, dividiamo la somma dei prodotti per 3. Questo ci dà un coefficiente di correlazione di r = 2.969848 / 3 = 0.989949.
X | y | zX | zy | zXzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1,161,894958 millions | 1,272,792057 millions |
2 | 3 | -,547,722515 millions | -,387,298319 millions | ,212,132009 millions |
4 | 5 | ,547,722515 millions | ,387,298319 millions | ,212,132009 millions |
5 | 7 | 1.09544503 | 1,161,894958 millions | 1,272,792057 millions |