Calcolo del coefficiente di correlazione

Ci sono molte domande da porre quando si guarda un diagramma a dispersione. Uno dei più comuni è quanto una linea retta approssima i dati? Per aiutare a rispondere a questo c'è una statistica descrittiva chiamata coefficiente di correlazione. Vedremo come calcolare questa statistica.

Il coefficiente di correlazione

Il coefficiente di correlazione, indicato da r ci dice in che misura i dati in un diagramma a dispersione cadono lungo una linea retta. Più è vicino il valore assoluto di r è uno, meglio è che i dati sono descritti da un'equazione lineare. Se r = 1 o r = -1 quindi il set di dati è perfettamente allineato. Set di dati con valori di r vicino a zero mostra una relazione lineare da piccola a nulla.

A causa dei lunghi calcoli, è meglio calcolare r con l'uso di una calcolatrice o di un software statistico. Tuttavia, è sempre utile cercare di capire cosa sta facendo la calcolatrice durante il calcolo. Quello che segue è un processo per il calcolo del coefficiente di correlazione principalmente a mano, con un calcolatore utilizzato per le fasi aritmetiche di routine.

Passaggi per il calcolo r

Inizieremo elencando i passaggi per il calcolo del coefficiente di correlazione. I dati con cui stiamo lavorando sono dati accoppiati, ciascuna delle quali sarà indicata da (Xio,yio).

  1. Iniziamo con alcuni calcoli preliminari. Le quantità di questi calcoli verranno utilizzate nelle fasi successive del nostro calcolo di r:
    1. Calcola x̄, la media di tutte le prime coordinate dei dati Xio.
    2. Calcola ȳ, la media di tutte le seconde coordinate dei dati yio.
    3. Calcolare S X la deviazione standard del campione di tutte le prime coordinate dei dati Xio.
    4. Calcolare S y la deviazione standard del campione di tutte le seconde coordinate dei dati yio.
  2. Usa la formula (zX)io = (Xio - X) / S X e calcolare un valore standardizzato per ciascuno Xio.
  3. Usa la formula (zy)io = (yio - ȳ) / S y e calcolare un valore standardizzato per ciascuno yio.
  4. Moltiplicare i valori standardizzati corrispondenti: (zX)io(zy)io
  5. Aggiungi i prodotti dall'ultimo passaggio insieme.
  6. Dividi la somma dal passaggio precedente per n - 1, dove n è il numero totale di punti nella nostra serie di dati associati. Il risultato di tutto ciò è il coefficiente di correlazione r.

Questo processo non è difficile e ogni passaggio è abbastanza di routine, ma la raccolta di tutti questi passaggi è piuttosto complicata. Il calcolo della deviazione standard è abbastanza noioso da solo. Ma il calcolo del coefficiente di correlazione comporta non solo due deviazioni standard, ma una moltitudine di altre operazioni.

Un esempio

Per vedere esattamente come il valore di r si ottiene guardiamo un esempio. Ancora una volta, è importante notare che per applicazioni pratiche vorremmo usare la nostra calcolatrice o software statistico per calcolare r per noi.

Iniziamo con un elenco di dati associati: (1, 1), (2, 3), (4, 5), (5,7). La media di X valori, la media di 1, 2, 4 e 5 è x̄ = 3. Abbiamo anche che ȳ = 4. La deviazione standard del X i valori sono SX = 1,83 e Sy = 2,58. La tabella seguente riassume gli altri calcoli necessari per r. La somma dei prodotti nella colonna più a destra è 2.969848. Poiché ci sono un totale di quattro punti e 4 - 1 = 3, dividiamo la somma dei prodotti per 3. Questo ci dà un coefficiente di correlazione di r = 2.969848 / 3 = 0.989949.

Tabella per esempi di calcolo del coefficiente di correlazione

X y zX zy zXzy
1 1 -1.09544503 -1,161,894958 millions 1,272,792057 millions
2 3 -,547,722515 millions -,387,298319 millions ,212,132009 millions
4 5 ,547,722515 millions ,387,298319 millions ,212,132009 millions
5 7 1.09544503 1,161,894958 millions 1,272,792057 millions