A volte i dati numerici vengono forniti in coppia. Forse un paleontologo misura la lunghezza del femore (osso della gamba) e dell'omero (osso del braccio) in cinque fossili della stessa specie di dinosauro. Potrebbe avere senso considerare le lunghezze del braccio separatamente dalle lunghezze delle gambe e calcolare cose come la media o la deviazione standard. Ma cosa succede se il ricercatore è curioso di sapere se esiste una relazione tra queste due misurazioni? Non è sufficiente guardare le braccia separatamente dalle gambe. Invece, il paleontologo dovrebbe accoppiare le lunghezze delle ossa per ogni scheletro e utilizzare un'area di statistiche nota come correlazione.
Cos'è la correlazione? Nell'esempio precedente supponiamo che il ricercatore abbia studiato i dati e abbia raggiunto il risultato non molto sorprendente che i fossili di dinosauro con le braccia più lunghe avessero anche le gambe più lunghe, e i fossili con le braccia più corte avessero le gambe più corte. Un grafico a dispersione dei dati ha mostrato che i punti di dati erano tutti raggruppati vicino a una linea retta. Il ricercatore direbbe quindi che esiste una forte relazione retta, o correlazione, tra le lunghezze delle ossa del braccio e le ossa delle gambe dei fossili. Richiede altro lavoro per dire quanto sia forte la correlazione.
Poiché ogni punto dati rappresenta due numeri, un grafico a dispersione bidimensionale è di grande aiuto nella visualizzazione dei dati. Supponiamo che in realtà abbiamo le mani sui dati dei dinosauri e che i cinque fossili abbiano le seguenti misurazioni:
Un diagramma a dispersione dei dati, con misurazione del femore in direzione orizzontale e misurazione dell'omero in direzione verticale, produce il grafico sopra. Ogni punto rappresenta le misure di uno degli scheletri. Ad esempio, il punto in basso a sinistra corrisponde allo scheletro n. 1. Il punto in alto a destra è lo scheletro n. 5.
Sembra certamente che potremmo tracciare una linea retta che sia molto vicina a tutti i punti. Ma come possiamo dirlo con certezza? La vicinanza è negli occhi di chi guarda. Come facciamo a sapere che le nostre definizioni di "vicinanza" corrispondono a qualcun altro? Esiste un modo per quantificare questa vicinanza?
Per misurare oggettivamente la vicinanza dei dati a una linea retta, il coefficiente di correlazione viene in soccorso. Il coefficiente di correlazione, tipicamente indicato r, è un numero reale compreso tra -1 e 1. Il valore di r misura la forza di una correlazione basata su una formula, eliminando qualsiasi soggettività nel processo. Esistono diverse linee guida da tenere a mente nell'interpretazione del valore di r.
La formula per il coefficiente di correlazione r è complicato, come si può vedere qui. Gli ingredienti della formula sono le medie e le deviazioni standard di entrambe le serie di dati numerici, nonché il numero di punti dati. Per la maggior parte delle applicazioni pratiche r è noioso calcolare a mano. Se i nostri dati sono stati inseriti in un programma di calcolatrice o foglio di calcolo con comandi statistici, di solito c'è una funzione integrata per calcolare r.
Sebbene la correlazione sia uno strumento potente, ci sono alcune limitazioni nel suo utilizzo: