Molte volte nello studio delle statistiche è importante stabilire connessioni tra diversi argomenti. Vedremo un esempio di questo, in cui la pendenza della linea di regressione è direttamente correlata al coefficiente di correlazione. Dato che entrambi questi concetti implicano linee rette, è naturale porre la domanda "In che modo sono correlati il coefficiente di correlazione e la linea meno quadrata?"
Innanzitutto, esamineremo alcuni retroscena su entrambi questi argomenti.
È importante ricordare i dettagli relativi al coefficiente di correlazione, che è indicato da r. Questa statistica viene utilizzata quando abbiamo associato dati quantitativi. Da un diagramma a dispersione di questi dati accoppiati, possiamo cercare tendenze nella distribuzione complessiva dei dati. Alcuni dati associati mostrano uno schema lineare o lineare. Ma in pratica, i dati non cadono mai esattamente lungo una linea retta.
Diverse persone che osservano lo stesso grafico a dispersione di dati accoppiati non sarebbero d'accordo su quanto fosse vicino a mostrare una tendenza lineare globale. Dopotutto, i nostri criteri per questo possono essere in qualche modo soggettivi. La scala che utilizziamo potrebbe anche influenzare la nostra percezione dei dati. Per questi e altri motivi abbiamo bisogno di una sorta di misura oggettiva per dire quanto i nostri dati associati siano vicini all'essere lineari. Il coefficiente di correlazione raggiunge questo per noi.
Alcuni fatti di base su r includere:
Gli ultimi due elementi nell'elenco sopra ci indicano la pendenza della linea dei minimi quadrati della migliore misura. Ricorda che la pendenza di una linea è una misura di quante unità sale o scende per ogni unità che spostiamo verso destra. A volte questo viene indicato come aumento della linea diviso per la corsa o cambiamento y valori divisi per la modifica in X valori.
In generale, le linee rette hanno pendenze positive, negative o zero. Se dovessimo esaminare le nostre linee di regressione meno quadrate e confrontare i corrispondenti valori di r, noteremo che ogni volta che i nostri dati hanno un coefficiente di correlazione negativo, la pendenza della linea di regressione è negativa. Allo stesso modo, per ogni volta che abbiamo un coefficiente di correlazione positivo, la pendenza della linea di regressione è positiva.
Da questa osservazione dovrebbe essere evidente che esiste sicuramente una connessione tra il segno del coefficiente di correlazione e la pendenza della linea dei minimi quadrati. Resta da spiegare perché questo è vero.
Il motivo della connessione tra il valore di r e la pendenza della linea dei minimi quadrati ha a che fare con la formula che ci dà la pendenza di questa linea. Per i dati associati (x, y) denotiamo la deviazione standard di X dati di SX e la deviazione standard di y dati di Sy.
La formula per la pendenza un' della linea di regressione è:
Il calcolo di una deviazione standard implica il rilevamento della radice quadrata positiva di un numero non negativo. Di conseguenza, entrambe le deviazioni standard nella formula per la pendenza devono essere non negative. Se assumiamo che ci sia qualche variazione nei nostri dati, saremo in grado di ignorare la possibilità che una di queste deviazioni standard sia zero. Pertanto il segno del coefficiente di correlazione sarà lo stesso del segno della pendenza della linea di regressione.