Un grafico a dispersione è un tipo di grafico utilizzato per rappresentare i dati associati. La variabile esplicativa viene tracciata lungo l'asse orizzontale e la variabile di risposta viene rappresentata graficamente lungo l'asse verticale. Uno dei motivi per utilizzare questo tipo di grafico è cercare relazioni tra le variabili.
Il modello di base da cercare in un insieme di dati associati è quello di una linea retta. Attraverso due punti qualsiasi, possiamo tracciare una linea retta. Se ci sono più di due punti nel nostro diagramma a dispersione, la maggior parte delle volte non saremo più in grado di tracciare una linea che attraversi ogni punto. Disegneremo invece una linea che attraversa i punti e visualizza la tendenza lineare globale dei dati.
Mentre osserviamo i punti nel nostro grafico e desideriamo tracciare una linea attraverso questi punti, sorge una domanda. Quale linea dovremmo tracciare? C'è un numero infinito di linee che possono essere disegnate. Usando solo i nostri occhi, è chiaro che ogni persona che guarda il diagramma a dispersione potrebbe produrre una linea leggermente diversa. Questa ambiguità è un problema. Vogliamo avere un modo ben definito per tutti di ottenere la stessa linea. L'obiettivo è avere una descrizione matematicamente precisa di quale linea debba essere tracciata. La linea di regressione dei minimi quadrati è una di queste linee attraverso i nostri punti dati.
Il nome della linea dei minimi quadrati spiega cosa fa. Iniziamo con una raccolta di punti con coordinate fornite da (Xio, yio). Qualsiasi linea retta passerà tra questi punti e andrà sopra o sotto ciascuno di questi. Possiamo calcolare le distanze da questi punti alla linea scegliendo un valore di X e quindi sottraendo l'osservato y coordinata che corrisponde a questo X dal y coordinata della nostra linea.
Linee diverse attraverso lo stesso insieme di punti darebbero un diverso insieme di distanze. Vogliamo che queste distanze siano le più piccole possibili. Ma c'è un problema. Poiché le nostre distanze possono essere positive o negative, la somma totale di tutte queste distanze si annullerà a vicenda. La somma delle distanze sarà sempre uguale a zero.
La soluzione a questo problema è eliminare tutti i numeri negativi quadrando le distanze tra i punti e la linea. Questo dà una raccolta di numeri non negativi. L'obiettivo che abbiamo avuto di trovare una linea della migliore misura è lo stesso di rendere la somma di queste distanze al quadrato il più piccola possibile. Il calcolo viene in soccorso qui. Il processo di differenziazione nel calcolo consente di ridurre al minimo la somma delle distanze quadrate da una determinata linea. Questo spiega la frase "minimi quadrati" nel nostro nome per questa linea.
Poiché la linea dei minimi quadrati minimizza le distanze al quadrato tra la linea e i nostri punti, possiamo pensare a questa linea come a quella che meglio si adatta ai nostri dati. Questo è il motivo per cui la linea dei minimi quadrati è anche conosciuta come la linea della migliore misura. Di tutte le possibili linee che è possibile disegnare, la linea dei minimi quadrati è la più vicina all'insieme di dati nel suo insieme. Ciò può significare che la nostra linea mancherà di colpire uno qualsiasi dei punti nella nostra serie di dati.
Ci sono alcune caratteristiche che ogni linea dei minimi quadrati possiede. Il primo elemento di interesse riguarda la pendenza della nostra linea. La pendenza ha una connessione al coefficiente di correlazione dei nostri dati. In effetti, la pendenza della linea è uguale a r (sy/SX). Qui S X indica la deviazione standard di X coordinate e S y la deviazione standard di y coordinate dei nostri dati. Il segno del coefficiente di correlazione è direttamente correlato al segno della pendenza della nostra linea dei minimi quadrati.
Un'altra caratteristica della linea dei minimi quadrati riguarda un punto che attraversa. Mentre il y l'intercettazione di una linea dei minimi quadrati potrebbe non essere interessante da un punto di vista statistico, c'è un punto che è. Ogni riga dei minimi quadrati passa attraverso il punto centrale dei dati. Questo punto centrale ha un X coordinata che è la media di X valori e a y coordinata che è la media di y valori.