La regressione lineare è uno strumento statistico che determina in che misura una linea retta si adatta a un insieme di dati associati. La linea retta che meglio si adatta a quei dati è chiamata la linea di regressione dei minimi quadrati. Questa linea può essere utilizzata in vari modi. Uno di questi usi è stimare il valore di una variabile di risposta per un dato valore di una variabile esplicativa. Legata a questa idea è quella di un residuo.
I residui si ottengono eseguendo la sottrazione. Tutto quello che dobbiamo fare è sottrarre il valore previsto di y dal valore osservato di y per un particolare X. Il risultato è chiamato residuo.
La formula per i residui è semplice:
Residuo = osservato y - previsto y
È importante notare che il valore previsto deriva dalla nostra linea di regressione. Il valore osservato proviene dal nostro set di dati.
Illustreremo l'uso di questa formula usando un esempio. Supponiamo che ci venga fornito il seguente set di dati associati:
(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)
Usando il software possiamo vedere che la linea di regressione dei minimi quadrati è y = 2X. Useremo questo per prevedere i valori per ciascun valore di X.
Ad esempio, quando X = 5 vediamo che 2 (5) = 10. Questo ci dà il punto lungo la nostra linea di regressione che ha un X coordinata di 5.
Per calcolare il residuo nei punti X = 5, sottraggiamo il valore previsto dal nostro valore osservato. Dal momento che il y la coordinata del nostro punto dati era 9, questo dà un residuo di 9 - 10 = -1.
Nella tabella seguente vediamo come calcolare tutti i nostri residui per questo set di dati:
X | Osservato y | Previsto y | Residuo |
1 | 2 | 2 | 0 |
2 | 3 | 4 | -1 |
3 | 7 | 6 | 1 |
3 | 6 | 6 | 0 |
4 | 9 | 8 | 1 |
5 | 9 | 10 | -1 |
Ora che abbiamo visto un esempio, ci sono alcune caratteristiche dei residui da notare:
Esistono diversi usi per i residui. Un uso è aiutarci a determinare se disponiamo di un set di dati che ha un andamento lineare globale o se dovremmo considerare un modello diverso. La ragione di ciò è che i residui aiutano ad amplificare qualsiasi modello non lineare nei nostri dati. Ciò che può essere difficile da vedere guardando un diagramma a dispersione può essere più facilmente osservato esaminando i residui e un corrispondente diagramma residuo.
Un altro motivo per considerare i residui è verificare che siano soddisfatte le condizioni per l'inferenza per la regressione lineare. Dopo la verifica di un andamento lineare (controllando i residui), controlliamo anche la distribuzione dei residui. Per poter eseguire l'inferenza di regressione, vogliamo che i residui della nostra linea di regressione siano distribuiti approssimativamente normalmente. Un istogramma o uno stemplot dei residui aiuterà a verificare che questa condizione è stata soddisfatta.