Uno dei molti modi in cui le variabili nelle statistiche possono essere classificate è quello di considerare le differenze tra variabili esplicative e di risposta. Sebbene queste variabili siano correlate, vi sono importanti distinzioni tra loro. Dopo aver definito questi tipi di variabili, vedremo che la corretta identificazione di queste variabili ha un'influenza diretta su altri aspetti della statistica, come la costruzione di un diagramma a dispersione e la pendenza di una linea di regressione.
Iniziamo esaminando le definizioni di questi tipi di variabili. Una variabile di risposta è una quantità particolare di cui facciamo una domanda nel nostro studio. Una variabile esplicativa è qualsiasi fattore che può influenzare la variabile di risposta. Mentre ci possono essere molte variabili esplicative, ci occuperemo principalmente di una singola variabile esplicativa.
Una variabile di risposta potrebbe non essere presente in uno studio. La denominazione di questo tipo di variabile dipende dalle domande che vengono poste da un ricercatore. La conduzione di uno studio osservazionale sarebbe un esempio di un'istanza in cui non esiste una variabile di risposta. Un esperimento avrà una variabile di risposta. L'attenta progettazione di un esperimento cerca di stabilire che i cambiamenti in una variabile di risposta sono direttamente causati da cambiamenti nelle variabili esplicative.
Per esplorare questi concetti esamineremo alcuni esempi. Per il primo esempio, supponiamo che un ricercatore sia interessato a studiare l'umore e gli atteggiamenti di un gruppo di studenti universitari del primo anno. A tutti gli studenti del primo anno vengono poste una serie di domande. Queste domande hanno lo scopo di valutare il grado di nostalgia di uno studente. Gli studenti indicano anche nel sondaggio quanto è lontano il loro college da casa.
Un ricercatore che esamina questi dati potrebbe essere interessato solo ai tipi di risposte degli studenti. Forse la ragione di ciò è avere un senso generale della composizione di una nuova matricola. In questo caso, non esiste una variabile di risposta. Questo perché nessuno sta vedendo se il valore di una variabile influenza il valore di un'altra.
Un altro ricercatore potrebbe utilizzare gli stessi dati per tentare di rispondere se gli studenti provenienti da più lontano avessero un maggiore grado di nostalgia di casa. In questo caso, i dati relativi alle domande sulla nostalgia di casa sono i valori di una variabile di risposta e i dati che indicano la distanza da casa formano la variabile esplicativa.
Per il secondo esempio potremmo essere curiosi di sapere se il numero di ore trascorse a fare i compiti ha un effetto sul voto che uno studente guadagna durante un esame. In questo caso, poiché stiamo mostrando che il valore di una variabile cambia il valore di un'altra, c'è una variabile esplicativa e una risposta. Il numero di ore studiate è la variabile esplicativa e il punteggio sul test è la variabile di risposta.
Quando stiamo lavorando con dati quantitativi associati, è opportuno utilizzare un diagramma a dispersione. Lo scopo di questo tipo di grafico è dimostrare relazioni e tendenze all'interno dei dati associati. Non è necessario disporre di una variabile esplicativa e di risposta. Se questo è il caso, allora entrambe le variabili possono essere tracciate lungo entrambi gli assi. Tuttavia, nel caso in cui vi sia una risposta e una variabile esplicativa, la variabile esplicativa viene sempre tracciata lungo il X o asse orizzontale di un sistema di coordinate cartesiane. La variabile di risposta viene quindi tracciata lungo il y asse.
La distinzione tra variabili esplicative e variabili di risposta è simile a un'altra classificazione. A volte ci riferiamo alle variabili come indipendenti o dipendenti. Il valore di una variabile dipendente si basa su quello di una variabile indipendente. Pertanto una variabile di risposta corrisponde a una variabile dipendente mentre una variabile esplicativa corrisponde a una variabile indipendente. Questa terminologia in genere non viene utilizzata nelle statistiche perché la variabile esplicativa non è veramente indipendente. Invece la variabile assume solo i valori osservati. Potremmo non avere alcun controllo sui valori di una variabile esplicativa.