Che cos'è uno scatterplot?

Uno degli obiettivi della statistica è l'organizzazione e la visualizzazione dei dati. Molte volte un modo per farlo è usare un grafico, un grafico o una tabella. Quando si lavora con dati associati, un utile tipo di grafico è un diagramma a dispersione. Questo tipo di grafico ci consente di esplorare facilmente ed efficacemente i nostri dati esaminando una dispersione di punti nel piano.

Dati associati

Vale la pena sottolineare che un grafico a dispersione è un tipo di grafico utilizzato per i dati associati. Questo è un tipo di set di dati in cui a ciascuno dei nostri punti dati sono associati due numeri. Esempi comuni di tali accoppiamenti includono:

Una misurazione prima e dopo un trattamento. Ciò potrebbe assumere la forma di un'esibizione di uno studente su un pretest e successivamente su un posttest.
Un disegno sperimentale a coppie abbinate. Qui un individuo è nel gruppo di controllo e un altro individuo simile è nel gruppo di trattamento.
Due misurazioni dallo stesso individuo. Ad esempio, possiamo registrare il peso e l'altezza di 100 persone.

Grafici 2D

La tela bianca con cui inizieremo per il nostro diagramma a dispersione è il sistema di coordinate cartesiane. Questo è anche chiamato il sistema di coordinate rettangolare per il fatto che ogni punto può essere localizzato disegnando un particolare rettangolo. Un sistema di coordinate rettangolare può essere impostato da:

A partire da una linea numerica orizzontale. Questo si chiama il X-asse.
Aggiungi una linea numerica verticale. Interseca il X-asse in modo tale che il punto zero di entrambe le linee si intersechi. Questa seconda riga numerica è chiamata y-asse.
Il punto in cui gli zeri della nostra linea numerica si intersecano si chiama origine.

Ora possiamo tracciare i nostri punti dati. Il primo numero nella nostra coppia è il X-coordinata. È la distanza orizzontale dall'asse y, e quindi anche l'origine. Ci spostiamo a destra per valori positivi di X ea sinistra dell'origine per valori negativi di X.

Il secondo numero nella nostra coppia è il y-coordinata. È la distanza verticale dall'asse x. A partire dal punto originale sul X-asse, spostati verso l'alto per valori positivi di y e giù per valori negativi di y.

La posizione sul nostro grafico viene quindi contrassegnata da un punto. Ripetiamo ripetutamente questo processo per ogni punto nel nostro set di dati. Il risultato è una dispersione di punti, che dà il nome al diagramma a dispersione.

Spiegazione e risposta

Un'importante istruzione che rimane è fare attenzione a quale variabile si trova su quale asse. Se i nostri dati associati sono costituiti da un accoppiamento esplicativo e di risposta, la variabile esplicativa è indicata sull'asse x. Se entrambe le variabili sono considerate esplicative, allora potremmo scegliere quale deve essere tracciata sull'asse x e quale sulla y-asse.

Caratteristiche di un grafico a dispersione

Esistono diverse funzionalità importanti di un diagramma a dispersione. Identificando questi tratti possiamo scoprire ulteriori informazioni sul nostro set di dati. Queste funzionalità includono:

La tendenza generale tra le nostre variabili. Mentre leggiamo da sinistra a destra, qual è il quadro generale? Un modello verso l'alto, verso il basso o ciclico?
Eventuali valori anomali rispetto alla tendenza generale. Sono questi valori anomali dal resto dei nostri dati o sono punti influenti?
La forma di ogni tendenza. È lineare, esponenziale, logaritmico o qualcos'altro?
La forza di ogni tendenza. In che misura i dati si adattano al modello generale che abbiamo identificato?

Argomenti correlati

I grafici a dispersione che presentano una tendenza lineare possono essere analizzati con le tecniche statistiche di regressione lineare e correlazione. La regressione può essere eseguita per altri tipi di tendenze non lineari.

Scienza