Quali informazioni sintetizzo dalle rette di regressione?

Alcuni commenti su alcuni casi particolari.

$\rho^{2} = 1 \Rightarrow$ $X$ e $Y$ hanno la massima correlazione, che corrisponde ad una relazione lineare tra $X$ e $Y$. Cioè il codominio del vettore aleatorio $(X, Y)$ è tutto su una retta. Questo vuol dire che c’è una relazione lineare, cioè che i punti possibili del vettore aleatorio giacciono tutti lungo una retta.

Quindi, se $\rho^{2} = 1$, la retta di regressione coincide con il codominio del vettore aleatorio $(X, Y)$.
Quanto è lecito far passare la retta il più vicino possibile ai punti con alta probabilità? E’ tanto più lecito quanto più $\rho^{2} = 1$ o vicino a 1. Quando $\rho^{2} = 1$ è obbligatorio, che è il caso estremo in cui la retta di regressione si riduce al codominio del vettore aleatorio.

Ho trovato i valori di $\alpha$ e $\beta$ che rendono minima la $\mathbb{P}([Y – \alpha – \beta X]^{2})$.

Ma quanto vale questo minimo?

Sostituisco i valori trovati di $\alpha$ e $\beta$ e ottengo: $ min \mathbb{P}([Y – \alpha – \beta X]^{2}) = \sigma_{2}^{2} (1 – \rho^{2}) \leq \sigma_{2}^{2}$

Il minimo è tanto minore quanto più $\rho$ è vicino a 1 e quanto più è piccola $\sigma_{2}^{2}$, cioè la varianza di $Y$.

Anche questo risultato ha un risvolto intuitivo, perché io ho minimizzato rispetto alle verticali. Quindi, se rispetto alle verticali la varianza è piccola, vuol dire che c’è poca dispersione di questi punti lungo la verticale. Se questi punti sono poco dispersi, cioè più vicini alla retta, è più sperabile, è più probabile, sono più ottimista di farci passare una retta.

Quindi è giusto che il minimo dipenda dalla varianza di $Y$, perché ho minimizzato le distanze rispetto alla $Y$.

Se, invece, minimizzo scambiando il ruolo di $X$ e di $Y$, ritroverò ancora il termine $(1 – \rho^{2})$, perché è simmetrico e, quindi, non dipende dai ruoli di $X$ e di $Y$. Ma dove c’era $\sigma_{2}^{2}$ troverò $\sigma_{1}^{2}$.

Pertanto il discorso appena fatto si ripete pari, pari per la varianza di $X$. Se i punti sono poco dispersi rispetto alla componente $X$, c’è più speranza che io riesca a far passare abbastanza bene la retta fra quei punti.

Quindi, per la retta di regressione di $X$ su $Y$ (ottenuta scambiando 1 con 2) trovo che: $X = \alpha_{2} + \beta_{12} Y$ è la retta di regressione di $X$ su $Y$, con $\beta_{12} = \frac{\rho \sigma_{1}}{\sigma_{2}}$ e $\alpha_{2} = m_{1} – \frac{\rho \sigma_{1} m_{2}}{\sigma_{2}}$.

Riepilogando, abbiamo due rette con cui possiamo cercare di “acchiappare” questa nuvola di punti:
la retta di regressione di $Y$ su $X$ e la retta di regressione di $X$ su $Y$.

Allora meno queste due rette sono ortogonali e più la situazione è buona, perché quando le due rette coincidono torno al caso $\rho^{2} = 1$, cioè che tra $X$ e $Y$ c’è proprio una relazione lineare.
Invece, se le due rette sono ortogonali, vuol dire che i punti sono sparpargliati nel massimo modo.

Questi discorsi così alla buona, si possono codificare come segue.

1) Entrambe le rette di regressione passano per il punto $(m_{1}, m_{2})$. Infatti, basta prendere le due equazioni $Y = \alpha_{1}+ \beta_{21} X$ e $X = \alpha_{2}+ \beta_{12} Y$ e sostituire le coordinate del punto $(m_{1}, m_{2})$. Si potrebbe dire che le due rette di regressione passano per il centro di massa della distribuzione di masse nel piano $\mathbb{R}^{2}$.

$m_{1}$ è la previsione della marginale rispetto a $X$;
$m_{2}$ è la previsione della marginale rispetto a $Y$;
le probabilità dei punti sul piano $\mathbb{R}^{2}$ posso vederle come una distribuzione di masse su $\mathbb{R}^{2}$.

Quindi il punto $(m_{1}, m_{2})$ si può vedere come il centro di massa su $\mathbb{R}^{2}$ di questa distribuzione di masse (= probabilità).

2) $\rho = 0 \Rightarrow$ le due rette di regressione sono ortogonali.

Anche qui basta porre $\rho = 0$ nelle equazioni $Y = \alpha_{1}+ \beta_{21} X$ e $X = \alpha_{2}+ \beta_{12} Y$, per verificarlo.

Inoltre, per $\rho = 0$ ho il massimo valore del minimo della previsione: $min \mathbb{P}([Y – \alpha – \beta X]^{2}) = \sigma_{2}^{2} (1 – \rho^{2}) = \sigma_{2}^{2}$, per $\rho = 0$.

Quindi $\rho = 0$ è la peggiore situazione possibile nella minimizzazione della previsione delle distanze al quadrato.

$\rho = 0$ è la massima mancanza di legame tra $X$ e $Y$ (le due componenti del vettore aleatorio), che può addirittura arrivare all’indipendenza stocastica tra le due variabili.

Se $X$ e $Y$ sono stocasticamente indipendenti, $cov(X, Y) = 0$. Se $cov(X, Y) = 0$, $X$ e $Y$ sono debolmente indipendenti, anche se non stocasticamente indipendenti.

Quindi per $\rho = 0$ le due rette di regressione sono ortogonali e parallele agli assi coordinati: $Y = \alpha_{1} = m_{2}$ e $X = \alpha_{2} = m_{1}$.

3) $\rho = 1 \Rightarrow$ le due rette di regressione coincidono e i punti della retta sono il codominio del vettore aleatorio $(X, Y)$.

Vediamo come le rette di regressione possono essere un’efficace sintesi di una distribuzione di probabilità congiunta bidimensionale.

Esercizio.

Invece di darmi la $c(X, Y)$ – densità o probabilità a seconda se sono nel caso continuo o discreto – mi dànno le rette di regressione. C’è una distribuzione di probabilità sul piano e so che:

la retta di regressione di $Y$ su $X$ è: $3X + 2Y – 26 = 0$

l’altra retta di regressione di $X$ su $Y$ è: $6X + Y -31 = 0$.

Come sono fatte le due rette? Intanto hanno un coefficiente angolare negativo.

Si presume che ci siano delle osservazioni possibili del vettore $(X, Y)$, che io ho cercato di catturare con una retta, anzi con due.

Non mi viene data la distribuzione congiunta $c(X, Y)$, ma mi vengono date le due rette di regressione riportate nel grafico.

$\rho < 0$, perché dal grafico delle due rette vedo che tra $X$ e $Y$ c’è una correlazione negativa.

Scrivendo le rette nella forma esplicita ho: $Y = \frac{3}{2} X + 13$ e $X = -\frac{1}{6} Y + \frac{31}{6}$

$\Rightarrow \beta_{21} = – \frac{3}{2}$ e $\beta_{12} = – \frac{1}{6}$

$\Rightarrow \alpha_{1} = 13 = m_{2} + \frac{3 m_{1}}{2}$ e $\alpha_{2} = \frac{31}{6} = m_{1} + \frac{m_{2}}{6}$, da cui ricavo: $m_{1} = 4$ e $m_{2} = 7$

Posso anche calcolare $\rho^{2} = \beta_{21} \beta_{12} \Rightarrow \rho = \sqrt{\beta_{21} \beta_{12}} = -\frac{1}{2}$ , che è negativo come osservato dal grafico delle due rette di regressione.

Con le due rette di regressione non sono certo riuscito a ricostruire la distribuzione di probabilità congiunta del vettore aleatorio, però ho molte informazioni sul vettore aleatorio. Ho trovato:

– i valori medi marginali o previsioni marginali $\mathbb{P}(X) = m_{1} = 4$ e $\mathbb{P}(Y) = m_{2} = 7$;

– i rapporti delle varianze da $\beta_{21}$ e $\beta_{12}$ (infatti $\beta_{21} = \rho \frac{\sigma_{2}}{\sigma_{1}}$ e $\beta_{12} = \rho \frac{\sigma_{1}}{\sigma_{2}}$).

Quindi la regressione lineare è un altro modo per sintetizzare globalmente informazioni riguardanti previsioni e varianze di un vettore aleatorio.