Come tratto i vettori aleatori dal punto di vista del teorema di Bayes?

In generale ho trovato che, se ho una distribuzione congiunta $c(X, Y)$ (che può rappresentare una densità o una probabilità a seconda se sono nel caso continuo o nel caso discreto), ho: $c(X, Y) = \alpha(X) \beta(Y | X) = \beta(Y) \alpha(X | Y)$

Nello scrivere $\beta(Y) \alpha(X | Y)$ ho scambiato i ruoli di $X$ e di $Y$ rispetto a $\alpha(X) \beta(Y | X)$. Inoltre, salvo casi particolari, $c(X, Y)$ non è data dal prodotto delle marginali. Quindi $\alpha(X) \beta(Y | X)$ e $\beta(Y) \alpha(X | Y)$ sono due modi di scrivere la distribuzione congiunta. Da qui posso ricavare quello che si chiama il teorema di Bayes per i vettori aleatori.

Infatti, devo pensare che $X$ e $Y$ non sono necessariamente unidimensionali. Ho già detto che, quando considero il vettore $(X, Y)$ nel piano $\mathbb{R}^{2}$, lo faccio per semplicità, perché estendere ad un numero qualunque $m$ di dimensioni non comporta alcuna difficoltà. Basta pensare che, a loro volta, $X$ sia un vettore e $Y$ sia un vettore. Quindi $\alpha(X) \beta(Y | X)$ può essere una distribuzione di probabilità del vettore $X$ k-dimensionale e del vettore $Y$ r-dimensionale. La somma $k + r = m$ è la dimensione globale dello spazio.

Se sono nel piano, non posso avere molta fantasia per le marginali, perché le marginali sono solo quelle unidimensionali.

Ma già se vado a 3 dimensioni, ho diversi modi di marginalizzare, perché posso:

come nel piano, passare dalla distribuzione congiunta nello spazio alle marginali sugli assi: quindi marginalizzo rispetto all’asse $X$, rispetto all’asse $Y$ e rispetto all’asse $Z$;

però posso anche fare le marginali rispetto ai piani coordinati, cioè anche una distribuzione bidimensionale può essere letta come marginale, perché, rispetto ad una tridimensionale, una bidimensionale è marginale.

Da ricordare che marginale vuol dire calcolarsi la distribuzione di probabilità ai margini dello spazio considerato: se lo spazio è il piano, i margini sono per forza gli assi coordinati; se lo spazio è tridimensionale, i margini sono ancora gli assi coordinati, ma anche i piani coordinati.

Quindi, quando ho un vettore m-dimensionale, in generale, io posso dire che faccio le marginali di dimensione $r$ e di dimensione $k$, basta che sto attento che la somma $r + k = m$.

La tecnica matematica per ottenere le marginali è concettualmente la stessa: da integrali doppi si useranno integrali multipli.

Allora da una delle due distribuzioni $\alpha(X) \beta(Y | X) = \beta(Y) \alpha(X | Y)$ chiamo teorema di Bayes per vettori aleatori: $\beta(Y | X) = K(X) \beta(Y) \alpha(X | Y)$, con $K(X) = \frac{1}{\alpha(X)}$

Torno al teorema di Bayes per eventi.

Ho due eventi $E$ ed $H$ e voglio calcolare la probabilità $P(E \cap H)$.

In generale, per il teorema delle probabilità composte: $P(E \cap H) = P(E) P(H | E) = P(H) P(E | H)$, dove l’ultimo membro è ottenuto scambiando il ruolo di $E$ e di $H$. Quindi $P(E) P(H | E) = P(H) P(E | H)$.

Sto ignorando $P(E \cap H)$, come sopra ho ignorato la congiunta quando ho scritto $\alpha(X) \beta(Y | X) = \beta(Y) \alpha(X | Y)$.

Da qui come ricavo il teorema di Bayes?

$P(H | E) = \frac{P(H) P(E | H)}{P(E)}$ e poi faccio la disintegrazione di $P(E)$.

$H$ era quella che chiamavo ipotesi ed $E$ era quello che chiamavo esperimento, per comodità di ragionamento. Quindi, se io ho dato inizialmente probabilità $P(H)$ ad un’ipotesi, come aggiorno questa probabilità in base ai risultati di un certo esperimento $E$?

Vado a modificare $P(H)$, calcolando $P(H | E)$ attraverso il teorema di Bayes.

Se torno alle distribuzioni, vedo che la forma analitica è la stessa, solo che, invece di avere $P(H | E) = \frac{P(H) P(E | H)}{P(E)}$, abbiamo: $\beta(Y | X) = \frac{\beta(Y) \alpha(X | Y)}{\alpha(X)}$

La disintegrazione di $\alpha(X)$ è: $\alpha(X) = \int_{-\infty}^{+\infty} \beta(Y) \alpha(X|Y) dY$

Su questo punto si basa l’inferenza statistica, utilizzando il teorema di Bayes per il vettore aleatorio, dove il vettore aleatorio è un vettore di osservazioni possibili.

Se fisso un valore per $X = x$ e integro rispetto ad $Y$ ambo i membri dell’equazione $\beta(Y | X) = \frac{\beta(Y) \alpha(X | Y)}{\alpha(X)}$, ottengo: $\int_{-\infty}^{+\infty} \beta(Y | X) dY = \int_{-\infty}^{+\infty} \frac{\beta(Y) \alpha(X | Y)}{\alpha(X)} dY = \frac{1}{\alpha(X)} \int_{-\infty}^{+\infty} \beta(Y) \alpha(X | Y) dY$

Il primo integrale deve fare 1, perché è la probabilità che $Y$ assuma tutti i possibili valori nel suo codominio, fissato $X$. Ma se questo integrale deve fare 1, allora deve essere: $\frac{1}{\alpha(X)} \int_{-\infty}^{+\infty} \beta(Y) \alpha(X | Y) dY =1$. Da qui ottengo la disintegrazione di $\alpha(X)$ vista sopra: $\alpha(X) = \int_{-\infty}^{+\infty} \beta(Y) \alpha(X | Y) dY$