Che cos’è l’aggiornamento delle probabilità?

L’aggiornamento della probabilità è uno strumento attraverso il quale si usa la probabilità condizionata per fare inferenza statistica.

Anche per la probabilità condizionata ho fatto riferimento alla probabilità come grado di fiducia, cioè nel suo significato più generale. Tanto è vero che, per definire la probabilità condizionata, ho ancora fatto ricorso alla metafora della scommessa. In questo caso della scommessa condizionata, in cui è prevista una terza alternativa oltre a scommessa vinta o scommessa persa.

Il vantaggio di questa impostazione (scommessa) mi permette di interpretare gli EVENTI nel loro senso più generale: come PROPOSIZIONI, che possono essere VERE o FALSE. Se, invece, mi limitassi a considerare gli eventi come meri casi possibili di una situazione molto particolare o mere ripetizioni di un fenomeno che si ripete nel tempo con osservazioni ripetute, allora la formula stabilita per la probabilità condizionata, si limiterebbe ad un semplice conteggio.

$P(H_{k}|E) = \frac{P(H_{k} \cap E)}{P(E)}$, con $P(E) > 0$

$P(E) = \sum_{k = 1}^{n} P(H_{k})P(E|H_{k})$ è la disintegrazione di $E$, l’evento condizionante. La sommatoria si estende da k = 1 a k =n.

Esempio. Probabilità che il primo estratto al lotto sia multiplo di 11, dato che sia un numero pari.

$E = insieme \ dei \ numeri \ pari$ è l’evento condizionante. $H_{k} = insieme \ dei \ multipli \ di \ 11$.

$E \cap H_{k} = \begin{Bmatrix} 22, 44, 66, 88 \end{Bmatrix}$

Allora ho che $P(H_{k}|E) = \frac{4}{45}$. I numeri del lotto sono 90, quindi nell’insieme dei numeri pari (evento condizionante) ci sono 45 elementi.

Per poter fare inferenza statistica, io voglio utilizzare questi concetti nella loro interpretazione più generale, cioè quella di eventi come proposizioni di cui valuto la probabilità.

Ripenso all’esempio del sacchetto con 10 monete di cui 1 è truccata.

Estraggo una moneta, la lancio 6 volte ed esce T tutte e 6 le volte. Inizialmente, prima di fare i 6 lanci, avevo valutato $\frac{1}{10}$ la probabilità che la moneta estratta fosse quella truccata. Ma, dopo aver eseguito l’esperimento dei 6 lanci, con questo risultato aggiorno la mia valutazione della probabilità, aumentando il sospetto che la moneta estratta sia quella truccata.

La probabilità condizionata è lo strumento che mi permette di aggiornare quantitativamente la probabilità, rispetto a dire genericamente “mi è aumentato il sospetto che la moneta estratta sia quella truccata”.

$P(H|E) = \frac{P(H \cap E)}{P(E)}$. Adesso mi basta fare una disintegrazione del denominatore rispetto a 2 soli eventi: $P(E) = P(H)P(E|H) + P(H^{c})P(E|H^{c})$

In generale ho una partizione $\begin{Bmatrix} H_{k} \end{Bmatrix}$. Qui ho scelto una partizione di 2 soli eventi: $H$ e $H^{c}$. Per questo esempio della moneta, voglio vedere chi è $H$, chi è $E$ e perché la formula di disintegrazione mi risolve il problema.

L’evento che mi interessa, cioè del quale voglio aggiornare la probabilità, è l’evento $H$ così definito: $H = la \ moneta \ estratta \ è \ truccata$. Ho già detto che, prima dell’esperimento, in mancanza di altre informazioni, questo evento ha probabilità $P(H) = \frac{1}{10}$. Perché le monete sono 10 di cui 1 sola è truccata.

Adesso c’è una novità: ho fatto un esperimento $E$. Nell’esperimento, ho osservato testa in 6 lanci: questo è l’evento $E$. Quindi $E = T_{1} \cap T_{2} \cap T_{3} \cap T_{4} \cap T_{5} \cap T_{6}$

Adesso non devo più calcolare $P(H)$, ma $P(H|E)$, cioè la probabilità di $H$ condizionato ad $E$, il risultato dell’esperimento.

$P(H|E)= \frac{P(E \cap H)}{P(H)P(E|H) + P(H^{c})P(E|H^{c})} = \frac{P(H)P(E|H)}{P(H)P(E|H) + P(H^{c})P(E|H^{c})}$

Al numeratore ho applicato il teorema delle probabilità composte $P(E \cap H) = P(H)P(E|H)$ e al denominatore uso direttamente la disintegrazione di $E$.

Adesso devo solo mettere i numeri, perché le probabilità che figurano nell’espressione ricavata sono tutte evidenti. $P(H) = \frac{1}{10}$ come avevo stabilito prima di fare l’esperimento. $P(E|H) = 1$. Infatti è la probabilità che venga 6 volte testa, sotto l’ipotesi che $H$ sia vero, cioè che la moneta sia truccata. $P(H^{c}) = 1 – P(H) = \frac{9}{10}$. $P(E|H^{c}) = \frac{1}{2^{6}}$ è la probabilità che venga 6 volte testa, sotto l’ipotesi che $H^{c}$ sia vero, cioè che la moneta non sia truccata. $2^{6}$ sono i casi possibili in 6 lanci di una moneta. Il caso favorevole che esca testa per 6 volte consecutive è solo 1. Suppongo equiprobabili tutti i casi possibili nei 6 lanci.

$P(H|E)= \frac{\frac{1}{10}1}{\frac{1}{10}1 + \frac{9}{10}\frac{1}{64}} = \frac{64}{73}$

Dopo questo esperimento la probabilità che la moneta sia truccata – inizialmente valutata $\frac{1}{10}$ – è stata aggiornata a $\frac{64}{73}$. Che significato devo dare a $\frac{64}{73}$? $\frac{1}{10}$ era chiaro: era il rapporto tra casi favorevoli e casi possibili.

$\frac{64}{73}$ è difficile vederlo come rapporto tra 64 casi favorevoli su 73 casi possibili. E’ anche difficile vederlo come 63 successi su 73 prove (lettura frequentista).

L’interpretazione più significativa è dire che è un numero grosso molto vicino a 1. Cioè, dopo aver fatto l’esperimento, la mia fiducia che $H$ sia vero (= moneta truccata) è misurata da questo numero grande rispetto al numero più piccolo $\frac{1}{10}$, con cui misuravo il mio grado di fiducia prima di fare l’esperimento. In sostanza, la probabilità, indipendentemente da come la calcolo, è sempre una misura del mio grado di fiducia che l’evento sia vero. In questo esempio che la moneta sia truccata.

Esempio (isomorfo al precedente).

Ho 10 scatole, ciascuna contenente 20 lampadine. 1 scatola contiene tutte lampadine buone. Le altre 9 scatole contengono tutte metà lampadine buone e metà difettose. Suppongo di estrarre a caso 1 scatola da queste 10: non so qual è. Mi chiedo: qual è la probabilità che la scatola estratta sia quella con le lampadine tutte buone?

La prima risposta è $\frac{1}{10}$, esattamente come valutato per la moneta subito dopo averla estratta, ma senza averla lanciata.

Adesso faccio un esperimento: estraggo una lampadina dalla scatola, vedo se è buona o difettosa e la rimetto nella scatola; poi procedo ad estrarre una nuova lampadina. Faccio questa operazione per 6 volte. Per 6 volte estraggo una lampadina buona. Come aggiorno la mia probabilità che la scatola estratta sia quella con tutte lampadine buone, dopo questo esperimento?

$H = la \ scatola \ estratta \ è \ quella \ con \ le \ lampadine \ tutte \ buone$

$E = B_{1} \cap B_{2} \cap B_{3} \cap B_{4} \cap B_{5} \cap B_{6}$ dove $B_{i} = la \ lampadina \ estratta \ alla \ i-esima \ estrazione \ è \ buona$

Le probabilità sono le stesse viste per la moneta. Dopo aver osservato 6 lampadine buone in 6 estrazioni dalla scatola, ritroverò che il mio grado di fiducia che la scatola estratta sia quella con tutte le lampadine buone è ancora $\frac{64}{73}$. Quindi, anche un esperimento di “controllo di qualità” come questo è gestibile con la probabilità condizionata.

E’ interessante vedere se queste situazioni della moneta e delle lampadine si possono generalizzare a situazioni qualunque, in cui abbiamo una famiglia $H_{r}$ di ipotesi e un evento $E$. Quando parlo di ipotesi $H$ e di esperimento $E$, mi riferisco a parole convenzionali. Si tratta sempre di eventi, cioè di proposizioni che possono essere VERE o FALSE.

In certi contesti, può essere comodo parlare di ipotesi e di esperimenti, per distinguere questi eventi dal punto di vista semantico. Questo mi porta al teorema di Bayes.