Bayes-tilastotiede I

Course Summary

Kertaus: Bayes-tilastotiede 1
\( y_i |\theta\) \( \theta\) \( \theta | y_{1:n}\) \( \tilde{y}|y_{1:n}\)
Normal \( (\theta, \nu)\) Normal \( (m_0,w_0)\) Normal \( (m_n, w_n)\) Normal\( (m_n, \nu + w_n)\)
Binomial \( (1,\theta)\) Beta \( (\alpha,\beta)\) Beta \( (\alpha+s, \beta+n-s)\) Binomial \( (1, \frac{ \alpha+s}{ \alpha+\beta+n} )\)
Poisson \( (\theta)\) Gamma \( (\alpha,\beta)\) Gamma \( (\alpha+s, \beta+n)\) NegBin \( (\alpha+s,\beta+n)\)
Exp \( (\theta)\) Gamma \( (\alpha, \beta)\) Gamma \( (\alpha+n, \beta+s)\)
Normal \( (m,\theta)\) InvGamma \( (\alpha,\gamma)\) InvGamma \( (\alpha + \frac{ n}{ 2}, \beta + \frac{ n}{ 2}s_0^2 )\)

missä, \( \begin{cases} \omega_n = \frac{ 1}{ \frac{ 1}{ \omega_0} + \frac{ n}{ \nu} } \\ m_n = \omega_n (\frac{ m_0}{ \omega_0} + \frac{ n \bar y}{ \nu} ) \end{cases}; \ \begin{cases} s= \sum y_i \\ \bar y = \frac{ s}{ n} \\ s_0^2 = \sum (y_i – m )^2 /n \end{cases}\).
Vinkki: \( p(\theta) \propto 1\ ⇔ \ \theta \sim Beta(1,1)\) .

@ Bayes formula \( p(H|E)= \frac{ p(H)p(E|H)}{ \sum\limits_{ k} p(E|H_k) p(H_k) } \) .

@ \( \underbrace{p(\theta|y)}_{posterior} = \underbrace{p(\theta)}_{prior} \ \underbrace{p(y|\theta)}_{data} \).
@ \( \begin{cases} p(y) &= \displaystyle\int_{ } p(\theta|y)\ d\theta = \displaystyle\int_{ } p(\theta)p(y|\theta)\ d\theta \\ p(\tilde{y}|y) &= \displaystyle\int_{ } p(\tilde{y},\theta|y)\ d\theta &= \displaystyle\int_{ } p(\tilde{y}|y)p(\theta|y)\ d \theta \\ E(y) &= E_\theta [E_y(y|\theta)] \\ Var(y ) &= E_\theta [Var_y (y|\theta)] + Var_\theta [E_y(y|\theta)] \end{cases} \) .

@ \( \begin{cases} \Gamma(\nu) = (\nu -1) \Gamma(\nu-1) \\ \Gamma(n) = (n-1)!\\ \Gamma(1)=0,\ \Gamma(0)=\infty \\ B(\alpha,\beta)- \frac{ \Gamma(\alpha)\Gamma(\beta)}{ \Gamma(\alpha+\beta)} \end{cases} \) .

@ Inv.-jakauma. Jos \( U= \frac{ 1}{ V} \), niin \( p_V (v)=p_U (u(v))| \frac{ du}{ dv} |\) .

@ Yksiparetrisen eksponenttisen perheen konjugaattiperhe
\( \begin{cases} p(y_i|\theta) &= f(y_i)g(\theta)e^{\phi(\theta)u(y_i)} \\ p(y_{1:n}|\theta) &= \bigg( \prod\limits_{ i=1}^{ n}f(y_i) \bigg)g^n (\theta)e^{\phi(\theta)t(y)},& t(y)= \sum\limits_{ i=1}^{ n}u(y_i) \\ p(\theta) &\propto g^{\eta}(\theta)e^{\phi (\theta) \nu} \\ p(\theta|y) &\propto g^{\eta +n}(\theta)e^{\phi (\theta) (\nu+t(y))} \end{cases} \) .

@ Jeffreys’in priori: \( p(\theta)\propto \sqrt{J(\theta)},\ \ J(\theta)= – E \bigg( \frac{ \partial^2 \log p (y|\theta)}{ \partial \theta^2} \bigg | \theta \bigg) \).

@ Hypoteesintestaus: priori \( \begin{cases} \pi_0= p(\theta \in \Theta_0) \\ \pi_1= p(\theta \in \Theta_1) \end{cases} \) ja posriori-tn \( \begin{cases} p_0= p(\theta \in \Theta_0 |y) \\ p_1= p(\theta \in \Theta_1|y) \end{cases} \) ;
Bayes-tekijä \( B= \frac{ p_0/p_1}{ \pi_0 / \pi_1} \) on vedonlyöntisude \( H_0 : H_1\) .
▻▻ Jos \( \Theta_{1(2)} = \{ \theta_{1(2)} \}\), niin \( B= \frac{ p(y|\theta_0)}{ p(y|\theta_1)} = \) uskottavuusosamäärä.

Johdanto

Salme Kärkäinen
Jyväskylän Yliopisto
Syksy, 2016
Penttinen, 2009, Bayes-tilastotiede
Esim problem & Bayesian ratkaisu
▻▻ Jos \( X\sim Bin (n,\theta)\), niin mikä on \( P(a\gt \theta \gt b | X=x)\)?
▻▻ Bayesian ratkaisu: \( P(a\gt \theta \gt b | X=x) ´\frac{ \displaystyle\int_{ a}^b {n\choose x}\theta^x(1-\theta)^{n-x} d\theta }{ \displaystyle\int_{ 0}^1 {n\choose x}\theta^x(1-\theta)^{n-x} d\theta} \).

Joitakin avainsanoja

Subjektiiviset todennäköisyydet (subjective probability)
priorities (prior distribution)
posterioritieto (posterior distribution)
prdiktiivinen jakauma (predictive distribution)
hierakkiset mallit (hierarchical models)
Markovin ketju Monte Carlo (Markov Chain and Monte Carlo methods)

Bayes-laskenta

Keskeinen työkalu on Markovin ketju Monte Carlo -menetelmä (MCMC)
Sovellusten kannalta tärkeä ohjelmistotyökalu on Bayesian Use of Gibbs Sampling (BUGS)

Todennäköisyys epävarmuuden mittana

Tapahtuma \( E\), taustatieto (joskus hypoteesi) \(H \) .
Määr \( P(E|H)\) on \( E\):n todennäköisyys ehdolla \( H\) .
Huom Kahdella tarkastelijalla voi olla eri käsitys epävarmuudestä; todennäköisyys muuttuu, kun informaatio muuttuu.
Seuraus Bayes-teoria perustuu subjektiivisiin todennäköisyyksiin
Määr Määritellään todennäköisyys aksiomeilla (axioms)
P1. \( P(E|H) \geq 0,\ \ \forall E,H\);
P2. \( P(H|H)=1, \ \ \forall H\) ;
P3. \( P(E\cup F |H) = P(E|H)+P(F|H)\), kun \( E,F\) ovat toisensa poissulkevia;
P4. \( P(E|F,H)P(F|H) = P(E\cap F|H),\ \ \forall E,F,H\) .
Huom. P3 on voimassa numeroituvalle jonolle.
Määr (review) Todennäköisyyden aksiomit (ns. Kolmogorovin aksiomit):
▻▻ \( P(E) \gt 0;\ \ P(\Omega)=1; \ \ P(\cup E_n) = \Sigma P(E_n)\) (pareittain pistevieraita, numeroituva)
Lause Havainto muuttaa todennäköisyyttä.

Riipumattomuus

Määr \( E\) ja \( F\) ovat riippumattomia ehdolla \( H\) jos \( P(E\cap F | H) = P(E| H) \cdot P( F | H)\) .
Huom Bayes+teoriassa kaikki todennäköisyydet ovat ehdollisia.
Esim Tämä on yhtäpitävää: \( \begin{cases} P(E|F)=P(E)=P(E|\bar F) \\ P(F|E)=P(F) \end{cases} \).

Bayesian kaava

Lause Kokonaistodennäiköisyys Olkoon \( H_1,H_2,\dots\) joukon \( \Omega\) ositus. Silloin:
▻▻ \( P(E) = \sum\limits_{n}P(E|H_n)P(H_n)\) .
Lause Käänteiset todennäköisyydet
▻▻ \( \begin{align} P(H_n |E) &= \frac{ P(H_n)P(E|H_n)}{ P(E)}\\& = \frac{ P(H_n)P(E|H_n)}{ \sum\limits_{ k} P(H_k)P(E|H_k)} \\ & \propto P(H_n)P(E|H_n) \end{align} \).
Huom Examples are quite important in this chapter, read lecture notes P16.

Mallit

Esim Rahanheitto – ei tiedetä onko raha symmetrinen.
▻▻ \( P(E|\theta)= \theta\) ja rahanheitot tulevat nyt edollisesti riippumattomiksi.
Määr Bayes-tilastotieteen ero klassiseen tnlaskentaan ja tialstotieteseen:
▻▻ Klassinen: Rahanheitot ovat riippumattomia kruunan todennäköisyyden ollessa \( \theta\);
▻▻ Bayes: Jos \( \theta\) on tunnettu, silloin ne ovat ehdollisesti riippumattomia \( \theta\):lla. Sanomme, etta havainnot ovat vaihdannaisia (exchangeable).
▻▻ Ero/diiferences: Bayes-lähestymistavassa meillä on tuntematon suure \( theta\) (mutta ei tuntemattomia todennäköisyyk­siä!). Koska \( \theta\) on tuntematon, se on satunnais­muuttuja, jonka jakauma perustuu taustatietoon (background information).
Esim Jos malli on \( P(E|\theta) =\theta\). Silloin:
▻▻ \( P(E)= \displaystyle\int_{ } g(\theta) P(E|\theta)\ d\theta,\ \ \ g(\theta) \) on \( \theta\):n tn-jakauma.

Normaalimalli

Määr Yksinkertainen normaalimalli:
(M1) Havainnot \( y_1, \dots, y_n\) ovat riippumattomia \( \theta\):lla ja \( \sigma^2\):lla ;
(M2) \( y_i|\theta,\sigma^2 \sim N(\theta, \sigma^2)\), where \( \sigma\) is a known value.
Sanomme, että havainnot \( y_1, \dots, y_n\) ovat vaihdannaisia (exchangeable).

Priori, posteriori ja prediktiiviset jakaumat

Bayes-tilastotieteessä johtopäätökset/conclusion perustetaan posteriorijakaumaan \( p(\theta | \text{ data} )\).

Posteriori inferenssin välineenä

Määr \( y\) on havaittu aineisto. Olkoon \( \theta\) tuntematon suure (voi myos olla puuttuva havainto tai latentti muuttuja):
▻▻ Posteriorijakauma/posterior distribution: \( p(\theta |y)\) ;
▻▻ Se on tuntemattoman suureen \( \theta\) ehdollinen todennäköisyysjakauma ehdolla havainto \( y\).
Lause Käytetään posteriorijakaumaa inferenssin välineenä:
(a) Marginalposteriorijakaumien kuvaajia: \( p(\theta_i |y) = \displaystyle\int_{ } \cdots \displaystyle\int_{ } p(\theta |y)\ d\theta_1 \cdots d\theta_{i-1} d\theta_{i+k}\cdots d\theta_k \ \ \ \ \ \theta = (\theta_1,\dots,\theta_k) \).
(b) Voidaan kuvata tunnuslukujen avulla: esim. keskiarvo, keskihajonta 10%-raja ja 90%-raja.
▻▻ ▻▻ \( a%\)-raja on arvo \( \theta_a: \ P(\theta \lt \theta_a | y)= \frac{ a}{ 100} \).
(c) Väliestimointi (kun \( dim(\theta)=1\)): \( P(a \leq \theta \leq b | y) = 1- \epsilon\) ( Bayes-luottoväli/credible interval, myös HDI )
▻▻ ▻▻ Tavallisimmat konstruktioperiaatteet ovat \( \begin{cases} \text{ lyhin väli} \\ \text{ symmetrinen väli: } P(\theta \leq a |y) = P(\theta \geq b | y) = \frac{ \epsilon}{ 2}\\ \text{ suurimman tiheyden väli} \\ \text{highest density interval / HDI} \end{cases} \) .
(d) Hypoteesintestaus: esim \( H: \theta \gt 0\),
▻▻ \( P(H|y) = P(\theta \gt 0 | y)= \displaystyle\int_{ 0}^\infty p(\theta | y)\ d\theta \) ;
▻▻ = tn, että hypoteesi on tosi ehdolla = hypoteesin hyväksymisen todennäkösyys
(e) Piste-estimointi: \( \begin{cases} \tilde {\theta}=\arg\max p(\theta | x) \\ \hat\theta \text{ jakauman }p(\theta|y) \text{ mediaani} \\ \bar \theta=E(\theta |y) \end{cases} \) .
▻▻ ovat posteriorimoodi, posteriorimediaani, posteriorikeskiarvo.
▻▻ Maximum A Posterior/MAP-estimator (ei oleuskottavuuden estimaattoria);
(f) Voidaan laskea \( P(\theta \in A | y)\).

Priorijakauma

Määr Malli havainnolle \( p(y|\theta)\) priorijakauma tuntemattomalle \( \theta\) .
▻▻ Tämä on sama, kuin klassisen tilastotieteen uskottavuusfunktio \( L(\theta; y) = p (y | \theta)\).
▻▻ Bayesian kaavan avulla: \( p(\theta | y) = \frac{ p(\theta) p (y | \theta)}{ p(y)} = \frac{ p(\theta)p(y|\theta)}{ \int_{ } p(\theta ‘ )p (y|\theta’)d\theta’ } \) .
Huom Posteriori = priori x uskottavuus: \( p(\theta | y ) \propto p(\theta)p(y|\theta) \);
Huom Bayes-analyssi perustuu kahteen informaatiolähteeseen: 1) aineisto \( p(y|\theta)\):n kautta 2) ennakkokäsitys \( p(\theta)\):n kautta.

Esim: Normaalimalli

Olkoon havainnot \( y=(y_1,\dots,y_n),\ y_i|\theta \sim N(\theta, \nu)\). Varinssi tunnettu, otos riippumaton ehdolla \( \theta\).
Oletetaan vielä, että priori \( p(\theta)\) on normaali ts. \( \theta \sim N(m, \omega)\), ja ne ovat tunnettuja.
Uskottavuusfunktio on \( p(y|\theta)=p(y_1,\dots,y_n|\theta) = \prod \limits_{ i=1}^{ n} p(y_i | \theta) \propto \exp \bigg\{ -\frac{ 1}{ 2\nu} \sum\limits_{ i=1}^{ n} (y_i – \theta)^2 \bigg\} \).
▻▻ Priori: \( p(\theta)= \frac{ 1}{ \sqrt{2\pi\omega}}e ^{-\frac{ 1}{ 2\omega} (\theta-m)^2 } \propto e ^{-\frac{ 1}{ 2\omega} (\theta-m)^2 }\).
▻▻ Posteriori: \( p(\theta | y) \propto p(\theta)p(y|\theta)= e ^{-\frac{ 1}{ 2\omega} (\theta-m)^2 } e ^{-\frac{ 1}{ 2\nu} \sum\limits_{ i=1}^{ n} (y_i-\theta)^2 } =: e^{-\frac{ 1}{ 2}Q }\).
▻▻ ▻▻ merkitään \( Q= \big( \frac{ 1}{ \omega} + \frac{ n}{\nu } \big)(\theta – m_1)^2\\ m_1 = \big( \frac{ 1}{ \omega} + \frac{ n}{\nu } \big)^{-1} \big( \frac{ m}{ \omega} + \frac{ n \bar y}{ \nu} \big)\\ \nu_1 =\big( \frac{ 1}{ \omega} + \frac{ n}{\nu } \big)^{-1} \).
▻▻ Posteriori on \( \theta | y \sim N(m_1, \nu_1)\) .
Määr Jos priori ja posteriori kuuluvat samaan jakumaperheeseen, niin puhutaan konjugaattiperheistä / conjugate prior/共轭先验

bayesin kaavan peräkkäiskäyttö

Lause Molempiin havaintoihin perustuva posteriori on:
▻▻ \( \begin{align} p(\theta | y_1,y_2)&\propto p(\theta)p(y_1,y_2|\theta) \\ &=p(\theta)p(y_1|\theta)p(y_2|\theta) \\&= p(\theta|y_1)p(y_2|\theta) \end{align} \).
▻▻ 1) \( y_1\) opettaa prioria \( p(\theta)\), tuloksena on posteriori \( p(\theta | y_1)\) ;
▻▻ 2) \( y_2\) opettaa prioria \( p(\theta | y_1)\), tuloksena on posteriori \( p(\theta | y_1,y_2)\) .

Havainnon marginaalijakauma

Määr Havainnon marginaalijakauma: \( p(y) = \displaystyle\int_{ } p(y,\theta)\ d\theta = \displaystyle\int_{ } p(y|\theta)p(\theta)\ d\theta \).

Prediktiivinen jakauma

Tehdään uusi havainto \( \tilde {y}\), joka on riippumaton \( y\):stä ehdolla \( \theta\). Tällöin ennustejakauma \( \tilde {y}\):lle on ehdollinen jakuama \( y\):lla.
Määr \( p(\tilde {y} | y )= \displaystyle\int_{ } p(\tilde {y} | \theta, y)p(\theta | y)\ d\theta = \displaystyle\int_{ } p(\tilde {y} | \theta)p(\theta | y)\ d\theta\).
▻▻ se on sekoutusjakauma \( p(\tilde {y} |\theta)\):sta, missä \( \theta\):n painoina on persteriorijakauma \( p(\theta |y)\) arovt.

Yksiparamretisia malleja

Normaali otos, keskiarvo tuntematon

Kertaus
\( \begin{cases} \text{Havainnot }y_1,\dots,y_n \text{, merkitään }y \\ y_i|\theta \sim N (\theta, \nu) \text{ riippumattomia ehdolla }\theta \\ \text{ varianssi }\nu \text{ tunnettu}\\ \theta \sim N(m, \omega) \end{cases} \).
Silloin posteriori on \( \theta | y \sim N(m_1, \nu_1)\),
missä \( m_1 = \big( \frac{ 1}{ \omega} + \frac{ n}{\nu } \big)^{-1} \big( \frac{ m}{ \omega} + \frac{ n \bar y}{ \nu} \big),\ \ \ \nu_1 = \big( \frac{ 1}{ \omega} + \frac{ n}{\nu } \big)^{-1} \) .
Koska priori \( \sim N\) ja posterior \( \sim N\), ne ovat Konjugaattiperheen.
Lause Voidaan kirjoittaa \( m_1 = \frac{ \nu_1}{ \omega} \cdot m + \frac{ \nu_1}{ \nu / n} \cdot \bar y \) .
▻▻ \( \frac{ \text{ priorivarianssi} }{ \text{ otoskeskiarvo} } = \frac{ \omega}{ \nu / n} = \frac{ \frac{ \nu_1}{ \nu / n} }{ \frac{ \nu_1}{ \omega} } \);
▻▻ Posteriorikeskiarvo on otoskeskiarovn kutistus/shrinkage koht ipriorikeskiarvo.
Lause \( m_1 \to \bar y \) kun \( n\to \infty\) .
▻▻ \( \theta | y_1, \dots, y_n \sim N(\bar y, \frac{ \nu}{ n} ) \text{ , kun } n\to\infty\).
▻▻ Tästä seuraa esimerkiksi 95% HDI: \( \bar y ± 1.96 \sqrt \frac{ \nu}{ n} \).

Heikko ja robusti priori

Olkoot \( \begin{cases} p(\theta)&\propto \kappa \text{ (vakio)} \\ \theta & \sim N (0,\sigma^2), \text{ , }\sigma^2 \text{ suuri} \end{cases} \) .
Lause Edellä olevista prioreista on epäaito priori. Kuitenkin posteriori voi olla aito/genuine:
▻▻ \( \begin{align} p(\theta|y)&= \frac{ \kappa p(y|\theta)}{ \int_{ } \kappa p(y|\theta’)d\theta’} \\ &\propto \exp \bigg\{ -\frac{ 1}{ 2\nu} \sum\limits_{ i=1}^{ n}(y_i – \theta)^2 \bigg\} \end{align} \) .
Lause Robusti prior käytetään levähäntäistä/heavy-tail poriria kuten t-jakaumaan, ts. \( \theta – \theta_0 \sim t(\nu)\) jollekin vapausasteiden/degree of freedom \( \nu\) .

Binomiotos

Dikotominen(dichotomous/二分) havainto \( y_i\), ns. Bernoulli’n koe. \( y\) saa arvot 0 ja 1.
Määr Yhden Bernoulli’n kokeen malli:
▻▻ \( \begin{cases} \text{malli} &\theta = P(y_i = 1 |\theta) \\ \text{uskottavuus} &p(y_i|\theta)=\theta ^{y_i}(1-\theta)^{1-y_i} \end{cases} \) .
Määr \( n\):n toiston koe:
▻▻ \( \begin{cases} y=(y_1,\dots,y_n) \text{ ehdollisesti riippumattomia}\\ p(y|\theta) = \prod \theta ^{y_i}(1-\theta)^{1-y_i} = \theta^s (1-\theta)^{n-s},\ \ s= \Sigma y_i \end{cases} \) .
▻▻ ▻▻ \( s|\theta \sim Bin(n,\theta),\ E(s|\theta) = n \theta,\ Var(s|\theta)=n\theta(1-\theta)\).
Lause Joustava priorijakauma \( \theta\)lle on beettajakuama \( \theta \sim Beta(\alpha,\beta)\):
▻▻ \(\begin{align} p(\theta|\alpha,\beta) &= \frac{ \Gamma (\alpha + \beta)}{ \Gamma (\alpha) \Gamma (\beta)} \theta ^{\alpha -1} (1-\theta) ^{\beta -1} \\& \propto \theta ^{\alpha -1} (1-\theta) ^{\beta -1} \end{align} \).
▻▻ ▻▻ \( \Gamma (\nu) = \displaystyle\int_{ 0}^\infty t^{\nu-1}e^{-t}\ dt \) on ns. gammafunktio.
Lause Posteriori on \( \begin{align} p(\theta|y) &\propto \theta ^{\alpha -1} (1-\theta) ^{\beta -1}\theta ^{s} (1-\theta) ^{n-s} \\ &\propto \theta ^{\alpha +s -1} (1-\theta) ^{\beta +n-s-1} \end{align} \).
▻▻ se on \( Beta(\alpha+s, \beta+n-s)\) jakauma.
Lause Beettapriori on konjugaattipriori.
▻▻ Otos päivittää jakauman parametrit: \( \begin{cases} \text{ priroi } & \alpha & \beta \\ \text{ posteriori} &\alpha +s &\beta +n -s \end{cases} \) .

• Betta- ja Gammajakauman ominaisuuksia

Lause Ekskursio gammafunktion ominaisuuksiin:
▻▻ \( \begin{cases} \Gamma(\nu)= (\nu -1) \Gamma(\nu-1)\\ \Gamma(n)=(n-1)!\\ \Gamma(1)=0,\ \Gamma(0)=\infty \\ \Gamma(\nu) \approx\sqrt{2\pi} e^\nu \nu ^{\nu – 1/2} \end{cases} \).
Lause Beettajakauman:
▻▻ \( \begin{cases} E(\theta | \alpha, \beta) = \frac{ \alpha}{ \alpha +\beta} \\ Var(\theta | \alpha, \beta) = \frac{ \alpha \beta}{ (\alpha + \beta)^2 (\alpha + \beta+1)} \\ \text{ moodi} = \frac{ \alpha -1}{ \alpha +\beta -2} \end{cases} \).
▻▻ \( \begin{cases} E(\theta | y) = \frac{ \alpha+s}{ \alpha +\beta + n} \\ \text{ moodi} = \frac{ \alpha +s -1}{ \alpha +\beta +n-2} \end{cases} \).
Lause Suurten ostosten tapaus.
▻▻ Kun \( n\to \infty\) niin \( E(\theta |y) = \frac{ \frac{ \alpha}{ n} + \frac{ s}{ n} }{ \frac{ \alpha}{ n} + \frac{ \beta}{ n} +1} \approx \frac{ s}{ n} = \bar y \).
▻▻ Keskeinen raja-arvolause pätee \( \bigg( \frac{ \theta -E(\theta|y)}{ \sqrt{Var(\theta|y)} } \bigg| y \bigg) \to N(0,1) \) .
▻▻ \( E(\theta|y) ± 1.96 \sqrt {Var(\theta |y)}\) .

Priorin konstruointi vedonlyöntisuhteena avulla

Lause Jakaumateoriaa
▻▻ Vedonlyöntisuhde (onnistumiselle vs. epä…): \( \phi = \frac{ \theta}{ 1-\theta} ⇒ \ \theta = \frac{ 1}{ 1+\phi^{-1}} \).
▻▻ Jos \( \theta \sim Beta (\alpha,\beta)\), niin
\( \begin{cases} \frac{ \beta}{ \alpha} \phi = \frac{ \beta \theta}{ \alpha(1-\theta)}\sim F_{2\alpha,2\beta} \text{ Snedecorin F-jakauma} \\ \frac{ 1}{ 2}\log \phi + \frac{ 1}{ 2} \log \frac{ \beta}{ \alpha} \sim z _{2\alpha,2\beta} \text{ Fisherin z -jakuama} \\ E(\log\phi) \approx \log \frac{ \alpha – \frac{ 1}{ 2} }{ \beta – \frac{ 1}{ 2} } \\ Var (\log\phi) \approx \frac{ 1}{ \alpha} + \frac{ 1}{ \beta} \end{cases} \).
Kertaus
\( y_i|\theta \sim Bin (1,\theta), \text{ riippumattomia ehodlla }\theta \\ \theta\sim Beta (\alpha,\beta), \text{ priori} \\ \theta|y \sim Beta (\alpha+s, \beta+n-s), \text{ posteriori} \)
Lause Prediktiivinen jakauma \( \sim y |y \sim Bin (1, \frac{ \alpha +s}{ \alpha + \beta +n} )\).
Huom Jos \( \alpha = \beta =1 \) eli priori on tasajakauma, niin \( P(\tilde {y} =1 |y) = \frac{ s+1}{n+2 } \) .

Poisson-otos

Poisson-otos esimerkki: Tarkastellaan ajassa tapahtuvaa ilmiötä josta rekisteröidään tapahtuma-ajat (record #events). Merkitään \( N(I)\):llä tapausten lukumäärä aikavälillä \( I\) .
Määr Poisson-otos \( N(I)\):
▻▻ \( \begin{cases} P(N(\Delta t)=1 | \theta) = \theta |\Delta t| + o(|\Delta t|)\\ P(N(\Delta t)\geq 2 |\theta)= o(|\Delta t|) \\ \text{ tapahtumat erillisillä väleillä ovat riippumattomia} \end{cases} \) .
▻▻ Tässä \( o(h)/h \to 0 \text{ kun }h\to 0 \).
Jos \( |I|\) on välin \( i\) pituus, niin tällöin
\( P \big( N(I)=k | \theta \big) =\frac{ (\theta |I|)^k}{ k!} e^{-\theta |I|},\ \ k\in \mathbb{ Z} \) .
Lause Jos \( y|\theta \sim Poisson (\theta)\), niin
▻▻ \( \begin{cases} E(y|\theta)=\theta \\ Var(y|\theta) = \theta \end{cases} \) .
Lause Konjugaattipriori Poisson-otokselle.
▻▻ Jos \( \theta \sim \Gamma(\alpha,\beta)\), missä \( \alpha\) on muotoparametri, \( \beta\) on skaalaparametri.
▻▻ Sitten sen tiheysfunktio on \( p(\theta) = \frac{ \beta ^\alpha}{ \Gamma(\alpha)}\theta^{\alpha-1}e^{-\beta\theta} \) on gammafunktio
▻▻ ▻▻ \( \Gamma(\alpha)= \displaystyle\int_{ 0}^\infty u^{\alpha-1}e^{-u}\ du \).
Lause Gammajakuaman keskiarvo, varianssi ja moodi
▻▻ \( \begin{cases} E(\theta|\alpha,\beta)=\frac{ \alpha}{ \beta} \\ Var(\theta|\alpha,\beta)=\frac{ \alpha}{ \beta^2} \\ \text{moodi} = \frac{ \alpha-1}{\beta } \end{cases} \) .
Lause Posteiorin johtaminen – Possion
Olkoon \( y=(y_1,\dots,y_n),\ \ y_i|\theta \sim Poisson (\theta),\ \ y_i\):t riippumattomia \( \theta\):lla .
▻▻ Uskottavuus: \( p(y|\theta)= \prod\limits_{ i=1}^{ n} \frac{ \theta ^{y_i}}{ y_i!}e^{-\theta} \propto \theta^s e^{-n\theta},\ \ \ s=\sum y_i \) ;
▻▻ Jos \( \theta \sim Gamma(\alpha,\beta),\ \ p(\theta|y) \propto Gamma (\alpha +s,\beta +n) \);
▻▻ \( E(\theta |y)=\frac{ \alpha+s}{ \beta+n},\ Var(\theta|y)= \frac{ \alpha+s}{ (\beta+n)^2} \).
Lause Marginaalijakauma yhdelle havoinnelle.
Oletetaan \( y|\theta \sim Poisson (\theta)\) ja \( \theta \sim Gamma (\alpha,\beta)\) .
▻▻ \( \begin{align} p(y)&= \displaystyle\int_{ 0}^\infty \frac{ \theta^y}{ y!}e^{-\theta} \frac{ \beta^\alpha}{ \Gamma(\alpha)}\theta^{\alpha-1}e^{-\beta \theta} \ d\theta \\ &= {\alpha +y -1 \choose \alpha-1} \bigg( \frac{ \beta}{ \beta +1} \bigg)^\alpha \bigg( \frac{ 1}{ \beta +1} \bigg)^y \\ &= NegBin (\alpha,\beta) \end{align} \) .
▻▻ Prediktiivinen: \( p(\tilde {y} |y) = NegBin(\alpha+s,\alpha+n)\) .
Lause \( NegBin (\alpha,\beta):\ E(y|\alpha,\beta) = \frac{ \alpha}{ \beta},\ Var(y|\alpha,\beta) = \frac{ \alpha}{ \beta^2}(\beta +1) \) .
Seura \( NegBin(\alpha,\beta)=\displaystyle\int_{ } Poisson(y|\theta)\ Gamma(\theta|\alpha,\beta)\ d\theta \).

Otos eksponettisesta mallista

Määr Eksponenttinen jakauma: \( p(y|\theta) = \theta e ^{-\theta y}, \ \ \theta \gt 0,\ y\gt 0\) jatkuva muuttuja.
▻▻ \( E(y|\theta)= \frac{ 1}{ \theta},\ Var(y|\theta) = \frac{ 1}{ \theta^2} \).
▻▻ Se on erikoistapaus gammajakuamasta \( Gamma (1,\theta)\).
▻▻ Välttöfunktio \( S(t|\theta) = P(y\gt t |\theta) = e ^{-\theta t}\) .
Lause Unohtavuusominaisuus ja uhka/hazard.
▻▻ \( P(y\gt t+h| y>t, \theta) = \frac{ P(y\gt t+h|\theta) }{ P(y\gt t| \theta) }= e ^{-\theta h} \).
▻▻ Uhka \( h(y|\theta) = \frac{ p(y|\theta)}{ S(y|\theta)} \) .
Lause Olkoon \( y_i|\theta \sim Exp(\theta),\ y=(y_1,\dots,y_n)\) ehdollisesti riippumattomia \( \theta\):lla.
▻▻ Ukottavuus on \( p(y|\theta) = \prod\limits_{ i=1}^{ n} \theta e ^{-\theta y_i}= \theta ^n e^{-\theta s} \);
▻▻ ▻▻ Huomaa, että \( s|\theta \sim Gamma(n,\theta)\).
Lause Konjugaattipriori exp:lle on \( \theta \sim Gamma(n,\theta)\).
▻▻ Posteriori on \( p(\theta|y) \propto \theta^{\alpha+n-1} e^{-(\beta+s)\theta} \sim Gamma (\alpha+n, \beta +s)\) .

Normaali otos, varianssi tunetematon, keskiarvo tunnettu

Oletetaan, että \( y_i|\theta,\phi \sim N(\theta, \phi)\)., \( \theta\) tunnettu, \( \phi\) tunetematon ja kiinnostuksen kohde (object in interest), \( y=(y_1,\dots,y_n)\)riippumaton ehdolla.
▻▻ Uskottavuus: \( p(y|\theta) \propto \phi^{-\frac{ n}{ 2} }e^{-\frac{ 1}{ 2\phi} \sum (y_i-\theta ^2)} := \phi^{-\frac{ n}{ 2} }e^{-\frac{ 1}{ 2\phi} s_0^2}\).
Lause Konjugaattipriori on käänteinen gammajakuama \( IGamma(\alpha,\beta)\):
▻▻ tiheusfuktio: \( p(\phi) \propto \phi^{-(\alpha+1)}e ^{-\frac{ \beta}{ \phi} },\ \ \ \phi \gt 0\);
▻▻ \( E(\phi) = \frac{ \beta}{ \alpha -1},\ Var(\phi)= \frac{ \beta^2}{ (\alpha-1)^2 (\alpha-2)} \).
Lause Posteriori \( p(\phi|y) \sim IGamma(\alpha+\frac{ n}{ 2},\beta +\frac{ n}{ 2}s_0^2 )\).

Yksiparametrisen eksponenttisen perheen konjugaattiperhe

Määr Eksponettisen perhe \( p(y_i|\theta) = f(y_i)g(\theta) e ^{\phi(\theta)u(y_i)}\).
▻▻ uskottavuus on \( p(y|\theta) = \bigg[ \prod\limits_{ i=1}^{ n} f(y_i) \bigg] g(\theta)^n e ^{\phi(\theta)t(y)},\ \ \ t(y)=\sum u(y_i) \)..
Esim \( y_i|\theta \sim Bin(1,\theta)\) on eksponettisen perhe:
▻▻ \( \begin{align} p(y_i|\theta)&= \theta^{y_i} (1-\theta)^{1-y_i} \\ &=(1-\theta) \bigg( \frac{ \theta}{ 1-\theta} \bigg)^{y_i} \\&= \underbrace{1}_{f(y_i)} \underbrace{(1-\theta)}_{g(\theta)} exp \bigg( \underbrace {\log\frac{ \theta}{ 1-\theta}}_{\phi(\theta)=logit(\theta)} \underbrace{yi}_{u(y_i)} \bigg) \end{align} \).
Lause Konjugaattipriori ja posteriori
▻▻ \( p(\theta) \propto g(\theta)^\eta e^{\phi(\theta)\nu}\);
▻▻ \( p(\theta|y) \propto g(\theta)^{\eta+n} e^{\phi(\theta)(\nu+t(y))}\);
▻▻ ▻▻ \( \begin{cases} \eta \to \eta+n \\ \nu \to \nu + t(y) \end{cases} \).

Jeffreys’in epäinformatiivinen priori

Oletetaan, että \( \begin{cases} y|\theta \sim p(y|\theta)& \text{ otantamalli} \\ p(\theta)& \text{ priori}\\ \psi=h(\theta) &\text{ uusi parametrisointi (bijective)} \end{cases} \) .
Määr Jeffreys'in periaate: epäinformatiivisen priorin tulee johtaa samaan posteriorijakaumaan jokaisella 1-1-tranformoidulle \( \phi\):lle. / invariant to smooth 1-to-1 transformation of \( \phi=h(\theta)\),
▻▻ Jeffreys'in priori: \( p(\theta) = [J(\theta) ]^{1/2} \);
▻▻ ▻▻ ja \( J(\theta )= E \bigg[ \bigg( \frac{ \partial \log p(y|\theta)}{ \partial \theta} \bigg)^2 \bigg | \theta \bigg] = – E \bigg[ \frac{ \partial^2 \log p(y|\theta)}{ \partial \theta^2} \bigg | \theta \bigg] \).
▻▻ ▻▻ se on havainnon Fisher-informaatio.

Joitain yleisiä periaatteita / general principals

Epäoleellisuus ja tyhjentävyys

Määr Epäoleellisuus/ancillarity any data \( y\) is independent of parameter \( \theta\).
▻▻ \( p(\theta |y)=p(\theta)\) (posteriori = priori, y on epäinformatiivinen)
Esim Oletetaan \( y = (x,z)\), ensin x ja sitten z:
▻▻ Haviataan ensin, jolloin opetus on \( p(\theta|x) \propto p(\theta) p(x|\theta)\);
▻▻ Havaitaan tämän jälkeen, jolloin opetus on \( p(\theta|y) = p(\theta|x,z) \propto p(\theta|x)p(z|x,\theta) \propto p(\theta)p(x|\theta)p(z|x,\theta)\) ;
▻▻ \( x\) on epäoleellinen \( \theta\):lle, eli \( p(x|\theta) \propto 1\), ja sitten:
▻▻ ▻▻ \( p(\theta|y) = p (\theta | x,z) \propto p(\theta)p(z|x,\theta)\) .
(in the above, we see the indirect way of \( x\) influence posterior)
Määr Jos \( p(z|x,\theta) \propto 1\), niin \( x\) on yhjentävä/sufficient \( \theta\):lle.
▻▻ Silloin, \( p(\theta | x,z ) = p(\theta|x)\propto p(\theta)p(x|\theta)\).
Esim \(x \) is sufficient means any of the following conditions holds (let \( y=(x,z)\) ):
(a) \( p(\theta|y)\) does not depend on \( z\);
(b) \( p(z|x,\theta)= p(z|x)\), that is , \( z\) is ancillary given \( x\);
(c) \( p(y|\theta)=\underbrace{q_1(x,\theta)}_{p(x|\theta)} \underbrace{q_2(x,z)}_{p(z|x)}\).
▻▻ For example \( s=\sum y\), in many cases, are sufficient to \( \theta\).

Epäinformatiivinen pysäyttäminen

Määr The likelihood principle is that all information from observed data that is relevant to inferences about \( \theta\) is found in the like hood \( p(y|\theta)\) ▻▻ The influcen of the data on inference about \( \theta\) should be the same for different experiments (data obeserved is the same).

Hypoteesintestaus

Oletetaan, että parametriavaruus on \( \Theta,\ \ \Theta_H \subset \Theta\).
Olkoon testattava hypoteesi \( H_0: \theta \in \Theta_0\) ja vastahypoteesi \( H_1:\theta \in \Theta_1\).
Määr Prioritodennäköisyydet/Prior probability \( \begin{cases} \pi_0 = P(\theta \in \Theta_0) \\ \pi_1 = P(\theta \in \Theta_1) \end{cases} \).
Määr Posterioritodennäköisyydet/Posterior probability \( \begin{cases} p_0 = P(\theta \in \Theta_0|y) \\ p_1 = P(\theta \in \Theta_1|y) \end{cases} \).
Lause Two hypotheses can be compared using odds:
▻▻ \( \frac{ p_0}{ p_1} = \frac{ p(H_0|y)}{ p(H_1|y)} = \underbrace{\frac{ p(H_0)}{ p(H_1)}}_{\pi_0/\pi_1} \times \underbrace{\frac{ p(y|H_0)}{ p(y|H_1)}}_{B} \) ;
▻▻ ▻▻ the above is the posterior odds in favour of \( H_0\) against \( H_1\) given data \( y\).
Määr \( B\) sanotaan Bayes-tekijä / Bayes factor. By the above equation, \( B\) depends on the priori:
▻▻ \( B = \frac{ P(H_0|y)/\pi_0}{ P(H_1|y)/\pi_1} = \frac{ p_0 / p_1}{\pi_0 / \pi_1 } \);
▻▻ myös, \( B = \frac{ \displaystyle\int_{ \Theta_0 }^{ } p(y|\theta)p(\theta)/\pi_0\ d\theta }{ \displaystyle\int_{ \Theta_1 }^{ } p(y|\theta)p(\theta)/\pi_1\ d\theta} = \frac{ \displaystyle\int_{ \Theta_0 }^{ } p(y|\theta)p(\theta) d\theta \bigg/ \displaystyle\int_{ \Theta_1 }^{ } p(y|\theta)p(\theta)/\ d\theta}{ \pi_0 \big/ \pi_1} \).
Huom When the parameter space has only to elements, the Bayes factor is likelihood ratio \( B=\frac{ p(y|\theta_0)}{p(y|\theta_1) } \).

Johdatus moniparametrisiin malleihin

Olkoon tuntematon suure(parametri) \( \theta, \ dim(\theta) = p \gt 1\).

Kiusaparametrien eliminointi

Määr For a model, one is usually interested in only some of the parameters. “Ylimääräisia parametereja” sanotaa kiusaparametreiksi / nuisance.
Esim \( y|\mu,\sigma^2 \sim N(\mu, \sigma^2)\), kiinnostus kohdistuu sijaintiparametriin \( \mu\) hajontaparametrin \( \sigma^2\) ollessa kiusaparametri, ja niin meitä vaan marginaaliposteriori \( p(\theta_1|y)\) .
Lause let \( \mathbb{ \theta}=(\theta_1,\theta_2),\ \ \ \theta_2\) kiusaparameteri.
▻▻ \( \begin{align} p(\theta_1|y) &= \displaystyle\int_{ } p(\mathbb{ \theta} |y)\ d\theta_2 \\ &=\displaystyle\int_{ } p(\theta_1|\theta_2, y)p(\theta_2|y)\ d\theta_2 \end{align} \) ;

Normaali otos – epäinformatiivinen priori

Oletetaan, että otantajakauma on \( y_i|\mu,\sigma^2 \sim N(\mu, \sigma^2)\) (molemat ovat tuntemattomia, ja \( y_i\) riippumattomia)
Lause Tehdään priorista: \( \begin{cases} \mu,\ \sigma^2 \text{ ovat riippumattomia} \\ (\mu,\log \sigma) \sim tas(\mathbb{ R}^2 )\end{cases} \) .
▻▻ eli, \( p(\mu) \propto 1;\ p(\sigma)\propto \frac{ 1}{ \sigma};\ p(\mu,\sigma^2)\propto \frac{ 1}{\sigma^2 } \).
▻▻Yhteisposteriori on: \( \begin{align} p(\mu,\sigma^2|y) &= (\sigma^2)^{-(n/2 +1)} e^{-\frac{ 1}{ 2\sigma^2} \sum (y_i-\mu)^2 } \\ &= (\sigma^2)^{-(n/2 +1)} e^{-\frac{ 1}{ 2\sigma^2}[(n-1)s^2 + n(\bar y -\mu)^2]}\end{align} \).
▻▻ ▻▻ \( \bar y\) on otoskeskiarvo ja \( s^2\) otosvarianssi.
Seura Marginaaliposteriori \( p(\mu|y) \propto \bigg[ 1+\frac{ n(\mu-\bar y)^2}{ (n-1)s^2} \bigg]^{-\frac{ n}{ 2}} \sim t_{n-1}(\bar y, \frac{ s^2}{ n} ) \).
▻▻ \( E(\mu|y) = \bar y,\ \ Var(\mu|y) = \frac{ n-1}{ n-3} \frac{ s^2}{ n} \).
▻▻ Vaihtoehtoinen esitys on \( \frac{ \mu – \bar y}{ s/\sqrt n} \big | y \sim t_{n-1}(0,1)\).
Huom Klassisessa tilastotieteessä \( \frac{ \bar y – \mu}{ s/\sqrt n} \big | \mu \sim t_{n-1}(0,1)\).
Seura Marginaaliposteriori \( p(\sigma^2|y) \propto (\sigma^2) ^{-(\frac{ n+1}{ 2}+1 )} e^{-\frac{ n-1}{ 2}s^2/\sigma^2 } \sim Igamma \big( \frac{ n-1}{ 2}, \frac{ n-1}{ 2}s^2 \big) \) .
▻▻ \( E(\sigma^2|y) = \frac{ n-1}{ n-3}s^2,\ \ Var(\sigma^2|y)= \frac{ 2(n-1)^2}{ (n-3)^2 (n-5)}s^4 \) .
Lause Prediktiivinen jakauma \( p(\tilde y |y) = \displaystyle\int_{ } p(\tilde y | \mu,\sigma^2)p(\mu,\sigma^2 |y)\ d\mu d\sigma^2 \sim t_{n-1} \bigg( \bar y, (1+\frac{ 1}{ n} )s^2 \bigg) \) .

Normaali otos – konjugaattipriori

Määr Käänteinen Chi-square-jakauma
▻▻ Jos \( x \sim Gamma(\frac{ \nu_0}{ 2}, \frac{ 1}{ 2} )\), niin \( x\sim \chi^2(\nu_0)\);
▻▻ Jos nyt \( y=\frac{ \sigma_0^2 \nu _0}{ x} \), niin \( y\sim Inv\chi^2 (\nu_0,\sigma_0^2)\) .
Lause Konjugaattipriori normaaliotokselle on N-Inv-Chi-square jakauma
▻▻ \( p(\mu,\sigma^2)= p(\sigma^2)p(\mu|\sigma^2) \text{ , missa} \begin{cases} \sigma^2 \sim Inv\chi^2(\nu_0,\sigma_0^2) \\ \mu|\sigma^2 \sim N(\mu_0, \frac{ \sigma^2}{ \kappa_0} ) \end{cases} \) .
Määr Semikonjugaattipriori normaaliotoksille, jos \( \mu \sim N(\mu_0,\tau_0^2)\) (muut ovat samaa).

Kahden normaalipopulaation keskiarvojen vertailu

Oletetaan, että \( \begin{cases} x_i|\lambda,\phi \sim N(\lambda, \phi) \\ y_i|\mu,\psi \sim N(\mu, \psi) \end{cases} \) . (riippumaton otos)
Lause S1. Parivertailu/pari comparison (same sample size) ja \( (x_i,y_i)\) muodostavat verrannolliset parit.
▻▻ \( z_i = x_i-y_i |\delta,\omega \sim N(\delta,\omega) [latex] , ja \) \omega=\phi+\psi [/latex] .
Lause S2. Riippumattomat otokset, varianssit tunnetut:
▻▻ Priori \( p(\lambda) \propto 1,\ p(\mu) \propto 1\);
▻▻ Tällöin: \( \begin{cases} \lambda |x &\sim N(\bar x, \frac{ \phi}{ m} ) \\ \mu |y&\sim N(\bar y, \frac{ \psi}{ n} ) \\ \delta|x,y &\sim N(\bar x – \bar y, \frac{ \phi}{ m}+ \frac{ \psi}{ n} ) \end{cases} \) .
Lause S3. Varianssin yhtäsuuret mutta tuntemattomat eli \( \phi = \psi\).
▻▻ Priori \( p(\lambda, \mu, \phi) \propto \frac{ 1}{ \phi} \) ;
▻▻ Posteriori \( p(\lambda, \mu, \phi|x,y) \propto p(\lambda, \mu, \phi)p(x | \lambda,\phi) p(y| \mu,\psi) \) ;
▻▻ Laskujen jälkeen \( p(\delta,\phi|x,y) = p(\phi |s^2) \underbrace {p(\delta | \bar x – \bar y, \phi)}_{\sim N(\bar x-\bar y, \phi (\frac{ 1}{ m}+\frac{ 1}{ n} ))}\).
▻▻ Posteriori \( \frac{ \delta – (\bar x- \bar y)}{ s \sqrt{\frac{ 1}{ m}+\frac{ 1}{ n} }} \bigg | x,y \sim t_{m+n-2} (0,1)\);
▻▻ ▻▻ \( s^2 = \frac{ (m-1)s_x^2 + (n-1)s_y^2}{ m+n-2} \) .
Lause S4. Varianssin tuntematon: cannot be expressed, only through numerical simulation.

Multinomiaaliotos

The multinomial omdel is a generalisation of the binomial model.
Määr Luokittelumalli (\( \Omega\) on lukiteltava yksilö )
▻▻ \( P(\Omega_j \in {i} | \theta_i) = \theta_i, \ \ \forall i,\ \ \sum\theta_i =1\) Määr Multinomaiaalijakauma
▻▻ \( p(y|\theta) = {n \choose y_1 \cdots y_k} \theta_1^{y_1} \cdots \theta_k^{y_k}\).
Lause Konjugaattipriori multinomiaaliotokselle on Dirichlet jakauma \( \theta \sim Dir(\alpha_1,\dots,\alpha_k)\) :
▻▻ \( p(\theta) \propto \prod\limits_{ i=1}^{ k}\theta_i^{\alpha_i-1}\ \ \ (\theta_i,\alpha_i\gt0,\ \ \sum \theta_j =1 )\) .
▻▻ Posteriori on \( p(\theta|y) \propto \sum\limits_{ i=1}^{ k} \theta_i^{\alpha_i+y_i-1} \sim Dir (\alpha_1+y_1,\dots,\alpha_k+y_k)\) .

Johdatus posteriorijakauman simulointiin

Tunnematon suure on \( \theta = (\theta_1,\dots,\theta_p)\) ja meitä kiinnostaaa eryityisesti \( p(\theta_1|y)\) , missä \( p(\theta_1|y) = \displaystyle\int_{ } \dots \displaystyle\int_{ } p(\theta|y)\ d\theta_2 \cdots d\theta_p \) .
Oletetaan, että \( \theta ^{(1)},\theta ^{(2)},\dots, \theta ^{(N)}\) on simulointu otos yhteispriorista \( p(\theta |y)\) \( \theta_1\):n empiirinen marginaaliposteriori saadaan suoraan marginaaliotoksesta.
Määr Odotusarvo
\( \begin{align} E(h(\theta_1)|y)&= \displaystyle\int_{ } \cdots \displaystyle\int_{ } h(\theta_1)p(\theta|y) \ d\theta\\ &=\displaystyle\int_{ } h(\theta_1)p(\theta_1|y)\ d\theta_1 \\ &\approx \frac{ 1}{ N} \sum\limits_{ k=1}^{ n} h(\theta_1^{(k)}) \end{align} \) .

Hierarkkiset Bayes-mallit

Kiinteät efektit ja satunnaisefektit Klassisessa Tilastotiedessä

Esim Indeksi \( j\) viittaa kouluun, \( i\) oppilaaseen:
\( y_{ji}|\mu_{ji},\sigma_e^2 \sim N(\mu_{ji}, \sigma_e^2),\ \ \ j =1,\dots,J,\ i=1,\dots,n_j\).
Määr Kiinteät efektit
\( \begin{cases} \mu_{ji} = \mu + \theta_j \\ \text{tyypillisesti } \sum\limits_{ j=1}^{ J}\theta_j =0 \end{cases} \) .
▻▻ Usein hypoteesi on \( \theta_1 =\cdots = \theta_J =0\) .
Määr Satunnaisefektit
\( \begin{cases} \mu_{ji}= \mu + u_j \\u_j \sim N(0,\sigma_u^2) \end{cases} \) .
Lause Kovarianssirakenne
\( \begin{cases} Var(y_{ji})=\sigma_u^2 + \sigma_e^2 \\ cov(y_{ji},y_{ji’}) = \sigma_u^2, & i\neq i’ \\ cov(y_{ji},y_{j’i’}) =0, &i\neq i’,\ j \neq j’ \\ \rho = \frac{ \sigma_u^2}{ \sigma_e^2 +\sigma_u^2} \end{cases} \) .
Lause Malli muodossa
\( \begin{cases} y_{ji}=\mu + u_j + e_{ji} \\ e_{ji} \sim N(0,\sigma_e^2) \\ u_j \sim N(0,\sigma_u^2) \end{cases} \) .

Priorin mallintaminen

Lause Jos \( \theta_i\) :t riippumattomia, riittää \( p(\theta) = \prod\limits_{ i=1}^{ K}p(\theta_i) \) ;
▻▻ Yleensä eivät ole riippumattomia, mutta voivat olla ehdollisesti riippumattomia.
Määr Priorin mallin : \( \theta_i | \underbrace{\mu, \kappa^2}_\text{ hyperparametreja} \sim N(\mu, \kappa^2)\).
Esim Directed acyclic graphs (DAG)
maths_bayes_dag

Hierarkkisia Bayes-malleja

Formuloidaan hierarkkisena Bayes-mallina:
Esim Lineaarinen malli \( y_i = \alpha + \beta x_i + \epsilon_i\) :
\( \begin{cases} y_i|\mu_i,\sigma^2 \sim N(\mu_i,\sigma^2) \\ \mu_i = \alpha + \beta x_i \\ \alpha \sim N(5,1) \\ \beta \sim N(2,1) \\ \tau = \sigma^{-2} \sim Gamma(0.001, 0.01) \end{cases} \) .
Esim Autorgressio (AR1) \( y_i-m = a (y_{i-1}-m)+e_i\) :
▻▻ \( y_i|a,m,y_0,\sigma^2 \sim N( \underbrace{m+a(y_{i-1}-m)}_{\mu_i}, \sigma^2)\) .
Esim Logit-malli \( y_i|\theta_i \sim Bin(n_i, \theta_i)\) :
▻▻ \( logit(\theta_i) = \log \frac{ \theta_i}{ 1-\theta_i} = \alpha + \beta x_i \) .

Posteriorijakauman simulointi: MCMC

Ekskursio Markovin ketjujne maailmaan

Määr Markov Chain Olkoon \( {\theta^n}\) jono satunnaismuuttujia:
▻▻ \( P(\theta^n = \theta | \theta^1,\dots, \theta^{n-1}) = P(\theta^n = \theta | \theta^{n-1}) := \underbrace{p(\theta | \theta ^{n-1})}_{\text{siirtymä(transition)-tn} }\) .
▻▻ sitten \( p(\theta^0,\theta^1,\dots,\theta^n) = \underbrace{\pi_0(\theta^0)}_{\text{defined }\theta^0 } \prod\limits_{ i=1}^{ n} p(\theta^i | \theta^{i-1}) \) .
Määr Invariantinen jakauma / tasapainojakuma: Olkoon \( p(\theta|\theta’)\) annetut, määritellään \( \pi(\theta) = \sum\limits_{ \theta’} \pi(\theta’)p(\theta|\theta’)\) .
Lause Lievin ehto \( \lim\limits_{ n\to \infty} P(\theta^n = \theta) = \pi(\theta)\) alkujakaumasta \( pi_0 (\theta^0)\) riippumatta.
Lause Suuri ajatus 1
(1) Valitaan alkutila \( \theta^0\) ;
(2) Simuloidaan ketjua \( \theta^1,\dots,\theta^N\) ;
(3) Ketjun \( \theta^{m+1},\theta^{m+2}\dots,\theta^N\) voidaan katsoa olevan invariantista \( \pi(\theta)\) :stä.
▻▻ \( E_\pi [h(\theta)] \approx \frac{ 1}{ N-m} \sum\limits_{ i=m+1}^{ n} h(\theta^i)\) .

Metropolisin menetelmä ja Hastingsin modifikaatio

Lause Metropolisin menetelmä
(1) Valitaan alkutila \( \theta^0\) ;
(2) Olemme konstruoineet \( n\) arvoa \( \theta^0,\theta^1,\dots,\theta^n\) ko. ketjusta;
(3) Simuloidaan \( \theta^{n+1}\) :
(3a) ehdotusjakaumaa/proposal \( q(\theta’|\theta^n)\) ;
(3b) hyväksymis/acceptance-tn \( \alpha = \min \bigg\{ 1, \frac{ p(\theta’|y)}{ p(\theta^n|y)} \bigg\} \) , valitaan \( \theta^{n+1}=\theta’ \text{ or }\theta^n \) (here we do NOT simulate, but directly set to the previous value).
▻▻ \( E_\pi [h(\theta)|y] \approx \frac{ 1}{ N-m} \sum\limits_{ i=m+1}^{ n} h(\theta^i)\) .
Lause Hastings modifikaatio : \( \alpha = \min \bigg\{ 1, \frac{ p(\theta’|y)q(\theta^n|\theta’)}{ p(\theta^n|y)q(\theta’|\theta^n)} \bigg\} \) .
Esim Consider \( f(x)= N(5,9) I_{(1\leq x \leq 6)}\) .
▻▻ Choose \( q(x|x^j)=N(x|x^j,1)\) and let \( x^0 =5\) and then simulate using BUGS.

Gibbsin otanta

Merkitään \( \theta_{-i} = \boldsymbol{ \theta}\setminus \{\theta_i\} \) ja oletetaan \( p(\theta_i|\theta_{-i},y) = \frac{ p(\theta_i|y)}{ p(\theta_{-i}|y)} \) (lokaalinen tunnus / local characteristics )
Lause Gibbsin alogritmi
(1) Valitaan alkuarvo \( \theta^0\) ;
(2) Oletetaan, että on saatu simuloiduksi vektori \( \theta^n\) ;
(3) Päivitetään se komponenteittain.

Algorithm: Gibbs sampler
Two dimenisonal: suppose \( \theta_1,\theta_2 \sim p(\theta_1,\theta_2)\) .
(requirements) We can sample from \( p(\theta_1|\theta_2),\ p(\theta_2|\theta_1)\) .
(step 1) choose initial value \( (\theta_1^{0},\theta_2^{0})\) ;
(step 2) Gibbs sampler \( \begin{cases} \theta_1^{j} \sim p (\theta_1|\theta_2^{j-1}) \\ \theta_2^j \sim p(\theta_2 | \theta_1^j) \end{cases} \) .


\( \theta^0\) ⇐ some vector in the parameter space;
for \( t\in \{1,\dots,N\}\) ▻▻ choose a dimension \( i_t \in \{1,\dots,d\}\) ;
▻▻ \( \theta_{i_t}^t\) ⇐ a sample drawn from \( p(\theta_{i_t}| \theta_{-i_t}^{t-1},y)\) ;
▻▻ \( \theta_{-i_t}^t\ ⇐ \ \theta_{-i_t}^{t-1} \) ;
end for