Sekamallit ja pitkittäisainestojen analyysi


Johdanto

Pitkittäisaineisto / Longitudinal data \(\begin{cases} \text{riippumattomat yksilöt} \\ \text{samat yksilöt mitataan } \begin{cases} \text{toistuvasti ajassa } \\ \text{erilaisissa olosuhteissa } \end{cases} \\ \text{yleensä, trendi ja vertailu } \\ \begin{cases} \text{yksilökohtaisia / within-subject } \\ \text{poikittaistutkimus / cross-section } \end{cases} \end{cases} \).

Merkintöjä: Yksilölle \(i \begin{cases} \boldsymbol{y} _i = (y _{i1} ,\dots, y _{in} )’ \\ \boldsymbol{\mu} _i = E(\boldsymbol{y} _i) \\ \boldsymbol{Cov} (\boldsymbol y_i ) = \boldsymbol \Sigma_i \\ \boldsymbol{Corr} (\boldsymbol y_i ) = \boldsymbol R_i \\ \ \ \ ▻▻\ (\boldsymbol \Sigma_i )_{jk} = Cov(y _{ij} ,y _{ik} )=\sigma _{ijk}\end{cases} \).

Lineaarinen malli \(\begin{cases} y _{ij} = \beta_0 + \beta_1 x _{ij1} + \cdots + \beta_p x _{ijp} + \epsilon _{ij} \\ \boldsymbol y_i = \boldsymbol X_i \boldsymbol \beta + \boldsymbol \epsilon_i \\ \boldsymbol X_i = \begin{bmatrix} 1 & x _{i11} & \cdots & x _{i1p} \\ 1 & x _{i21} & \cdots & x _{i2p} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x _{in1} & \cdots & x _{inp} \end{bmatrix} ,\ \ \boldsymbol \epsilon_i = \begin{bmatrix} \epsilon _{i1} \\ \epsilon _{i2} \\ \vdots \\ \epsilon _{in} \end{bmatrix} \end{cases} \).

Marginaalimallit \(\begin{cases} E(y _{ij} | \boldsymbol{x} _{ij} )= \mu _{ij} \\ g(\mu _{ij} ) = \boldsymbol{x} ‘_{ij} \boldsymbol \beta \\ Var(y _{ij} | \boldsymbol{x} _{ij} ) = \underbrace{\phi}_{ \text{skaala } } \underbrace{V(\mu _{ij} )}_\text{varianssifunktio } \end{cases} \).

Satunnaisvaikutusten mallit \(\begin{cases} g(E(y _{ij} | \boldsymbol u_i , \boldsymbol{x} _{ij} , \boldsymbol{z}_{ij})) = \boldsymbol{x} _{ij} ‘ \boldsymbol{\beta} + \boldsymbol{z} _{ij} ‘ \boldsymbol{u}_i \\ \boldsymbol u_i \ q \text{-ulotteinen satunaismuuttuja, kuuluu } \mu _{ij} \\ \boldsymbol{z} _{ij} \text{ design-vektori} \end{cases} \).

Transitiomallit \(g(E(y _{ij} | y _{ij-1} ,\dots, y _{i1} ))= \boldsymbol{x}_{ij} ‘ \boldsymbol{\beta} +\alpha y _{ij-1} \).

Kuvailevia tekniikoita

Erottaminen/Separation \(\begin{cases} \text{Poikittaistukimuksessa } & y _{i1} = \beta_C x _{i1} + \epsilon_{i1} \\ \text{Pitkittäistutkimuksessa } & y _{ij} = \beta_C x _{i1} + \beta_L (x _{ij} -x _{i1} ) + \epsilon _{ij} \\ &(y _{ij} – y _{i1} )= \beta_L(x _{ij } – x _{i1} ) + \epsilon _{ij} – \epsilon _{i1} \end{cases} \).

Sileän käyrä/smoothing \(\begin{cases} \text{Ydinregression/kernel }\\ \text{Lokaali polynomiregressio } \\ \text{Silotetut splinit /smoothing splines } \end{cases} \).

Heikko stationaarisuus \(\rho( \underbrace{|t _{ij} – t _{ik} |}_{:=u} ) = Corr(r _{ij} – r _{ij-\tau} )\).

Variogrammi stokastiselle \(y(t)\):lle \(\begin{cases} \gamma(u) = \frac{1}{2} E \big( y(t) – y (t-u) \big)^2,\ \ \ u \gt 0\\ \text{stationaarinen ⇒ } \gamma(u)=\sigma^2 (1- \rho(u)) \end{cases} \).

Yleinen lineaarinen malli

Mallin formulointi \(\begin{cases}y_{ij} = \boldsymbol x_{ij}’\boldsymbol\beta + \epsilon_i = \beta_0 + \beta_1x_{ij1} +\cdots \beta_p x_{ijp} + \epsilon_{ij} \\ \ \ \ x_{ij} = (1, x_{ij1}, x_{ij2},\dots,x_{ijp})’ & p+1 \text{ ulotteinen}\\ \ \ \ \boldsymbol\beta = (\beta_0,\beta_1,\dots,\beta_p)’ \\ E(y_i|X_i)= X_i\beta\\ y_i|X_i \sim N(X_i\beta, \ \Sigma_i)\end{cases}\)

Kovarianssirakenne \(\begin{cases} \text{Yleinen / General} & \boldsymbol\Sigma = \begin{pmatrix} \sigma_1^2 &. &. &. \\ \sigma_{12} &\sigma_2^2 &. &. \\ \sigma_{13} &\sigma_{23} &\sigma_3^2 &. \\ \sigma_{14} & \sigma_{24} &\sigma_{34} &\sigma_4^2\end{pmatrix} \\ \text{Toeplich / Teoplitz} & \boldsymbol\Sigma = \sigma^2\begin{pmatrix} 1 &. &. &. \\ \rho_{1} &1 &. &. \\ \rho_{2} &\rho_{1} &1 &. \\ \rho_{3} & \rho_{2} &\rho_{1} &1\end{pmatrix} \\ \text{Tasakorrelaatio- / Compound symmetry} & \boldsymbol\Sigma = \sigma^2\begin{pmatrix} 1 &. &. &. \\ \rho &1 &. &. \\ \rho &\rho &1 &. \\ \rho & \rho &\rho &1\end{pmatrix} \\ \text{Autoregressiivinen AR(1)} & \boldsymbol\Sigma = \sigma^2\begin{pmatrix} 1 &. &. &. \\ \rho &1 &. &. \\ \rho^2 &\rho &1 &. \\ \rho^3 & \rho^2 &\rho &1\end{pmatrix} \\ \text{Eksponentiaalinen Korrelaatiomalli} & Corr(y_{ij}, y_{ik}) = \rho^{|t_j – t_k|},\ \ \rho = e ^{-\theta} \end{cases}\)

R: library nlme, funktiot gls ja corStruct

REML-estimointi (restricted ML) \(\begin{cases} \text{ML: kovarianssin estimaattori on harhainen.} \\ \text{Idea: eliminate } \boldsymbol\beta \text{from likelihood function} \\ \text{Valitse } \boldsymbol K:\ rank(\boldsymbol K) = n-p \text{ ja }\boldsymbol{K’X}_i = 0 \\ \boldsymbol{K’y}_i | \boldsymbol X_i \sim N(0, \boldsymbol{K’\Sigma_i K}) \\ L_{REML} = … \text{from above}\end{cases}\)

Empiirinen varianssin estimointi \(\begin{cases} \text{Empiirinen cov} & \widehat{Cov}(y_i) = (y_i -X_i\hat\beta)(y_i -X_i\hat\beta)’ \\ \text{Sandwich estimator} & Cov(\hat\beta) = \bigg[ \sum\limits_{i=1}^N (X_i’ \hat\Sigma_i ^{-1}X_i)\bigg] ^{-1} \sum\limits_{i=1}^N (X_i’ \hat\Sigma_i ^{-1} \widehat{Cov}(y_i) \hat\Sigma_i ^{-1}X_i) \bigg[ \sum\limits_{i=1}^N (X_i’ \hat\Sigma_i ^{-1}X_i)\bigg]^{-1 }\end{cases}\)

Yleinen lineaarinen sekamalli

Yhden satunnaisvaikutuksen malli (ANOVA) \(\begin{cases} y _{ij} = \boldsymbol x ‘_{ij}\boldsymbol \beta + u_i + \epsilon _{ij} = (\beta_0 + u_i ) + \beta_1 x _{ij1} + \cdots + \beta_p x _{ijp} + \epsilon _{ij} \\ u_i \sim N(0,\sigma_u^2),\ \ \ \epsilon _{ij}\sim N(0,\sigma^2) \\ \boldsymbol\Sigma_i = \begin{pmatrix} \sigma_u^2 + \sigma^2 & \sigma_u^2 & \dots & \sigma_u^2 \\ \sigma_u^2 & \sigma_u^2+ \sigma^2 & \dots & \sigma_u^2 \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_u^2 & \sigma_u^2 & \cdots & \sigma_u^2+\sigma^2\end{pmatrix}\end{cases}\)

Satunnaiskertoimien malli \(y _{ij} = (\beta_0 + u _{i0}) + (\beta_1 + u _{i1}) x _{ij1} + \epsilon _{ij}\)

Lineaarisen sekamallin formulointi \(\begin{cases} \boldsymbol y_i = \boldsymbol X_i \boldsymbol \beta + \boldsymbol Z_i \boldsymbol u_i + \boldsymbol \epsilon_i \\ \boldsymbol X_i\ (n\times p ) \text{ kovariaattimatriisi} \boldsymbol Z_i\ (n\times q) \text{design-matriisi} \\ u_i \sim N(0,G),\ \epsilon_i \sim N(0,R_i)\\ E(y_i|u_i) = X_i\beta + Z_i u_i \\ E(y_i) = X_i\beta \\Cov(y_i|u_i) = Cov(\epsilon_i) = \boldsymbol R_i \\ Cov(y_i) = Cov(Z_i u_i) + Cov(\epsilon_i)\end{cases}\)

Kiinteiden vaikutusten estimointi \(\begin{cases} y_i \sim N(X_i\beta, \Sigma_i) \\ \hat\beta = \bigg( \sum\limits_{i=1}^N(X_i’ \Sigma_i ^{-1}X_i) \bigg) ^{ -1} \sum\limits_{i=1}^N (X_i’ \Sigma_i ^{-1} y_i) \\ y_i|u_i \sim N(X_i\beta + Z_i u_i, R_i) \text{ follows ML …}\end{cases}\)

Satunnaisvaikutusten ennustaminen \(\begin{cases} u_i \text{ paras ennuste / best predictor BP} \\ \tilde u_i = BP (u_i) = \arg\min MSE(u_i) = \arg\min E[(\hat u_i – u_i)’ (\hat u_i – u_i)] \\ \text{ on myös BLUP} \\ \tilde u_i = \hat GZ_i’ \hat\Sigma_i^{-1} (y_i – X_i\beta) \text{ empiirinen BLUP/EBLUP}\end{cases}\)

Kasvukäyrämallit \(\begin{cases} y _{ij} = \alpha _{i0} + \alpha _{i1} t _{ij} + \epsilon _{ij} \\ \text{missä, } \begin{align} \alpha _{i0} = \beta _0 + \beta_1 x_i + u _{i0} \\ \alpha _{i1} = \beta_2 + \beta_3 x_i + u _{ij} \end{align} \end{cases}\)

Mallin valinta\(\begin{cases} \text{Sisäkkäinen/Nested model: REML-menetelmää} \\ \text{Informaatiokriteerejä }\begin{align} AIC &= -\log L +c \\ BIC &= – \log L + \frac{c}{2}\ln (n^*) \\ c & \text{ on # kovarianssiparametria} \\ n ^* & \text{ on # efektiivisten yksilöitä} \overset{REML}= n-k\end{align} \end{cases}\)

Yleistetyt estimointiyhtälöt

Marginaalimalleilla on etuja \(\begin{cases} \text{mallinnus ei perustu jakaumaoletukseen} \\ \text{Riittää kirjoittaa regressiomalli keskiarvolle }\\ \text{ja tehdä jonkinlainen oletus korrelattiorakenteelle} \end{cases}\)

Marginaalimallin formulointi \(\begin{cases} \text{Vastemuuttuja voi olla jatkuva, binäärinen tai lukumäärä} \\ \text{Vektorit } \boldsymbol y_1, \dots, \boldsymbol y _N \text{ ovat keskenään riippumattomia} \\ \text{ — } \boldsymbol y_i = (y _{i1}, \dots, y _{in})’ \text{yksilö havainnot ovat rriippuvia} \\ y _{ij} \sim \boldsymbol x _{ij} \text{ kovariaattivektori} \end{cases}\)

Keskiarvo ja kovarianssi \(\begin{cases} \text{Linkkifunktio } g(\mu _{ij}) = \boldsymbol x _{ij}’ \boldsymbol\beta,\ \ \mu _{ij} = E ( \boldsymbol y_{ij} | \boldsymbol x_{ij}) \\ \text{Varianssifunktio } Var(y_{ij} | \boldsymbol x_{ij} ) = \phi V(\mu_{ij}) \\ \text{ — } \phi \text{ skaalaparametri, tunnettu tai estimoidaan} \\ \text{Yksilön havaintojen riippuvuus oletetaan } \boldsymbol \alpha \text{ funktioksi} \\ \text{Esim 1} \begin{cases} \mu_{ij} = \boldsymbol {x_{ij}’ \beta} \text{ (lineaarinen)} \\ Var(y_{ij}) = \phi \text{ (homogeeninen)} \\ corr(y_{ij},y_{ik}) = \alpha ^{|k-j|} \text{ (autoregreessiivinen)}\end{cases} \\ \\ \text{Esim 2} \begin{cases} logit(\mu_{ij}) = \boldsymbol {x_{ij}’ \beta} \text{ (logistinen)} \\ Var(y_{ij}) = \mu_{ij}(1-\mu_{ij}) \text{ (Bernoulli)} \\ \log OR(y_{ij},y_{ik}) = \alpha _{jk} \text{ (odds ratio)}\end{cases} \\ \\ \text{Esim 3} \begin{cases} \log(\mu_{ij}) = \boldsymbol {x_{ij}’ \beta} \text{ (Poisson)} \\ Var(y_{ij}) = \mu_{ij}\text{ (Poisson)} \\ corr(y_{ij},y_{ik}) = \alpha _{jk} \text{ (yleinen rakenne cor)}\end{cases} \end{cases}\)

GEE paramterinen estimointi \(\begin{cases} \text{Minimoida objektifunktio } \sum\limits_{i=1}^N (y_i-\mu_i)’ V_i (y_i -\mu_i) \\ \text{ — missä } \mu_i = \begin{pmatrix} \mu _{i1} \\ \vdots \\ \mu _{in} \end{pmatrix} = \begin{pmatrix} g ^{-1}(x _{i1}’\beta) \\ \vdots \\ g ^{-1}(x _{in}’\beta) \end{pmatrix} \\ \text{Iterations needed for calculation} \end{cases}\)

Yleistetty lineaarinen sekamalli ja Transitiomallit

Yleitetty lineaarinen sekamalli \(\begin{cases} Var(y _{ij}| \boldsymbol u_i) = \phi V(E(y _{ij}| \boldsymbol u_i)) \\ \text{ –} V \text{ varianssifunktio}, \phi \text{ skaalaparametri} \\ g(E(y _{ij}| \boldsymbol u_i)) = \boldsymbol{x_{ij}’ \beta + z’_{ij} u_i} \\ \boldsymbol u_i \sim N(\boldsymbol{0, G}) \end{cases}\)

Autoregressive \(\begin{cases} H _{ij} = \{y _{ij},\dots, y_{i, j-1}\} \text{ historiaa} \\ g (E(y _{ij}| H _{ij})) = x’ _{ij} \beta + \sum\limits_{r=1}^s \alpha_r f_r (H _{ij}) \\ \text{ missä } f_1(H_{ij})= y_{i0}, f_2(H_{ij})= y_{i,j-2}, f_3(H_{ij})= y_{i,j-3}\end{cases}\)

You must be logged in to post a comment.