Yleistetyt Lineaarinen Malli

Lineaarinen regressio

Huom Regressioanalyssin avulla ei voida tehdä päatelmiä muuttujien välisestä syy-seuraus -yhteydestä.

Model definition \(\begin{cases} \text{dikotominen} & piste = \beta_0 + \beta_1 kouluA + \epsilon \\ \text{jatkuva} & piste = \beta_0 + \beta_1 ika + \epsilon \\ & \underbrace{ piste}_{ \text{vaste-} } = \beta_0 + \beta_1 ( \underbrace{ ika}_{ \text{prediktori, syöte} } – \overline{ ika} ) + \epsilon \\ \text{Prediktori} & E[Y|X_1 =x_1,\dots,X_p=x_p] = \beta_0 +\beta_1 x_1 +\cdots +\beta_p x_p \\ \text{Virhetermi} & \epsilon = Y – E[Y|X_1 =x_1,\dots,X_p=x_p] \end{cases} \).

\(\epsilon \sim N(0,\sigma^2) \ ⇒\ Y|X_1 =x_1,\dots,X_p=x_p \sim N(\beta_0+\beta_1x_1 + \beta_p x_p, \sigma^2)\).

Matriisimuodo \( \begin{cases} \boldsymbol{y} = \begin{bmatrix} y_1\\ \vdots \\ y_n\end{bmatrix} ,\ \boldsymbol{X} = \begin{bmatrix} 1 & x _{11} & \cdots & x _{1p} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x _{n1} & \cdots & x _{np} \\ \end{bmatrix} ,\ \boldsymbol{\beta} = \begin{bmatrix} \beta_0 \\ \vdots \\ \beta_p \end{bmatrix} ,\ \boldsymbol{\epsilon} = \begin{bmatrix} \epsilon_0\\ \vdots \\ \epsilon_p \end{bmatrix} \\ \boldsymbol{y = X \beta } + \boldsymbol{\epsilon},\ \ \ \boldsymbol{\epsilon} \sim N (\boldsymbol{0} ,\sigma^2 \boldsymbol{I} ) \\ \\ \text{PNS-estimointi } \ \begin{cases} \boldsymbol{\hat\beta} = (\boldsymbol{X’X} ) ^{-1} \boldsymbol{X’y} \\ \hat\sigma^2 = \frac{\boldsymbol{e’e} }{n-p-1} \\ \widehat{Cov}(\boldsymbol{\hat\beta} )= \hat\sigma^2 (\boldsymbol{X’X} ) ^{-1} \end{cases} \end{cases} \).

\(\begin{cases} \frac{\hat\beta_j – \beta_j}{se(\hat\beta_j)} \sim t _{n-p-1} \\ R^2 = 1- \frac{\sum e_i^2}{\sum (y_i-\bar y)^2} \end{cases} \).

Olettamukset ja diagnostiikka (residual plot) \(\begin{cases} \text{Mallin pätevyys – model is meaningful} \\ \text{Lineaarisuus} \\ \text{Virheiden riippumattomuus} \\ \text{Virhevarianssien vakioisuus} \\ \text{Virheiden normaalisuus} \end{cases} \).

Muunnokset | Transformations

Muunnokset \(\begin{cases} \text{Prediktorien skaalaus / scaling} \\ \text{Standardointi} \\ \text{Logaritmmuunnos: joskus sekä vasteesta että prediktorista} \\ \text{Neliöjuurimuunnos} \\ \text{muita, esim. Box-Cox } (y ^\alpha-1)/\alpha \end{cases} \).

Testata \(H_0: \beta_1 = \dots = \beta_r = 0 : \begin{cases} F= \frac{\boldsymbol{b’S}^{-1} \boldsymbol{b} }{r} \sim F(r, n-p-1) \\ \boldsymbol{b} = (\hat\beta_1,\dots, \hat\beta_r)’,\ \boldsymbol{S} = \widehat{Cov}(\boldsymbol{b} )\end{cases} \).

Testata \(H_0: \beta_j = 0: \ \bigg| \frac{\hat\beta_j}{se(\hat\beta_j)} \bigg| \gt 2 \ ⇒\ \text{reject} \).
Huom Interactive items should be added once its influence is supposed to be strong (eg. gender), and use F-test to verify.

Logistinen regressio

Dikotomisia vasteita \(\begin{cases} P(y=1) = \pi & \text{todennäköisyyttä/vaara} \\ P(y=0) = 1- \pi \\ o = \frac{\pi}{1-\pi} & \text{vedolyöntisuhde/odds}\\ \text{logit} (\pi):= \log o \\ \text{logit} ^{-1} (x) = \frac{e^x}{1+e^x} \end{cases} \).

Logistinen malli \(\begin{cases} &\text{logit} (\pi_i) = \beta_0 + \beta_1 x_i \\ ⇔ &\pi_i = \text{logit} ^{-1} (\beta_0 + \beta_1 x_i) \end{cases} \).

Explain the model \(\begin{cases} x_i=0 \ ⇒ & e ^{\hat\beta_0} = \frac{\hat\pi_i}{1-\hat\pi_i} \ ⇒\ {\hat\pi_i} = \frac{e ^{\hat\beta_0} }{1+e ^{\hat\beta_0} } \\ x_2 = x_1+1 \ ⇒& e ^{\hat\beta_1} = \big( \frac{\hat\pi_2}{1-\hat\pi_2} \big)\big/ \big( \frac{\hat\pi_1}{1-\hat\pi_1} \big) \text{ ristitulosuhde/odds ratio} \end{cases} \).

Logit tilastollinen päättely \( \begin{cases} \frac{\hat\beta_j-\beta_j}{se(\hat\beta_j)}\sim N(0,1)\\ Q= \boldsymbol{b’S} ^{-1} \boldsymbol{b} \sim \large\chi\normalsize^2(dim (b))\end{cases} \).

Mallin valinta – devianssi \( \begin{cases} D:= 2 [L(\boldsymbol{b} _{max}; \boldsymbol{y} ) – L(\boldsymbol{b} ; \boldsymbol{y} )] \sim \large\chi\normalsize^2 (dim( \boldsymbol{b} _{max})-dim( \boldsymbol{b} )-1)\\ \text{ can also used inside a model: } \\\text{ ▻▻ } H_0: p_1 – p_2 \text{ parametria mallissa ovat nollia} \\ \text{ ▻▻ } D_2 – D_1 \sim \large\chi\normalsize^2(p_1-p_2 )\end{cases} \).

Poisson regressio

Poisson-jakaumaa \(\begin{cases} \text{käytetään lukumääräaineistojen mallintamiseen} \\ Y \sim Poisson(\lambda) \ ⇒\ E(Y)= Var(Y)=\lambda \\ \log\lambda_i = \boldsymbol{x} _i’ \boldsymbol{\beta} \\ \text{Intensiteetin logaritmi: }\theta_i \text{ intensiteetti} \\ \ \log \lambda_i = \log\theta_i + \log m_i= \boldsymbol{x} _i’ \boldsymbol{\beta} +\log m_i,\ \ \ \lambda_i = m\theta_i \\ \ ⇒\ \hat\lambda_i = m_i e ^{\boldsymbol{x} _i’ \hat\beta} \end{cases} \).

You must be logged in to post a comment.