Parametrittomat ja robustit menetlemät

Kahden käsittelyn vertailu: kaltaistetut parit

Compare two variables: matching couples.
Lause On usein realistista oletta, että \( d_1,\dots, d_n \) on satunnaisotos jatkuvasta symmetrisestä jakaumasta.
▻▻ esim. \( d= X-Y \).

Parametrinen malli: normaalijakaumaoletus

Oletetaan \( d_1,\dots,d_n \sim N(\Delta, \sigma^2) \)., missä delta on käsittelyjen vaikutusten keskimääräinen ero.
Lause \( \begin{cases} d_1,\dots,d_n \to \bar d, s_d \\ t= \frac{\bar d}{s_d/\sqrt n} \sim t _{n-1} \text{ kun } H_0:\Delta=0 \text{ on tosi} \\ \hat\Delta = \bar d,\ \ se(\hat\delta) = \frac{s_d}{\sqrt n} \\ (\bar d – t _{\frac{\alpha}{2} } \frac{s_d}{\sqrt n} ,\ \ \bar d + t _{\frac{\alpha}{2} } \frac{s_d}{\sqrt n} ) \end{cases} \).

Parametriton malli A

Oletetaan \( d_1,\dots,d_n \) mediaani on \( \Delta \).
Lause \( \begin{cases} \text{Aineisto: } d_1,\dots,d_n \\ \text{Merikkitesti: } S= \sum\limits_{i=1}^{ n} 1(d_i \gt 0) \sim Bin(n,1/2) \text{ kun } H_0:\Delta =0 \text{ on tosi} \\ z= \frac{S-n/2}{\sqrt {n/4}} \sim N(0,1) \\ \hat\Delta = Med\{d_1,\dots,d_n\} \\ \text{Luottamusväli: } (d _{(i)} ,\ d _{(n+1-i)} ) \text{, has probability } \begin{cases} P_i = 1-2P_0 (S\leq i-1) \\ P_0 \sim Bin (n, \frac{1}{2} ) \end{cases} \end{cases} \).

Parametriton malli B

Olkoon \( d_1,\dots,d_n \) satunnaisotos jatkuvasta symmetrisestä jakaumasta, jonka mediaani (tuntematon) on \( \Delta \).
Lause \( \begin{cases} \text{Aineisto: } d_1,\dots,d_n \text{. Merkitäan } d _{i}^{+} =|d_i|,\ R _{i} ^+ = rank(d _{i}^{+} ) \\ \text{Wilcoxonin testi*: } W = \sum\limits_{i=1}^{ n} R _{i}^{+} 1(d_i\gt 0) \text{, kun } H_0:\Delta = 0 \text{ on tosi} \\ z= \frac{W – \frac{n(n+1)}{4} }{\sqrt { \frac{n(n+1)(2n+1)}{24} }} \sim N(0,1) \\ \text{Walshin keskiarvo* } w_i = \frac{d_i + d _j }{2} \ ⇒\ W= \sum\limits_{i=1}^{ N} 1(w_i \gt 0) \\ \text{HL-estimaatti } \hat\Delta = Med\{w_1,\dots,w_N\} \\ \text{Luottamusväli: } (w _{(i)} ,\ w _{(N+1-i)} ) \text{, has probability } P_i = 1 – 2 P_0 (W\leq i-1)\end{cases} \).
▻▻ Wilcoxonin pareittaisten otosten testi, signed rank test
▻▻ Walsh mean values have \( N= \frac{n(n+1)}{2} \). items, which iterates all possible combinations.
▻▻ HL: Hodgesin-Lehmannin estimaatti

Yleiset järjestyslukutestit

Kuten edellä, ja merkitäan \( s_i = sign(d_i) \). Kiinnostava nollahypoteesi \( H_0: \Delta =0 \).
Liitetään jokaiseen järjestyslukuun vastaava pisteluku (scores) \( a(1)\leq a(2)\leq \cdots \leq a(n) \).
▻▻ \( T= \sum\limits_{i=1}^{ n} s_i a(R _{i}^{+} ) \) ja se ei rippu d:stä \( \begin{cases} E_0(T) =0 \\ Var_0(T) = \sum a(i)^2 \end{cases} \).
Esim \( a(i)=i \) saadaan Wilcoxonin testi. \( a(i)=1 \) saadaan merkkitesti.

M-testit ja M-estimaatit

Kuten edellä. Valitaan kasvava ja pariton pistelukufunktio \( \psi(x) \).
Testisuure \( T= \sum\limits_{i=1}^{ n} \psi(d_i),\ \ \begin{cases} E_0(T)=0 \\ Var_0(T) = \sum\limits_{i=1}^{ n} [\psi (d_i)]^2 \end{cases} \).
Määr M-estimaatti ratkaisee yhtälön \( \sum\limits_{i=1}^{ n} \psi(d_i-\Delta)=0 \).
Huom \( \psi(x) = – \frac{f’_0(x)}{f_0(x)} \) saadaan suurimman uskottavuuden estimaatin.
Määr Huberin M-estimaatti \( \psi_c(x) = \begin{cases} x & |x|\leq c \\ sign(x) \ c &|x|\gt c\end{cases} \).

Estimaattien ja testien vertailu

Estimaattien vertailua: tehokkuus/efficiency

Määr \( \text{Eff} (\hat\Delta_1,\hat\Delta_2) = \frac{\sigma_2^2 (F)}{\sigma_1^2 (F)} \), missä \( \begin{cases} \hat\Delta_1 \sim N(\Delta, \frac{\sigma_1^2 (F)}{n}) \\ \hat\Delta_2 \sim N(\Delta, \frac{\sigma_2^2 (F)}{n}) \end{cases} \).
Huom \( \hat\Delta_1 \):n laskemiseen käytetään n havaintoa, niin \( \hat\Delta_1 \):n laskemiseen tarvitaan \( n\cdot \text{Eff} (\hat\Delta_1,\hat\Delta_2) \). havaintoa, jotta estmaattorit olisivat yhtä tarkkoja.
Lause \( \begin{cases} \text{Keskiarvo} & \hat\Delta_1 \sim AN(\Delta, \frac{\sigma^2}{n} ) \\ \text{Mediaani} & \hat\Delta_2 \sim AN(\Delta, \frac{1}{4nf^2 (\Delta)} ) \\ \text{HL-estimaatti} & \hat\Delta_3\sim AN(\Delta, \frac{1}{12n[\int f^2(x)dx]^2} ) \end{cases} ( \sigma^2 \) on f:n varianssi)

Varianssin estimointi pienten otosten tapauksessa

Lause \( \hat\Delta_1 \).:n ominaisuuksia voidaan tutkia simuloimalla: (Jakauman F tunettu )
(1) Generoi N otosta ja lake arvot \( \hat\Delta(X_1),\dots, \hat\Delta(X_n) \).
(2) Estimate odotusarvon estimaatti: \( \hat E _F (\hat\Delta) = \frac{1}{N} \sum\limits_{i=1}^{ N} \hat\Delta(X_i) \).
(3) Ja varianssin estimaatti: \( \widehat{Var}_F (\hat\Delta) = \frac{1}{N} \sum [\hat\Delta(X_i)]^2- \bigg[ \frac{1}{N} \sum \hat\Delta(X_i)\bigg]^2 \).

Estimaatin varianssin bootstrap-estimointi

Huom Tuntemattoman kertymäfunktion luonnollinen estimaatti on otoskertymäfunktio \( F_n(x)= \frac{i}{n} ,\ x _{(i)} \leq x \lt x _{(i+1)} \).
Lause Bootstrap-tekiikka
(1) Generoi N otoskoolla \( F_n \):sta;
(2) Laske \( \hat\Delta(X_{1}^{*} ), \dots, \hat\Delta(X_{n}^{*} ) \).
(3) Varianssin estimaatti: \( \frac{1}{N} \sum [\hat\Delta(X_i^*)]^2- \bigg[ \frac{1}{N} \sum \hat\Delta(X_i^*)\bigg]^2 \).

Estimaatin murtumipiste – globaali robustisuus

Määr Murtumipiste / breakdown point : kuika paljon poikkeavia havaintoja/outliers estimaatti kestää.
▻▻ \( \begin{cases} X=\{x_1,\dots,x_n\} \\ X’=\{ \underbrace{x_1′,\dots,x_m’}_{\text{korvattu huonoilla}} , x _{m+1} ,\dots, x_n \} \\ ⇒ Bias(X;m) = \sup |\hat\Delta(X’) – \hat\Delta(X)|\\ ⇒ BP(\hat\Delta) =\min \big\{ \frac{m}{n} : Bias(X;m) =\infty \big\} \end{cases} \).
▻▻ BP=breakdown point, riippu n ja X:sta.
▻▻ Tavallisesti, \( BP:= \lim\limits_{ n \to \infty} BP(\hat\Delta) \).

Influenssifunktio – lokaali robustisuus

Määr Influenssifunktio kuvaa yhden poikkeavan lisähavainnon vaikutusta \( \delta \):an.
▻▻ Olk \( \delta_x(y)= \begin{cases} 0 & y \lt x\\ 1 & y \geq x \end{cases},\ \ \Delta \) funktionaali.
▻▻ \( IF(x;F,\Delta) = \lim\limits_{t \to 0} \frac{\Delta \big( (1-t)F + t \delta_x\big) -\Delta(F)}{t} \).
Esim Jakauman odotusarvo, mediaani ja HL-estimaattori
▻▻ \( \begin{cases} \text{Odotusarvo} &\Delta(F) = \displaystyle\int_{ } ud F(u) & IF(x;F,\Delta)=x \\ \text{Mediaani} &\Delta(F) = F ^{-1} ( \frac{1}{2} )& IF(x;F,\Delta)= – \sqrt \frac{\pi}{2} I(x\lt0) + \sqrt\frac{\pi}{2} I(x\gt 0) \\ \text{HL-est} &\Delta(F) = \frac{1}{2} (F* F) ^{-1} (\frac{1}{2} ) & IF(x;F,\Delta)= \sqrt{4\pi} \big( F(x) – \frac{1}{2} \big) \end{cases} \).

Empiirinen influenssifunktio

Määr Empiirisen influenssifunktio tarkestellaan yhden poikkeavan lisähavainnon vaikutusta \( \hat\Delta \).
▻▻ Merkitään ostoksen kertymäfunktioita \( F_n(y) = \frac{1}{n} \sum\limits_{i=1}^{ n} I(x_i \leq y) \). Oletetaan \( \hat\Delta \to \Delta(F) \).
▻▻ \( IF_n(x;F_n,\hat\Delta) = (n+1) [\Delta(x_1,\dots,x_n,x) -\Delta(x_1,\dots,x_n)] \).

Testien validisuus ja tehokkuus

Määr p-arvo on \( p=p(X)=P_0(|T|\geq|t|) \).
Lause Testisuure on validi ⇒ p-arvo \( \sim U(0,1) \).
▻▻ Tutkia simuloimalla:
(1) Generoi N otosta nollahypoteesijakaumasta F;
(2) Laske \( p(X_1),\dots,p(X_n) \);
(3) tutki validisuutta graafisesti (QQ-plot)

Luottamusvälien validisuus ja tehokkuus

Lause Jos luottamusväli \( (\hat\Delta_L(X), \ \hat\Delta_U(X)) \) on validi ⇒ \( P(\hat\Delta_L\lt \Delta \lt \hat\Delta_U) \) on halattu, ei riipu \( \Delta \):sta.
▻▻ Tutkia simuloimalla:
(1) Generoi N otosta nollahypoteesijakaumasta F;
(2) Laske \( (\hat\Delta_L(X_1), \ \hat\Delta_U(X_1)),\dots,\ (\hat\Delta_L(X_N), \ \hat\Delta_U(X_N)) \);
(3) Tutki validisuutta tn: \( \frac{1}{N} \# \{ \hat\Delta_L(X_i)\lt \Delta \lt \hat\Delta_U(X_i) \} \).
(4) Tutki tehokkuutta (välin pituus) \( \frac{1}{N} \sum\limits_{i=1}^{ N} [\hat\Delta_U(X_i)-\hat\Delta_L(X_i)] \).

Kahden käsittelyn vertailu: riippumattomat otokset

Koeasetelma

Määr Koeasetelma / experiment design
\( \begin{matrix} \text{käsittely} & \text{otos} \\ A & x_1,\dots,x_m \\ B & y_1,\dots,y_n \end{matrix} \).

Normaalijakaumaoletus

Oletetaan \( \begin{cases} X\sim N(\mu,\sigma^2)\\ Y \sim N(\mu+\Delta,\sigma^2) \end{cases} \).
Lause \( \begin{cases} \begin{cases} x_1,\dots,x_m\to \bar x, s_x^2 \\ y_1,\dots,y_n \to \bar y ,s_y^2 \end{cases}\\ s_x^2, s_y^2 \to s^2 = \frac{1}{m+n-2} [(m-1) s_x^2 + (n-1)s_y^2] \\ t = \frac{\bar y – \bar x}{s \sqrt{\frac{1}{m} + \frac{1}{n} }} \sim t _{m+n-2} \text{, kun } H_0: \Delta=0 \text{ tosi} \\ \hat\Delta = \bar y – \bar x ,\ \ se(\hat\Delta) = s \sqrt{\frac{1}{m} + \frac{1}{n} } \end{cases} \).

Parametriton malli A

Oletetaan \(\begin{cases} F(x) \\ F(y-\Delta) \end{cases} \), otokset ovat riippumattomia.
Lause \( \begin{cases} \begin{cases} x_1,\dots,x_m\to m_1 = Med\{x_1,\dots,x_m\} \\ y_1,\dots,y_m\to m_2 = Med\{y_1,\dots,y_m\} \\ m_0 = Med\{x_1,\dots,x_m,y_1,\dots,y_n\} \end{cases}\\ \text{Moodin testi:}\\ \begin{cases} S= \sum\limits_{i=1}^{ n} I(y_i\gt m_0) \sim HyperGeom(k;n,m) \text{, kun } H_0:\Delta=0 \text{ tosi} \\ P_0 (S=s) = \frac{{n\choose s} {m\choose k-s}}{N\choose k}, \ max(0,k-m)\leq s\leq min(k,n) \\ E_0(S) = \frac{kn}{N} ,\ \ Var_0(S) = \frac{(N-k)k}{N-1} \frac{mn}{N^2} \approx \frac{mn}{4N} \end{cases} \\ \hat\Delta = m_2-m_1 \\ (y _{(n-b)} – x _{(m-k+b+1)} ,\ y _{(n-a+1)} – x _{(m-k+a)} )\\ \text{ where, } \sum\limits_{s=a}^{ b} P_0 (S=s)=a-\alpha \end{cases} \).
* Moodin testi

Parametriton malli B

(Sama kuin edelleen)
Huomaa, että \( Z=\{z_1,\dots,z_N\}= \{x_1,\dots,x_m,y_1,\dots,y_n\} \) on \( F(z) \):sta.
Lause \( \begin{cases} \{z_1,\dots,z_n\} \to \{R_1,\dots,R_N\} \\ \text{Wilcoxon rank sum test: } W= \sum\limits_{i=m+1}^{ N} R_i \\ \text{Wilcoxon-Mann-Whitney: } W= \sum\limits_{i} \sum\limits_{j} I(y_j-x_i \gt 0 ) = \sum\limits_{i=1}^{ M} I(d_i\gt 0) \\ \text{ where, } d_1,\dots,d_{mn} \text{ kaikki pareittaista erotusta} \\ \hat\Delta = Med\{d_1,\dots,d_M\}\\ (d _{(i)} ,\ d _{(M-i+1)} ) \end{cases} \).

Yleiset järjestyslukutestit

Korvataan \( \{x_1,\dots,x_m,y_1,\dots,y_n\}\to\{R_1,\dots,R_N\} \) ja liitetään pisteluku \( a(R_i) \).
Lause \(\begin{cases} T= \sum\limits_{i=m+1}^{ N} a(R_i) \text{, kun } H_0:\Delta=0 \text{ on tosi} \\ E_0(T) = n\bar a,\ \ Var_0(T) = \frac{mn}{N} s_a^2 \end{cases} \).
Huom \( a(i)=i \ ⇒\ \) Wilcoxonin testi. \( a(i)= \Psi^{-1} \big( \frac{i}{N+1} \big) \ ⇒\ \) van der Vaerdenin testi (normal).

Estimaattien vertailua

Lause Olk \( F(x),\ F(y-\Delta)\).
▻▻ \( \begin{cases} \text{Keskiarvo} & \hat\Delta_1 \sim N \bigg( \Delta, \bigg( \frac{1}{m} + \frac{1}{n} \bigg) \sigma^2 \bigg) \\ \text{Mediaani} & \hat\Delta_1 \sim N \bigg( \Delta, \bigg( \frac{1}{m} + \frac{1}{n} \bigg) \frac{1}{4 f^2(\mu)} \bigg) \\ \text{Keskiarvo} & \hat\Delta_1 \sim N \bigg( \Delta, \bigg( \frac{1}{m} + \frac{1}{n} \bigg) \frac{1}{12[\int f^2(x)dx]^2} \bigg) \end{cases} \).

Estimaatin tehokkuus pienillä otoksilla

Same as the previous chapter
\( \hat E_F (\hat\Delta) = \frac{1}{N} \sum\limits_{ i=1}^{ N}\hat\Delta(X_i,Y_i) \).

Estimaatin varianssin bootstrap-estimointi

Määr Bootstrap-tekniikka
(1) Generoi \( Z_i^* = \{ z _{i1}^{*},\dots, z _{iN}^{*} \},\ \ \ i=1,\dots,M \),
(2) Merkitse \( \begin{cases} X _{i}^{*} =\{ z _{i1}^{*},\dots, z _{im}^{*} \} \\ Y _{i}^{*} =\{ \hat\Delta + z _{i,m+1}^{*},\dots, \hat\Delta+ z _{i,m+n}^{*} \} \end{cases} \),
(3) Laske estimaattien arvot \( \hat\Delta(X_1^*, Y_1^*),\dots, \hat\Delta(X_M^*, Y_M^*) \),
(4) Estimaatin varianssin estimaatti: \( \frac{1}{M} \sum\limits_{i=1}^{ M} [ \hat\Delta(X_i^*, Y_i^*) ]^2 – \bigg[ \frac{1}{M} \sum\limits_{i=1}^{ M} \hat\Delta(X_i^*, Y_i^*) \bigg]^2 \).

Usean Käsittelyn vertailu: kaltaistetut otokset

Määr Koeasetelma (matched samples)
\( \begin{matrix} \text{Lohko} & \text{Käsittely 1} & \text{Käsittely 2} & \dots & \text{Käsittely k} \\ 1 & y _{11} & y _{12} & \dots &y _{1k} \\ 2 & y _{21} & y _{22} & \dots & y _{2k} \\ \vdots & \vdots &\vdots &\ddots &\dots \\ n & y _{n1} & y _{n2} &\dots & y _{nk} \end{matrix} \).
▻▻ Malli: \(y _{ij} =\mu + \Delta_j +\tau_i + \epsilon _{ij} ,\ \ \ i=1,\dots,n;\ j= 1,\dots,k \).
▻▻ ▻▻ ylenssä, \(\tau_1=\Delta_1 =0 \).

Normaalijakaumaoletus

Oletetaan \(\epsilon_{ij} \sim N(0,\sigma^2) \).
Lause \(\begin{cases} \text{Nollahypoteesi} & H_0:\Delta=\cdots = \Delta_k =0 \\ \text{Varianssiestimaatti } & s^2 = \frac{1}{n(k-1)} \sum\limits_{i=1}^{ n} \sum\limits_{j=1}^{ k} z_{ij}^{2} \\ \text{z-arvoja } &z _{\cdot j} \sum\limits_{ i=1}^{ n} z _{ij} \\ \text{ANOVA-tstisuure } &Q = \frac{1}{n} \sum\limits_{j=1}^{ k} \frac{z_{\cdot j}^2}{s^2} \sim \large\chi\normalsize_{ k-1}^2 \end{cases} \).

Parametriton malli

Oletetaan \(\epsilon _{ij} \) muodostavat tuntemattomasta \(F \):sta.
Lause \(\begin{cases} \text{Nollahypoteesi } &H_0: \Delta_2=\cdots=\Delta_k=0 \\ \text{Riveittäisin järjestysluvuja} & y _{ij} \to R _{ij} \\ \text{Keskisttyja jarjestyslukuja } & r _{ij} = R _{ij} -\bar R_i \\ \text{järjestyslukujen varianssi } & s^2 = \frac{1}{n(k-1)} \sum\limits_{i=1}^n \sum\limits_{j=1}^k r _{ij}^{2} = \frac{k(k+1)}{12} \\ \text{järjestyslukujen summia } & R _{\cdot j} = \sum\limits_{i=1}^n r_{ij} \\ \text{Friedmanin testisuure } & F = \frac{1}{n} \sum\limits_{j=1}^k \frac{R_{\cdot j}^2}{s^2} = \frac{12}{nk(k+1)} \sum\limits_{j=1}^{ k} R_j^2 – 3n(k+1)\sim \large\chi\normalsize_{ k-1}^2 \\ & \ \ \ R_j = \sum\limits_{i=1}^n R_{ij} \end{cases} \).
▻▻ Friedmanin testi on Wilcoxonin testin yleistys.
Lause Pagen testi \(\begin{cases} H_1:\Delta_1\leq\Delta_2\leq\cdots\leq \Delta_k \\ \text{Testisuure } L= \sum\limits_{ j=1}^{ k} j R_j,\ \ R_j = \sum\limits_{i=1}^{ n} R_{ij} \\ E_0(L) = \frac{nk(k+1)^2}{4} \\ Var_0 (L) = \frac{n(K^3-k)^2}{144(k-1)} \\ \text{sitten, käyttää p-arvon} \end{cases} \).

Usean käsittelyn vertailu: riippumattomat otokset

Määr Koeasetelma (matched samples)
\( \begin{matrix} \text{Käsittely 1} & \text{Käsittely 2} & \dots & \text{Käsittely k} \\ y _{11} & y _{12} & \dots &y _{1k} \\ y _{21} & y _{22} & \dots & y _{2k} \\ \vdots &\vdots &\ddots &\dots \\ y _{n_1 1} & y _{n_2 2} &\dots & y _{n_k k} \end{matrix} \).

Normaalijakaumaoletus

Merkitään \(N= n_1 +\cdots + n_k ,\ \ N_i= n_1 + \cdots + n_i \).
Oletetaan \(\begin{cases} y_1,\dots, y_{N_1} &\sim N(\mu, \sigma^2) \\ y _{N_1 +1} ,\dots, y _{N_2} & sim N(\mu+\Delta_2, \sigma^2) \\ \vdots \\ y _{N_{k-1} +1} ,\dots, y_{N_k} &\sim N(\mu+\Delta_k,\sigma^2)\end{cases} \).
Lause \(\begin{cases} s^2 = \frac{(n_1-1)s_1^2 + \cdots + (n_k-1)s_k^2}{n-k}, \ \ s_i \text{ is the variance of each “row” as above} \\ H_0: \Delta_0=\cdots = \Delta_k = 0 \\ t_j = \sqrt{ \frac{n_j(N-n_j)}{N} }\ \frac{\bar y_j – \bar y _{-j} }{s },\ \ \bar y _{-j} \text{ is from } N-n_j \text{ obs that not in }j \\ Q= \sum\limits_{j=1}^k \bigg( \frac{N-n_j}{N} \cdot t_j^2 \bigg) = \sum\limits_{j=1}^k \frac{n_j(\bar y_j – \bar y)^2}{s^2} \sim \large\chi\normalsize_{k-1 }^2 \\ \ \ ⇒ Q/(k-1) \sim F _{k-1,\ N-k} \\ \text{estimointi } \hat\Delta_j \sim AN \bigg( \Delta_j, \big( \frac{1}{n_1} + \frac{1}{n_j} \big)\sigma^2 \bigg) \end{cases} \).

Parametriton malli

Oletetaan \(\begin{cases} y_1,\dots, y_{N_1} &\sim F(y) \\ y _{N_1 +1} ,\dots, y _{N_2} & \sim F(y-\Delta_2) \\ \vdots \\ y _{N_{k-1} +1} ,\dots, y_{N_k} &\sim F(y-\Delta_k)\end{cases} \).
Lause \(\begin{cases} \{y _{11} ,\dots, y _{n_k,k} \} \to \{R _{11} ,\dots, R _{n_k,k} \} \\ H_0: \Delta_2 = \cdots = \Delta_k =0 \\ \text{Kruskal-Wallisin testi } z_j = \sqrt{ \frac{n_j(N-n_j)}{N} }\ \frac{\bar R – \bar R _{-j} }{s} \\ \text{ missä, } s^2 = \frac{1}{N-1} \sum\limits_{j=1}^k \sum\limits_{i=1}^{n_j} (R _{ij} – \bar R_j)^2 = \frac{N(N+1)}{12} \\ \text{yhdistetty } K= \sum\limits_{j=1}^k \bigg( \frac{N-n_j}{n_j} \ z_j^2 \bigg) = \frac{12}{N(N+1)} \sum\limits_{j=1}^k \frac{R_j^2}{n_j} -3(N+1) \sim \large\chi\normalsize_{ k-1}^2 \end{cases} \).

Regressioanalyysi

Yhden selittäjän tapaus

Määr Koeasetelma
▻▻ Aineisto: \(X= \begin{pmatrix} 1 & x_1 \\ 1 & x_3 \\ \vdots & \vdots \\ 1 & x_n \end{pmatrix},\ \ \boldsymbol y = \begin{pmatrix} y_1\\y_2 \\ \vdots \\ y_n \end{pmatrix} \).
▻▻ Malli \( \boldsymbol {y = X\beta +e},\ \ \boldsymbol\beta = (\beta_0,\beta_1)^T,\ \ \boldsymbol e = (e_1, e_2, \dots, e_n)^T \).
Huom Merkitään \(\begin{cases} m_1 = \frac{1}{n} \sum\limits_{i=0}^{ n} x_i \\ m_2 = \frac{1}{n} \sum\limits_{i=1}^{ n} x_i^2 \end{cases} \). Silloin:
▻▻ \(s_x^2 = m_2 – m_1^2,\ \ \ D= \frac{1}{n} X^T X = \begin{pmatrix} 1 & m_1 \\ m_1 & m_2 \end{pmatrix}, \ \ \ D^{-1} = \frac{1}{s_x^2} \begin{pmatrix} m_2 & -m_1 \\ -m_1 &1 \end{pmatrix} \).

Normaalijakaumaoletus

Oletetaan \( \boldsymbol{e } \sim N(0,\sigma^2) \).
Lause \(\begin{cases} || \boldsymbol{e } ||_2^2 = \sum\limits _{i=1}^{n} (y_i-\beta_0-\beta_1 x_i)^2 \\ \text{PNS-menetelmä} \sum\limits_{i=1}^{ n} e_i =0,\ \ \sum\limits _{i=1}^{n} x_i e_i =0 \\ \ ⇒\ \hat\beta = (X^T X) ^{-1} X^T \boldsymbol y \sim N \bigg( \boldsymbol\beta, \frac{1}{n} \sigma^2 D ^{-1} \bigg) \\ H_0:\beta_1 = 0 \\ \text{testisuure } T= \sqrt n \frac{\hat\beta_1}{s/s_x} = \sqrt n \frac{s_{xy}}{s\cdot s_x} = \sqrt n \widehat {Corr}(x,y)\sim t_{n-2} \end{cases} \).

Poikkeavat havainnot regressioanalyysissä

Määr Poikkeavat havainnot voidaan luokitella kolmeen luokkaan:
(1) vertical outliers (same x, but different y)
(2) bad leverage points (different x and y)
(3) good leverage points (in the regression line, but different x and y)
Määr Mahalanobis etäisyyksiä \(RD_i := \sqrt{ (x_i – \hat\mu)\hat\Sigma (x_i-\hat\mu) },\ \ \Sigma \) covariancematrix; all can be multi-dimensional.

Parametriton malli A

Oletetaan \( \boldsymbol{y } = X \boldsymbol{\beta + e,\ \ \ e} \) on jakaumasta F.
Lause \(\begin{cases} \text{Minimoida } ||e|| _{1}^{2} = \sum\limits_{i=1}^{ n} |e_i| = \sum\limits_{i=1}^{ n} |y_i – \beta_0 – \beta_1 x_i| \\ \text{LAD*, saadaan } \sum\limits_{ i=1}^{ n} sign(e_i)=0,\ \ \sum\limits_{ i=1}^{ n}x_i sign(e_i)=0 \\ \ ⇒\ \boldsymbol{\hat\beta} \sim N \bigg( \boldsymbol\beta, \frac{1}{n} \frac{1}{4f^2(0)} D ^{-1} \bigg) \\ H_0: \beta_1=0 \\ T= \frac{1}{n} \sum\limits_{ i=1}^{ n} x_i S_i,\ \ \ S_i := sign(y_i – Med(\boldsymbol y)) \\ E_0(T) =0,\ Var_0(T) \approx s_x^2/n \end{cases} \).
* LAD, least absolute deviation.

Parametriton malli B

(sama oletus kuin edellä)
Lause \(\begin{cases} \text{keskistetyt residuaalinen järjestysluvut } R_i = R(e_i; E)- \frac{n+1}{2},\ E=\{e_1,\dots,e_n\} \\ \text{Minimoidaan } ||e||_3 = 2 \sum\limits _{i=1}^{n} R_i e_i = \sum\limits _{i=1}^{n-1} \sum\limits _{j=1+1}^{n} |e_j-e_i| \\ \ ⇒\ \sum\limits _{i=1}^{n-1} \sum\limits _{j=1+1}^{n} w_{ij} sign(\hat\beta_{ij}-\beta_1) =0 \\ \ \text{ missä } w_{ij} = |x_j – x_i|,\ \hat\beta_{ij} = \frac{y_j – y_i}{x_j – x_i} \\ \hat\beta_1 \sim N \bigg( \frac{1}{n} \frac{1}{12[\int f^2(x)]^2} \frac{1}{s_x} \bigg) \\ H_0:\beta_1 =0 \\ T = \frac{1}{n} \sum x_i R_i,\ \ R_i = R(y_i;Y) – \frac{n+1}{2} \\ s.e.(T) = \sqrt n \widehat{Corr}(x,R) \end{cases} \).

Muita robusteja regressiomenetelmä

Lause M-estimaatti \(\begin{cases} \text{Minimoidaan } \sum\limits_{i} \rho(e_i)\\ \ ⇒\ \sum \psi(e_i)=0,\ \sum x_i \psi(e_i)=0, \ \ \psi(e)=\rho'(e) \end{cases} \).
* \(ho(-e)=\rho(e) \text{ aina} \).
Lause LMS-estimaatti (least median of squares)
▻▻ Minimoidaan \(Med\{e_1^2,\dots,e_n^2\} \).
Lause LTS-estimaatti (least trimmed squares)
▻▻ Residuaalien relöt suuruusjärjestys: \([e^2]_{(1)} \leq [e^2]_{(2)} \leq \cdots \leq [e^2]_{(n)} \);
▻▻ Minimoidaan \( \frac{1}{h_p} \sum\limits _{i=1}^{h_p} [e_i^2]_{(i)},\ \ \ h_p = \big[ \frac{n}{2} +1 \big] \).

Estimaatin varianssin bootstrap-estimointi

Lause \(\hat\beta = \hat\beta(X,y) \):n varianssin bootstrap:
(1) Etsi estimaatin arvo;
(2) Muodosta \(\hat e = y – X\hat\beta \);
(3) M bootstrap-otosta. Saandaan residuaalivektorit \(e_1^*,\dots, e_m^* \);
(4) Muodosta M vastevektoria \(y_i^* = X \hat\beta + e_i^* \);
(5) Etsi bootstrap-estimaatit \( \hat\beta _{i}^{*} \);
(6) Varanssin bootstrap-estimaati: \( \frac{1}{N} \sum (\hat\beta_i^* – \hat\beta)^2 \).

Usean selittäjän tapaus

Oletetaan, että \( X = \begin{pmatrix} 1 & x_{11} &\dots & x_{ip} \\ 1 & x_{21} &\dots & x_{2p}\\ \vdots &\vdots &\ddots & \vdots \\ 1 & x_{n1} &\dots & x_{np} \end{pmatrix}, \ \ \ y = \begin{pmatrix} y_1\\y_2\\ \vdots \\ y_n \end{pmatrix} \).
Regressiomaali on \( \boldsymbol{y=X\beta +e},\ \ \boldsymbol\beta = (\beta_0,\beta_1,\dots,\beta_p)^T \) tuntematon.
Selittäjämatriisi tunnettu, ja merkitään \( D= \frac{1}{n} X^T X \).
Lause Estimmtit eri tapauksissa saadaan ehdosta
(a) \( X^T \boldsymbol{e=0} \), tai
(b) \( X^T \boldsymbol{S=0},\ \ \ S= (sign(e_1),\dots,sign(e)n)) \), tai
(c) \( X^T \boldsymbol{R=0}, \ \ \ R= (R_1,\dots, R_n) \) residuaaleihin liityvä järjestyslukuvektori.

Robustit monimuuttujamenetelmät

Määr Koeasetelma \(\begin{cases} \text{aineisto } & Y= \begin{pmatrix} \boldsymbol{y} _1 \\ \vdots \\ \boldsymbol{y} _n \end{pmatrix} = \begin{pmatrix} y _{11} & y _{12} & \cdots & y _{1p} \\ \vdots & \vdots & \ddots & \vdots \\ y _{n1} & y _{n2} & \cdots & y _{np} \end{pmatrix} \\ \text{malli } & \boldsymbol{y}_i = \boldsymbol\mu + \Omega \boldsymbol{e} _i,\ \ \ i=1,\dots,n \\ & \begin{cases} \boldsymbol{\mu} =(\mu_1,\dots,\mu_p)^T = E[\boldsymbol{y} ] \\ \Sigma = \Omega \Omega^T = Cov( \boldsymbol{y} ) \\ \boldsymbol{e} _i = (e _{i1} ,e _{i2} ,\dots, e _{ip} )^T \end{cases} \end{cases} \).
Lause Affiinisti ekvivariantti \(\begin{cases} E[A \boldsymbol{y+a} ] = A E[\boldsymbol{y} ] + \boldsymbol{a} \\ Cov(A \boldsymbol{y+a} ) = A Cov(\boldsymbol{y} )A^T \end{cases} \).

Normaalijakaumaoletus

Oletetaan \( \boldsymbol{e} _i \sin N (\boldsymbol{0} ,I_p),\ \ \text{ t.s. } f( \boldsymbol{e} ) = (2\pi) ^{-p/2} \exp \big( – \frac{\boldsymbol{e^T e} }{2} \big) \).
Lause \(\begin{cases} y_i \sim N(\mu, \Sigma) \\ \hat\mu = \bar {\boldsymbol y},\ \ \Sigma = \frac{1}{n} \sum\limits_{i=1}^{ n} (\boldsymbol y _i – \bar {\boldsymbol y }) (\boldsymbol y _i – \bar {\boldsymbol y })^T \end{cases} \).

Moniulotteinen elliptinen jakauma

Määr Elliptinen jakauma
▻▻ \(f(\boldsymbol e ) = \exp \{-\rho(|| \boldsymbol e||)\} \). (origon suhteen ympyräsymmetrinen jakauma)
▻▻ \(f_y (\boldsymbol y ) = |\Sigma| ^{-1/2} f (\sigma ^{-1/2} (\boldsymbol {y-\mu} )) \).
Lause Suurimman uskottavuuden estimaatit \(\begin{cases} \sum\limits_{i=1}^{n} w_1 (d_i) (x_i – \boldsymbol{\hat\mu} ) = \boldsymbol{0} \\ \frac{1}{n} w_2 (d_i) (x_i – \boldsymbol{\hat\mu}) (x_i – \boldsymbol{\hat\mu})^T = \hat\Sigma \\ \ \ \ w(d)= -\frac{f'(d)}{f(d)} \\ \ \ \ d_i = d(\boldsymbol x _i, \boldsymbol{\mu} ,\Sigma)\end{cases} \).
Esim Normaalijakauma \(w(d)=1 \); t-jakauma \(w(d)= \frac{p+\nu}{d+\nu} \).

M-estimointi

Lause M-estimaatit saadaan korvaamalla \(w_1, w_2 \) yleisillä funktioilla.
Esim Huberin M-estimaatit \(\begin{cases} w_1(r)=\min(c/r,1) \\ w_2(r) = \sigma^2 \min(c^2/r^2,1) \\ \ \ \ \sigma \text{ skaalaustermi } ,\ c \text{ cut-off} \end{cases} \).

Robusti pääkomponenttianalyysi

Määr Pääkomponenttimuuttujat \(\boldsymbol{z} = \Gamma^T ( \boldsymbol{x-\mu} ),\ \ \ \Sigma=\Gamma\Lambda\Gamma^T \).
▻▻ \(Cov(\boldsymbol{z} )=\Lambda \).

Parametrittomia regressiomenetlemiä

Paras ennuste

Lause Paras ennuste Y:lle \( \begin{cases} f_0(x) = E (Y| X=x)\\ y_i = f_0 (x_i) + e_i \end{cases} \).

Ydinregressio / Kernel

Lause \(E(Y|X=x) = \displaystyle\int y f(y|x) dy = \displaystyle\int y \frac{f(y,x)}{f(x)} dy \).
Esim K painofunktio (ydin-) \(\begin{cases} \text{Jos } \begin{cases} \displaystyle\int_{ } K(x)dx =1 \\ K(x) = K(-x) \\ K(x) \geq 0 ,\ \ \forall x\in \mathbb{R} \end{cases} \\ \text{tiheysfn ydinestimaatti: } \frac{1}{n} \sum\limits_{i=1}^{n} K(x-x_i) \\ \text{integraalin ydinestimaatti: } \frac{1}{n} \sum\limits_{i=1}^{n} K(x-x_i)y_i \\ \text{Nadaraya-Watson: } \hat f(x) = \frac{\frac{1}{n} \sum\limits_{i=1}^{n} K( \frac{x-x_i}{h} )y_i}{\frac{1}{n} \sum\limits_{i=1}^{n} K( \frac{x-x_i}{h} )} \end{cases} \).
Määr Yleiset yhdinfunktiot \(\begin{cases} \text{Gaussinen ydin: } &K(x) = \frac{1}{\sqrt{2\pi}} e ^{-x^2/2} \\ \text{Epanechnikovin ydin: }& K(x) = \begin{cases} \frac{3}{4} & |x|\lt 1 \\ 0 & \text{muuten} \end{cases} \end{cases} \).
Huom Ydinregressiossa \(\hat f(x) \) minimoi \(\sum\limits_{i=1}^{n} K \big( \frac{x-x_i}{h} \big) (y_i – \hat f(x))^2 \).

Lokaali (lineaarinen) regressio

Määr On painotettua regressiomenetelmää, ts. \( \hat f(x) – \hat\alpha + \hat\beta x \), missä \( \hat\alpha,\ \hat\beta \) minimoivat \(\sum\limits_{i=1}^{n} K( \frac{x-x_i}{h} )(y_i – \alpha – \beta x_i) \).

Splinit/splines

Kantafunktiot

Määr Seuraavat kantafunktiot \(b_1,\dots,b_k \) ovat kiinteitä ja ennalta valittuja:
▻▻ Malli \(y_i=\beta_0 + \beta_1 b_1 (x_i) + \beta_2b_2(x_i) +\cdots + \beta_k b_k(x_i)+ e_i \).

Regressiosplinit

Lause X jaetaan kahteen osaan solmupiteenä (knot) c
▻▻ Malli \(y_i= \begin{cases} \beta _{01} + \beta _{11} x_i + \beta_{21} x_i ^2 + \beta _{31} x_i^3 + e_i & x_i \lt c \\ \beta _{02} + \beta _{12} x_i + \beta_{22} x_i ^2 + \beta _{32} x_i^3 + e_i & x_i \geq c\end{cases} \).

Silotetut splinit / smoothing spilines

Lause Jäännösneliösumma, ts. RSS \( \sum\limits_{i=1}^{n} \big( y_i – f(x_i) \big)^2 \).

You must be logged in to post a comment.