Luku 1. Yhden selittäjän lineaarinen regressio. 1.1 Regressiomalli

Transkriptio

1 Luku 1 Yhden selittäjän lineaarinen regressio Tämä luku on tiivistelmä Jørgensenin kirjan luvusta 1. Tässä luvussa käsitellään yksinkertaisilla tarkasteluilla yhden selittäjän lineaarista regressiota, mutta suoraviivaisia laskuja ei ole tässä laskettu auki, vaan ne esitetään luennoilla tai jätetään lukijan tarkistettavaksi. Luvussa 2 tarkastellaan sitten yleistä lineaarista regressiota käyttämällä hienostuneempia matemaattisia työkaluja. 1.1 Regressiomalli Analysoitavana on n:n havaintoyksikön suuruinen aineisto, jonka muuttujista yksi, y, on luonteeltaan selitettävä ja toinen, x, selittää selitettävän muuttujan y vaihtelua. Olkoot (x 1, y 1 ),..., (x n, y n ) vastaavat havainnot. Muuttujien x ja y välinen yhteyden ajatellaan olevan osapuilleen lineaarinen. Kutsumme muuttujaa y selitettäväksi muuttujaksi tai vasteeksi (dependent variable, response variable). Kutsumme muuttujaa x selittäväksi muuttujaksi (independent variable, explanatory variable). Ajattelmme, että y i :t ovat vastaavien satunnaismuuttujien Y i havaittuja arvoja. Sen sijaan ajattelemme, että selittävät muuttujat x i ovat ei-satunnaisia eli vakioita. Tällainen oletus on luonteva, jos x i :t ovat kokeen suunnittelijan valittavissa olevia lukuja. Joissakin tapauksissa lineaarista regressiota sovelletaan tilanteessa, jossa ei ole luontevaa olettaa, että x i :t ovat vakioita, vaan on luontevaa olettaa, että ne ovat tiettyjen satunnaismuuttujien X 1,..., X n havaittuja arvoja. Tällöin 1

2 ajatellaan, että koko analyysi tehdään ehdollistamalla selittävien muuttujien havaittuihin arvoihin, eli tällöin tarkastellaan selitettävien muuttujien Y 1,..., Y n ehdollista jakaumaa ehdolla X 1 = x 1,..., X n = x n. Yhden selittäjän lineaarisessa mallissa tehdään seuraavat oletukset. Selittävien muuttujien arvot x i ovat kiinteitä annettuja lukuja. Havaintoja y i vastaavat satunnaismuuttujat Y i ovat riippumattomia, ja ne noudattavat jakaumaa Y i N(µ i, σ 2 ), i = 1,..., n, jossa keskiarvot µ i = EY i toteuttavat yhtälöt µ i = β 1 + β 2 x i, i = 1,..., n. Keskiarvoille tehty oletus on rakenneoletus: se kertoo, miten selitettävän muuttujan vaihtelu riippuu selittävästä muuttujasta. Normaalisuusoletus on jakaumaoletus, joka kertoo, minkälaista satunnaisvaihtelua mallissa on rakenneosan lisäksi. Mallissa on kolme parametria, vakiotermi (intercept) β 1 R, kulmakerroin (slope) β 2 R ja varianssiparametri σ 2 R +. Toinen tapa esittää sama malli on kirjoittaa Y i = β 1 + β 2 x i + ɛ i, i = 1,..., n, jossa virheet ɛ i N(0, σ 2 ) riippumattomasti, ja ɛ i on havaintoyksikköön i liittyvä ei-havaittu satunnaismuuttuja. Mallissa tehdään siis seuraavat oletukset, jotka alla luetellaan tilastolisen analyysin järkevyyden kannalta summittaisessa tärkeysjärjestyksessä. (i) Y i :n odotusarvo riippuu lineaarisesti x i :stä. (ii) Muuttujat Y 1,..., Y n ovat riippumattomia. (iii) Muuttujan Y i varianssi on vakio (homoskedastisuus). (iv) Muuttujalla Y i on normaalijakauma. Nämä oletukset pitäisi yrittää verifioida aineiston ja sitä koskevan taustatiedon perusteella. Hajontakuvio on tätä varten tärkeä apuväline, ja siitä voi yrittää arvioida (i) lineaarisuutta ja (iii) vakiovarianssisuutta. Normaalisuutta (iv) voi yrittää tutkia residuaalikuvioiden avulla. Riippumattomuutta (ii) ei voida verifioida aineistosta, vaan se yleensä oikeutetaan koetta koskevalla taustatiedolla. 2

3 1.2 Parametrien SU-estimaatit Johdamme parametrien suurimman uskottavuuden estimaatit eli SU-estimaatit. Mallin mukaan Y i N(β 1 + β 2 x i, σ 2 ) riippumattomasti, joten uskottavuusfunktio on n { L(β 1, β 2, σ 2 ) = (2πσ 2 ) 1/2 exp 1 } 2σ (y 2 i β 1 β 2 x i ) 2, josta logaritminen uskottavuusfunktio saadaan kirjoitettua muotoon l(β 1, β 2, σ 2 ) = log L(β 1, β 2, σ 2 ) = n 2 log(2πσ2 ) 1 2σ 2 n (y i β 1 β 2 x i ) 2 = n 2 log(2πσ2 ) 1 2σ 2 D(β 1, β 2 ). Kutsumme poikkeamien neliösummaa D(β 1, β 2 ) nimellä devianssi. Tästä muodosta huomaamme seuraavaa. Oli σ 2 > 0 mikä tahansa kiinteä arvo, niin logaritmisen uskottavuusfunktion maksimoi parametrien β 1 ja β 2 suhteen ne arvot, jotka minimoivat devianssin D(β 1, β 2 ). Kirjoitetaan nyt rakenneyhtälö muotoon EY i = µ i = β 1 + β 2 x i = β 1 + β 2 (x i x) + β 2 x ja uudelleenparametroidaan malli käyttämällä alkuperäisten selittävien muuttujien arvojen sijasta keskistettyjä arvoja Tällöin malli muuntuu muotoon t i = x i x. EY i = µ i = α + β 2 t i, jossa otettiin käyttöön uusi parametri α = β 1 + β 2 x. Uudessa mallissa parametreina ovat α, β 2 ja σ 2. Alkuperäisen mallin parametri β 1 saadaan laskettua uusista parametreistä kaavalla β 1 = α β 2 x, 3

4 ja muut kaksi parametria ovat samoja alkuperäisessä ja keskistetyssä mallissa. Parametrien α, β 2 ja σ 2 avulla ilmaistuna logaritminen uskottavuusfunktio on samaa muotoa kuin alkuperäisten parametrien avulla ilmaistuna sillä erolla, että devianssin lausekkeena on D(α, β 2 ) = n (y i α β 2 t i ) 2. Derivoimalla devianssin lauseketta kahteen kertaan, saadaan selville, että mikäli S t > 0, devianssilla on yksikäsitteinen minimipiste kohdassa ˆα = ȳ, ˆβ2 = S ty S t, jossa ȳ = 1 n n y i, S ty = n t i y i, S t = n t 2 i. (Aina S t 0, ja jos S t = 0, niin kaikki x i :t ovat yhtäsuuria, eikä lineaarinen malli ole mielekäs!) Keskistetyn mallin parametrien α ja β 2 SU-estimaatit ovat edellä johdetut ˆα ja ˆβ 2. Alkuperäisen mallin parametrien β 1 ja β 2 SU-estimaatit ovat ˆβ 1 = ˆα ˆβ 2 x. (SU-estimaatin invarianssiominaisuus!) Huomaa, että sovitettu regressiosuora y = ˆβ 1 + ˆβ 2 x kulkee aina aineiston painopisteen ( x, ȳ) kautta, sillä edellisen nojalla ˆβ 1 + ˆβ 2 x = ȳ. Jos varianssi σ 2 > 0 kiinnitetään, ja log-uskottavuusfunktio maksimoidaan muiden parametrien suhteen, niin tulokseksi saadaan l(σ 2 ) = n 2 log(2πσ2 ) 1 2σ 2 D( ˆβ 1, ˆβ 2 ). Tätä σ 2 :n funktioita kutsutaan parametrin σ 2 logaritmiseksi profiiliuskottavuusfunktioksi. Parametrin σ 2 SU-estimaatti saadaan ratkaistua ratkaisemalla tämän funktion maksimipiste. Derivoimalla SU-estimaatille saadaan johdettua kaava ˆσ 2 = 1 n D( ˆβ 1, ˆβ 2 ) = 1 n n (y i ˆβ 1 ˆβ 2 x i ) 2. 4

5 1.3 Estimaattorien ominaisuuksia Kun puhumme estimaattoreista, tarkoitamme estimaatteja vastaavia satunnaismuuttujia. Oletamme, että lineaarinen malli pitää paikkansa, ja tutkimme satunnaismuuttujien ˆα = Ȳ = 1 n n Y i, ˆβ2 = S ty S t = n t iy i n t2 i jne. jakaumia (ts. estimaattorien otantajakaumia, sampling distribution) ja muita ominaisuuksia Tyhjentävyys Tilastollisessa mallissa, jossa havaintovektorin Y = (Y 1,..., Y n ) yhteisjakaumalla on parametrina tai parametrivektorina θ, tunnusluku T = t(y ) on tyhjentävä, jos Y :n ehdollinen jakauma ehdolla T ei ole θ:n funktio. Tällöin tunnusluku T sisältää parametrista yhtä paljon tietoa kuin alkuperäinen havaintovektori. Tilastollisen päättelyn teorian nojalla tiedetään, että tunnusluku T on tyhjentävä silloin ja vain silloin, kun havaintojen (yhteis)tiheys f Y voidaan kirjoittaa faktoroidussa muodossa f Y (y; θ) = g(t(y); θ)h(y), y, θ. (Myös satunnaismuuttujan T otosvastinetta kutsutaan tyhjentäväksi tunnusluvuksi.) Tämän perusteella on helppo näyttää, että yhden selittäjän lineaarisessa regressiossa tunnusluku t(y) = (S y, y +, S ty ) on tyhjentävä, jossa S y = n yi 2, y + = 1 n y i, S ty = 1 n t i y i. Pienillä laskuilla nähdään tämän perusteella, että myöskin parametrien SUestimaattorit (ˆα, ˆβ 1, ˆσ 2 ) muodostavat tyhjentävän tunnusluvun Regressiokertoimien estimaattorien jakaumat Palautetaan ensin mieleen kahden satunnaismuuttujan U ja V välinen kovarianssi, joka määritellään kaavalla Cov(U, V ) = E[(U EU)(V EV )]. 5 1

6 Muuttujan U varianssi Var U on sama kuin Cov(U, U). Yksinkertainen lasku osoittaa, että kovarianssi on bilineaarinen (eli lineaarinen molempien argumenttien suhteen) ts., jos α i :t ja β j ovat vakioita ja U i :t ja V j :t satunnaismuuttujia, niin Cov( i α i U i, j β j V j ) = ij α i β j Cov(U i, V j ). Koska muttujien Y 1,..., Y n yhteisjakauma on moniulotteinen normaalijakauma eli multinormaalijakauma, ja koska keskistetyn mallin SU-estimaattorit ˆα ja ˆβ 2 ovat niiden lineaarikombinaatioita, on niiden yhteisjakauma kaksiulotteinen normaalijakauma. Helposti saadaan johdettua tulokset ˆα N(α, σ2 n ), ˆβ2 N(β 2, σ2 S t ), sekä Cov(ˆα, ˆβ 2 ) = 0. Siis keskistetyn mallin parametrit ˆα ja ˆβ 2 ovat korreloimattomia. Koska niiden yhteisjakauma on kaksiulotteinen normaalijakauma, tästä seuraa, että ne ovat peräti riippumattomia. Alkuperäisen mallin kertoimien β 1 ja β 2 SU-estimaattorien yhteisjakauma on myöskin kaksiulotteinen normaalijakauma, ja laskemalla saadaan selville, että ( )) 1n ˆβ 1 N (β 1, σ 2 + x2 ja S t Cov( ˆβ 1, ˆβ 2 ) = x σ2 S t, joten alkuperäisen mallin estimaattorit ovat korreloituneita ja riippuvia. Jos x-arvot sijaitsevat kaukana origosta ( x on iso verrattuna arvoon S t ), niin vakiotermin estimaattorin ˆβ 1 varianssi on suuri, eli estimaattori ˆβ 1 on epästabiili. Tämän takia kannattaa useimmiten käyttää keskistettyä mallia, jonka kertoimien tulkinta on lisäksi usein mielekkäämpää kuin keskistämättömän mallin parametrien tulkinta. Huomaa, että regressiokertoimien estimaattorit ovat harhattomia ja että niiden jakaumat riippuvat (tuntemattomasta) varianssiparametrista σ 2, minkä vuoksi näitä tuloksia ei voi suoraan käyttää esim. parametrien luottamusvälien johtamiseen. 6

7 1.3.3 Varianssiparametri Tässä luvussa johdetaan se tärkeä tulos, että ˆσ 2 on riippumaton regressioparametrien estimaattoreista. Tätä varten tarkastellaan ensin residuaalien ominaisuuksia, jossa r i = y i ˆµ i = y i ˆβ 1 ˆβ 2 x i = y i ˆα ˆβ 2 t i ˆµ i = ˆβ 1 + ˆβ 2 x i = ˆα + ˆβ 2 t i on i:s sovite (fitted value). Olkoon R i residuaalia r i vastaava satunnaismuuttuja, R i = Y i ˆβ 1 ˆβ 2 x i = Y i ˆα ˆβ 2 t i. Nyt ja pienillä laskuilla havaitaan, että ER i = EY i E ˆα t i E ˆβ 2 = 0, Cov(R i, ˆα) = Cov(R i, ˆβ 2 ) = 0. Nyt satunnaismuuttujilla ˆα, ˆβ 2 ja R i on yhteisjakaumana multinormaalijakauma, sillä ne saadaan lineaarikombinaatioina satunnaismuuttujista Y 1,..., Y n, joilla on multinormaalijakauma. Koska multinormaalijakaumassa korreloimattomuudesta seuraa riippumattomuus, on R i riippumaton parista (ˆα, ˆβ 2 ). Koska ˆσ 2 = 1 n Ri 2, n seuraa, että myös ˆσ 2 on riippumaton parista (ˆα, ˆβ 2 ). Yhdistettynä edellä johdettuun tulokseen ˆα ˆβ2 tästä seuraa, että keskistetyn mallin kaikki kolme parametriestimattoria ovat keskenään riippumattomia. Keskistämättömässä mallissa nähdään vastaavilla laskuilla, että ˆσ 2 on riippumaton parista ( ˆβ 1, ˆβ 2 ). Satunnaismuuttujan R i reunajakauma on normaalijakauma, jonka varianssi saadaan laskettua helposti käyttämällä edellä johdettuja riippumattomuustuloksia. R i :n jakaumaksi saadaan R i N ( (0, σ )) n t2 i S t Osoittautuu, että varianssiparametrin SU-estimaattorin jakauma on skaalausta vaille tietty χ 2 -jakauma (khiin neliö tai khii toiseen). Palautetaan mieleen χ 2 -jakauman määritelmä. Olkoot Z 1,..., Z k riippumattomia standardinormaalijakaumaa noudattavia satunnaismuuttujia. Tällöin satunnaismuuttujalla U = Z Z 2 k 7

8 on χ 2 -jakauma k:lla vapausasteella (degrees of freedom, df), eli U χ 2 (k). Tunnetusti tämän jakauman odotusarvo on k ja varianssi on 2k. Luvun 2 tuloksista selviää aikanaan, että D( ˆβ 1, ˆβ 2 ) = n Ri 2 σ 2 χ 2 (n 2), (kahden parametrin estimointiin kuluu kaksi vapausastetta), joten Eˆσ 2 = 1 n ED( ˆβ 1, ˆβ 2 ) = σ 2 n 2 n. SU-estimaattori ˆσ 2 on siis alaspäin harhainen, ja sen sijasta tavallisesti käytetään harhatonta estimaattoria σ 2 = 1 n Ri 2 = 1 n 2 n 2 D( ˆβ 1, ˆβ 2 ). 1.4 Residuaalit Edellisessä kappaleessa johdettiin residuaalia vastaavalle satunnaismuuttujalle jakaumana ( R i N (0, σ )) n t2 i. S t Sovitteelle ˆµ i saadaan helposti johdettua jakauma ( ( )) 1 ˆµ i N µ i, σ 2 n + t2 i. S t Sellaisessa suuressa otoksessa, jossa myös S t on suuri, residuaalien varianssit menevät kohti arvoa σ 2 ja sovitteiden varianssit kohti nollaa. Residuaalien avulla voidaan yrittää selvittää, ovatko havainnot Y i normaalijakautuneita. Jos lineaarinen malli pitää paikkansa, residuaalit ovat normaalijakautuneita, niiden varianssi on osapuilleen σ 2, ja ne ovat osapuilleen (mutta ei tarkalleen) korreloimattomia. Residuaalien normaalisuutta voidaan selvittää vertaamalla residuaalien jakaumaa normaalijakaumaan normaalisen kvantiilikuvion (eli fraktiilikuvion) (normal probability plot, normal QQ plot) avulla. Siinä piirretään pistekuvio, jossa toiselle akselille piirretään arvot u i = Φ 1 ((i 1/2)/n), 8

9 jossa Φ 1 on standardinormaalijakauman kertymäfunktion käänteisfunktio, ja toiselle akselille arvot r (i), jossa r (i) on i:nneksi pienin residuaaleista, r (1) r (2) r (n). Kirjassa suositellaan, että järjestetyt residuaalit esitetään vaaka-akselilla ja u i :t pystyakselilla, mutta usein akselit valitaan toisin päin. Jos lineaarisen mallin oletukset pitävät paikkansa, pisteet asettuvat suunnilleen origon kautta kulkevalle suoralle, jonka kulmakerroin on σ 1, mikäli residuaali esitetään vaaka-akselilla ja σ, mikäli ne esitetään pystyakselilla. 1.5 Parametreja koskeva päättely Jos mallin parametrit β 1 ja β 2 tunnettaisiin, niin varianssiparametri σ 2 voitaisiin estimoida lausekkeella 1 n D(β 1, β 2 ), sillä D(β 1, β 2 ) σ 2 χ 2 (n). Varianssiparametrin SU-estimaattorin alaspäinen harha syntyy siitä, että tähän lausekkeeseen sijoitetaan tuntemattomien parametrien tilalle niiden SU-estimaattorit, jotka lasketaan minimoimalla tätä samaista lauseketta. Kuten jo mainittiin, varianssiparametrille käytetään tavallisesti harhaisen SU-estimaattorin sijasta harhatonta estimaattoria σ 2 = 1 n 2 n R 2 i = 1 n 2 D( ˆβ 1, ˆβ 2 ). Palautetaan mieleen (Studentin) t-jakauma. Jos satunnaismuuttujat U N(0, 1), V χ 2 (k) ovat riippumattomia, niin satunnaismuuttujalla Z = U V/k on t-jakauma k:lla vapausasteella, eli Z t(k). Edellä johdimme tuloksen ˆβ 2 N(β 2, σ2 S t ), 9

10 minkä motivoimana määrittelemme estimaattorin ˆβ 2 keskivirheen (standard error, s.e.) eli estimaattorin otantajakauman keskihajonnan otosestimaatin kaavalla s. e.( ˆβ 2 ) = σ, St jossa siis tuntemattoman varianssiparametrin sijalle on sijoitettu sen harhaton estimaatti σ 2. Parametrin β 2 t-testisuure määritellään kaavalla t(y ) = ˆβ 2 β 2 s. e.( ˆβ 2 ). Seuraavaksi osoitetaan, että t(y ):llä on t-jakauma n 2:lla vapausasteella, (kun määritelmässä käytetty β 2 on ko. parametrin todellinen arvo). Nyt t(y ) = ( ˆβ 2 β 2 ) S t /σ s. e.( ˆβ 2 ) S t /σ jossa osoittajan ja nimittäjä ovat riippumattomia satunnaismuuttujia, koska ˆβ 2 σ 2. Osoittajan jakauma on N(0, 1), ja nimittäjä on neliöjuuri lausekkeesta σ 2 σ χ2 (n 2), 2 n 2 missä käytettiin tietoa (n 2) σ 2 σ 2 χ 2 (n 2). Siis t(y ) t(n 2). Tätä tulosta voidaan käyttää parametria β 2 koskevien testien konstruointiin sekä sen luottamusvälin laskemiseen. Olkoon β (0) 2 annettu vakio (kulmakertoimen β 2 kohdalla tyypillisesti β (0) 2 = 0), ja tarkastellaan hypoteesia H 0 : β 2 = β (0) 2, käyttämällä kaksisuuntaista vastahypoteesia Tällöin voidaan käyttää tunnuslukua H A : β 2 β (0) 2. t(y ) = ˆβ 2 β (0) 2 s. e.( ˆβ 2 ), 10

11 Kuva 1.1: Kaksisuuntaisen t-testin kriittinen alue koostuu kahdesta häntäalueesta, joihin kumpaankin jää osuus a/2 todennäköisyysmassasta. jonka jakauma on t(n 2) silloin, kun H 0 pätee. Nollahypoteesin kannalta kriittisiä ovat ne tapaukset, joissa t(y ) on suuri. Nollahypoteesi hylätään merkitsevyystasolla a, jos t(y) > t 1 a/2 (n 2), missä oikealla puolella oleva merkintä tarkoittaa sitä pistettä, jossa t(n 2) jakauman kertymäfunktio saavuttaa arvon 1 a/2, ks. kuvaa 1.1. (Tässä käytettiin hyväksi t-jakauman symmetrisyyttä.) Palautetaan mieleen, että testin p-arvo eli havaittu merkitsevyystaso tarkoittaa todennäköisyyttä, että nollahypoteesin pätiessä testisuuretta vastaava satunnaismuuttuja saa arvon, joka on yhtä suuri tai suurempi kuin nyt havaittu testisuureen arvo. Ylläolevan testin p-arvo on P H0 ( t(y ) t(y)) = 2(1 G( t(y) )), jossa G on jakauman t(n 2) kertymäfunktio (ja jossa jälleen käytettiin hyväksi t-jakauman symmetrisyyttä). Koska todennäköisyydellä 1 a pätee epäyhtälö t(y ) = ˆβ 2 β 2 s. e.( ˆβ 2 ) < t 1 a/2(n 2), niin ratkaisemalla tämä epäyhtälö parametrin β 2 suhteen päädytään seuraavaan parametrin β 2 luottamusväliin luottamustasolla 1 a, [ ˆβ 2 t 1 a/2 (n 2) s. e.( ˆβ 2 ), ˆβ 2 + t 1 a/2 (n 2) s. e.( ˆβ 2 )]. 11

12 Parametrien β 1 ja α kohdalla testisuureet konstruoidaan samalla periaatteella. Esimerkiksi parametrin β 1 kohdalla lähdetään liikkeelle tuloksesta ˆβ 1 N(β 1, σ 2 ( 1 n + x2 S t )), jonka perusteella ˆβ 1 :n keskivirheeksi määritellään s. e.( ˆβ 1 1 ) = σ n + x2, S t ja sen t-testisuureeksi määritellään t(y ) = ˆβ 1 β 1 s. e.( ˆβ 1 ). Tämän jälkeen konstruoida testejä ja luottamusvälejä parametrille β 1 kuten edellä β 2 :lle. Varianssiparametrin kohdalla lähdetään liikkeelle tiedosta σ 2 σ χ2 (n 2), 2 n 2 josta saadaan johdettua hypoteesiä H 0 : σ 2 = σ(0) 2 koskeva testi sekä seuraavaa luottamustason 1 a luottamusväli [ ] (n 2) σ 2 (n 2) σ 2 χ 2 1 a/2 (n 2), χ 2 a/2 (n 2) jossa χ 2 b (k) tarkoittaa sitä pistettä, jossa χ2 (k)-jakauman kertymäfunktio saa arvon b. 12

13 Luku 2 Yleinen lineaarinen malli Huomautus: yleinen lineaarinen malli on englanniksi general linear model. Yleistetty lineaarinen malli, generalized linear model, on taas aivan eri asia. 2.1 Lineaarinen malli lineaarialgebran käsitteillä Kehitämme seuraavaksi geometrisen lähestymistavan lineaarisen mallin käsittelyyn. Tarkastelemme havaintovektoria y, vastaavaa satunnaisvektoria Y sekä sen odotusarvovektoria µ vektoriavaruuden R n pisteinä, jossa y 1 y = (y 1,..., y n ) T =. y n, Y = Y 1. Y n, µ = µ 1. Yleisessä lineaarisessa mallissa asetetaan lineaarisia rajoitteita keskiarvovektorille µ. Yhden selittäjän lineaarisessa regressiossa oletettiin, että µ i = β 1 + β 2 x i, i = 1,..., n. Voimme esittää tämän rakenneoletuksen vektorimerkinnöillä muodossa µ = β β 2 x, jossa käytettiin seuraavia n-komponenttisia pystyvektoreita x 1 1 = 1., x = x n. µ n.

14 Toisin sanoen malli voidaan ilmaista siten, että µ on kahden annetun vektorin 1 ja x lineaarikombinaatio eli µ kuuluu näiden kahden vektorin virittämään aliavaruuteen. Määritelmä. Yleisessä lineaarisessa mallissa oletetaan, että havaintoja y i vastaavat satunnaismuuttujat Y i ovat riippumattomia ja että Y i N(µ i, σ 2 ), i = 1,..., n, jossa keskiarvovektori µ (joka on parametri eli tuntematon vakiovektori) toteuttaa rajoitteen (hypoteesin, rakenneoletuksen) µ L, jossa L on annettu (tunnettu ja ei-satunnainen) avaruuden R n aliavaruus ja σ 2 > 0 on parametri (eli tuntematon vakio). Palautetaan mieleen lineaarialgebran käsitteitä. Joukko L R n on aliavaruus, jos on voimassa x, y L ja a, b R ax + by L. Erityisesti nollavektori kuuluu jokaiseen aliavaruuteen. Vektorit x 1,..., x k L muodostavat aliavaruuden L kannan, jos (i) ne virittävät L:n, eli mikä tahansa L:n alkio y voidaan esittää niiden lineaarikombinaationa y = a 1 x a k x k. (ii) joukko {x 1,..., x k } on lineaarisesti riippumatton (eli vapaa) ts. a 1 x a k x k = 0 a 1 = = a k = 0. Lineaarialgebrasta tiedetään, että jokaisella R n :n aliavaruudella on olemassa kanta ja että jokaisella L:n kannalla on yhtä monta kantavektoria. Tätä tarvittavaa kantavektoreiden lukumäärää kutsutaan aliavaruuden dimensioksi, dim(l). Huomaa, että kantavektoreiden lineaarisen riippumattomuuden ansiosta vektorin x L esitys kantavektoreiden lineaarikombinaationa on yksikäsitteinen. Jos x 1,..., x k on lineaarisen mallin aliavaruuden L kanta, niin rakenneoletus µ L voidaan ilmaista muodossa µ = k x j β j = Xβ, j=1 14

15 jossa X on tunnettu vakiomatriisi, jonka sarakkeet (pystyvektorit) ovat x 1,..., x k, ja kerroinvektori β = (β 1,..., β k ) T on parametri, eli se on tuntematon vakiovektori. Matriisia X kutustaan tällöin asetelmamatriisiksi (design matrix) tai mallimatriisiksi (model matrix). Huomaa, että tällä kurssilla mallimatriisin sarakkeet ovat aina lineaarisesti riippumattomia (ellei erityisesti toisin mainita). On hyödyllistä tarkastella lineaarista mallia toisaalta tietyn kannan (ja tietyn mallimatriisin) avulla lausuttuna ja toisaalta koordinaattivapaasti eli pelkästään aliavaruuden L avulla ilmaistuna. Joskus aliavaruudelle L käytetään kahta eri kantaa ja mallimatriisia µ = X 1 β ja µ = X 2 ψ. Kun n k-mallimatriisin X 1 sarakkeet esitetään n k-mallimatriisin X 2 sarakkeiden muodostaman kannan avulla, päädytään esitykseen X 1 = X 2 A, jossa k k-matriisin A sarakkeet ovat lineaarisesti riippumattomat (sillä muuten X 1 :n sarakkeet olisivat lineaarisesti riippuvat). Tämän takia A on kääntyvä matriisi. Koska µ = X 1 β = X 2 ψ = X 2 Aβ, on ψ = Aβ ja β = A 1 ψ. Aliavaruuden L kannan vaihto on sama asia kuin tällainen lineaarisen mallin lineaarinen uudelleenparametrointi. Vektoreiden x, y R n sisätulo on x y = x T y = y T x = n x i y i, ja vektorin x normi on x = x T x. Vektorit x ja y ovat ortogonaaliset eli toisiaan vastaan kohtisuorat, jos x T y = 0, mikä voidaan ilmaista merkinnällä x y. Pythagoraan lause sanoo, että x y x + y 2 = x 2 + y 2. Aliavaruuden L ortogonaalikomplementti L on L = {x R n : x z z L}. L on tunnetusti aliavaruus. 15

16 Jos L on aliavaruus ja y R n, niin tunnetusti on olemassa yksikäsitteinen vektori p L (y) L siten, että tai ekvivalentisti siten, että y p L (y) L y p L (y) z z L. Vektoria p L (y) kutsutaan vektorin y ortogonaaliprojektioksi aliavaruuteen L. Huomaa, että ortogonaaliprojektio p L (y) on pistettä y lähin aliavaruuden L piste, eli p L (y) on optimointitehtävän y z = min! rajoitteella z L, yksikäsitteinen ratkaisu, sillä jos z L, niin Pythagoraan lauseen mukaan y z 2 = y p L (y) 2 + p L (y) z 2 y p L (y) 2, ja epäyhtälö on aito, jos z p L (y). Ortogonaaliprojektio on lineaarinen kuvaus, sillä kun y 1, y 2 R n esitetään muodossa y j = p L (y j ) + (y p L (y j )), j = 1, 2, jossa p L (y j ) L ja y p L (y j ) L, niin havaitaan, että kaikille skalaareille α 1, α 2 pätee α 1 y 1 + α 2 y 2 = [α 1 p L (y 1 ) + α 2 p L (y 2 )] + [α 1 (y 1 p L (y 1 )) + α 2 (y 2 p L (y 2 ))], jossa oikean puolen ensimmäinen termi kuuluu aliavaruuteen L ja toinen termi aliavaruuteen L. Näin ollen p L (α 1 y 1 + α 2 y 2 ) = α 1 p L (y 1 ) + α 2 p L (y 2 ) y 1, y 2 α 1, α 2. Koska kuvaus y p L (y) on lineaarinen, sen välitää tietty n n-matriisi H, eli p L (y) = Hy, y Luvussa annetaan matriisille H lauseke käyttämällä mielivaltaista aliavaruuden L kantaa. 16

17 Ortogonaaliprojektion käsittely on yksinkertaista, jos aliavaruudelle L tunnetaan ortogonaalinen kanta e 1,..., e k, eli kanta, jonka vektorit ovat keskenään kohtisuorat (ja kaikille aliavaruuksille löytyy ortogonaalinen kanta). Tällöin ortogonaaliprojektio saadaan lausekkeella p L (y) = k j=1 e j y e j 2 e j. Tämä todistetaan tarkistamalla, että lausekkeen oikea puoli kuuluu aliavaruuteen L kaikilla y ja että y:n ja väitetyn lausekkeen erotus on kohtisuorassa L:n kantavektoreita vastaan. Mielivaltainen aliavaruuden kanta voidaan ortogonalisoida Gramin Schmidtin ortogonalisointiprosessilla. Otetaan käyttöön merkintä span S, S R n tarkoittamaan joukon S virittämää aliavaruutta (eli pienintä aliavaruutta, joka sisältää joukon S.) Olkoon a 1,..., a k aliavaruuden L kanta, ja määritellään Määritellään e 1 = a 1 ja sen jälkeen L j = span{a 1,..., a j }. e j = a j p Lj 1 (a j ), j = 2,..., k. Tällöin e 1,..., e j on aliavaruuden L j ortogonaalinen kanta, ja erityisesti e 1,..., e k on aliavaruuden L ortogonaalinen kanta. Yllä ortogonaaliprojektio p Lj 1 (a j ) saadaan laskettua helposti, sillä indeksin j kohdalla yllä olevassa iteraatiossa tunnetaan aliavaruuden L j 1 ortogonaalinen kanta e 1,..., e j 1. Jos L 1 ja L 2 ovat aliavaruuksia, niin myös niiden leikkaus ja summa ovat aliavaruuksia. Aliavaruuksien L 1 ja L 2 summa on juokko L 1 + L 2 = {v 1 + v 2 : v 1 L 1, v 2 L 2 }. Aliavaruudet L 1 ja L 2 ovat ortogonaaliset, mikä voidaan ilmaista merkinnällä L 1 L 2, jos v 1 v 2 kaikilla v 1 L 1 ja v 2 L 2. Tällöin aliavaruuksien L 1 ja L 2 summaa kutsutaan ortogonaaliseksi suoraksi summaksi, ja sitä merkitään L 1 L 2. (Huomaa, että monissa muissa lähteissä merkintää L 1 L 2 käytetään myös aliavaruuksien suoralle summalle, jossa summattavilta aliavaruuksilta vaaditaan ainoastaan, että L 1 L 2 = {0}, mikä tietenkin pitää paikkansa, jos L 1 ja L 2 ovat ortogonaalisia.) 17

18 Jos L 2 L 1 R n ovat aliavaruuksia, niin L 2 :n ortogonaalikomplementti L 1 :ssä on L 1 L 2 = L 1 L 2 = {x L 1 : x z z L 2 }. Erityisesti tavanomaiselle ortogonaalikomplementille L voidaan käyttää merkintää R n L. 2.2 SU-estimaatit Tarkastelemme lineaarista mallia µ L, jossa L on aliavaruus. Uskottavuusfunktio on n { L(µ, σ 2 ) = (2πσ 2 ) 1/2 exp 1 } 2σ (y 2 i µ i ) 2 { = (2πσ 2 ) n/2 exp 1 } y µ 2. 2σ2 Oli σ 2 > 0 mikä tahansa arvo, niin µ:n suhteen tämän funktion maksimoi se µ L, joka minimoi lausekkeen y µ 2, ja tämän tehtävän ratkaisu on ˆµ = p L (y). Argumentin µ suhteen maksimoitu uskottavuusfunktio eli parametrin σ 2 profiiliuskottavuusfunktio on { L(σ 2 ) = L(ˆµ, σ 2 ) = (2πσ 2 ) n/2 exp 1 } y ˆµ 2. 2σ2 Varianssiparametrin σ 2 > 0 SU-estimaatti löydetään maksimoimalla tätä funktiota, ja maksimipisteeksi saadaan helpoilla laskuilla ˆσ 2 = 1 y ˆµ 2 n olettaen, että y L. Jos y L, niin σ 2 :n SU-estimaatti ei ole määritelty. (Uskottavuusfunktio lähestyy tässä tapauksessa ääretöntä, kun σ 2 lähestyy nollaa, mutta arvo nolla ei kuulu parametriavaruuteen.) Jos lineaarinen malli pitää paikkansa ja L on avaruuden R n aito aliavaruus, niin tapauksen {Y L} todennäköisyys on nolla, joten rajoitus y L ei ole huolestuttava. Kootaan tulokset lauseeksi. 18

19 Lause 1. Lineaarisen mallin µ L SU-estimaatit ovat olemassa jos ja vain jos y L, ja tällöin niillä on lausekkeet Uskottavuusfunktion maksimiarvo on ˆµ = p L (y), ˆσ 2 = 1 n y ˆµ 2. L(ˆµ, ˆσ 2 ) = (2πˆσ 2 ) n 2 e n 2 Varianssiparametrin SU-estimaatin ˆσ 2 sijasta sille tullaan käyttämään estimaattia σ 2 = 1 n k y ˆµ 2, jossa k = dim(l). Tässä y = (y ˆµ) + ˆµ, jossa y ˆµ L ja ˆµ L, joten termit ovat ortogonaalisia. Pythagoraan lauseen nojalla ko. estimaatin lauseke voidaan kirjoittaa myös muodossa σ 2 = 1 n k ( y 2 ˆµ 2 ) Ortogonaaliprojektion matriisiesitys Olkoon x 1,..., x k lineaariavaruuden L kanta ja olkoon X = [ x 1,..., x k ] matriisi, jonka sarakkeina on kyseiset kantavektorit. Jos µ L, niin k µ = x j β j = Xβ j=1 jollekin β R k, ja tämä esitys on yksikäsitteinen. Koska myös ˆµ L, on olemassa yksikäsitteinen ˆβ, jolla ˆµ = p L (y) = X ˆβ. Tällöin ˆµ = X ˆβ on parametrin µ SU-estimaatti aliavaruutta L vastaavassa lineaarisessa mallissa. Seuraavaksi johdamme lausekkeen estimaatille ˆβ. Kerroinvektorin ˆβ lauseke voidaan johtaa joko derivoimalla (kuten kirjassa) tai seuraavalla geometrisella tarkastelulla. Koska vektorit x 1,..., x k muodostavat L:n kannan, seuraavat asiat ovat ekvivalentteja. X ˆβ = p L (y) y X ˆβ z z L y X ˆβ x j j = 1,..., k X T (y X ˆβ) = 0. 19

20 Edellä johdettua yhtälöä X T X ˆβ = X T y kutsutaan normaaliyhtälöksi (tai normaaliyhtälöiksi tai normaaliyhtälöryhmäksi). Koska X:n sarakkeet muodostavat kannan, ovat ne lineaarisesti riippumattomia. Todistamme seuraavaksi, että tästä seuraa se seikka, että X T X on säännöllinen matriisi, eli että tällä matriisilla on olemassa käänteismatriisi. Ensinnäkin X T X on k k-neliömatriisi, ja toisekseen seuraava implikaatioketju X T Xa = 0 (a T X T )(Xa) = 0 Xa = 0 a = 0 osoittaa, että matriisin X T X nolla-avaruus koostuu nollavektorista. Tämän takia matriisi X T X on säännöllinen. Siis ˆβ voidaan ratkaista normaaliyhtälöstä, jolloin saadaan ˆβ = (X T X) 1 X T y. Tämän jälkeen ortogonaaliprojektio ˆµ saadaan lausekkeesta missä otettiin käyttöön merkintä p L (y) = ˆµ = X ˆβ = X(X T X) 1 X T y = Hy, H = X(X T X) 1 X T. Lineaarikuvauksen p L välittävää n n-matriisia H kutsutaan hattumatriisiksi. (Selitys: sovitevektorille ˆµ käytetään usein merkintää ŷ, joten hattumatriisi laittaa hatun y:n päälle, ŷ = Hy.) Voidaan myös sanoa, että H on projektiomatriisi aliavaruuteen L. Laskemalla nähdään, että hattumatriisi on idempotentti ja symmetrinen, ts. HH = H ja H T = H. Kääntäen, jos P on idempotentti ja symmetrinen matriisi, niin se on projektiomatriisi aliavaruuteen R(P ) = {P x : x R n } eli kuvauksen x P x kuva-avaruuteen eli P :n sarakkeiden virittämään aliavaruuteen. (Kirjassa käytetään merkintää span{p } R(P ).) Tämä tarkistetaan seuraavilla laskuilla. 1) P y R(P ) kaikilla y (tietenkin). 20

21 2) Tarkistetaan, että y P y on kohtisuorassa aliavaruutta R(P ) vastaan: y P y R(P ) y P T (I P )y = 0 y, mutta jälkimmäinen identiteetti on tietenkin tosi symmertrisyyden ja idempotenttisuuden takia Kerroinvektorin estimaattorin jakauma Jostain syystä kirjan luvussa 2 ei tehdä tässä tehtäviä yksinkertaisia huomiota kerroinvektorin estimaattorin jakaumasta. Ensin kertaamme multinormaalijakauman ominaisuuksia. Satunnaisvektori Y = (Y 1,..., Y k ) T on vektori, jonka komponentit Y j ovat satunnaismuuttujia. Sen odotusarvovektori on komponenttien odotusarvoista koottu vektori ts. vektorin odotusarvo määritellään laskemalla odotusarvo komponentti komponentilta, Y 1 EY = E. Y k = EY 1. EY k Satunnaismatriisi ja sen odotusarvo määritellään samaan tapaan. Jos Z on satunnaismatriisi ja A, B ja C ovat vakiomatriiseja, joiden dimensiot ovat yhteensopivia, niin odotusarvon lineaarisuudesta ja matriisioperaatioiden määritelmistä seuraa, että E[AZB + C] = A(EZ)B + C. Kahden satunnaisvektorin U ja V kovarianssimatriisi määritellään kaavalla Cov(U, V ) = E[(U EU)(V EV ) T ], joten sen alkio (i, j) on E[(U i EU i )(V i EV i ) T ] = Cov(U i, V j ). Jos A ja a ovat vakiomatriisi ja vakiovektori siten, että lauseke AU + a on hyvin määritelty, ja B ja b ovat vakiomatriisi ja vakiovektori siten, että lauseke BV + b on hyvin määritelty, niin koska AU + a E[AU + a] = A(U EU), BV + b E[BV + b] = B(V EV ), on Cov(AU + a, BV + b) = E[(A(U EU)(V EV ) T B T ] = A Cov(U, V )B T. 21

22 Tämä kaava pitää sisällään luvussa käytetyn kovarianssin bilineaarisuusominaisuuden. Satunnaisvektorin Y kovarianssimatriisi (eli varianssi-kovarianssimatriisi) on Cov(Y ) = Cov(Y, Y ) = E[(Y EY )(Y EY ) T ], jonka alkio kohdassa (i, j) on E[(Y i EY i )(Y j EY j )] = Cov(Y i, Y j ). Kovarianssimatriisi on aina vähintään positiivisesti semidefiniitti (ja usein peräti positiivisesti definiitti). Edellä johdetun kaavan nojalla Cov(AY + b) = A Cov(Y )A T, kun A on vakiomatriisi ja b vakiovektori. Multinormaalijakauma eli moniulotteinen normaalijakauma voidaan määritellä lähtemällä liikkeelle satunnaisvektorista U = (U 1,..., U k ), jonka komponentit ovat riippumattomia ja noudattavat standardinormaalijakaumaa, U j N(0, 1). Tällöin satunnaisvektorilla U on tiheysfunktio f U (u) = k j=1 1 2π e 1 2 u2 i = (2π) n/2 exp( 1 2 ut u), u = (u 1,..., u k ) T. Merkitään tällöin, että U N(0, I). Huomaa, että EU = 0 ja Cov(U) = I. Tämän jälkeen sanotaan, että satunnaisvektorilla Y on multinormaalijakauma, jos se voidaan esittää muodossa Y = AU + b, jossa A on vakiomatriisi ja b vakiovektori. Voidaan osoittaa, että multinormaalijakauman määräävät jakauman odotusarvovektori sekä kovarianssimatriisi, ja multinormaalijakaumalle odotusarvolla µ ja kovarianssimatriisilla Σ käytetään merkintää N(µ, Σ). Multinormaalijakaumalla on mm. seuraavat ominaisuudet. Jos Y noudattaa multinormallijakaumaa, niin Y :n komponentit noudattavat yksiulotteista normaalijakaumaa, ja yleisemmin, jos C on vakiomatriisi ja d on vakiovektori, niin satunnaisvektori CY + d noudattaa multinormaalijakaumaa. Tämä nähdään lähtemällä liikkeelle esityksestä Y = AU + b, jossa U N(0, I) ja huomaamalla, että CY + d = (CA)U + (Cb + d). Jos Σ on positiivisesti definiitti (jolloin se on myös ei-singulaarinen), niin jakaumalla N(µ, Σ) on tiheysfunktio ( f(y) = (2π) n/2 det(σ) 1/2 exp 1 ) 2 (y µ)t Σ 1 (y µ). 22

23 Jos Σ on singulaarinen, niin multinormaalijakauma N(µ, Σ) on myös singulaarinen ts. se ei ole jatkuva jakauma eikä diskreetti jakauma (paitsi jos Σ = 0, jolloin jakauma on diskreetti). Jos Y noudattaa multinormaalijakaumaa, ja sen osavektorit U = (Y 1,..., Y j ) T, V = (Y j+1,..., Y k ) ovat korreloimattomia ts. Cov(U, V ) = 0, niin ne ovat peräti riippumattomia. (Tähän ominaisuuteen vedottiin lukuisia kertoja luvussa 1). Tämän ominaisuuden todistaminen onnistuisi näppärästi käyttämällä jakauman karakteristista funktiota. Ei-singulaarisessa tapauksessa ominaisuuden voi todistaa myös käyttämällä tiheysfunktion lauseketta. Multinormaalijakauman avulla ilmaistuna lineaarisen mallin µ = Xβ oletukset (rakenneoletus ja jakaumaoletus) voidaan molemmat ilmaista kaavalla sillä onhan mallin mukaan Y N(Xβ, σ 2 I), Y i = µ i + σ Y i µ i σ = µ i + σu i, jossa satunnaismuuttujat U i N(0, 1) riippumattomasti, ja µ i = [Xβ] i. Koska kerroinvektorin SU-estimaattori on ˆβ = (X T X) 1 X T Y, jossa X ja siten myös (X T X) 1 X T on vakiomatriisi, niin ˆβ noudattaa multinormaalijakaumaa, jonka odotusarvovektori ja kovarianssimatriisi lasketaan seuraavaksi. Odotusarvovektori on E ˆβ = (X T X) 1 X T EY = (X T X) 1 X T Xβ = β, joten ˆβ on harhaton. Kovarianssimatriisi on Cov( ˆβ) = (X T X) 1 X T Cov(Y )[(X T X) 1 X T ] T = (X T X) 1 X T (σ 2 I)X(X T X) 1 = σ 2 (X T X) 1. Siis ˆβ noudattaa (ei-singulaarista) multinormaalijakaumaa ˆβ N(β, σ 2 (X T X) 1 ). 23

24 Myös sovitevektori sekä residuaalivektori ˆµ = X ˆβ = X(X T X) 1 X T Y = HY R = Y ˆµ = (I H)Y noudattavat multinormaalijakaumaa, koska ne saadaan lineaarisilla muunnoksilla multinormaalijakaumaa noudattavasta vektorista Y. Laskemalla nähdään, että ˆµ N(µ, σ 2 H), R N(0, σ 2 (I H)). Nämä molemmat multinormaalijakaumat ovat singulaarisia (ellei malli ei ole triviaali). Myös ˆµ:n ja R:n yhteisjakauma on singulaarinen multinormaalijakauma, jossa Cov(ˆµ, R) = 0, joten satunnaisvektorit ˆµ ja R ovat riippumattomia. Koska varianssiparametrin estimaattori σ 2 = 1 n k R 2, k = dim(l) on satunnaisvektorin R funktio, ovat ˆµ ja σ 2 riippumattomia. Samalla tavalla nähdään, että myös ˆβ ja σ 2 ovat riippumattomia. 2.3 Uskottavuusosamäärätestin ja F -testin välinen yhteys Tilastollisen päättelyn perustyökalu lineaarisessa mallissa on ns. F -testi. Tässä luvussa esitellään ko. testi sekä osoitetaan, että se on ekvivalentti uskottavuusosamäärätestin kanssa. Olkoot L 1 ja L 2 kaksi sisäkkäistä aliavaruutta siten, että L 2 on L 1 :n aito aliavaruus, eli L 2 L 1, ja k 2 = dim(l 2 ) < k 1 = dim(l 1 ). Oletamme, että aliavaruutta L 1 vastaava lineaarinen malli on voimassa, ja tahdomme testata hypoteesia H 0 : µ L 2 käyttämällä vastahypoteesia H A : µ L 1 \ L 2. 24

25 Uskottavuusosamäärätesti (likelihood ratio test) perustuu testisuureeseen Q(y) = L(ˆµ 1, ˆσ 2 1) L(ˆµ 2, ˆσ 2 2), jossa (ˆµ 1, ˆσ 2 1) ovat parametrien (µ, σ 2 ) SU-estimaatit käyttämällä mallia L 1 ja (ˆµ 2, ˆσ 2 2) SU-estimaatit käyttämällä mallia L 2. Osoittajassa on uskottavuusfunktion maksimiarvo mallin L 1 ja nimittäjässä mallin L 2 vallitessa. Koska parametriavaruudet ovat sisäkkäiset (L 2 L 1 ), on L(ˆµ 1, ˆσ 2 1) L(ˆµ 2, ˆσ 2 2), joten Q(y) 1. Suuret testisuureen Q(y) arvot ovat kriittisiä H 0 :n kannalta: jos Q(y) on suuri, niin uskottavuusfunktion maksimi mallissa L 2 on selvästi pienempi kuin uskottavuusfunktion maksimi mallissa L 1. Nollahypoteesi µ L 2 hylätään merkitsevyystasolla α, jos Q(y) > c, jossa c määräytyy ehdosta P L2 (Q(Y ) > c) = α. Seuraavaksi muokkaamme testisuureen Q(y) lauseketta. Lauseen 1 mukaan Q(y) = L(ˆµ ( ) 1, ˆσ 1) 2 ˆσ 2 n ( ) L(ˆµ 2, ˆσ 2) = 2 1 y ˆµ1 2 n 2 = 2 y ˆµ 2 2 Tässä ˆσ 2 2 y ˆµ 2 = (y ˆµ 1 ) + (ˆµ 1 ˆµ 2 ), jossa termit ovat ortogonaalisia, sillä y ˆµ 1 L 1 ja ˆµ 1 ˆµ 2 L 1. Pythagoraan lauseen mukaan y ˆµ 2 2 = y ˆµ ˆµ 1 ˆµ 2 2, ja kun tämä sijoitetaan Q(y):n lausekkeeseen, se saadaan muotoon ( y ˆµ2 2 Q(y) = y ˆµ 1 2 ) n 2 = (1 + ˆµ 1 ˆµ 2 2 y ˆµ 1 2 Seuraavaksi määrittelemme F -testisuureen hypoteeseille H 0 : µ L 2 kaavalla F (y) = ˆµ 1 ˆµ 2 2 /(k 1 k 2 ) y ˆµ 1 2 /(n k 1 ). Huomaa, että uskottavuusosamäärän testisuure Q(y) saadaan soveltamalla bijektiivistä aidosti kasvavaa funktiota testisuureeseen F (y). Uskottavuusosamäärätestin kriittinen alue on muotoa Q(y) > c ja F -testin kriittinen alue on muotoa F (y) > d, joten nämä testit ovat samoja. ) n 2 25

26 Kuva 2.1: F -testin kriittinen alue merkitsevyystasolla α koostuu kyseessä olevan F -jakauman siitä oikeanpuoleisesta häntäalueesta, johon jää todennäköisyysmassasta α:n verran. Suuret testisuureen F (y) arvot ovat kriittisiä H 0 :n kannalta. Tulemme myöhemmin todistamaan, että nollahypoteesin pätiessä (eli kun µ L 2 ) F - testisuureen jakauma on F -jakauma vapausasteilla k 1 k 2 ja n k 1, eli F (Y ) F (k 1 k 2, n k 1 ), kun H 0 pätee eli kun µ L 2. Palautetaan tässä yhteydessä mieleen F -jakauman määritelmä. Jos satunnaismuuttujat U 1 χ 2 (f 1 ) ja U 2 χ 2 (f 2 ) ovat riippumattomia, niin tällöin osamäärä U 1 /f 1 U 2 /f 2 F (f 1, f 2 ), missä F (f 1, f 2 ) on (Fisherin) F -jakauma vapausasteilla f 1 ja f 2. Välittömästi näemme, että jos T t(f), niin T 2 F (1, f). Kun testataan hypoteesia H 0 : µ L 2 merkitsevyystasolla α, verrataan F -testisuureetta F (y) arvoon d, joka määrätään siten, että nollahypoteesin pätiessä hypoteesi hylätään todennäköisyydellä α, eli P L2 (F (Y ) > d) = α, ks. kuvaa 2.1. Kun käytämme hyväksi sitä tietoa, että F (Y ):llä on H 0 :n vallitessa F -jakauma, niin näemme, että d = F 1 α (k 1 k 2, n k 1 ), 26

27 jossa F β (f 1, f 2 ) tarkoittaa sitä pistettä, jossa ko. F -jakauman kertymäfunktio saa arvon β. Tämän testin p-arvo on P L2 (F (Y ) F (y)) = 1 G(F (y)), missä G on jakauman F (k 1 k 2, n k 1 ) kertymäfunktio. 2.4 Yhden selittäjän lineaarinen regressio uudestaan käsiteltynä Käsittelemme yhden selittäjän lineaarista regressiota keskistetyssä muodossa, EY i = µ i = α + β 2 t i, jossa t i = x i x, i = 1,..., n, eli mallin rakenneoletus on jossa t = (t 1,..., t n ) T. Huomaa, että µ = α1 + β 2 t, a) vektorit 1 ja t ovat lineaarisesti riippumattomia, mikäli t ei ole muotoa a1. Koska t i -arvojen keskiarvo on nolla, vektorit 1 ja t ovat lineaarisesti riippumattomia silloin ja vain silloin, kun S t = n t 2 i > 0. Jos S t > 0, vektorit 1 ja t muodostavat kaksiulotteisen aliavaruuden span{1, t} kannan. b) Vektorit 1 ja t ovat ortogonaalisia, sillä 1 T t = n t i = 0. Oletetaan, että S t > 0. Tällöin 1 ja t ovat lineaarisesti riippumattomia, ja lineaarisen mallin mallimatriisi X on X = [1, t], joten [ ] [ ] 1 X T X = T 1 1 T t n 0 t T 1 t T =, X T y = t 0 S t [ n y i n t iy i ] = [ nȳ S ty ], 27

28 josta [ ] 1/n 0 (X T X) 1 =, 0 1/S t [ [ ] = (X ˆαˆβ2] T X) 1 X T ȳ y =. S ty /S t Regressiokertoimien estimaattorien jakauma on [ ([ ] ) ([ ] [ ]) α α σ N, σ ˆαˆβ2] 2 (X T X) 1 = N, 2 /n 0 β 2 β 2 0 σ 2. /S t Oletetaan, että yhden selittäjän lineaarinen malli pitää paikkansa, ja johdetaan F -testisuure hypoteesille H 2, että selittävä muuttuja on mallissa tarpeeton, eli hypoteesille H 2 : β 2 = 0. Alkuperäinen malli vastaa aliavaruutta ja hypoteesia H 2 vastaa aliavaruus Tässä Mallin L 1 pätiessä sovite on ja mallin L 2 pätiessä taas L 1 = span{1, t} L 2 = span{1}. L 2 L 1, ja dim(l 2 ) = 1 < dim(l 1 ) = 2. ˆµ 1 = ˆα1 + ˆβ 2 t = ȳ1 + ˆβ 2 t, ˆµ 2 = yt = ȳ1. Näin ollen F -testisuure hypoteesille β 2 = 0 on F (y) = ˆµ 1 ˆµ 2 2 /(2 1) y ˆµ 1 2 /(n 2) = ˆβ 2 2S t σ 2, missä σ 2 on varianssiparametrin estimaatti mallissa L 1, σ 2 = 1 n 2 y ˆµ 1 2. Palautetaan mieleen luvusta 1.5, että t-testisuure hypoteesille β 2 = 0 on t(y) = ˆβ 2 σ/ S t, joten F -testisuureen ja t-testisuureen välillä on yhteys F (y) = t 2 (y). Tästä seuraa, että tälle hypoteesille F -testi ja (kaksisuuntainen) t-testi ovat samoja. 28

29 2.5 Lisää jakaumateoriaa Tässä kappaleessa osoitetaan, että aikaisemmin määritellyllä F -testisuureella on nollahypoteesin pätiessä todellakin F -jakauma Sivutuotteena johdetaan se tulos, että aliavaruutta L vastaavassa yleisessä lineaarisessa mallissa varianssiparametrin estimaattorin jakauma on seuraava skaalattu khiin neliö, jossa k = dim(l). σ 2 = 1 n k Y ˆµ 2 σ2 n k χ2 (n k), Multinormaalijakauman N(0, σ 2 I) ominaisuuksia Kirjoitamme lineaarisen mallin muodossa Y = µ + ɛ, µ L, jossa virhevektorin ɛ = (ɛ 1,..., ɛ n ) T komponentit ovat riippumattomia, ja niillä on jakauma N(0, σ 2 ), joten virhevektorilla on multinormaalijakauma N(0, σ 2 I). Seuraavaksi osoitamme, että jos esitämme virhevektorin missä tahansa R n :n ortonormeeratussa kannassa, niin koordinaattien yhteisjakauma on edelleen N(0, σ 2 I). Olkoon e 1,..., e n avaruuden R n ortonormeerattu kanta ts. kantavektorit ovat keskenään ortogonaalisia ja kunkin pituus on yksi. Muodostetaan neliömatriisi A asettamalla kantavektorit A:n sarakkeiksi, A = [e 1,..., e n ]. Tällöin A on ortogonaalinen matriisi, eli A 1 = A T. Ortogonaalisen matriisin determinantti on joko +1 tai 1, sillä 1 = det(i) = det(a T A) = det(a T ) det(a) = det(a) 2. Olkoot ϕ 1,..., ϕ n satunnaisvektorin ɛ koordinaatit ortonormeeratussa kannassa e 1,..., e n, jolloin n ɛ = ϕ i e i = Aϕ, jossa ϕ = (ϕ 1,..., ϕ n ). Tästä nähdään satunnaisvektorien ɛ ja ϕ välinen yhteys, ϕ = A T ɛ ɛ = Aϕ. 29

30 Lause 2. Jos A on ortogonaalinen matriisi ja ɛ N(0, σ 2 I), niin satunnaisvektorin ϕ = A T ɛ jakauma on N(0, σ 2 I). Todistus. Satunnaisvektorin ɛ tiheysfunktio on ( f ɛ (x) = (2πσ 2 ) n/2 exp 1 ) 2σ 2 x 2, ja satunnaisvektorin ϕ tiheysfunktio f ϕ saadaan kaavalla ( f ϕ (y) = f ɛ (Ay) det(a) = (2πσ 2 ) n/2 exp 1 ) 2σ 2 y 2, jossa käytettiin hyväksi tulosta Ay 2 = y T A T Ay = y T y = y 2. Palautetaan mieleen kappaleesta 2.1, että merkintä L 1 L 2 tarkoittaa kahden ortogonaalisen aliavaruuden ortogonaalista suoraa summaa. Laajennamme merkinnän koskemaan useampaa kuin kahta aliavaruutta. Merkintä U = L 1 L r tarkoittaa aliavaruuksien L 1,..., L r ortogonaalista suoraa summaa, eli sitä, että aliavaruudet L i ja L j ovat ortogonaalisia, kun i j, ja että U:n alkiot ovat muotoa u = v v r, jossa v j L j. Lause 3. Olkoon ɛ N(0, σ 2 I) ja olkoot L 1,..., L r avaruuden R n ortogonaalisia aliavaruuksia siten, että R n = L 1 L r. Olkoon k i = dim(l i ) ja olkoon p i ortogonaaliprojektio aliavaruuteen L i. Tällöin (i) p 1 (ɛ),..., p r (ɛ) ovat riippumattomia. (ii) p i (ɛ) 2 σ 2 χ 2 (k i ), i = 1,..., r. Todistus. Muodostetaan kullekin aliavaruudelle L j ortonormeerattu kanta, ja luetellaan kantavektorit peräkkäin siten, että ensin luetellaan L 1 :n kantavektorit, sitten L 2 :n kantavektorit jne. ja viimeiseksi L r :n kantavektorit. Tällöin lopputulos, e 1,..., e n, on R n :n ortonormeerattu kanta, koska aliavaruudet L j ovat ortogonaalisia. Konstruktion perusteella L j :n kantavektorit ovat e nj 1 +1,..., e nj, j = 1,..., r 30

31 kun määritellään n 0 = 0 ja n j = k k j, j = 1,..., r. Määritellään ortogonaalinen matriisi A siten, että sen sarakkeet ovat ortonormaalit kantavektorit e 1,..., e n ja määritellään satunnaisvektori ϕ kaavalla ϕ = A T ɛ ɛ = Aϕ. Tällöin ortogonaaliprojektiolla p j on esitys p j (ɛ) = n j i=n j 1 +1 ϕ i e i. Lauseen 2 mukaan satunnaismuuttujat ϕ 1,..., ϕ n ovat riippumattomia, ja kukin niistä noudattaa normaalijakaumaa N(0, σ 2 ). Niinpä satunnaisvektorit p 1 (ɛ),..., p r (ɛ) ovat riippumattomia, sillä p j (ɛ) riippuu vain muuttujista ϕ i, i = n j 1 + 1,..., n j, ja tässä indeksijoukot ovat erillisiä eri j:n arvoilla. Pythagoraan lauseen ja χ 2 -jakauman määritelmän nojalla pätee lisäksi p j (ɛ) 2 = n j i=n j 1 +1 ϕ 2 j = σ 2 n j i=n j 1 +1 ( ϕj ) 2 σ 2 χ 2 (k j ). σ Parametrien estimaattorit Tarkastellaan lineaarista mallia µ L 1, eli Y = µ + ɛ, µ L 1, ɛ N(0, σ 2 I), jossa dim(l 1 ) = k 1. Esitetään R n ortogonaalisena suorana summana R n = L 1 L 1, ja olkoot p L1 ja p L 1 vastaavat ortogonaaliset projektiot. 31

32 Lauseen 3 mukaan p L 1 (ɛ) 2 σ 2 χ 2 (n k 1 ). Lisäksi p L 1 (Y ) = Y p L1 (Y ), ja toisaalta p L 1 (Y ) = p L 1 (µ) + p L 1 (ɛ) = p L 1 (ɛ). Edellä p L 1 (µ) = 0, sillä µ L 1. Tämän takia σ 2 = 1 n k 1 Y p L1 (Y ) 2 = 1 n k 1 p L 1 (ɛ) 2 σ2 n k 1 χ 2 (n k 1 ), joka tulos saatiin nyt vihdoin viimein todistettua, vaikka sitä on sovellettu jo useissa yhteyksissä aikaisemmin. Erityisesti estimaattori σ 2 on harhaton, Koska E σ 2 = σ 2. ˆµ = p L1 (Y ) = p L1 (µ) + p L1 (ɛ) = µ + p L1 (ɛ), nähdään lausetta 3 soveltamalla, että sovitevektori ˆµ ja estimaattori σ 2 ovat keskenään riippumattomia, minkä asian tiesimme jo luvun perusteella F-testi Tarkastelemme kahta sisäkkäistä aliavaruutta L 2 L 1, k 2 = dim(l 2 ) < k 1 = dim(l 1 ), ja oletamme, että aliavaruutta L 2 vastaava lineaarinen malli pitää paikkansa. Olkoot p 1 ja p 2 ortogonaaliprojektiot aliavaruudelle L 1 ja L 2, jolloin F -testisuure L 2 :lle L 1 :n vallitessa on ˆµ 1 = p 1 (y), ˆµ 2 = p 2 (y). F (y) = p 1(y) p 2 (y) 2 /(k 1 k 2 ) y p 1 (y) 2 /(n k 1 ) Osoitamme seuraavaksi, että L 2 :n vallitessa F -testisuureella on jakauma F (Y ) F (k 1 k 2, n k 1 ), kun µ L 2. 32

33 Oletetaan siis, että µ L 2. Esitetään R n seuraavan kolmen aliavaruuden ortogonaalisena suorana summana, R n = L 2 (L 1 L 2 ) L 1, jossa aliavaruuksien dimensiot ovat k 2, k 1 k 2 ja n k 1, ja jossa ortogonaaliprojektiot ko. aliavaruuksiin ovat p 2, p 1 p 2 ja y y p 1 (y). Lausetta 3 soveltamalla saadaan selville, että p 2 (ɛ) 2 σ 2 χ 2 (k 2 ) p 1 (ɛ) p 2 (ɛ) 2 σ 2 χ 2 (k 1 k 2 ) ɛ p 2 (ɛ) 2 σ 2 χ 2 (n k 1 ), ja että nämä kolme satunnaismuuttujaa ovat riippumattomia. Koska µ L 2 L 1, on µ = p 1 (µ) = p 2 (µ), joten p 1 (Y ) p 2 (Y ) = p 1 (µ) + p 1 (ɛ) p 2 (µ) p 2 (ɛ) = p 1 (ɛ) p 2 (ɛ) Siis, kun µ L 2, Y p 1 (Y ) = µ + ɛ p 1 (µ) p 1 (ɛ) = ɛ p 1 (ɛ). F (Y ) = p 1(Y ) p 2 (Y ) 2 /(k 1 k 2 ) Y p 1 (Y ) 2 /(n k 1 ) F (k 1 k 2, n k 1 ), = p 1(ɛ) p 2 (ɛ) 2 /(k 1 k 2 ) ɛ p 1 (ɛ) 2 /(n k 1 ) jossa tarvittiin sitä tietoa, että osoittaja ja nimittäjä ovat riippumattomia ja jossa osoittajan ja nimittäjän varianssiparametrit kumosivat toisensa. F-testisuureen näkee usein esitettävän muodossa F (y) = (RSS 2 RSS 1 )/(k 1 k 2 ), RSS 1 /(n k 1 ) jossa RSS j on jäännösneliösumma (residual sum of squares) mallista µ L j, eli RSS j = y p Lj (y) 2. Tämä kaava on tietenkin yhtäpitävä edellä esitetyn kaavan kanssa (HT) F-testi, kun rajoitteet ovat muotoa Aβ = 0 Käytännössä malli µ L 1 spesifioidaan useimmiten tietyn mallimatriisin avulla, µ = Xβ, ja rajoitettu malli µ L 2 annetaan usein muodossa Aβ = 0, 33

34 jossa A on annettu q k-matriisi, jonka vaakarivit ovat lineaarisesti riippumattomia. Tällöin alkuperäisen mallin aliavaruus L 1 = R(X), ja rajoitetun mallin µ L 2 aliavaruus L 2 on L 2 = {µ R n : β R k siten, että µ = Xβ ja Aβ = 0}. Tällöin voidaan edetä sillä tavalla, että q kappaletta parametreista β j eliminoidaan rajoitusehtojen avulla. Esimerkiksi, jos q = 1 ja rajoitusehtona on β 1 + β 2 = 0, niin tällöin voidaan esim. β 1 eliminoida kaavalla β 1 = β 2 ja ilmaista rajoitettu malli parametrien β 2,..., β k avulla. Tämän jälkeen voidaan ratkaista ˆµ 2 ja käyttää edellä kehitettyä kaavaa F -testisuureelle. Tässä tilanteessa voidaan antaa myös eksplisiittinen kaava F -testisuureelle. Eräs hyödyllinen muoto on F (y) = ˆβ T A T [A(X T X) 1 A T ] 1 A ˆβ/q σ 2, (*) jossa ˆβ on alkuperäisestä mallista µ L 1 laskettu estimaatti ˆβ = (X T X) 1 X T y, ja σ 2 on alkuperäisen mallin µ L 1 varianssiparametrin estimaatti. Kaavan (*) voi johtaa lähtemällä liikkeelle siitä, että F -testisuureen osoittajassa oleva neliömuoto on y:n ortogonaaliprojektion pituuden neliö aliavaruudelle L 1 L 2. Lisäksi tarvitaan se tieto, että matriisin X(X T X) 1 A T sarakkeet muodostavat kannan aliavaruudelle L 1 L 2. Tämä todistetaan tarkistamalla, että kyseisen matriisin sarakkeet ovat lineaarisesti riippumattomia sekä laskemalla seuraavasti. v L 1 L 2 = L 1 L 2 v = Xβ ja (Aβ = 0 β X T Xβ = 0) v = Xβ ja X T Xβ N(A) = R(A T ) v = Xβ ja X T Xβ = A T z jollekin z R q v = X(X T X) 1 A T z jollekin z R q. Lopuksi kaava (*) johdetaan soveltamalla luvun teoriaa käyttämällä kantana matriisin X(X T X) 1 A T sarakkeita. 34

35 2.6 t-testin ja F -testin välinen yhteys Tarkastellaan lineaarista mallia µ = Xβ, jonka mallimatriisi on X. Luvussa johdettiin kerroinvektorin β SU-estimaattorille tulos ˆβ N(β, σ 2 C), jossa C = (XX T ) 1. Olkoon c ij matriisin C alkio kohdassa (i, j). Kerroinvektorin β = (β 1,..., β k ) alkion β j keskivirhe on s. e.( ˆβ j ) = σ c jj ja sen t-testisuure on t(y) = ˆβ j β j s. e.( ˆβ j ). Kirjoitetaan vastaava satunnaissuure t(y ) muodossa t(y ) = ( ˆβ j β j )/(σ c jj ) σ2 /σ 2, jossa osoittajassa on standardinormaalijakaumaa noudattava satunnaismuuttuja, ja nimittäjässä on neliöjuureen sisällä siitä riippumaton satunnaismuuttuja, jolle σ 2 σ 1 2 n k χ2 (n k). Siis t-jakauman määritelmän nojalla t(y ) t(n k), minkä perusteella voidaan muodostaa hypoteesia β j = 0 koskeva t-testi samalla tavalla kuin luvussa 1.5. Tällaisessa testissä tutkitaan, onko kerrointa β j vastaava selittäjä tarpeellinen lineaarisessa mallissa, kun malli sisältää muut selittävät muuttujat. Hypoteesia β j = 0 voidaan testata myös F -testillä. Tämä vastaa rajoitetta Aβ = 0, jossa A = e T j ja e j on R n :n standardikannan j:s vektori. Käyttämällä luvun kaavaa (*) F -testisuureeksi saadaan joten F (y) = ˆβ 2 j /c jj σ 2, F (y) = t 2 (y), mistä seuraa, että testit ovat samat. Kirjassa vastaava lasku lasketaan ilman kaavaa (*), ja laskut ovat huomattavasti hankalampia kuin yhden selittäjän tapauksessa. 35

36 2.7 Luottamusjoukot ja affiinit hypoteesit Luottamusellipsoidi Oletetaan, että satunnaisvektori Y noudattaa lineaarista mallia n k-mallimatriisilla X eli että Y = µ + ɛ, µ = Xβ, ɛ N(0, σ 2 I). Tarkastellaan hypoteesia H 2 : β = β 0, jossa β 0 on annettu k-komponenttinen vektori. Emme voi testata tätä hypoteesia suoraan F -testillä, sillä ko. hypoteesi on µ:n avulla ilmaistuna sama kuin µ {µ 0 }, jossa µ 0 = Xβ 0, ja joukko {µ 0 } on aliavaruus täsmälleen silloin, kun µ 0 = 0 eli kun β 0 = 0. Sen sijaan tarkastelemme muunnettua mallia, jossa hypoteesi H 2 on ekvivalentti aliavaruuden {0} kanssa. Määritellään satunnaisvektori Y kaavalla Y = Y Xβ 0. Tällöin Y noudattaa lineaarista mallia mallimatriisilla X, sillä Y = Y Xβ 0 = X(β β 0 ) + ɛ = Xβ + ɛ, missä uuden mallin parametrin β ja alkuperäisen mallin parametrin β välillä on yhteys β = β β 0. Alkuperäisen mallin hypoteesi β = β 0 on sama kuin uuden mallin hypoteesi β = 0. Kehitetään seuraavaksi F -testisuureen lauseketta uuden mallin hypoteesille β = 0 eli aliavaruudelle L 2 = {0}. Uudessa mallissa ˆµ 1 = X ˆβ ja ˆµ 2 = 0, missä uuden mallin kerroinvektorin β SU-estimaattorille pätee kaava ˆβ = (X T X) 1 X T Y = (X T X) 1 X T (Y Xβ 0 ) = ˆβ β 0, jossa ˆβ on alkuperäisen mallin kerroinvektorin β SU-estimaattori. Niinpä F - testisuureen osoittajassa on neliömuoto ˆµ 1 ˆµ 2 2 = X ˆβ 2 = X( ˆβ β 0 ) 2 = ( ˆβ β 0 ) T X T X( ˆβ β 0 ). Nimittäjässä on varianssiparametrin estimaatti uudessa mallissa, kun µ L 1 = R(X) eli 1 n k y X ˆβ 2 = 1 n k y Xβ 0 X( ˆβ β 0 ) 2 = 1 n k y X ˆβ 2, 36

Näytä lisää