Lineaarinen malli. Pentti Saikkonen. Kevät Korjattu versio: Toukokuu 2010

Transkriptio

1 Lineaarinen malli Pentti Saikkonen Kevät 2007 Korjattu versio: Toukokuu 2010

2 Sisältö 1 Lineaarisen mallin määrittely 1 11 Yksinkertainen esimerkki 1 12 Yleinen lineaarinen malli 2 13 Lineaarisen mallin erikoistapauksia 4 2 Lineaarisen mallin parametrien estimointi 7 21 Suurimman uskottavuuden(su) estimointi 7 22 SU-estimointi satunnaisten selittäjien tapauksessa SU-estimaattorien ominaisuudet SU-estimointi lineaarisin rajoittein 16 3 Hypoteesien testaaminen F-testi yleiselle lineaariselle hypoteesille F-testin erikoistapauksia 19 4 Luottamusvälien ja-joukkojen muodostaminen Luottamusvälit Luottamusjoukot 24 5 Empiirinen esimerkki Aineisto ja tutkimusongelma Mallin oletusten tarkistaminen Tilastollinen analyysi 29 6 Varianssianalyysia Yksisuuntainen varianssianalyysi Empiirinen esimerkki Kaksisuuntainen varianssianalyysi 36 Liite A Satunnaisvektoreista, satunnaismatriiseista ja multinormaalijakaumasta 41 Liite B Matriisilaskentaa 47

3 1 Lineaarisen mallin määrittely 11 Yksinkertainen esimerkki Tarkastellaan aluksi yksinkertaista esimerkkiä, joka havainnollistaa lineaarisen mallin ideaa Oletetaan, että maaperältään homogeeninen pelto on jaettu samankokoisiin alueisiin, joita on n kappaletta ja joita on lannoitettu eri määrillä x 1,,x n samaa lannoitetta Olkootsaadutsatomäärätvastaavastiy 1,,y n Tavoitteenaonrakentaa tilastollinen malli, jonka avulla voidaan selvittää lannoituksen vaikutus odotettavissa olevaan satomäärään Oletetaan, että havaitut satomäärät voidaan tulkita (riittävällä tarkkuudella) riippumattomien satunnaismuuttujien Y 1,,Y n havaituiksi arvoiksi Mielenkiinto kohdistuu näiden satunnaismuuttujien odotusarvoihin E(Y i ) = µ i, jotka riippuvat ennaltavalituistajasitenei-satunnaisistalannoitemääristäx i (,,n)lineaarisessa mallissa tämä riippuvuus oletetaan lineaariseksi eli µ i = β 1 +β 2 x i, jossa β 1 ja β 2 ovat tuntemattomia parametreja Lisäksi oletetaan, etteivät lannoitemäärät vaikuta satunnaismuuttujien Y i (tuntemattomiin) variansseihin eli oletetaan, että Var(Y i )=σ 2 päteekaikilla,,ntilannevoidaankuvatakäyttäenyhtälöä Y i =β 1 +β 2 x i +ε i,,,n, (11) jossa ε 1,,ε n ovat riippumattomia ei-havaittavia satunnaismuuttujia, joille pätee E(ε i ) = 0 ja Var(ε i ) = σ 2 Nämä satunnaismuuttujat voidaan tulkita havaituissa satomäärissä ilmeneväksi puhtaaksi satunnaisvaihteluksi, joka ei selity lannoitemäärällä Yhtälöä (11) nimitetään yhden selittävän muuttujan lineaariseksi regressiomalliksi Jos asiaa tarkastellaan tiukasti tilastollisen päättelyn näkökulmasta, ei kysymyksessä ole vielä tilastollinen malli, jollainen vaatii havaintojen yhteistodennäköisyysjakauman ja parametriavaruuden spesifioinnin Klassinen lineaarinen malli, jota tällä kurssilla tarkastellaan, olettaa normaalijakauman Koska lannoitemäärät tulkitaan ei-satunnaisiksi, saadaan havaintojen yhteistodennäköisyysjakauma siten oletuksesta Y 1,,Y n, Y i N ( β 1 +β 2 x i,σ 2) (12) Vaikka(ainakin)oletusβ 1 >0tuntuisijärkevältä,valitaanklassisenlineaarisenmallin mukaisestiparametriavaruudeksiβ 1,β 2 R,σ 2 >0Vaihtoehtoinenjauseinkäytetty tapa spesifioida havaintojen yhteistodennäköisyysjakauma on yhtälön (11) täydentäminen oletuksella ε 1,,ε n, ε i N ( 0,σ 2) (13) Koska tässä tapauksessa satomäärää selittävän muuttujan eli lannoitemäärän arvot kiinnitettiin edeltä käsin, niiden tulkitseminen ei-satunnaisiksi on loogista Jos kysymyksessä olisi ollut tilanne, jossa selittävän muuttujan havainnot olisi poimittu satunnaisotantaa käyttäen tai ne olisivat muuten satunnaisia, täytyisi tilastollinen malli periaatteessa laajentaa ja tarkastella satunnaisvektorien [Y i X i ] (,,n) yhteistodennäköisyysjakaumaa 1 Myöhemmintodetaan,ettäsopivinoletuksinonloo- 1 Matriisin transponointia merkitään pilkulla ja vektorit tulkitaan matriiseiksi, joissa on yksi sarake Käytetyt matriisilaskennan merkinnät ja tulokset on koottu Liitteeseen B 1

4 gistatarkastellaselitettäviämuuttujiay 1,,Y n ehdollisestiehdollaselittävänmuuttujanx 1,,X n saamathavaitutarvotx 1,,x n,jolloinedelläesitettymallisoveltuu Käytännössä edellä tarkasteltuun malliin voisi olla aiheellista sisällyttää lannoitemäärän lisäksi myös muita satomäärää selittäviä muuttujia Seuraavassa esitettävä yleinen lineaarinen malli ottaa tämän huomioon 12 Yleinen lineaarinen malli Yleisen lineaarisen mallin asetelma on, että analysoitavana on n:n havaintoyksikön aineisto, jonka muuttujista yksi on luonteeltaan selitettävä ja loput p sen vaihtelua selittäviä muuttujia Kaaviona tilanne on seuraavanlainen Havaintoyksikkö Selitettävämuuttuja;y Selittävätmuuttujat;x 1,,x p 1 y 1 x 11,,x 1p n y n x n1,,x np Lineaarisessa mallissa selittävän muuttujan vaikutus selitettävään muuttujaan oletetaan (tietyssä mielessä) lineaariseksi Jos Y 1,,Y n ovat edellisen esimerkkitapauksen mukaisesti satunnaismuuttujia, joiden havaitut arvot ovat y 1,,y n, niin mallin määritelmä voidaan perustaa yhtälöön Y i =β 1 x i1 + +β p x ip +ε i,,,n, (14) jostaedellisenjaksonyhtälö(11)saadaanilmeisenäerikoistapauksena(p=2,x i1 =1 i) Yhtälön(14)oikeallapuolellaselittävienmuuttujienhavaintoarvotx ij ovateisatunnaisia tai kiinteitä lukuja, β 1,,β p ovat tuntemattomia parametreja ja ε i on havaintoyksikköön i liittyvä ei-havaittava satunnaismuuttuja, joka kuvaa sitä osaa selitettävän muuttujan vaihtelusta, jota selittävät muuttujat tai niiden lineaarikombinaatioβ 1 x i1 + +β p x ip eikykeneselittämään Tästäsyystäsatunnaismuuttujiaε i kutsutaanvirheiksi taivirhetermeiksi Lineaarikombinaatiotaβ 1 x i1 + +β p x ip kutsutaan puolestaan mallin systemaattiseksi osaksi tai rakenteeksi Mallin lineaarisuus merkitseesitä,ettäsystemaattinenosaonparametrien β 1,,β p lineaarinenfunktio ja että virhetermi lisätään systemaattiseen osaan additiivisesti Mallin lineaarisuus salliinäinollenesimerkiksivalinnanx i2 =x 2 i1 eliepälineaarisuudenselittävienmuuttujiensuhteen,kunhanlineaarisuusparametrienβ 1,,β p suhteensäilyy 2 2 Jos edellisen jakson esimerkkiin lisätään selittäjä x 2 i, voidaan mallissa ottaa huomioon se, että satomäärä pienentyy, jos lannoitetta käytetään liikaa 2

5 Kuten edellisen jakson esimerkissäkin, täytyy yhtälöä(14) täydentää spesifioimalla (selitettävän muuttujan) havaintojen yhteistodennäköisyysjakauma ja parametriavaruus,jottatilastollinenmallituleemääritellyksi HavaintojenY 1,,Y n yhteistodennäköisyysjakauma tulee spesifioiduksi, kun virheisiin liitetään oletus(13) Jos merkitään x i = [x i1 x ip ] ja β = [ β 1 β p ], saadaan lineaariselle mallille siten määritelmä Y 1,,Y n, Y i N ( x iβ,σ 2), β R p, σ 2 >0 (15) Vaihtoehtoinen määritelmä saadaan liittämällä yhtälöön(14) oletukset(13) ja β R p, σ 2 > 0 Kuten edellä esitetystä ilmenee, voidaan lineaarista mallia luonnehtia malliksi havaintojen odotusarvolle Tästä johtuen on parametrivektori β ja sitä koskeva tilastollinen päättely ensisijaisen mielenkiinnon kohteena, kun taas parametri σ 2 onluonteeltaankiusaparametri Edellä esitetty lineaarisen mallin määrittely vastaa siis tilastollisessa päättelyssä käytettyä tilastollisen mallin määrittelyä Kuten aiemmin vihjattiin, näkee nimitystä lineaarinen malli käytettävän usein myös löyhemmässä mielessä Erityisesti havaintojen tai virheiden yhteistodennäköisyysjakaumaa ja parametriavaruutta ei aina spesifioida (ainakaan eksplisiittisesti) ja joskus riippumattomuuden asemesta oletetaan vain korreloimattomuus Lineaarinen malli voidaan esittää kätevästi matriisimerkinnöin, joita tarvitaan myös mallin teorian kehittelyssä Yhtälö(14) voidaan kirjoittaa eli Y 1 Y n = x 11 x 1p x n1 x np β 1 β p + ε 1 ε n Y=Xβ+ε (16) Virheitä koskeva oletus (13) voidaan ilmaista vaatimalla, että satunnaisvektori ε noudattaamultinormaalijakaumaaodotusarvonanollajakovarianssimatriisinaσ 2 I n elisymboleinε N ( 0,σ 2 I n ),jossain on(n n)yksikkömatriisi 3 Nytmallivoidaan määritellä lyhyesti kirjoittamalla Y N ( Xβ,σ 2 I n ), β R p, σ 2 >0 (17) Ellei toisin mainita, liitetään malliin lisäksi oletus r(x)=p (18) eli matriisin X(n p) oletetaan olevan täyttä sarakeastetta, jolloin pätee erityisesti n p(jakäytännössän>p) Tämätakaasen,ettäodotusarvovektorillaµ=E(Y) onyksikäsitteinenesitysµ=xβ (r(x)=p r(x X)=p β=(x X) 1 X µ) Kyse on siten identifiointiehdosta, joka takaa parametrivektorin β yksikäsitteisyyden (Xβ (1) = Xβ (2) X(β (1) β (2) ) = 0 β (1) = β (2), kun r(x) = p) 3 Jos tarkasteltavan multimormaalijakauman dimensio on aiheellista merkitä näkyviin, se osoitetaanalaindeksilläeliesimerkiksin n(, ) 3

6 Jos r(x)<p, voidaan joku (tai jotkut) matriisin X sarakkeet lausua muiden lineaarikombinaationajasaadaodotusarvovektorilleesitysµ=x β,jossamatriisix on täyttä sarakeastetta Esimerkiksi tapauksessa p = 3 ja x i3 = x i1 +x i2, pätee µ i =x i1 β 1 +x i2 β 2 +x i3 β 3 =x i1 (β 1 +β 3 )+x i2 (β 2 +β 3 ) Mallin parametreja β ja σ 2 koskevan tilastollisen päättelyn kannalta on riittävääesittäämallimuodossay N ( Xβ,σ 2 I n ) ilman,ettävirhetermeistäpuhutaan mitään Joissakin tapauksissa tähän esitykseen voidaan päätyä luontevasti lähtemällä havaintojenriippumattomuudestajaoletuksestay i N ( µ i,σ 2),jossaodotusarvoille µ i voidaan tutkittavan ilmiön taustateorian perusteella olettaa lineaarinen esitys µ i =x i β(,,n)useinvirhetermeilläonkuitenkinluontevatulkintamittaustai selitysvirheinä, jolloin niiden käyttäminen mallin motivoinnissa ja esittämisessä on myös luontevaa Mallin virhetermeillä on myös toinen motivaatio, jonka tarkastelemiseksi otetaan käyttöönkäsitteetsovitejaresiduaali,jotkaovatmallinsystemaattisenosanµ i =x i β javirheterminε i empiirisiävastineita Josˆβonparametrinβestimaatti,niin(havaintoyksikkööniliittyvä)sovite onˆµ i =x iˆβja(havaintoyksikkööniliittyvä)residuaali onˆε i =y i x iˆβ(sovitteellekäytetäänmyösmerkintääŷ i )Onselvää,ettäresiduaalit ˆε 1,,ˆε n sisältävätinformaatiotaparametristaσ 2 jaovatsikälirelevantteja Lisäksine sisältävät informaatiota mallin oletusten mahdollisesta paikkansapitämättömyydestä eli esimerkiksi varianssien Var(ε i ) = Var(Y i ) vaihtelusta sekä virheiden ε i ja siten havaintojen Y i riippuvuudesta tai ei-normaalisuudesta Yksinkertaisimpia malleja lukuun ottamatta näitä kysymyksiä on helpompi tutkia residuaalien kuin alkuperäisten havaintojen avulla Tällä kurssilla näitä tärkeitä kysymyksiä ei kuitenkaan ehditä juurikaan käsitellä Todettakoon kuitenkin, että kohtuullisen pieni poikkeama normaalisuudesta ei ole tuhoisaa, sillä esitettävät teoreettiset tulokset voidaan perustella asymptoottisina approksimaatioina myös ilman normaalisuusoletusta Selvästi einormaalisiin tilanteisiin tällä kurssilla tarkasteltavaa mallia ei kuitenkaan pidä mennä soveltamaan 4 13 Lineaarisen mallin erikoistapauksia Kuten edellä todettiin, saadaan jaksossa 11 tarkasteltu yhden selittäjän lineaarinen regressiomalli yleisen lineaarisen mallin erikoistapauksena Vielä yksinkertaisempi erikoistapaus on malli Y 1,,Y n, Y i N ( µ,σ 2) eli riippumaton otos normaalijakaumasta Tähän malliin päädytään valitsemalla yleisessämallissap=1,β 1 =µjax i1 =1,,,nMatriisiksiXtuleesiten X= 1 1 =1 n (n 1) 4 Esimerkiksi selitettävän muuttujan saadessa diskreettejä arvoja, tarjoavat ns yleistetyt lineaariset mallit usein parempia vaihtoehtoja 4

7 Tätä mallia ja sen parametrien estimointia ja testausta on tarkasteltu tilastollisen päättelyn kurssilla Myöhemmin nähdään, miten nämä estimointi- ja testausongelmat voidaan ratkaista lineaarisen mallin avulla Edellisen esimerkin yleistys on kahden odotusarvoltaan(mahdollisesti) poikkeavan riippumattoman normaalisen otoksen malli eli { ( N µ1,σ Y 1,,Y n, Y i 2), kun,,n 1 N ( µ 2,σ 2), kuni=n 1 +1,,n 1 +n 2 =n Tämämallisaadaanyleisestämallistavalitsemallap=2,β i =µ i (,2)ja 1 0 [ ] X = 1 0 1n = 0 1 n2 0 1 Mielenkiinnonkohteenaonuseinhypoteesiµ 1 =µ 2 jaluottamusvälinmuodostaminenerotukselleµ 1 µ 2 KonkreettisenaesimerkkitilanteenavoisiollakahdenvehnälajikkeenA 1 jaa 2 satoisuudentutkiminen,kunniitäviljelläänsamoissaolosuhteissa Huomaa, että tässä selittävät muuttujat ovat ryhmää osoittavia indikaattoreita Sama pätee niiden seuraavassa tarkasteltaviin yleistyksiin Edellinen esimerkki voidaan yleistää koskemaan kahta useampaa otosta, jolloin tarkasteltavia vehnälajikkeita voi olla useita Tällöin kysymyksessä on ns yksisuuntainen varianssianalyysimalli, jossa havaintoina on p riippumatonta otosta jakaumista N ( µ j,σ 2) (j=1,,p) ja kiinnostuksen kohteena on odotusarvoissa µ 1,,µ p mahdollisesti ilmenevät erot Toinen edellisen esimerkin yleistys on ns kaksisuuntainen varianssianalyysimalli, jota voidaankäyttää tilanteessa, jossavehnälajikkeita A 1 ja A 2 lannoitetaan kahta eri lannoitetta B 1 ja B 2 käyttäen Tällöin havainnot ovat peräisin neljästä ryhmästä ja mallin avulla voidaan tutkia onko satomäärissä eroja eri ryhmien välillä ja johtuvatko mahdolliset erot vehnälajikkeesta, lannoitteesta vai niiden yhteisvaikutuksesta Edellisessä jaksossa tarkastellun yhden selittäjän lineaarisen regressiomallin ilmeinen yleistys on usean selittäjän lineaarinen regressiomalli Y i =β 1 +β 2 x i2 + +β p x ip +ε i,,,n, johonliitetäänoletukset(13)jaβ R p,σ 2 >0TässämallissamatriisiXonkuten yleisen mallin tapauksessa lukuun ottamatta sitä, että x i1 = 1 kaikilla i = 1,,n Parametria β 1 kutsutaan (regressio)vakioksi ja parametreja β j (j=2,,p) regressiokertoimiksi Yksittäinen regressiokerroin kuvaa paljonko selitettävä muuttuja tai täsmällisemmin sen odotusarvo muuttuu, kun j:nnen selittäjän arvo muuttuu yhden yksikön muiden selittäjien arvojen pysyessä muuttumattomina Tämä kuvastaa yhtä mallin käyttötarkoitusta, joka on selitettävän muuttujan ja selittävien muuttujien 5

8 välisen riippuvuuden tiivistetty kuvaaminen eli selittäminen Mallia voidaan käyttää myös selitettävän muuttujan arvojen ennustamiseen ja kontrolloimiseen (olettaen, että selittävien muuttujien arvoihin voidaan vaikuttaa) Samassa mallissa voi olla sekä kvantitatiivisia selittäjiä että kvalitatiivisia ryhmääosoittaviaindikaattoreita JosesimerkiksitutkitaanvehnälajikkeidenA 1 jaa 2 satoisuutta ja molempia lannoitetaan samaa lannoitetta käyttäen, päädytään malliin, jossa on kahden ryhmää osoittavan indikaattorin lisäksi yksi kvantitatiivinen selittäjä Oletetaan,ettän 1 ensimmäistäsatomäärääliittyylajikkeeseena 1 jaloputn 2 =n n 1 lajikkeeseena 2 jaolkoonx i jälleenlannoitemäärähavaintoyksikössäi Tällöinmalli on { ( N β1 +β Y 1,,Y n, Y i 3 x i,σ 2), kun,,n 1 N ( β 2 +β 3 x i,σ 2), kuni=n 1 +1,,n 1 +n 2 =n Matriisiksi X tulee X = 1 0 x x n1 0 1 x n x n Huomaa, että tässä mallissa lannoitteen vaikutus molempiin vehnälajikkeisiin oletetaan samaksi Todetaan vielä, että joissakin tapauksissa lineaarista mallia voidaan käyttää, vaikka alkuperäinen malli olisikin epälineaarinen Tyypillisin esimerkki on Y i =e β 1x β 2 i2 xβ p ip eε i,,,n, jossa muuttujat oletetaan positiivisiksi Ottamalla(luonnollinen) logaritmi puolittain päädytään yhtälöön logy i =β 1 +β 2 logx i2 + +β p logx ip +ε i,,,n, josta oletuksilla (13) ja β R p, σ 2 > 0 saadaan (merkintöjä vaille) usean selittäjän lineaarinen regressiomalli Tällaiset ns multiplikatiiviset mallit ovat tavallisia taloudellisissa sovelluksissa mallinnettaessa esimerkiksi jonkin tuotteen kysyntää 6

9 2 Lineaarisen mallin parametrien estimointi 21 Suurimman uskottavuuden(su) estimointi Mallioletuksen(17)mukaanY N ( Xβ,σ 2 ) I n,jotenkäyttäenmultinormaalijakauman tiheysfunktion kaavaa nähdään suoraan, että havaintojen yhteistiheysfunktio on 5 ( f Y y;β,σ 2 ) = ( 2πσ 2) { n/2 exp 1 } 2σ 2(y Xβ) (y Xβ) Parametrienβjaσ 2 log-uskottavuusfunktioksisaadaansiten jossa l ( β,σ 2 ;y ) = n 2 logσ2 1 2σ 2S(β), S(β)=(y Xβ) (y Xβ)= n ( yi x iβ ) 2 on ns jäännösneliösummafunktio Parametrin β SU-estimaatti ˆβ = ˆβ(y) löydetään minimoimalla jäännösneliösummafunktio S(β), minkä jälkeen parametrin σ 2 SU-estimaattiˆσ 2 =ˆσ 2 (y)saadaankaavalla ˆσ 2 = 1 n S(ˆβ)= 1 n (y Xˆβ) (y Xˆβ) tai,käyttäenresiduaalejaˆε i =y i x iˆβ, ˆσ 2 = 1 n (y i x n iˆβ) 2 = 1 n Edellä sanottu voidaan perustella epäyhtälöillä n ˆε 2 i l ( β,σ 2 ;y ) n 2 logσ2 1 2σ 2S(ˆβ) n 2 logˆσ2 1 2ˆσ 2S(ˆβ) = l(ˆβ,ˆσ 2 ;y), jotkapätevätkaikillaβ R p jaσ 2 >0Näistäensimmäinenperustuuestimaatin ˆβ määritelmäänjatoinennähdäänmaksimoimallaedeltävälausekeσ 2 :nsuhteen(yksityiskohdat jätetään tehtäväksi) Estimaatin ˆβ lauseke voidaan johtaa joko geometrisesti tai derivoimalla jäännösneliösummafunktiota Palataan edelliseen hieman myöhemmin ja käytetään tässä jälkimmäistä tapaa, jossa suoritettavia laskelmia voidaan käyttää parametrin β havaitun informaatiomatriisin johtamisessa Suoraviivaisella derivoinnilla nähdään, että S(β)/ β= S(β)/ β 1 S(β)/ β p = 2 n ( x i yi x iβ ) = 2X y+2x Xβ 5 Sama tulos voidaan johtaa helposti myös kirjoittaen oletuksen (15) nojalla f Y ( y;β,σ 2 ) = f y1 ( y1 ;β,σ 2) f yn ( yn ;β,σ 2),jossaf yi ( yi ;β,σ 2) onhavainnony i tiheysfunktio 7

10 y x Kuva 21 PNS-menetelmän havainnollistus yhden selittäjän regressiomallin (11) tapauksessa Välttämätön ehto minimille on S(β)/ β = 0, mikä johtaa ns normaaliyhtälöihin X Xβ=X y (21) Oletuksesta r(x) = p (ks (18), s 3) seuraa tunnetusti r(x X) = p, joten normaaliyhtälöillä on yksikäsitteinen ratkaisu ˆβ=(X X) 1 X y Se, että kysymyksessä todella on minimipiste, voidaan todeta eri tavoin Differentiaalija integraalilaskentaan perustuvassa tavassa todetaan, että toisten derivaattojen matriisi 2 S(β)/ β β = [ 2 S(β)/ β i β j ] = 2X X on positiivisesti definiitti, mistä haluttutulosseuraa 6 Seuraavassajaksossaesitetäängeometrinenperustelu Ilmeisistä syistä johtuen sanotaan parametrin β SU-estimaattia ˆβ pienimmän neliösumman(pns) estimaatiksi Yhden selittäjän regressiomallin(11) tapauksessa PNS-estimaatti minimoi oheisen kuvan pystysuorien janojen pituuksien neliösumman 211 PNS-estimointi geometrisesti Eräs tapa havainnollistaa PNS-estimaattia on johtaa se geometrisesti Olkoon a = (a a) 1/2 = ( a a2 n) 1/2 vektorina=[a1 a n ] (Euklidinen)normijaR(X) matriisinx(n p)sarakeavaruus 7 KoskaS(β)= y Xβ 2,onPNS-estimoinnissa 6 MääritelmänmukaansymmetrinenmatriisiAonpositiivisestidefiniitti(merkintäänA>0),jos x Ax>0kaikilla(yhteensopivilla)vektoreillax 0 7 R(X)onR n :np-ulotteinenaliavaruusjasisältäävektorit,jotkavoidaanlausuax:nsarakkeiden lineaarikombinaationaelir(x)={z R n :z=xbjollainb R p } 8

11 kysymys normin y µ minimoinnista ehdolla µ R(X) Lineaarialgebrasta tiedetään,ettäminimisaavutetaanvalitsemallaµ=ˆµsiten,ettäerotusy ˆµtuleeortogonaaliseksi avaruutta R(X) tai yhtäpitävästi matriisin X sarakkeita vastaan Toisin sanoen, X (y ˆµ)=0 X ˆµ=X y Vektorin ˆµ tiedetään olevan y:n yksikäsitteinen ortogonaalinen projektio avaruudelle R(X) Koska matriisin X sarakkeet ovat oletuksen mukaan lineaarisesti riippumattomia(eli vapaita), on olemassa yksikäsitteinen vektori ˆβ siten, että ˆµ = Xˆβ Sijoittamalla tämä edellä johdettuun yhtälöön, saadaan X Xˆβ = X y, joten ˆβ on sama normaaliyhtälöiden yksikäsitteinen ratkaisu kuin aikaisemminkin ja se minimoi jäännösneliösummafunktion S(β) PNS-estimoinnissa selitettävän muuttujan vektori y hajotetaan kahteen osaan: y=ŷ+ˆε, (22) jossa ŷ=xˆβ (=ˆµ) on sovite eli estimoitu systemaattinen osa ja ˆε=y Xˆβ on residuaalieliestimoitusatunnainenosa Sijoittamallanormaaliyhtälöihin(21)β=ˆβ nähdään, että X ˆε=0, (23) mistä seuraa ŷ ˆε = 0 eli sovitteen ja residuaalin ortogonaalisuus Lisäksi, jos P= X(X X) 1 X,niin ŷ=py ja ˆε=(I n P)y (24) Matriisi P on (ortogonaalinen) projektio, joka projisoi R n :n vektorit matriisin X p-ulotteisellesarakeavaruudeller(x) 8 MatriisiI n Ponmyösprojektio SeprojisoiR n :nvektoritavaruudenr(x)ortogonaalisellekomplementiller(x),jokaon R n :n(n p)-ulotteinenaliavaruusjasisältäävektorit,jotkaovatortogonaalisiax:n sarakkeita vastaan PNS-estimoinnin tuloksena saatavassa hajotelmassa y = ŷ + ˆε selitettävän muuttujan vektori y tulee siis esitetyksi yksikäsitteisesti kahden ortogonaalisenvektorinŷ R(X)jaˆε R(X) summana(vrt vastaavalineaarialgebran kohtisuoria projektioita koskeva tulos) 212 PNS-estimointi ja selitysaste Hieman toisenlainen näkökulma PNS-estimointiin saadaan hajottamalla selitettävän muuttujan vaihtelu kahteen osaan Kun vaihtelua mitataan neliösummalla, saadaan vektorien ŷ ja ˆε ortogonaalisuutta käyttäen n yi 2 =y y=(ŷ+ˆε) (ŷ+ˆε)=ŷ ŷ+ˆε ˆε eli y 2 = ŷ 2 + ˆε 2 (25) 8 Projektiomatriisionmääritelmänmukaanneliömatriisi,jokaonsymmetrinenjaidempotenttieli PtoteuttaaehdotP =P=P 2 (=PP) 9

12 On intuitiivisesti selvää, että mallin antama selitys selitettävälle muuttujalle on sitä parempi mitä suurempi oikean puolen ensimmäinen termi on suhteessa vasemman puolen termiin 9 Seuraavassa tätä ideaa tarkastellaan lähemmin mallissa, jossa on vakio Tarkastellaan siis malliyhtälöä Y i =β 1 +β 2 x i2 + +β p x ip +ε i,,,n Koska vakiota on vaikea ajatella varsinaisena selittäjänä, mitataan vaihtelua tässä tapauksessa yleensä keskistettyjä havaintoja käyttäen(eli havainnot mitataan poikkeamina keskiarvostaan) Koska matriisin X ensimmäinen sarake on nyt ykkösvektori 1 n,onedelläjohdetunyhtälönx ˆε=0perusteella1 nˆε=ˆε 1 + +ˆε n =0Tästäja yhtälöstä(22) seuraa ȳ= 1 n y i = 1 n ŷ i n n Määritellään seuraavat käsitteet: Kokonaisneliösumma SST= n (y i ȳ) 2 Regressioneliösumma SSR= n (ŷ i ȳ) 2 Residuaalineliösumma SSE= n ˆε2 i Kun mallissa on vakio, näiden välillä on yhteys SST=SSR+SSE Tämän perustelemiseksi todetaan ensin, että SST = n y2 i nȳ2 (suora lasku) ja y y = ŷ ŷ+ SSE (ks (25)) Näin ollen, SST = ŷ ŷ nȳ 2 + SSE, joten riittää todeta,ettässr= n ŷ2 i nȳ2 Tämäseuraakuitenkinedellätodetustaseikasta 1 n n ŷi=ȳ Määritellään nyt mallin selitysaste R 2 =1 SSE SST =SSR SST, jossa jälkimmäinen yhtälö perustuu edellä todettuun identiteettiin Koska SST, SSR ja SSE ovat ei-negatiivisia on selitysasteella ominaisuus 0 R 2 1 Selitysaste ilmaistaan yleensä prosentteina eli sanotaan mallin selittävän 100R 2 % selitettävänmuuttujanhavaintojenvaihtelusta JosSSE=0,niinˆε i =0jay i =ŷ i kaikilla i = 1,,n Tällöin SST = SSR ja R 2 = 1 eli selitys on 100-prosenttinen Kuny i =ˆβ 1 +ˆβ 2 x i +ˆε i,tämämerkitsee,ettähavainnotsijaitsevattasossasuoralla y = ˆβ 1 +ˆβ 2 x Jos taas SSE=SST, niin R 2 =0ja mallin varsinaisilla selittäjillä 9 Tähän paremmuuteen on syytä suhtautua varauksin, sillä mallin hyvyyttä voidaan (ja on syytäkin) mitata usein eri tavoin 10

13 x 2,,x p eiolemitäänmerkitystäy:täselitettäessä Käytännössäontietenkinaina 0<R 2 <1 Todetaan vielä, että selitysasteelle pätee R 2 =r 2 yŷ, jossar yŷ onselitettävänmuuttujanhavaintojeny i jasovitteidenŷ i (1,,n)välinen otoskorrelaatiokerroin 10 Tämänähdäänhuomaamalla,ettär yŷ voidaankirjoittaa r yŷ = (y ȳ1 n) (ŷ ȳ1 n ) y ȳ1 n ŷ ȳ1 n Sijoittamalla osoittajassa y=ŷ+ˆε ja käyttämällä vektorien ŷ ja ˆε sekä 1 n ja ˆε ortogonaalisuutta nähdään, että osoittaja on yhtä kuin ŷ ȳ1 n 2 = SSR Koska nimittäjä on määritelmien mukaan SST SSR, saadaan r yŷ = SSR/SST eli haluttu tulos KoskaR= 1 SSE/SSTjaSSE=min β (y Xβ) (y Xβ),voidaanPNSestimointi tulkita edellä todetun mukaan siten, että sovitteeksi valitaan se selittäjien lineaarikombinaatio, jonka otoskorrelaatio selitettävän muuttujan kanssa maksimoituu Huomaa kuitenkin tulkinnan laskennallinen luonne Koska havainnot eivät yleensä ole otos mistään kiinteästä populaatiosta, ei otoskorrelaatiokertoimella r yŷ ole yleensä teoreettista vastinetta Korostettakoon myös, että tämä kuten muutkin selitysasteeseen liittyvät tarkastelut olettavat mallin, jossa on vakio 22 SU-estimointi satunnaisten selittäjien tapauksessa Joissakin tapauksissa selittävien muuttujien olettaminen ei-satunnaisiksi kiinteiksi luvuiksi saattaa tuntua rajoittavalta Jos esimerkiksi halutaan selittää kotitalouksien sähkön kulutusta sähkön hinnalla ja kotitalouksien reaalituloilla ja käytettävissä on aikasarja-aineisto, on selittäviä muuttujia vaikea ajatella ei-satunnaisiksi Edellä esitetty kiinteiden selittäjien malli ja siihen perustuva SU-estimointi voidaan kuitenkin perustella myös satunnaisten selittäjien tapauksessa seuraavasti Otetaan lähtökohdaksi malliyhtälö (ks yhtälö(16) ja sitä seuraava keskustelu, s 3) Y=Xβ+ε, ε N ( 0,σ 2 I n ), ja oletetaan, että satunnainen matriisi X toteuttaa ehdot (a) X ε (b) X:ntodennäköisyysjakaumaeiriipuparametreistaβjaσ 2 10 Havainnoistau 1,,u n jav 1,,v n laskettuotoskorrelaatiokerroinon n r uv = (ui ū)(vi v) n n, (ui ū)2 (vi v)2 jossaū=(u 1+ +u n)/nja vmääritelläänvastaavasti 11

14 Tässä satunnaismatriisin X todennäköisyysjakaumalla tarkoitetaan sen kaikkien alkioiden yhteistodennäköisyysjakaumaa, joka voidaan samaistaa niistä muodostetun np 1 ulotteisen satunnaisvektorin todennäköisyysjakauman kanssa Uskottavuusfunktio on nyt johdettava muuttujien Y ja X yhteistodennäköisyysjakaumasta, jolla yksinkertaisuuden vuoksi oletetaan seuraavassa olevan tiheysfunktio f Y,X (y,x)ehdollisentiheysfunktionmääritelmännojallapätee f Y,X (y,x)=f X (X)f Y X (y X) Tarkasteltavastamalliyhtälöstäjaehdosta(a)seuraa,ettäf Y X (y X)onN ( Xβ,σ 2 I n ) - jakauman tiheysfunktio Formaali perustelu sivuutetaan, mutta intuitiivisesti tämä on varsin ilmeistä, sillä ehdollistaminen kiinnittää X:n sen havaituksi arvoksi ja ehdon (a) riippumattomuus takaa sen, ettei X:n kiinnittäminen vaikuta virhetermin ε satunnaisvaihteluun Näin ollen Y ehdolla X:n havaittu arvo jakautuu kuten kiinteiden selittäjien tapauksessa Koska ehdon(b) nojalla X:n tiheysfunktio ei riipu parametreistaβjaσ 2,sevoidaansisällyttääuskottavuusfunktionvakioon,jolloinpäädytään samaan uskottavuusfunktioon kuin aikaisemmassa kiinteiden selittäjien mallissa Ehtojen (a) ja (b) voimassa ollessa voidaan siis ehdollistaa satunnaisten selittäjien saamien havaintoarvojen suhteen ja tulkita ne kiinteiksi luvuiksi Erityisesti silloin, kun mallia käytetään selitettävien muuttujien välisen riippuvuuden kuvaamiseen (eli selittämiseen ) tai selitettävän muuttujan arvojen ennustamiseen tai kontrolloimiseen, ei selitettävien muuttujien todennäköisyysjakaumasta olla välttämättä kiinnostuneitajaehdollisenjakaumanf Y X (y X)käyttäminenonriittävää Pohdittaessa ehtojen(a) ja(b) paikkansapitävyyttä kannattaa kiinnittää huomiota ehtoon(a), joka on looginen silloin, kun kausaalisuuden suunta on selittävistä muuttujista selitettävään muuttujaan, mutta ei päinvastoin Jos kausaalisuus pätisi molempiin suuntiin, voitaisiin esimerkiksi tarkastella samanaikaisesti malliyhtälöitä Y i = β 1 +β 2 X i +ε i jax i =α 1 +α 2 Y i +η i,jossaβ 2 0 α 2 TällöinehtoX i ε i ei olisiselvästikäänlooginen(eikämyöskääny i η i ) Ehto (a) rikkoontuu myös silloin, kun oikeiden selittäjien asemesta joudutaan käyttämään (satunnaisia) mittausvirheitä sisältäviä korvikkeita Tarkastellaan esimerkiksi malliyhtälöä Y i =β 1 +β 2 x i +ε i, jossaβ 2 0jaoikeanselittävänmuuttujanx i asemestahavaitaanvirheellisesti X i =x i +η i, jossasatunnaisellamittausvirheelläη i onominaisuudete(η i )=0,Var(η i )=σ 2 η>0 jaη i ε i Malli,jossaselittävänämuuttujanaonX i,perustetaanyhtälöön Y i =β 1 +β 2 X i +ε i, jossa ε i = ε i β 2 η i Tällöin oletus X i ε i ei ole voimassa, sillä Cov(X i,ε i ) = E(X i ε i )=E(η iε i )= β 2E(η 2 i )= β 2σ 2 η 0 12

15 23 SU-estimaattorien ominaisuudet TässäjaksossatutkitaanSU-estimointiateoreettisesti,jotenˆβ=ˆβ(Y)jaˆσ 2 =ˆσ 2 (Y) tulkitaan satunnaisiksi suureiksi eli ne ovat estimaattoreita Seuraava lause, jonka todistus esitetään jakson lopussa, selvittää näiden estimaattorien todennäköisyysjakaumat Lause 21 Tarkastellaan lineaarista mallia Y N ( Xβ,σ 2 I n ), β R p, σ 2 > 0, jossa r(x)=ptällöinparametrien βja σ 2 SU-estimaattoreille ˆβ=(X X) 1 X Y ja ˆσ 2 = 1 n (Y Xˆβ) (Y Xˆβ)pätee (i) ˆβ N(β,σ 2 (X X) 1 ) (ii) nˆσ 2 /σ 2 =(Y Xˆβ) (Y Xˆβ)/σ 2 χ 2 n p (iii) ˆβ ˆσ 2 Lausetta21voidaankäyttääSU-estimaattorienˆβjaˆσ 2 ominaisuuksientutkimiseen Kohdasta(i)nähdäänheti,ettäPNS-estimaattoriˆβonharhaton Estimaattoriˆσ 2 ei sensijaanoleharhaton,sillälauseentoisestakohdastaseuraae (ˆσ 2) =E ( σ 2 χ 2 n p /n) = (n p)σ 2 /n Parametrinσ 2 harhatonestimaattorion S 2 = 1 n p n ˆε 2 i = n n pˆσ2, jotakäytetäänkäytännössäsu-estimaattorin ˆσ 2 asemesta Suoraviivaisella laskulla nähdään, että parametrien β ja σ 2 Fisherin informaatiomatriisi on i ( β,σ 2) = [ σ 2 X X 0 0 n/2σ 4 Laskelmien yksityiskohtaiset perustelut jätetään harjoitustehtäväksi(vasemman yläkulmanlohkojohdettiinolennaisiltaosinpns-estimaattia ˆβjohdettaessa) Tilastollisen päättelyn kurssilla todetusta informaatioepäyhtälön moniulotteisesta versiosta voidaan nyt päätellä, että parametrin β mille tahansa harhattomalle estimaattorille β päteecov( β) σ 2 (X X) 1 0TästäjaLauseesta21(i)seuraa,ettäPNSestimaattori ˆβ on täystehokas Estimaattori S 2 ei sen sijaan ole täystehokas, sillä Var(S 2 )=Var(σ 2 χ 2 n p/n p)=2σ 4 /(n p)(samapäteemyössu-estimaattorille ˆσ 2 ) Todetaanseuraavaksi,ettäestimaattoritˆβjaS 2 ovattyhjentäviä Kirjoittamalla y Xβ=X(ˆβ β)+ˆεjakäyttämällämatriisinxsarakkeidenjaresiduaalivektorin ˆε ortogonaalisuutta(ks (23), s 9) nähdään, että jäännösneliösummafunktio ] S(β) = ((ˆβ β) X +ˆε )(X(ˆβ β)+ˆε) = (ˆβ β) X X(ˆβ β)+ˆε ˆε (26) = (ˆβ β) X X(ˆβ β)+(n p)s 2 13

16 Havaintojen yhteistiheysfunktiolle saadaan siten esitys ( f Y y;β,σ 2 ) = ( 2πσ 2) { n/2 exp 1 2σ 2(ˆβ β) X X(ˆβ β) 1 } 2σ 2(n p)s2, mistäseuraafaktorointikriteerinperusteellaestimaattorien ˆβjaS 2 tyhjentävyys 11 Edellä esitettyjä tuloksia voidaan soveltaa riippumattoman normaalisen otoksen malliiny 1,,Y n, Y i N ( µ,σ 2),(µ R, σ 2 >0) Tätä malliaontarkasteltu tilastollisenpäättelynkurssillajaosoitettu, ettäparametrienµjaσ 2 SU-estimaatit ovat ȳ= 1 n y i ja ˆσ 2 = 1 n (y i ȳ) 2, n n jotka saadaan myös helposti jaksossa 21 johdetuista yleisistä kaavoista Tilastollisen päättelyn kurssilla todetun lisäksi voidaan Lauseen 21 ja edellä sanotun avulla perustella myös estimaattorin ˆσ 2 harhaisuus sekä otosvarianssin S 2 = nˆσ 2 /(n 1) harhattomuus Lisäksi voidaan perustella otoskeskiarvon ja otosvarianssin riippumattomuus sekä tulos (n 1)S 2 /σ 2 χ 2 n 1, joilla on keskeinen merkitys testattaessa odotusarvoa µ koskevia hypoteeseja(tähän palataan) Kaikenkaikkiaanvoidaantodeta,ettäestimaattorienˆβjaS 2 tilastollisetominaisuudet ovat erinomaiset Mainittakoon, että perinteisesti lineaarisen mallin teoriassa näiden estimaattorien ominaisuuksia on tutkittu olettamatta havaintojen normaalisuutta Lauseen 21 todistuksesta nähdään, että olettamalla pelkästään E(Y) = Xβ ja Cov(Y) = σ 2 I n saadaan tulokset E(ˆβ) = β ja Cov(ˆβ) = σ 2 (X X) 1 Lisäksi voidaan osoittaa, että jos β on mikä tahansa parametrin β harhaton ja lineaarinen (eli tyyppiä AY oleva) estimaattori, niin Cov( β) σ 2 (X X) 1 0 Tämä ns Gaussin ja Markovin lause sanoo siis, että PNS-estimaattori on aina (varianssikriteerin mielessä) paras lineaarinen harhaton estimaattori Normaalisessa tapauksessa PNS-estimaattori on SU-estimaattori ja paras kaikkien estimaattorien joukossa Lauseen 21 todistus: (i) Lineaarisen mallin oletuksesta seuraa, että E(Y) = Xβ jacov(y)=σ 2 I n,jotentunnettujatuloksiakäyttäensaadaan(ks LiiteA1) ja E(ˆβ) = E((X X) 1 X Y) = (X X) 1 X E(Y) = β Cov(ˆβ) = Cov((X X) 1 X Y) = (X X) 1 X Cov(Y)X(X X) 1 = σ 2 (X X) 1 11 Koska matriisi X X on positiivisesti definiitti, seuraa hajotelmasta (26), että S(β) ˆε ˆε ja että S(β) saavuttaa minimiarvonsa ˆε ˆε jos ja vain jos β = ˆβ Tämä on kolmas tapa nähdä, että PNS-estimaatti ˆβ todellaminimoijäännösneliösummafunktions(β) 14

17 Koska (p n matriisin (X X) 1 X aste on p ja) Y N ( Xβ,σ 2 I n ), on ˆβ multinormaalisen satunnaisvektorin Y (täyttä riviastetta olevana) lineaarimuunnoksena multinormaalinen(ks Liite A24) (ii)jaksossa211(ks (24))todetunmukaanˆε=(I n P)Y,jossaI n P=I n X(X X) 1 X on projektiomatriisi, jolla on ominaisuus (I n P)X = 0 Käyttäen yhtälöä (16) (s 3) voidaan näin ollen kirjoittaa (I n P)Y = (I n P)ε, joten estimaattorinˆσ 2 määritelmääjaprojektiomatriisienominaisuuksiakäyttäensaadaan n σ 2ˆσ2 = 1 σ 2ˆε ˆε= 1 σ 2ε (I n P)ε χ 2 n p TässäviimeinenrelaatioseuraaLiitteenALauseestaA2jasiitä,ettäε N ( 0,σ 2 I n ) jar(i n P)=n pviimeksimainittuseikkanähdäänseuraavastalaskelmasta,jossa tr( )onasianomaisenneliömatriisinjälki: 12 r(i n P) = tr(i n P) = tr(i n ) tr (X(X X) 1 X ) ( ) = n tr (X X) 1 X X = n tr(i p ) = n p (iii) Koska projektiomatriisin ominaisarvot ovat nollia ja ykkösiä, on projektion I n P pääakseliesitys muotoa I n P=RR, jossa n (n p) matriisilla R on ominaisuudet r(r) = n p ja R R = I n p (vrt Lauseen A2 todistus Liiteessä A) Näin ollen ˆσ 2 = n 1 Y (I n P)Y = n 1 Y RR Y, joten riittää osoittaa, että satunnaisvektoritr Yja ˆβovatriippumattomia Koska RR X = (I n P)X = 0 ja R R = I n p, on R X = 0 Näin ollen (ks LiiteA1), Cov(R Y,ˆβ) = Cov(R Y,(X X) 1 X Y) = R Cov(Y)X(X X) 1 = σ 2 R X(X X) 1 = 0, jonkakolmannessayhtälössäonjälleenkäytettyoletustacov(y)=σ 2 I n Väiteseuraatästä, koska satunnaisvektoreilla R Y ja ˆβ on multinormaalinen yhteisjakauma ja multinormaalijakaumassa komponenttien korreloimattomuus on yhtäpitävää niiden riippumattomuuden kanssa(ks Liite A23) Edellinen seikka nähdään kirjoittamalla [ R Y ˆβ ] [ = R (X X) 1 X ] Y, Y N ( Xβ,σ 2 I n ) (ks Liite A24 ja huomaa, että yhtälön oikealla puolella olevan matriisin rivit ovat lineaarisesti riippumattomia) 12 Jäljelläelidiagonaalialkioidensummallaonominaisuudettr(A+B)=tr(A)+tr(B),tr(AB)= tr(ba)jatr(p)=r(p),kunponprojektio 15

18 24 SU-estimointi lineaarisin rajoittein TarkastellaanlineaaristamalliaY N ( Xβ,σ 2 I n ),jossatavanomaiseentapaanr(x)= p, mutta parametriavaruus ei ole kuten aikaisemmin, vaan parametrivektorin β komponenttien oletetaan toteuttavan lineaariset rajoitteet Aβ=c, (27) jossa A (q p) ja c (q 1) ovat tunnettuja ja r(a) = q Tehtävänä on estimoida parametrit β ja σ 2 ottaen nämä rajoitteet huomioon Parametriavaruus on näin ollen{β R p :Aβ=c},σ 2 >0 Tämän estimointiongelman ratkaisua tarvitaan myöhemmin, kun tarkastellaan yhtälön (27) määrittämän hypoteesin testaamista Tyypillinen esimerkki saadaan valitsemalla A = [0 I q ] ja c = 0, jolloin testattava hypoteesi on β p q+1 = = β p = 0 eli viimeiset q selittäjää ovat mallissa tarpeettomia Toisena esimerkkinä mainittakoonβ p 1 =β p,jokasaadaanvalitsemallaa=[ ]jac=0 Tällainen hypoteesi voi seurata tutkittavan ilmiön taustateoriasta Palautetaan mieleen jäännösneliösummafunktio S(β) = (y Xβ) (y Xβ) ja tarkastellaan log-uskottavuusfunktion l ( β,σ 2 ;y ) = n 2 logσ2 1 2σ 2S(β) maksimointia edellä kuvatussa tilanteessa Tämä johtaa parametrivektorin β osalta jäännösneliösummafunktion S(β) minimointiin ehdolla Aβ=c Jos ˆβ H on saatu estimaatti(eli β:n SU-estimaatti), nähdään kuten jaksossa 21(ks s 7), että parametrinσ 2 SU-estimaattionˆσ 2 H = 1 n S(ˆβ H )Jaksonlopussaosoitetaan,että 13 ˆβ H =ˆβ (X X) 1 A (A(X X) 1 A ) 1 (Aˆβ c), (28) jossamatriisina(x X) 1 A epäsingulaarisuusseuraaoletuksistar(a)=qjar(x)= p Laskemallanähdään,ettävaaditturajoiteAˆβ H =ctoteutuu Usein estimaatti ˆβ H voidaan muodostaa yhtälön (28) yleistä kaavaa helpommin kirjoittamalla malli muotoon, jossa rajoitteet (27) otetaan suoraan huomioon Tarkastellaan esimerkiksi malliyhtälöä Y i =β 1 x i1 + +β p x ip +ε i,,,n Josnytasetetaanrajoiteβ p =0,onˆβ H =[ˆβ H,1 ˆβ H,p 1 0],jossaˆβ H,1,,ˆβ H,p 1 saadaan PNS:llä malliyhtälöstä Y i =β 1 x i1 + +β p 1 x i,p 1 +ε i,,,n 13 Estimaatinˆβ H lausekkeeseenvoidaanpäätyäminimoimallajäännösneliösummafunktios(β)lagrangen kerroinmenettelyä käyttäen Tällöin tehtävänä on minimoida funktio Q(β, λ) = S(β) + λ (Aβ c), jossa vektori λ = [λ 1 λ q ] sisältää Lagrangen kertoimet Laskemalla derivaatat Q(β,λ)/ β ja Q(β,λ)/ λ ja ratkaisemalla yhtälöt Q(β,λ)/ β = 0 ja Q(β,λ)/ λ = 0 saadaanesitetty ˆβ H :nlauseke 16

19 Tämä idea yleistyy seuraavasti Tarkastellaan vaihtoehtoisia lineaarisia rajoitteita β=cφ+d, (29) jossa C on tunnettu astetta r oleva p r matriisi, d on tunnettu p 1 vektori ja φ R r ontuntematonparametrivektori Sijoittamallaoikeapuolimalliyhtälöön(16) saadaan Y Xd=(XC)φ+ε, josta PNS:ää soveltaen saadaan φ:n SU-estimaatiksi ˆφ= ( C X XC ) 1 C X (y Xd) SU-estimaatininvarianssiominaisuudennojallasaadaansiten ˆβ H =Cˆφ+d Rajoitteiden(29) tapauksessa voidaan PNS-estimointi suorittaa havainnollisemmin kuin rajoitteiden (27) tapauksessa Jälkimmäiset ovat kuitenkin käteviä seuraavassa jaksossa tarkasteltavan testiteorian kannalta Huomaa, että tyyppiä (29) olevat rajoitteet voidaan aina muuntaa tyyppiä(27) oleviksi rajoitteiksi, sillä lineaarialgebrasta tiedetään, että matriisin C ollessa annettu, voidaan aina löytää(p r) p matriisi A, jolle pätee AC = 0 ja r(a) = p r Tällöin rajoitteet (27) pätevät valinnoillaq=p rjac=ad 14 Tuloksen(28) perustelu Kuten jaksossa 23 todettiin(ks (26), s 13), pätee S(β)=S(ˆβ)+(ˆβ β) X X(ˆβ β) Hajotetaan oikean puolen jälkimmäinen termi osiin: (ˆβ β) X X(ˆβ β) = (ˆβ ˆβ H +ˆβ H β) X X(ˆβ ˆβ H +ˆβ H β) = (ˆβ ˆβ H ) X X(ˆβ ˆβ H )+(ˆβ H β) X X(ˆβ H β) +2(ˆβ H β) X X(ˆβ ˆβ H ) = (ˆβ ˆβ H ) X X(ˆβ ˆβ H )+(ˆβ H β) X X(ˆβ H β) Viimeksi esitetyn yhtälön perustelemiseksi otetaan käyttöön lyhennysmerkintä λ = (A(X X) 1 A ) 1 (Aˆβ c) Yhtälö(28)voidaansitenkirjoittaaˆβ ˆβ H =(X X) 1 A λ ja,koskaaˆβ H =c=aβ, Edellä sanotusta seuraa (ˆβ H β) X X(ˆβ ˆβ H )=(ˆβ H β) A λ=(c c) λ=0 S(β)=S(ˆβ)+(ˆβ ˆβ H ) X X(ˆβ ˆβ H )+(ˆβ H β) X X(ˆβ H β), josta nähdään, että S(β) minimoituu täsmälleen silloin, kun oikean puolen viimeinen termiminimoituu KoskamatriisiX Xonpositiivisestidefiniitti,tämätermionaina ei-negatiivinenjasaavuttaaminimiarvonsanollajosjavainjosβ=ˆβ H 14 Matriisin A riveiksi voidaan valita avaruuden R(C) ortogonaalisen komplementin R(C) (jotkin)kantavektorit Tällöin p=r(c)+r(a)=r+r(a), joten r(a)=p rilman perustelua mainitaan käänteinen tulos, jonka mukaan tyyppiä (27) olevat rajoitteet voidaan aina muuntaa tyyppiä(29) oleviksi rajoitteiksi 17

20 3 Hypoteesien testaaminen 31 F-testi yleiselle lineaariselle hypoteesille Oletetaan edellisen jakson tapaan Y N ( Xβ,σ 2 I n ) (r(x) = p), ja tarkastellaan nollahypoteesia H:Aβ=c, (31) jossa A (q p) ja c (q 1) ovat tunnettuja ja r(a) = q Testi tälle hypoteesille onluontevaaperustaaerotukseenaˆβ c,jossa ˆβ=(X X) 1 X Yonparametrinβ (vapaa)pns-estimaattoritaiyhtäpitävästi(vapaa)su-estimaattori Koskaˆβestimoi parametria β tehokkaasti riippumatta siitä onko nollahypoteesi tosi vai ei, pätee aina Aˆβ c Aβ c Erotus Aˆβ c saa siten tyypillisesti pieniä arvoja, kun nollahypoteesi on tosi ja suuria arvoja, kun nollahypoteesi ei ole tosi Lausetta 21 käyttäen voidaan johtaa testisuure, jonka avulla tämän erotuksen suuruutta voidaan arvioida Näin saatava testi perustuu tilastollisen päättelyn kurssilla esitetyn Waldin testin periaatteeseen Lauseen21(i)nojalla ˆβ N(β,σ 2 (X X) 1 ),jotennollahypoteesinvoimassaollessa(ks Liite A24) Aˆβ c N(0,σ 2 A ( X X ) 1 A ) Tästä ja Liitteen A Lauseesta A1 seuraa edelleen (Aˆβ c) (A ( X X ) 1 A ) 1 (Aˆβ c)/σ 2 χ 2 q Lauseesta 21 nähdään puolestaan, että (n p)s 2 /σ 2 χ 2 n p ja S 2 ˆβ, jossas 2 =(n p) 1 (Y Xˆβ) (Y Xˆβ)Edellämainitutχ 2 -muuttujatovatnäin ollenriippumattomia,jotenf-jakaumanmääritelmänmukaantestisuure 15 F =(Aˆβ c) (A ( X X ) 1 A ) 1 (Aˆβ c)/qs 2 H Fq,n p Tätä testisuuretta sanotaan F-testisuureeksi ja siihen perustuvaa testiä F-testiksi Suuret testisuureen arvot ovat kriittisiä nollahypoteesin kannalta Testin -arvot perustetaan tulokseen =P H (F(Y) F(y))=P(F q,n p F(y)), jossaf q,n p onf q,n p -jakaumaanoudattavasatunnaismuuttuja EdelläjohdetunF-testintulkintaWaldintestinäseuraasiitä,ettäs 2 X XestimoiparametrinβFisherininformaatiomatriisiajaettäparametrienβjaσ 2 Fisherin informaatiomatriisionlohkodiagonaalinen(eliβjaσ 2 ovatortogonaaliset) Testisuure F voidaan esittää myös käyttäen edellisessä jaksossa johdettua rajoitettuapns-estimaattoria ˆβ H Huomataanensin,että S(β)=S(ˆβ)+(ˆβ β) X X(ˆβ β) 15 F k,m -jakaumanmääritteleesatunnaismuuttujamχ 2 k /kχ2 m,jossaχ2 k χ2 m 18

21 kutenjaksossa23todettiin(ks (26), s 13) Sijoittamallatähän β:npaikalle ˆβ H saadaan S(ˆβ H ) S(ˆβ) = (ˆβ ˆβ H ) X X(ˆβ ˆβ H ) = (Aˆβ c) (A ( X X ) 1 A ) 1 (Aˆβ c), jossajälkimmäinenyhtälöseuraarajoitetunpns-estimaattorinˆβ H lausekkeesta(28) suorallalaskulla KoskaS 2 =(n p) 1 S(ˆβ),voidaannäinollenkirjoittaa F = (S(ˆβ H ) S(ˆβ))/q S(ˆβ)/(n p) H F q,n p Tämän perusteella testisuure F asettaa nollahypoteesin epäilyksen alaiseksi, jos rajoitettu residuaalineliösumma S(ˆβ H ) =(Y Xˆβ H ) (Y Xˆβ H ) on kohtuuttoman paljon suurempikuinvapaaresiduaalineliösummas(ˆβ)=(y Xˆβ) (Y Xˆβ)Tämä on residuaalien tulkinta huomioon ottaen luonnollista Tarkasteltavasta tapauksesta riippuu kumpi edellä esitetyistä kahdesta testisuureen lausekkeesta on kätevämpi (Sovelluksissa tietokoneohjelma tietysti laskee testisuureen arvon automaattisesti) Edellä johdetusta tuloksesta voidaan myös päätellä, että F-testi on identtinen uskottavuusosamäärän testin kanssa Koska ˆσ 2 =n 1 S(ˆβ) ja ˆσ 2 H =n 1 S(ˆβ H ), on uskottavuusosamäärän testisuure [ ] r(y) = 2 l(ˆβ,ˆσ 2 ;y) l(ˆβ H,ˆσ 2 H;y) [ n = 2 2 logˆσ2 H +n 2 n 2 logˆσ2 n ( ) 2] (S(ˆβ = nlog H ) S(ˆβ)) +1 S(ˆβ) ( ) q = nlog n p F+1 Testisuure r(y) on siis monotoninen funktio F-testisuureesta, joten molemmat testisuureet määrittelevät saman testin Ilman perustelua mainitaan, että myös Raon testisuure ja F-testisuure määrittelevät saman testin 32 F-testin erikoistapauksia Sovelletaan nyt edellä johdettua F-testiä kahteen erikoistapaukseen Ensimmäisessä malli perustuu yhtälöön Y i =β 1 +β 2 x i2 + +β p x ip +ε i,,,n, jossa ns yleistesti koskee nollahypoteesia H:β 2 = =β p =0 eli [0 I p 1 ]β=0 Tämän nollahypoteesin voimassa ollessa kaikki selittäjät vakiota lukuun ottamatta ovat turhia Tässä tapauksessa testi on kätevää esittää käyttäen F-testisuureen residuaalineliösummaesitystä KoskanollahypoteesinvoimassaollessaY N ( β 1 1 n,σ 2 I n ), 19

22 saadaan rajoitetuksi PNS-estimaattoriksi ˆβ H = [ Ȳ 0 0 ] (Ȳ =n 1 n Y i), joten S(ˆβ H )= ( Y Ȳ1 n ) ( Y Ȳ1n ) =Y Y nȳ 2 Vapaa residuaalineliösumma voidaan(halutessa) kirjoittaa(ks (23), s 9) Testisuureeksi saadaan siis S(ˆβ)=(Y Xˆβ) (Y Xˆβ)=Y Y ˆβ X Y F = (ˆβ X Y nȳ2 )/(p 1) (Y Y ˆβ X Y)/(n p) H F p 1,n p Yksittäistä selittäjää koskevassa testissä nollahypoteesina on H j :β j =0, 1 j p (Tässä ei välttämättä ole enää x i1 = 1, i = 1,,n) Tämä nollahypoteesi merkitsee, että muiden selittäjien ollessa mallissa tutkitaan onko selittäjän x j lisääminen tarpeen Testattaessa oletetaansiis, että muutkertoimetβ k,k j,saavatpoiketa nollasta Merkitään ˆβ=[ˆβ 1 ˆβ p ] ja [ (X X) 1 =M 1 = m ab], a,b=1,,p Valitsemalla A=[ ], jossa ykkönen on j komponentti, ja c=0 nähdään, että nollahypoteesi on vaadittua lineaarista muotoa ja että Aˆβ c= ˆβ j sekä (Aˆβ c) (A ( X X ) 1 A ) 1 (Aˆβ c)=ˆβ 2 j/m jj F-testisuureen ensimmäisestä lausekkeesta saadaan näin ollen F =ˆβ 2 j /S2 m jj H F1,n p, jossajälleens 2 =(n p) 1 (Y Xˆβ) (Y Xˆβ) Jos Z N(0,1) ja Z χ 2 k, niin tunnetusti T 1 k = Z/ k χ2 k t k (t-jakauma vapausasteink)jatk 2 F 1,kNollahypoteesiavoidaansiistestatamyöstestisuureella T =t(y)=ˆβ j /s m jj H t n p Tämäntestin -arvotperustetaantulokseen =P Hj ( t(y) t(y))=p( T n p t(y)), jossa satunnaismuuttuja T n p t n p Tässä vaihtoehdon ajatellaan olevan kaksisuuntaineneliβ j 0Yksisuuntaisenvaihtoehdonβ j >0 [ taiβ j <0 ] tapauksessa -arvotlasketaankaavallap(t n p t(y))[taip(t n p t(y))] Käytännössä käytetään yleensä t-testisuuretta ja laaditaan esimerkiksi seuraavanlainen taulukko, jollaisen tietokoneohjelmat tulostavat automaattisesti (Taulukossa ˆβ j :nkeskivirhe= ˆβ j :nestimoituhajonta) 20

23 Parametri Estimaatti Keskivirhe t-suhde β 1 ˆβ1 s m 11 ˆβ 1 /s m 11 β p ˆβp s m pp ˆβ p /s m pp Toinen yleinen tapa esittää tulokset on kirjoittaa estimoitu malliyhtälö y i = ˆβ1 x i1 + + ˆβ p x ip + ˆε i, s 2 =, (se(ˆβ 1 )) (se(ˆβ p )) jossase(ˆβ j )onˆβ j :nkeskivirhe(standarderror) Keskivirheenpaikallanäkeekäytettävän myös t-suhdetta eikä havaintoyksikköä i välttämättä merkitä näkyviin Ontärkeäähuomata,ettätestattaessauseitahypoteesejaH j eivätkäytetyttestisuureet ole yleensä riippumattomia Tämä vaikeuttaa näin saatavan yhdistetyn testin -arvonlaskemistajasitenjohtopäätöstentekoa Kun mallissa on vakio (eli x i1 = 1, i = 1,,n), ei yksittäisiä hypoteeseja H j kannata ilmeisestikään tutkia, ellei yleishypoteesia β 2 = = β p = 0 ole hylätty (vakiotermiä ei yleensä testata tilastollisella testillä, vaan sen oletetaan olevan mallissa mukana; vrt selitysaste ja sen tulkinnat s 10) Yksittäisten testien riippuvuus saattaa kuitenkin aiheuttaa sen, että yleishypoteesi on hylättävä, vaikka kaikki yksittäiset hypoteesit jäävät voimaan JosjoitakinhypoteesejaH j eihylätä,niinvastaavatselittäjätovatmallissaturhia Selittäjienpoistamineneiolekuitenkaanyksiselitteistä, silläselittäjäänx j liittyvän t-suhteen saama arvo riippuu (yleensä) siitä mitä muita selittäjiä mallissa on Jos selittäjiä poistetaan t-suhteiden perusteella, voidaan siten päätyä eri malleihin riippuensiitä,missäjärjestyksessähypoteesejah j testataan Viimeksi tarkastellusta testistä saadaan erikoistapauksena testi hypoteesille µ = µ 0 riippumattoman normaalisen otoksen mallissa Y 1,,Y n, Y i N ( µ,σ 2), (µ R, σ 2 > 0) Koska tässä tapauksessa X = 1 n, A = 1 ja c = µ 0, saadaan X X=njaedelleent-testisuure n (Ȳ µ0 ) /S H tn 1, jossanyts 2 = 1 n 1 n ( Yi Ȳ ) 2 Tämäperusteleetilastollisenpäättelynkurssilla tähäntilanteeseenesitetyntestin HuomaatuloksenȲ S 2 merkitystestisuureen jakauman johtamisessa 21

24 4 Luottamusvälien ja -joukkojen muodostaminen 41 Luottamusvälit Kutenedellisessäjaksossakinoletetaan,ettäY N ( Xβ,σ 2 I n ) (r(x)=p) Tyypillisin esimerkki tämän jakson yleisestä otsikosta koskee luottamusvälien muodostamista parametrivektorin β yksittäisille komponentille β j (1 j p) Seuraavassa luottamusväli johdetaan hieman yleisemmin tarkastelemalla parametrivektorin β lineaarikombinaatiota a β = a 1 β 1 + +a p β p, jossa a (p 1) on tunnettu (nollasta poikkeava)vektori Valitsemallaa =[ ],jossaykkönenonjkomponentti,saadaana β=β j Seuraavassamuitatyypillisiäerikoistapauksia - a = [ x 1 x p], jolloin a β = β 1 x 1 + +β px p = Y:n odotusarvo, kun selittävillemuuttujilleannetaanarvotx 1,,x p - odotusarvojen erotus µ 1 µ 2 kahden riippumattoman normaalisen otoksen mallissaonmyöstyyppiäa βsamoinkuinvastaavaterotuksetµ j µ k (j k) eli ns kontrastit yleisemmässä yksisuuntaisessa varianssianalyysimallissa (ks jakso 13) Kuten tilastollisen päättelyn kurssilla todetaan, voidaan luottamusvälejä muodostaa testien avulla Tätä menettelyä käytetään seuraavassa Tarkastellaan ensin edellisessä jaksossa johdettua F-testiä nollahypoteesille H:a β=a β 0 a (β β 0 )=0, jossaβ 0 (p 1)ontunnettu Testisuureeksisaadaan(ks s 18) F =(ˆβ β 0 ) a(a ( X X ) 1 a) 1 a (ˆβ β 0 )/S 2 [ 2/S = a (ˆβ β 0 )] 2 a ( X X ) 1 a H F 1,n p, jossaaikaisempaantapaanˆβ=(x X) 1 X YjaS 2 =(n p) 1 (Y Xˆβ) (Y Xˆβ) KutenedellisessäjaksossatarkastellunhypoteesinH j tapauksessanähdään,ettäftestisuureen asemesta voidaan käyttää t-testisuuretta a ˆβ a β 0 H t n p S a (X X) 1 a Kunvaihtoehtonaona β a β 0,saadaankriittiseksialueeksimerkitsevyystasollaα ( C α a ) β 0 = y: a ˆβ a β 0 s a (X X) 1 a t n p(α/2), jossap( T n p >t n p (α/2))=αvastaavahyväksymisaluemuodostuuaineistoista, joille pätee t n p (α/2)< a ˆβ a β 0 <t n p (α/2) s a (X X) 1 a 22

25 tai yhtäpitävästi a ˆβ tn p (α/2)s a (X X) 1 a<a β 0 <a ˆβ+tn p (α/2)s a (X X) 1 a Tämä väli peittää lineaarikombinaation a β 0 jos ja vain jos y / C α (a β 0 ) Koska kaikillaβ 0 jaσ 2 pätee P β0,σ 2 ( Y / Cα ( a β 0 )) =Pβ0,σ 2( T n p <t n p (α/2))=1 α, onlineaarikombinaationa βluottamusväliluottamustasolla1 α a ˆβ±tn p (α/2)s a (X X) 1 a Huomaa,ettäVar(a ˆβ)=a Cov(ˆβ)a=σ 2 a (X X) 1 a(lause21(i)),jotenedellä s a (X X) 1 a on estimaattorin a ˆβ keskivirhe Jos erityisesti a β =β j, saadaan luottamusväli ˆβ j ±t n p (α/2)s m jj, [ jossam jj = (X X) 1] jj onmatriisin(x X) 1 j diagonaalialkio Tapauksessaa β=β 1 x 1 + +β px p onsyytähuomata,ettäkiinnostuksenkohteena on satunnaismuuttujan Y odotusarvo, kun selittäville muuttujille annetaan arvot x 1,,x p Jos tarkastellaan satunnaismuuttujaa Y = β 1 x 1 + +β px p+ε, jossa ε N ( 0,σ 2),ja halutaanennustaa sen arvoa, eiedellä esitettyämenettelyä soveltaensaadaoikeaaennusteenluottamusväliä,koskasatunnaismuuttujanε vaikutus ei tule huomioon otetuksi Tämän ongelman ratkaisu vaatii oman menettelynsä On myös syytä huomata, että edellä esitetty pätee vain yksittäisen lineaarikombinaationa β luottamusvälille Josluottamusvälitmuodostetaanuseallelineaarikombinaatiollea jβ, j =1,,k,niintodennäköisyys,ettäkaikkiluottamusvälitpeittäisivät samanaikaisesti vastaavien lineaarikombinaatioiden todelliset arvot ei ole 1 α Tämän toteamiseksi merkitään E j = { a j βsisältyyluottamusväliinsä} OlkoonEj ctämäntapahtumankomplementti(j=1,,k)josp(e j)=1 α j,niin ( ) (( ) c ) P k j=1 E j = 1 P k j=1 E j ( ) = 1 P k j=1 Ec j 1 = 1 k j=1 P ( Ej c ) k α j j=1 Joserityisestiα j =α,j=1,,k,niin ) P ( k j=1e j 1 kα 23

26 (vrt edellisenjaksonlopussatehtyhuomautusyksittäistent-testien -arvojenlaskemisesta) Valitsemallaα j =α/k voidaanluottamusvälitmuodostaakaikillelineaarikombinaatioillea jβkutenedelläesitettiin Luottamustasoaeikuitenkaansaadalasketuksi tarkasti, sillä edellä todetusta saadaan vain epäyhtälö ) P ( k j=1e j 1 k(α/k)=1 α, joka on yleensä aito Korvaamalla tämä epäyhtälö yhtälöllä saadaan ns Bonferronin t-välit Tämä on helppo ratkaisu usean samanaikaisen luottamusvälin muodostamisongelmalle, mutta johtaa hyvin leveisiin(epäinformatiivisiin) luottamusväleihin, jos k on suuri Muita ratkaisuja ovat ns suurimman absoluuttisen t-suhteen menetelmä ja Scheffen S-menetelmä 42 Luottamusjoukot Esimerkkinä luottamusjoukoista johdetaan luottamusjoukko parametrivektorille β kokonaisuudessaan LähtökohdaksiotetaantestinollahypoteesilleH :β=β 0,jossa β 0 on annettu p 1 vektori Valitsemalla A = I p ja c = β 0 nähdään, että tämä nollahypoteesi on tyyppiä Aβ = c F-testisuureeksi saadaan(ks s 18) F =(ˆβ β 0 ) X X(ˆβ β 0 )/ps 2 H Fp,n p, jossamerkinnätovatkutenaikaisemmin JosF p,n p (α)onreaaliluku,jokatoteuttaa P(F p,n p >F p,n p (α))=α,niinedellätodetunperusteellapäteekaikillaβ 0 jaσ 2 ) P β0,σ ((ˆβ β 2 0 ) X X(ˆβ β 0 )/ps 2 <F p,n p (α) =1 α Parametrivektorin β luottamusjoukko luottamustasolla 1 α on näin ollen { } β R p :(ˆβ β) X X(ˆβ β)/ps 2 <F p,n p (α) Sen rajoittama pinta on R p :n ellipsoidi, jonka keskipiste on ˆβ ja muodon määrää matriisi X X Tapauksessa p = 2 tilanne on oheisen kuvan kaltainen Jos p > 2, on luottamusellipsoidien hahmottaminen hankalaa Projektiot koordinaattiakseleille auttavat vain rajoitetusti, sillä esimerkiksi kuvan piste (75, 25) kuuluu yksiulotteisiin luottamusväleihin, mutta ei luottamusjoukkoon Tämä havainnollistaa myös sitä, mikä tekee useita parametrivektorin β komponentteja koskevien luottamusvälien tai t-testien muodostamisen hankalaksi 24

Näytä lisää