Lineaarinen malli. Pentti Saikkonen. Kevät Korjattu versio: Toukokuu 2010

Koko: px
Aloita esitys sivulta:

Download "Lineaarinen malli. Pentti Saikkonen. Kevät Korjattu versio: Toukokuu 2010"

Transkriptio

1 Lineaarinen malli Pentti Saikkonen Kevät 2007 Korjattu versio: Toukokuu 2010

2 Sisältö 1 Lineaarisen mallin määrittely 1 11 Yksinkertainen esimerkki 1 12 Yleinen lineaarinen malli 2 13 Lineaarisen mallin erikoistapauksia 4 2 Lineaarisen mallin parametrien estimointi 7 21 Suurimman uskottavuuden(su) estimointi 7 22 SU-estimointi satunnaisten selittäjien tapauksessa SU-estimaattorien ominaisuudet SU-estimointi lineaarisin rajoittein 16 3 Hypoteesien testaaminen F-testi yleiselle lineaariselle hypoteesille F-testin erikoistapauksia 19 4 Luottamusvälien ja-joukkojen muodostaminen Luottamusvälit Luottamusjoukot 24 5 Empiirinen esimerkki Aineisto ja tutkimusongelma Mallin oletusten tarkistaminen Tilastollinen analyysi 29 6 Varianssianalyysia Yksisuuntainen varianssianalyysi Empiirinen esimerkki Kaksisuuntainen varianssianalyysi 36 Liite A Satunnaisvektoreista, satunnaismatriiseista ja multinormaalijakaumasta 41 Liite B Matriisilaskentaa 47

3 1 Lineaarisen mallin määrittely 11 Yksinkertainen esimerkki Tarkastellaan aluksi yksinkertaista esimerkkiä, joka havainnollistaa lineaarisen mallin ideaa Oletetaan, että maaperältään homogeeninen pelto on jaettu samankokoisiin alueisiin, joita on n kappaletta ja joita on lannoitettu eri määrillä x 1,,x n samaa lannoitetta Olkootsaadutsatomäärätvastaavastiy 1,,y n Tavoitteenaonrakentaa tilastollinen malli, jonka avulla voidaan selvittää lannoituksen vaikutus odotettavissa olevaan satomäärään Oletetaan, että havaitut satomäärät voidaan tulkita (riittävällä tarkkuudella) riippumattomien satunnaismuuttujien Y 1,,Y n havaituiksi arvoiksi Mielenkiinto kohdistuu näiden satunnaismuuttujien odotusarvoihin E(Y i ) = µ i, jotka riippuvat ennaltavalituistajasitenei-satunnaisistalannoitemääristäx i (,,n)lineaarisessa mallissa tämä riippuvuus oletetaan lineaariseksi eli µ i = β 1 +β 2 x i, jossa β 1 ja β 2 ovat tuntemattomia parametreja Lisäksi oletetaan, etteivät lannoitemäärät vaikuta satunnaismuuttujien Y i (tuntemattomiin) variansseihin eli oletetaan, että Var(Y i )=σ 2 päteekaikilla,,ntilannevoidaankuvatakäyttäenyhtälöä Y i =β 1 +β 2 x i +ε i,,,n, (11) jossa ε 1,,ε n ovat riippumattomia ei-havaittavia satunnaismuuttujia, joille pätee E(ε i ) = 0 ja Var(ε i ) = σ 2 Nämä satunnaismuuttujat voidaan tulkita havaituissa satomäärissä ilmeneväksi puhtaaksi satunnaisvaihteluksi, joka ei selity lannoitemäärällä Yhtälöä (11) nimitetään yhden selittävän muuttujan lineaariseksi regressiomalliksi Jos asiaa tarkastellaan tiukasti tilastollisen päättelyn näkökulmasta, ei kysymyksessä ole vielä tilastollinen malli, jollainen vaatii havaintojen yhteistodennäköisyysjakauman ja parametriavaruuden spesifioinnin Klassinen lineaarinen malli, jota tällä kurssilla tarkastellaan, olettaa normaalijakauman Koska lannoitemäärät tulkitaan ei-satunnaisiksi, saadaan havaintojen yhteistodennäköisyysjakauma siten oletuksesta Y 1,,Y n, Y i N ( β 1 +β 2 x i,σ 2) (12) Vaikka(ainakin)oletusβ 1 >0tuntuisijärkevältä,valitaanklassisenlineaarisenmallin mukaisestiparametriavaruudeksiβ 1,β 2 R,σ 2 >0Vaihtoehtoinenjauseinkäytetty tapa spesifioida havaintojen yhteistodennäköisyysjakauma on yhtälön (11) täydentäminen oletuksella ε 1,,ε n, ε i N ( 0,σ 2) (13) Koska tässä tapauksessa satomäärää selittävän muuttujan eli lannoitemäärän arvot kiinnitettiin edeltä käsin, niiden tulkitseminen ei-satunnaisiksi on loogista Jos kysymyksessä olisi ollut tilanne, jossa selittävän muuttujan havainnot olisi poimittu satunnaisotantaa käyttäen tai ne olisivat muuten satunnaisia, täytyisi tilastollinen malli periaatteessa laajentaa ja tarkastella satunnaisvektorien [Y i X i ] (,,n) yhteistodennäköisyysjakaumaa 1 Myöhemmintodetaan,ettäsopivinoletuksinonloo- 1 Matriisin transponointia merkitään pilkulla ja vektorit tulkitaan matriiseiksi, joissa on yksi sarake Käytetyt matriisilaskennan merkinnät ja tulokset on koottu Liitteeseen B 1

4 gistatarkastellaselitettäviämuuttujiay 1,,Y n ehdollisestiehdollaselittävänmuuttujanx 1,,X n saamathavaitutarvotx 1,,x n,jolloinedelläesitettymallisoveltuu Käytännössä edellä tarkasteltuun malliin voisi olla aiheellista sisällyttää lannoitemäärän lisäksi myös muita satomäärää selittäviä muuttujia Seuraavassa esitettävä yleinen lineaarinen malli ottaa tämän huomioon 12 Yleinen lineaarinen malli Yleisen lineaarisen mallin asetelma on, että analysoitavana on n:n havaintoyksikön aineisto, jonka muuttujista yksi on luonteeltaan selitettävä ja loput p sen vaihtelua selittäviä muuttujia Kaaviona tilanne on seuraavanlainen Havaintoyksikkö Selitettävämuuttuja;y Selittävätmuuttujat;x 1,,x p 1 y 1 x 11,,x 1p n y n x n1,,x np Lineaarisessa mallissa selittävän muuttujan vaikutus selitettävään muuttujaan oletetaan (tietyssä mielessä) lineaariseksi Jos Y 1,,Y n ovat edellisen esimerkkitapauksen mukaisesti satunnaismuuttujia, joiden havaitut arvot ovat y 1,,y n, niin mallin määritelmä voidaan perustaa yhtälöön Y i =β 1 x i1 + +β p x ip +ε i,,,n, (14) jostaedellisenjaksonyhtälö(11)saadaanilmeisenäerikoistapauksena(p=2,x i1 =1 i) Yhtälön(14)oikeallapuolellaselittävienmuuttujienhavaintoarvotx ij ovateisatunnaisia tai kiinteitä lukuja, β 1,,β p ovat tuntemattomia parametreja ja ε i on havaintoyksikköön i liittyvä ei-havaittava satunnaismuuttuja, joka kuvaa sitä osaa selitettävän muuttujan vaihtelusta, jota selittävät muuttujat tai niiden lineaarikombinaatioβ 1 x i1 + +β p x ip eikykeneselittämään Tästäsyystäsatunnaismuuttujiaε i kutsutaanvirheiksi taivirhetermeiksi Lineaarikombinaatiotaβ 1 x i1 + +β p x ip kutsutaan puolestaan mallin systemaattiseksi osaksi tai rakenteeksi Mallin lineaarisuus merkitseesitä,ettäsystemaattinenosaonparametrien β 1,,β p lineaarinenfunktio ja että virhetermi lisätään systemaattiseen osaan additiivisesti Mallin lineaarisuus salliinäinollenesimerkiksivalinnanx i2 =x 2 i1 eliepälineaarisuudenselittävienmuuttujiensuhteen,kunhanlineaarisuusparametrienβ 1,,β p suhteensäilyy 2 2 Jos edellisen jakson esimerkkiin lisätään selittäjä x 2 i, voidaan mallissa ottaa huomioon se, että satomäärä pienentyy, jos lannoitetta käytetään liikaa 2

5 Kuten edellisen jakson esimerkissäkin, täytyy yhtälöä(14) täydentää spesifioimalla (selitettävän muuttujan) havaintojen yhteistodennäköisyysjakauma ja parametriavaruus,jottatilastollinenmallituleemääritellyksi HavaintojenY 1,,Y n yhteistodennäköisyysjakauma tulee spesifioiduksi, kun virheisiin liitetään oletus(13) Jos merkitään x i = [x i1 x ip ] ja β = [ β 1 β p ], saadaan lineaariselle mallille siten määritelmä Y 1,,Y n, Y i N ( x iβ,σ 2), β R p, σ 2 >0 (15) Vaihtoehtoinen määritelmä saadaan liittämällä yhtälöön(14) oletukset(13) ja β R p, σ 2 > 0 Kuten edellä esitetystä ilmenee, voidaan lineaarista mallia luonnehtia malliksi havaintojen odotusarvolle Tästä johtuen on parametrivektori β ja sitä koskeva tilastollinen päättely ensisijaisen mielenkiinnon kohteena, kun taas parametri σ 2 onluonteeltaankiusaparametri Edellä esitetty lineaarisen mallin määrittely vastaa siis tilastollisessa päättelyssä käytettyä tilastollisen mallin määrittelyä Kuten aiemmin vihjattiin, näkee nimitystä lineaarinen malli käytettävän usein myös löyhemmässä mielessä Erityisesti havaintojen tai virheiden yhteistodennäköisyysjakaumaa ja parametriavaruutta ei aina spesifioida (ainakaan eksplisiittisesti) ja joskus riippumattomuuden asemesta oletetaan vain korreloimattomuus Lineaarinen malli voidaan esittää kätevästi matriisimerkinnöin, joita tarvitaan myös mallin teorian kehittelyssä Yhtälö(14) voidaan kirjoittaa eli Y 1 Y n = x 11 x 1p x n1 x np β 1 β p + ε 1 ε n Y=Xβ+ε (16) Virheitä koskeva oletus (13) voidaan ilmaista vaatimalla, että satunnaisvektori ε noudattaamultinormaalijakaumaaodotusarvonanollajakovarianssimatriisinaσ 2 I n elisymboleinε N ( 0,σ 2 I n ),jossain on(n n)yksikkömatriisi 3 Nytmallivoidaan määritellä lyhyesti kirjoittamalla Y N ( Xβ,σ 2 I n ), β R p, σ 2 >0 (17) Ellei toisin mainita, liitetään malliin lisäksi oletus r(x)=p (18) eli matriisin X(n p) oletetaan olevan täyttä sarakeastetta, jolloin pätee erityisesti n p(jakäytännössän>p) Tämätakaasen,ettäodotusarvovektorillaµ=E(Y) onyksikäsitteinenesitysµ=xβ (r(x)=p r(x X)=p β=(x X) 1 X µ) Kyse on siten identifiointiehdosta, joka takaa parametrivektorin β yksikäsitteisyyden (Xβ (1) = Xβ (2) X(β (1) β (2) ) = 0 β (1) = β (2), kun r(x) = p) 3 Jos tarkasteltavan multimormaalijakauman dimensio on aiheellista merkitä näkyviin, se osoitetaanalaindeksilläeliesimerkiksin n(, ) 3

6 Jos r(x)<p, voidaan joku (tai jotkut) matriisin X sarakkeet lausua muiden lineaarikombinaationajasaadaodotusarvovektorilleesitysµ=x β,jossamatriisix on täyttä sarakeastetta Esimerkiksi tapauksessa p = 3 ja x i3 = x i1 +x i2, pätee µ i =x i1 β 1 +x i2 β 2 +x i3 β 3 =x i1 (β 1 +β 3 )+x i2 (β 2 +β 3 ) Mallin parametreja β ja σ 2 koskevan tilastollisen päättelyn kannalta on riittävääesittäämallimuodossay N ( Xβ,σ 2 I n ) ilman,ettävirhetermeistäpuhutaan mitään Joissakin tapauksissa tähän esitykseen voidaan päätyä luontevasti lähtemällä havaintojenriippumattomuudestajaoletuksestay i N ( µ i,σ 2),jossaodotusarvoille µ i voidaan tutkittavan ilmiön taustateorian perusteella olettaa lineaarinen esitys µ i =x i β(,,n)useinvirhetermeilläonkuitenkinluontevatulkintamittaustai selitysvirheinä, jolloin niiden käyttäminen mallin motivoinnissa ja esittämisessä on myös luontevaa Mallin virhetermeillä on myös toinen motivaatio, jonka tarkastelemiseksi otetaan käyttöönkäsitteetsovitejaresiduaali,jotkaovatmallinsystemaattisenosanµ i =x i β javirheterminε i empiirisiävastineita Josˆβonparametrinβestimaatti,niin(havaintoyksikkööniliittyvä)sovite onˆµ i =x iˆβja(havaintoyksikkööniliittyvä)residuaali onˆε i =y i x iˆβ(sovitteellekäytetäänmyösmerkintääŷ i )Onselvää,ettäresiduaalit ˆε 1,,ˆε n sisältävätinformaatiotaparametristaσ 2 jaovatsikälirelevantteja Lisäksine sisältävät informaatiota mallin oletusten mahdollisesta paikkansapitämättömyydestä eli esimerkiksi varianssien Var(ε i ) = Var(Y i ) vaihtelusta sekä virheiden ε i ja siten havaintojen Y i riippuvuudesta tai ei-normaalisuudesta Yksinkertaisimpia malleja lukuun ottamatta näitä kysymyksiä on helpompi tutkia residuaalien kuin alkuperäisten havaintojen avulla Tällä kurssilla näitä tärkeitä kysymyksiä ei kuitenkaan ehditä juurikaan käsitellä Todettakoon kuitenkin, että kohtuullisen pieni poikkeama normaalisuudesta ei ole tuhoisaa, sillä esitettävät teoreettiset tulokset voidaan perustella asymptoottisina approksimaatioina myös ilman normaalisuusoletusta Selvästi einormaalisiin tilanteisiin tällä kurssilla tarkasteltavaa mallia ei kuitenkaan pidä mennä soveltamaan 4 13 Lineaarisen mallin erikoistapauksia Kuten edellä todettiin, saadaan jaksossa 11 tarkasteltu yhden selittäjän lineaarinen regressiomalli yleisen lineaarisen mallin erikoistapauksena Vielä yksinkertaisempi erikoistapaus on malli Y 1,,Y n, Y i N ( µ,σ 2) eli riippumaton otos normaalijakaumasta Tähän malliin päädytään valitsemalla yleisessämallissap=1,β 1 =µjax i1 =1,,,nMatriisiksiXtuleesiten X= 1 1 =1 n (n 1) 4 Esimerkiksi selitettävän muuttujan saadessa diskreettejä arvoja, tarjoavat ns yleistetyt lineaariset mallit usein parempia vaihtoehtoja 4

7 Tätä mallia ja sen parametrien estimointia ja testausta on tarkasteltu tilastollisen päättelyn kurssilla Myöhemmin nähdään, miten nämä estimointi- ja testausongelmat voidaan ratkaista lineaarisen mallin avulla Edellisen esimerkin yleistys on kahden odotusarvoltaan(mahdollisesti) poikkeavan riippumattoman normaalisen otoksen malli eli { ( N µ1,σ Y 1,,Y n, Y i 2), kun,,n 1 N ( µ 2,σ 2), kuni=n 1 +1,,n 1 +n 2 =n Tämämallisaadaanyleisestämallistavalitsemallap=2,β i =µ i (,2)ja 1 0 [ ] X = 1 0 1n = 0 1 n2 0 1 Mielenkiinnonkohteenaonuseinhypoteesiµ 1 =µ 2 jaluottamusvälinmuodostaminenerotukselleµ 1 µ 2 KonkreettisenaesimerkkitilanteenavoisiollakahdenvehnälajikkeenA 1 jaa 2 satoisuudentutkiminen,kunniitäviljelläänsamoissaolosuhteissa Huomaa, että tässä selittävät muuttujat ovat ryhmää osoittavia indikaattoreita Sama pätee niiden seuraavassa tarkasteltaviin yleistyksiin Edellinen esimerkki voidaan yleistää koskemaan kahta useampaa otosta, jolloin tarkasteltavia vehnälajikkeita voi olla useita Tällöin kysymyksessä on ns yksisuuntainen varianssianalyysimalli, jossa havaintoina on p riippumatonta otosta jakaumista N ( µ j,σ 2) (j=1,,p) ja kiinnostuksen kohteena on odotusarvoissa µ 1,,µ p mahdollisesti ilmenevät erot Toinen edellisen esimerkin yleistys on ns kaksisuuntainen varianssianalyysimalli, jota voidaankäyttää tilanteessa, jossavehnälajikkeita A 1 ja A 2 lannoitetaan kahta eri lannoitetta B 1 ja B 2 käyttäen Tällöin havainnot ovat peräisin neljästä ryhmästä ja mallin avulla voidaan tutkia onko satomäärissä eroja eri ryhmien välillä ja johtuvatko mahdolliset erot vehnälajikkeesta, lannoitteesta vai niiden yhteisvaikutuksesta Edellisessä jaksossa tarkastellun yhden selittäjän lineaarisen regressiomallin ilmeinen yleistys on usean selittäjän lineaarinen regressiomalli Y i =β 1 +β 2 x i2 + +β p x ip +ε i,,,n, johonliitetäänoletukset(13)jaβ R p,σ 2 >0TässämallissamatriisiXonkuten yleisen mallin tapauksessa lukuun ottamatta sitä, että x i1 = 1 kaikilla i = 1,,n Parametria β 1 kutsutaan (regressio)vakioksi ja parametreja β j (j=2,,p) regressiokertoimiksi Yksittäinen regressiokerroin kuvaa paljonko selitettävä muuttuja tai täsmällisemmin sen odotusarvo muuttuu, kun j:nnen selittäjän arvo muuttuu yhden yksikön muiden selittäjien arvojen pysyessä muuttumattomina Tämä kuvastaa yhtä mallin käyttötarkoitusta, joka on selitettävän muuttujan ja selittävien muuttujien 5

8 välisen riippuvuuden tiivistetty kuvaaminen eli selittäminen Mallia voidaan käyttää myös selitettävän muuttujan arvojen ennustamiseen ja kontrolloimiseen (olettaen, että selittävien muuttujien arvoihin voidaan vaikuttaa) Samassa mallissa voi olla sekä kvantitatiivisia selittäjiä että kvalitatiivisia ryhmääosoittaviaindikaattoreita JosesimerkiksitutkitaanvehnälajikkeidenA 1 jaa 2 satoisuutta ja molempia lannoitetaan samaa lannoitetta käyttäen, päädytään malliin, jossa on kahden ryhmää osoittavan indikaattorin lisäksi yksi kvantitatiivinen selittäjä Oletetaan,ettän 1 ensimmäistäsatomäärääliittyylajikkeeseena 1 jaloputn 2 =n n 1 lajikkeeseena 2 jaolkoonx i jälleenlannoitemäärähavaintoyksikössäi Tällöinmalli on { ( N β1 +β Y 1,,Y n, Y i 3 x i,σ 2), kun,,n 1 N ( β 2 +β 3 x i,σ 2), kuni=n 1 +1,,n 1 +n 2 =n Matriisiksi X tulee X = 1 0 x x n1 0 1 x n x n Huomaa, että tässä mallissa lannoitteen vaikutus molempiin vehnälajikkeisiin oletetaan samaksi Todetaan vielä, että joissakin tapauksissa lineaarista mallia voidaan käyttää, vaikka alkuperäinen malli olisikin epälineaarinen Tyypillisin esimerkki on Y i =e β 1x β 2 i2 xβ p ip eε i,,,n, jossa muuttujat oletetaan positiivisiksi Ottamalla(luonnollinen) logaritmi puolittain päädytään yhtälöön logy i =β 1 +β 2 logx i2 + +β p logx ip +ε i,,,n, josta oletuksilla (13) ja β R p, σ 2 > 0 saadaan (merkintöjä vaille) usean selittäjän lineaarinen regressiomalli Tällaiset ns multiplikatiiviset mallit ovat tavallisia taloudellisissa sovelluksissa mallinnettaessa esimerkiksi jonkin tuotteen kysyntää 6

9 2 Lineaarisen mallin parametrien estimointi 21 Suurimman uskottavuuden(su) estimointi Mallioletuksen(17)mukaanY N ( Xβ,σ 2 ) I n,jotenkäyttäenmultinormaalijakauman tiheysfunktion kaavaa nähdään suoraan, että havaintojen yhteistiheysfunktio on 5 ( f Y y;β,σ 2 ) = ( 2πσ 2) { n/2 exp 1 } 2σ 2(y Xβ) (y Xβ) Parametrienβjaσ 2 log-uskottavuusfunktioksisaadaansiten jossa l ( β,σ 2 ;y ) = n 2 logσ2 1 2σ 2S(β), S(β)=(y Xβ) (y Xβ)= n ( yi x iβ ) 2 on ns jäännösneliösummafunktio Parametrin β SU-estimaatti ˆβ = ˆβ(y) löydetään minimoimalla jäännösneliösummafunktio S(β), minkä jälkeen parametrin σ 2 SU-estimaattiˆσ 2 =ˆσ 2 (y)saadaankaavalla ˆσ 2 = 1 n S(ˆβ)= 1 n (y Xˆβ) (y Xˆβ) tai,käyttäenresiduaalejaˆε i =y i x iˆβ, ˆσ 2 = 1 n (y i x n iˆβ) 2 = 1 n Edellä sanottu voidaan perustella epäyhtälöillä n ˆε 2 i l ( β,σ 2 ;y ) n 2 logσ2 1 2σ 2S(ˆβ) n 2 logˆσ2 1 2ˆσ 2S(ˆβ) = l(ˆβ,ˆσ 2 ;y), jotkapätevätkaikillaβ R p jaσ 2 >0Näistäensimmäinenperustuuestimaatin ˆβ määritelmäänjatoinennähdäänmaksimoimallaedeltävälausekeσ 2 :nsuhteen(yksityiskohdat jätetään tehtäväksi) Estimaatin ˆβ lauseke voidaan johtaa joko geometrisesti tai derivoimalla jäännösneliösummafunktiota Palataan edelliseen hieman myöhemmin ja käytetään tässä jälkimmäistä tapaa, jossa suoritettavia laskelmia voidaan käyttää parametrin β havaitun informaatiomatriisin johtamisessa Suoraviivaisella derivoinnilla nähdään, että S(β)/ β= S(β)/ β 1 S(β)/ β p = 2 n ( x i yi x iβ ) = 2X y+2x Xβ 5 Sama tulos voidaan johtaa helposti myös kirjoittaen oletuksen (15) nojalla f Y ( y;β,σ 2 ) = f y1 ( y1 ;β,σ 2) f yn ( yn ;β,σ 2),jossaf yi ( yi ;β,σ 2) onhavainnony i tiheysfunktio 7

10 y x Kuva 21 PNS-menetelmän havainnollistus yhden selittäjän regressiomallin (11) tapauksessa Välttämätön ehto minimille on S(β)/ β = 0, mikä johtaa ns normaaliyhtälöihin X Xβ=X y (21) Oletuksesta r(x) = p (ks (18), s 3) seuraa tunnetusti r(x X) = p, joten normaaliyhtälöillä on yksikäsitteinen ratkaisu ˆβ=(X X) 1 X y Se, että kysymyksessä todella on minimipiste, voidaan todeta eri tavoin Differentiaalija integraalilaskentaan perustuvassa tavassa todetaan, että toisten derivaattojen matriisi 2 S(β)/ β β = [ 2 S(β)/ β i β j ] = 2X X on positiivisesti definiitti, mistä haluttutulosseuraa 6 Seuraavassajaksossaesitetäängeometrinenperustelu Ilmeisistä syistä johtuen sanotaan parametrin β SU-estimaattia ˆβ pienimmän neliösumman(pns) estimaatiksi Yhden selittäjän regressiomallin(11) tapauksessa PNS-estimaatti minimoi oheisen kuvan pystysuorien janojen pituuksien neliösumman 211 PNS-estimointi geometrisesti Eräs tapa havainnollistaa PNS-estimaattia on johtaa se geometrisesti Olkoon a = (a a) 1/2 = ( a a2 n) 1/2 vektorina=[a1 a n ] (Euklidinen)normijaR(X) matriisinx(n p)sarakeavaruus 7 KoskaS(β)= y Xβ 2,onPNS-estimoinnissa 6 MääritelmänmukaansymmetrinenmatriisiAonpositiivisestidefiniitti(merkintäänA>0),jos x Ax>0kaikilla(yhteensopivilla)vektoreillax 0 7 R(X)onR n :np-ulotteinenaliavaruusjasisältäävektorit,jotkavoidaanlausuax:nsarakkeiden lineaarikombinaationaelir(x)={z R n :z=xbjollainb R p } 8

11 kysymys normin y µ minimoinnista ehdolla µ R(X) Lineaarialgebrasta tiedetään,ettäminimisaavutetaanvalitsemallaµ=ˆµsiten,ettäerotusy ˆµtuleeortogonaaliseksi avaruutta R(X) tai yhtäpitävästi matriisin X sarakkeita vastaan Toisin sanoen, X (y ˆµ)=0 X ˆµ=X y Vektorin ˆµ tiedetään olevan y:n yksikäsitteinen ortogonaalinen projektio avaruudelle R(X) Koska matriisin X sarakkeet ovat oletuksen mukaan lineaarisesti riippumattomia(eli vapaita), on olemassa yksikäsitteinen vektori ˆβ siten, että ˆµ = Xˆβ Sijoittamalla tämä edellä johdettuun yhtälöön, saadaan X Xˆβ = X y, joten ˆβ on sama normaaliyhtälöiden yksikäsitteinen ratkaisu kuin aikaisemminkin ja se minimoi jäännösneliösummafunktion S(β) PNS-estimoinnissa selitettävän muuttujan vektori y hajotetaan kahteen osaan: y=ŷ+ˆε, (22) jossa ŷ=xˆβ (=ˆµ) on sovite eli estimoitu systemaattinen osa ja ˆε=y Xˆβ on residuaalieliestimoitusatunnainenosa Sijoittamallanormaaliyhtälöihin(21)β=ˆβ nähdään, että X ˆε=0, (23) mistä seuraa ŷ ˆε = 0 eli sovitteen ja residuaalin ortogonaalisuus Lisäksi, jos P= X(X X) 1 X,niin ŷ=py ja ˆε=(I n P)y (24) Matriisi P on (ortogonaalinen) projektio, joka projisoi R n :n vektorit matriisin X p-ulotteisellesarakeavaruudeller(x) 8 MatriisiI n Ponmyösprojektio SeprojisoiR n :nvektoritavaruudenr(x)ortogonaalisellekomplementiller(x),jokaon R n :n(n p)-ulotteinenaliavaruusjasisältäävektorit,jotkaovatortogonaalisiax:n sarakkeita vastaan PNS-estimoinnin tuloksena saatavassa hajotelmassa y = ŷ + ˆε selitettävän muuttujan vektori y tulee siis esitetyksi yksikäsitteisesti kahden ortogonaalisenvektorinŷ R(X)jaˆε R(X) summana(vrt vastaavalineaarialgebran kohtisuoria projektioita koskeva tulos) 212 PNS-estimointi ja selitysaste Hieman toisenlainen näkökulma PNS-estimointiin saadaan hajottamalla selitettävän muuttujan vaihtelu kahteen osaan Kun vaihtelua mitataan neliösummalla, saadaan vektorien ŷ ja ˆε ortogonaalisuutta käyttäen n yi 2 =y y=(ŷ+ˆε) (ŷ+ˆε)=ŷ ŷ+ˆε ˆε eli y 2 = ŷ 2 + ˆε 2 (25) 8 Projektiomatriisionmääritelmänmukaanneliömatriisi,jokaonsymmetrinenjaidempotenttieli PtoteuttaaehdotP =P=P 2 (=PP) 9

12 On intuitiivisesti selvää, että mallin antama selitys selitettävälle muuttujalle on sitä parempi mitä suurempi oikean puolen ensimmäinen termi on suhteessa vasemman puolen termiin 9 Seuraavassa tätä ideaa tarkastellaan lähemmin mallissa, jossa on vakio Tarkastellaan siis malliyhtälöä Y i =β 1 +β 2 x i2 + +β p x ip +ε i,,,n Koska vakiota on vaikea ajatella varsinaisena selittäjänä, mitataan vaihtelua tässä tapauksessa yleensä keskistettyjä havaintoja käyttäen(eli havainnot mitataan poikkeamina keskiarvostaan) Koska matriisin X ensimmäinen sarake on nyt ykkösvektori 1 n,onedelläjohdetunyhtälönx ˆε=0perusteella1 nˆε=ˆε 1 + +ˆε n =0Tästäja yhtälöstä(22) seuraa ȳ= 1 n y i = 1 n ŷ i n n Määritellään seuraavat käsitteet: Kokonaisneliösumma SST= n (y i ȳ) 2 Regressioneliösumma SSR= n (ŷ i ȳ) 2 Residuaalineliösumma SSE= n ˆε2 i Kun mallissa on vakio, näiden välillä on yhteys SST=SSR+SSE Tämän perustelemiseksi todetaan ensin, että SST = n y2 i nȳ2 (suora lasku) ja y y = ŷ ŷ+ SSE (ks (25)) Näin ollen, SST = ŷ ŷ nȳ 2 + SSE, joten riittää todeta,ettässr= n ŷ2 i nȳ2 Tämäseuraakuitenkinedellätodetustaseikasta 1 n n ŷi=ȳ Määritellään nyt mallin selitysaste R 2 =1 SSE SST =SSR SST, jossa jälkimmäinen yhtälö perustuu edellä todettuun identiteettiin Koska SST, SSR ja SSE ovat ei-negatiivisia on selitysasteella ominaisuus 0 R 2 1 Selitysaste ilmaistaan yleensä prosentteina eli sanotaan mallin selittävän 100R 2 % selitettävänmuuttujanhavaintojenvaihtelusta JosSSE=0,niinˆε i =0jay i =ŷ i kaikilla i = 1,,n Tällöin SST = SSR ja R 2 = 1 eli selitys on 100-prosenttinen Kuny i =ˆβ 1 +ˆβ 2 x i +ˆε i,tämämerkitsee,ettähavainnotsijaitsevattasossasuoralla y = ˆβ 1 +ˆβ 2 x Jos taas SSE=SST, niin R 2 =0ja mallin varsinaisilla selittäjillä 9 Tähän paremmuuteen on syytä suhtautua varauksin, sillä mallin hyvyyttä voidaan (ja on syytäkin) mitata usein eri tavoin 10

13 x 2,,x p eiolemitäänmerkitystäy:täselitettäessä Käytännössäontietenkinaina 0<R 2 <1 Todetaan vielä, että selitysasteelle pätee R 2 =r 2 yŷ, jossar yŷ onselitettävänmuuttujanhavaintojeny i jasovitteidenŷ i (1,,n)välinen otoskorrelaatiokerroin 10 Tämänähdäänhuomaamalla,ettär yŷ voidaankirjoittaa r yŷ = (y ȳ1 n) (ŷ ȳ1 n ) y ȳ1 n ŷ ȳ1 n Sijoittamalla osoittajassa y=ŷ+ˆε ja käyttämällä vektorien ŷ ja ˆε sekä 1 n ja ˆε ortogonaalisuutta nähdään, että osoittaja on yhtä kuin ŷ ȳ1 n 2 = SSR Koska nimittäjä on määritelmien mukaan SST SSR, saadaan r yŷ = SSR/SST eli haluttu tulos KoskaR= 1 SSE/SSTjaSSE=min β (y Xβ) (y Xβ),voidaanPNSestimointi tulkita edellä todetun mukaan siten, että sovitteeksi valitaan se selittäjien lineaarikombinaatio, jonka otoskorrelaatio selitettävän muuttujan kanssa maksimoituu Huomaa kuitenkin tulkinnan laskennallinen luonne Koska havainnot eivät yleensä ole otos mistään kiinteästä populaatiosta, ei otoskorrelaatiokertoimella r yŷ ole yleensä teoreettista vastinetta Korostettakoon myös, että tämä kuten muutkin selitysasteeseen liittyvät tarkastelut olettavat mallin, jossa on vakio 22 SU-estimointi satunnaisten selittäjien tapauksessa Joissakin tapauksissa selittävien muuttujien olettaminen ei-satunnaisiksi kiinteiksi luvuiksi saattaa tuntua rajoittavalta Jos esimerkiksi halutaan selittää kotitalouksien sähkön kulutusta sähkön hinnalla ja kotitalouksien reaalituloilla ja käytettävissä on aikasarja-aineisto, on selittäviä muuttujia vaikea ajatella ei-satunnaisiksi Edellä esitetty kiinteiden selittäjien malli ja siihen perustuva SU-estimointi voidaan kuitenkin perustella myös satunnaisten selittäjien tapauksessa seuraavasti Otetaan lähtökohdaksi malliyhtälö (ks yhtälö(16) ja sitä seuraava keskustelu, s 3) Y=Xβ+ε, ε N ( 0,σ 2 I n ), ja oletetaan, että satunnainen matriisi X toteuttaa ehdot (a) X ε (b) X:ntodennäköisyysjakaumaeiriipuparametreistaβjaσ 2 10 Havainnoistau 1,,u n jav 1,,v n laskettuotoskorrelaatiokerroinon n r uv = (ui ū)(vi v) n n, (ui ū)2 (vi v)2 jossaū=(u 1+ +u n)/nja vmääritelläänvastaavasti 11

14 Tässä satunnaismatriisin X todennäköisyysjakaumalla tarkoitetaan sen kaikkien alkioiden yhteistodennäköisyysjakaumaa, joka voidaan samaistaa niistä muodostetun np 1 ulotteisen satunnaisvektorin todennäköisyysjakauman kanssa Uskottavuusfunktio on nyt johdettava muuttujien Y ja X yhteistodennäköisyysjakaumasta, jolla yksinkertaisuuden vuoksi oletetaan seuraavassa olevan tiheysfunktio f Y,X (y,x)ehdollisentiheysfunktionmääritelmännojallapätee f Y,X (y,x)=f X (X)f Y X (y X) Tarkasteltavastamalliyhtälöstäjaehdosta(a)seuraa,ettäf Y X (y X)onN ( Xβ,σ 2 I n ) - jakauman tiheysfunktio Formaali perustelu sivuutetaan, mutta intuitiivisesti tämä on varsin ilmeistä, sillä ehdollistaminen kiinnittää X:n sen havaituksi arvoksi ja ehdon (a) riippumattomuus takaa sen, ettei X:n kiinnittäminen vaikuta virhetermin ε satunnaisvaihteluun Näin ollen Y ehdolla X:n havaittu arvo jakautuu kuten kiinteiden selittäjien tapauksessa Koska ehdon(b) nojalla X:n tiheysfunktio ei riipu parametreistaβjaσ 2,sevoidaansisällyttääuskottavuusfunktionvakioon,jolloinpäädytään samaan uskottavuusfunktioon kuin aikaisemmassa kiinteiden selittäjien mallissa Ehtojen (a) ja (b) voimassa ollessa voidaan siis ehdollistaa satunnaisten selittäjien saamien havaintoarvojen suhteen ja tulkita ne kiinteiksi luvuiksi Erityisesti silloin, kun mallia käytetään selitettävien muuttujien välisen riippuvuuden kuvaamiseen (eli selittämiseen ) tai selitettävän muuttujan arvojen ennustamiseen tai kontrolloimiseen, ei selitettävien muuttujien todennäköisyysjakaumasta olla välttämättä kiinnostuneitajaehdollisenjakaumanf Y X (y X)käyttäminenonriittävää Pohdittaessa ehtojen(a) ja(b) paikkansapitävyyttä kannattaa kiinnittää huomiota ehtoon(a), joka on looginen silloin, kun kausaalisuuden suunta on selittävistä muuttujista selitettävään muuttujaan, mutta ei päinvastoin Jos kausaalisuus pätisi molempiin suuntiin, voitaisiin esimerkiksi tarkastella samanaikaisesti malliyhtälöitä Y i = β 1 +β 2 X i +ε i jax i =α 1 +α 2 Y i +η i,jossaβ 2 0 α 2 TällöinehtoX i ε i ei olisiselvästikäänlooginen(eikämyöskääny i η i ) Ehto (a) rikkoontuu myös silloin, kun oikeiden selittäjien asemesta joudutaan käyttämään (satunnaisia) mittausvirheitä sisältäviä korvikkeita Tarkastellaan esimerkiksi malliyhtälöä Y i =β 1 +β 2 x i +ε i, jossaβ 2 0jaoikeanselittävänmuuttujanx i asemestahavaitaanvirheellisesti X i =x i +η i, jossasatunnaisellamittausvirheelläη i onominaisuudete(η i )=0,Var(η i )=σ 2 η>0 jaη i ε i Malli,jossaselittävänämuuttujanaonX i,perustetaanyhtälöön Y i =β 1 +β 2 X i +ε i, jossa ε i = ε i β 2 η i Tällöin oletus X i ε i ei ole voimassa, sillä Cov(X i,ε i ) = E(X i ε i )=E(η iε i )= β 2E(η 2 i )= β 2σ 2 η 0 12

15 23 SU-estimaattorien ominaisuudet TässäjaksossatutkitaanSU-estimointiateoreettisesti,jotenˆβ=ˆβ(Y)jaˆσ 2 =ˆσ 2 (Y) tulkitaan satunnaisiksi suureiksi eli ne ovat estimaattoreita Seuraava lause, jonka todistus esitetään jakson lopussa, selvittää näiden estimaattorien todennäköisyysjakaumat Lause 21 Tarkastellaan lineaarista mallia Y N ( Xβ,σ 2 I n ), β R p, σ 2 > 0, jossa r(x)=ptällöinparametrien βja σ 2 SU-estimaattoreille ˆβ=(X X) 1 X Y ja ˆσ 2 = 1 n (Y Xˆβ) (Y Xˆβ)pätee (i) ˆβ N(β,σ 2 (X X) 1 ) (ii) nˆσ 2 /σ 2 =(Y Xˆβ) (Y Xˆβ)/σ 2 χ 2 n p (iii) ˆβ ˆσ 2 Lausetta21voidaankäyttääSU-estimaattorienˆβjaˆσ 2 ominaisuuksientutkimiseen Kohdasta(i)nähdäänheti,ettäPNS-estimaattoriˆβonharhaton Estimaattoriˆσ 2 ei sensijaanoleharhaton,sillälauseentoisestakohdastaseuraae (ˆσ 2) =E ( σ 2 χ 2 n p /n) = (n p)σ 2 /n Parametrinσ 2 harhatonestimaattorion S 2 = 1 n p n ˆε 2 i = n n pˆσ2, jotakäytetäänkäytännössäsu-estimaattorin ˆσ 2 asemesta Suoraviivaisella laskulla nähdään, että parametrien β ja σ 2 Fisherin informaatiomatriisi on i ( β,σ 2) = [ σ 2 X X 0 0 n/2σ 4 Laskelmien yksityiskohtaiset perustelut jätetään harjoitustehtäväksi(vasemman yläkulmanlohkojohdettiinolennaisiltaosinpns-estimaattia ˆβjohdettaessa) Tilastollisen päättelyn kurssilla todetusta informaatioepäyhtälön moniulotteisesta versiosta voidaan nyt päätellä, että parametrin β mille tahansa harhattomalle estimaattorille β päteecov( β) σ 2 (X X) 1 0TästäjaLauseesta21(i)seuraa,ettäPNSestimaattori ˆβ on täystehokas Estimaattori S 2 ei sen sijaan ole täystehokas, sillä Var(S 2 )=Var(σ 2 χ 2 n p/n p)=2σ 4 /(n p)(samapäteemyössu-estimaattorille ˆσ 2 ) Todetaanseuraavaksi,ettäestimaattoritˆβjaS 2 ovattyhjentäviä Kirjoittamalla y Xβ=X(ˆβ β)+ˆεjakäyttämällämatriisinxsarakkeidenjaresiduaalivektorin ˆε ortogonaalisuutta(ks (23), s 9) nähdään, että jäännösneliösummafunktio ] S(β) = ((ˆβ β) X +ˆε )(X(ˆβ β)+ˆε) = (ˆβ β) X X(ˆβ β)+ˆε ˆε (26) = (ˆβ β) X X(ˆβ β)+(n p)s 2 13

16 Havaintojen yhteistiheysfunktiolle saadaan siten esitys ( f Y y;β,σ 2 ) = ( 2πσ 2) { n/2 exp 1 2σ 2(ˆβ β) X X(ˆβ β) 1 } 2σ 2(n p)s2, mistäseuraafaktorointikriteerinperusteellaestimaattorien ˆβjaS 2 tyhjentävyys 11 Edellä esitettyjä tuloksia voidaan soveltaa riippumattoman normaalisen otoksen malliiny 1,,Y n, Y i N ( µ,σ 2),(µ R, σ 2 >0) Tätä malliaontarkasteltu tilastollisenpäättelynkurssillajaosoitettu, ettäparametrienµjaσ 2 SU-estimaatit ovat ȳ= 1 n y i ja ˆσ 2 = 1 n (y i ȳ) 2, n n jotka saadaan myös helposti jaksossa 21 johdetuista yleisistä kaavoista Tilastollisen päättelyn kurssilla todetun lisäksi voidaan Lauseen 21 ja edellä sanotun avulla perustella myös estimaattorin ˆσ 2 harhaisuus sekä otosvarianssin S 2 = nˆσ 2 /(n 1) harhattomuus Lisäksi voidaan perustella otoskeskiarvon ja otosvarianssin riippumattomuus sekä tulos (n 1)S 2 /σ 2 χ 2 n 1, joilla on keskeinen merkitys testattaessa odotusarvoa µ koskevia hypoteeseja(tähän palataan) Kaikenkaikkiaanvoidaantodeta,ettäestimaattorienˆβjaS 2 tilastollisetominaisuudet ovat erinomaiset Mainittakoon, että perinteisesti lineaarisen mallin teoriassa näiden estimaattorien ominaisuuksia on tutkittu olettamatta havaintojen normaalisuutta Lauseen 21 todistuksesta nähdään, että olettamalla pelkästään E(Y) = Xβ ja Cov(Y) = σ 2 I n saadaan tulokset E(ˆβ) = β ja Cov(ˆβ) = σ 2 (X X) 1 Lisäksi voidaan osoittaa, että jos β on mikä tahansa parametrin β harhaton ja lineaarinen (eli tyyppiä AY oleva) estimaattori, niin Cov( β) σ 2 (X X) 1 0 Tämä ns Gaussin ja Markovin lause sanoo siis, että PNS-estimaattori on aina (varianssikriteerin mielessä) paras lineaarinen harhaton estimaattori Normaalisessa tapauksessa PNS-estimaattori on SU-estimaattori ja paras kaikkien estimaattorien joukossa Lauseen 21 todistus: (i) Lineaarisen mallin oletuksesta seuraa, että E(Y) = Xβ jacov(y)=σ 2 I n,jotentunnettujatuloksiakäyttäensaadaan(ks LiiteA1) ja E(ˆβ) = E((X X) 1 X Y) = (X X) 1 X E(Y) = β Cov(ˆβ) = Cov((X X) 1 X Y) = (X X) 1 X Cov(Y)X(X X) 1 = σ 2 (X X) 1 11 Koska matriisi X X on positiivisesti definiitti, seuraa hajotelmasta (26), että S(β) ˆε ˆε ja että S(β) saavuttaa minimiarvonsa ˆε ˆε jos ja vain jos β = ˆβ Tämä on kolmas tapa nähdä, että PNS-estimaatti ˆβ todellaminimoijäännösneliösummafunktions(β) 14

17 Koska (p n matriisin (X X) 1 X aste on p ja) Y N ( Xβ,σ 2 I n ), on ˆβ multinormaalisen satunnaisvektorin Y (täyttä riviastetta olevana) lineaarimuunnoksena multinormaalinen(ks Liite A24) (ii)jaksossa211(ks (24))todetunmukaanˆε=(I n P)Y,jossaI n P=I n X(X X) 1 X on projektiomatriisi, jolla on ominaisuus (I n P)X = 0 Käyttäen yhtälöä (16) (s 3) voidaan näin ollen kirjoittaa (I n P)Y = (I n P)ε, joten estimaattorinˆσ 2 määritelmääjaprojektiomatriisienominaisuuksiakäyttäensaadaan n σ 2ˆσ2 = 1 σ 2ˆε ˆε= 1 σ 2ε (I n P)ε χ 2 n p TässäviimeinenrelaatioseuraaLiitteenALauseestaA2jasiitä,ettäε N ( 0,σ 2 I n ) jar(i n P)=n pviimeksimainittuseikkanähdäänseuraavastalaskelmasta,jossa tr( )onasianomaisenneliömatriisinjälki: 12 r(i n P) = tr(i n P) = tr(i n ) tr (X(X X) 1 X ) ( ) = n tr (X X) 1 X X = n tr(i p ) = n p (iii) Koska projektiomatriisin ominaisarvot ovat nollia ja ykkösiä, on projektion I n P pääakseliesitys muotoa I n P=RR, jossa n (n p) matriisilla R on ominaisuudet r(r) = n p ja R R = I n p (vrt Lauseen A2 todistus Liiteessä A) Näin ollen ˆσ 2 = n 1 Y (I n P)Y = n 1 Y RR Y, joten riittää osoittaa, että satunnaisvektoritr Yja ˆβovatriippumattomia Koska RR X = (I n P)X = 0 ja R R = I n p, on R X = 0 Näin ollen (ks LiiteA1), Cov(R Y,ˆβ) = Cov(R Y,(X X) 1 X Y) = R Cov(Y)X(X X) 1 = σ 2 R X(X X) 1 = 0, jonkakolmannessayhtälössäonjälleenkäytettyoletustacov(y)=σ 2 I n Väiteseuraatästä, koska satunnaisvektoreilla R Y ja ˆβ on multinormaalinen yhteisjakauma ja multinormaalijakaumassa komponenttien korreloimattomuus on yhtäpitävää niiden riippumattomuuden kanssa(ks Liite A23) Edellinen seikka nähdään kirjoittamalla [ R Y ˆβ ] [ = R (X X) 1 X ] Y, Y N ( Xβ,σ 2 I n ) (ks Liite A24 ja huomaa, että yhtälön oikealla puolella olevan matriisin rivit ovat lineaarisesti riippumattomia) 12 Jäljelläelidiagonaalialkioidensummallaonominaisuudettr(A+B)=tr(A)+tr(B),tr(AB)= tr(ba)jatr(p)=r(p),kunponprojektio 15

18 24 SU-estimointi lineaarisin rajoittein TarkastellaanlineaaristamalliaY N ( Xβ,σ 2 I n ),jossatavanomaiseentapaanr(x)= p, mutta parametriavaruus ei ole kuten aikaisemmin, vaan parametrivektorin β komponenttien oletetaan toteuttavan lineaariset rajoitteet Aβ=c, (27) jossa A (q p) ja c (q 1) ovat tunnettuja ja r(a) = q Tehtävänä on estimoida parametrit β ja σ 2 ottaen nämä rajoitteet huomioon Parametriavaruus on näin ollen{β R p :Aβ=c},σ 2 >0 Tämän estimointiongelman ratkaisua tarvitaan myöhemmin, kun tarkastellaan yhtälön (27) määrittämän hypoteesin testaamista Tyypillinen esimerkki saadaan valitsemalla A = [0 I q ] ja c = 0, jolloin testattava hypoteesi on β p q+1 = = β p = 0 eli viimeiset q selittäjää ovat mallissa tarpeettomia Toisena esimerkkinä mainittakoonβ p 1 =β p,jokasaadaanvalitsemallaa=[ ]jac=0 Tällainen hypoteesi voi seurata tutkittavan ilmiön taustateoriasta Palautetaan mieleen jäännösneliösummafunktio S(β) = (y Xβ) (y Xβ) ja tarkastellaan log-uskottavuusfunktion l ( β,σ 2 ;y ) = n 2 logσ2 1 2σ 2S(β) maksimointia edellä kuvatussa tilanteessa Tämä johtaa parametrivektorin β osalta jäännösneliösummafunktion S(β) minimointiin ehdolla Aβ=c Jos ˆβ H on saatu estimaatti(eli β:n SU-estimaatti), nähdään kuten jaksossa 21(ks s 7), että parametrinσ 2 SU-estimaattionˆσ 2 H = 1 n S(ˆβ H )Jaksonlopussaosoitetaan,että 13 ˆβ H =ˆβ (X X) 1 A (A(X X) 1 A ) 1 (Aˆβ c), (28) jossamatriisina(x X) 1 A epäsingulaarisuusseuraaoletuksistar(a)=qjar(x)= p Laskemallanähdään,ettävaaditturajoiteAˆβ H =ctoteutuu Usein estimaatti ˆβ H voidaan muodostaa yhtälön (28) yleistä kaavaa helpommin kirjoittamalla malli muotoon, jossa rajoitteet (27) otetaan suoraan huomioon Tarkastellaan esimerkiksi malliyhtälöä Y i =β 1 x i1 + +β p x ip +ε i,,,n Josnytasetetaanrajoiteβ p =0,onˆβ H =[ˆβ H,1 ˆβ H,p 1 0],jossaˆβ H,1,,ˆβ H,p 1 saadaan PNS:llä malliyhtälöstä Y i =β 1 x i1 + +β p 1 x i,p 1 +ε i,,,n 13 Estimaatinˆβ H lausekkeeseenvoidaanpäätyäminimoimallajäännösneliösummafunktios(β)lagrangen kerroinmenettelyä käyttäen Tällöin tehtävänä on minimoida funktio Q(β, λ) = S(β) + λ (Aβ c), jossa vektori λ = [λ 1 λ q ] sisältää Lagrangen kertoimet Laskemalla derivaatat Q(β,λ)/ β ja Q(β,λ)/ λ ja ratkaisemalla yhtälöt Q(β,λ)/ β = 0 ja Q(β,λ)/ λ = 0 saadaanesitetty ˆβ H :nlauseke 16

19 Tämä idea yleistyy seuraavasti Tarkastellaan vaihtoehtoisia lineaarisia rajoitteita β=cφ+d, (29) jossa C on tunnettu astetta r oleva p r matriisi, d on tunnettu p 1 vektori ja φ R r ontuntematonparametrivektori Sijoittamallaoikeapuolimalliyhtälöön(16) saadaan Y Xd=(XC)φ+ε, josta PNS:ää soveltaen saadaan φ:n SU-estimaatiksi ˆφ= ( C X XC ) 1 C X (y Xd) SU-estimaatininvarianssiominaisuudennojallasaadaansiten ˆβ H =Cˆφ+d Rajoitteiden(29) tapauksessa voidaan PNS-estimointi suorittaa havainnollisemmin kuin rajoitteiden (27) tapauksessa Jälkimmäiset ovat kuitenkin käteviä seuraavassa jaksossa tarkasteltavan testiteorian kannalta Huomaa, että tyyppiä (29) olevat rajoitteet voidaan aina muuntaa tyyppiä(27) oleviksi rajoitteiksi, sillä lineaarialgebrasta tiedetään, että matriisin C ollessa annettu, voidaan aina löytää(p r) p matriisi A, jolle pätee AC = 0 ja r(a) = p r Tällöin rajoitteet (27) pätevät valinnoillaq=p rjac=ad 14 Tuloksen(28) perustelu Kuten jaksossa 23 todettiin(ks (26), s 13), pätee S(β)=S(ˆβ)+(ˆβ β) X X(ˆβ β) Hajotetaan oikean puolen jälkimmäinen termi osiin: (ˆβ β) X X(ˆβ β) = (ˆβ ˆβ H +ˆβ H β) X X(ˆβ ˆβ H +ˆβ H β) = (ˆβ ˆβ H ) X X(ˆβ ˆβ H )+(ˆβ H β) X X(ˆβ H β) +2(ˆβ H β) X X(ˆβ ˆβ H ) = (ˆβ ˆβ H ) X X(ˆβ ˆβ H )+(ˆβ H β) X X(ˆβ H β) Viimeksi esitetyn yhtälön perustelemiseksi otetaan käyttöön lyhennysmerkintä λ = (A(X X) 1 A ) 1 (Aˆβ c) Yhtälö(28)voidaansitenkirjoittaaˆβ ˆβ H =(X X) 1 A λ ja,koskaaˆβ H =c=aβ, Edellä sanotusta seuraa (ˆβ H β) X X(ˆβ ˆβ H )=(ˆβ H β) A λ=(c c) λ=0 S(β)=S(ˆβ)+(ˆβ ˆβ H ) X X(ˆβ ˆβ H )+(ˆβ H β) X X(ˆβ H β), josta nähdään, että S(β) minimoituu täsmälleen silloin, kun oikean puolen viimeinen termiminimoituu KoskamatriisiX Xonpositiivisestidefiniitti,tämätermionaina ei-negatiivinenjasaavuttaaminimiarvonsanollajosjavainjosβ=ˆβ H 14 Matriisin A riveiksi voidaan valita avaruuden R(C) ortogonaalisen komplementin R(C) (jotkin)kantavektorit Tällöin p=r(c)+r(a)=r+r(a), joten r(a)=p rilman perustelua mainitaan käänteinen tulos, jonka mukaan tyyppiä (27) olevat rajoitteet voidaan aina muuntaa tyyppiä(29) oleviksi rajoitteiksi 17

20 3 Hypoteesien testaaminen 31 F-testi yleiselle lineaariselle hypoteesille Oletetaan edellisen jakson tapaan Y N ( Xβ,σ 2 I n ) (r(x) = p), ja tarkastellaan nollahypoteesia H:Aβ=c, (31) jossa A (q p) ja c (q 1) ovat tunnettuja ja r(a) = q Testi tälle hypoteesille onluontevaaperustaaerotukseenaˆβ c,jossa ˆβ=(X X) 1 X Yonparametrinβ (vapaa)pns-estimaattoritaiyhtäpitävästi(vapaa)su-estimaattori Koskaˆβestimoi parametria β tehokkaasti riippumatta siitä onko nollahypoteesi tosi vai ei, pätee aina Aˆβ c Aβ c Erotus Aˆβ c saa siten tyypillisesti pieniä arvoja, kun nollahypoteesi on tosi ja suuria arvoja, kun nollahypoteesi ei ole tosi Lausetta 21 käyttäen voidaan johtaa testisuure, jonka avulla tämän erotuksen suuruutta voidaan arvioida Näin saatava testi perustuu tilastollisen päättelyn kurssilla esitetyn Waldin testin periaatteeseen Lauseen21(i)nojalla ˆβ N(β,σ 2 (X X) 1 ),jotennollahypoteesinvoimassaollessa(ks Liite A24) Aˆβ c N(0,σ 2 A ( X X ) 1 A ) Tästä ja Liitteen A Lauseesta A1 seuraa edelleen (Aˆβ c) (A ( X X ) 1 A ) 1 (Aˆβ c)/σ 2 χ 2 q Lauseesta 21 nähdään puolestaan, että (n p)s 2 /σ 2 χ 2 n p ja S 2 ˆβ, jossas 2 =(n p) 1 (Y Xˆβ) (Y Xˆβ)Edellämainitutχ 2 -muuttujatovatnäin ollenriippumattomia,jotenf-jakaumanmääritelmänmukaantestisuure 15 F =(Aˆβ c) (A ( X X ) 1 A ) 1 (Aˆβ c)/qs 2 H Fq,n p Tätä testisuuretta sanotaan F-testisuureeksi ja siihen perustuvaa testiä F-testiksi Suuret testisuureen arvot ovat kriittisiä nollahypoteesin kannalta Testin -arvot perustetaan tulokseen =P H (F(Y) F(y))=P(F q,n p F(y)), jossaf q,n p onf q,n p -jakaumaanoudattavasatunnaismuuttuja EdelläjohdetunF-testintulkintaWaldintestinäseuraasiitä,ettäs 2 X XestimoiparametrinβFisherininformaatiomatriisiajaettäparametrienβjaσ 2 Fisherin informaatiomatriisionlohkodiagonaalinen(eliβjaσ 2 ovatortogonaaliset) Testisuure F voidaan esittää myös käyttäen edellisessä jaksossa johdettua rajoitettuapns-estimaattoria ˆβ H Huomataanensin,että S(β)=S(ˆβ)+(ˆβ β) X X(ˆβ β) 15 F k,m -jakaumanmääritteleesatunnaismuuttujamχ 2 k /kχ2 m,jossaχ2 k χ2 m 18

21 kutenjaksossa23todettiin(ks (26), s 13) Sijoittamallatähän β:npaikalle ˆβ H saadaan S(ˆβ H ) S(ˆβ) = (ˆβ ˆβ H ) X X(ˆβ ˆβ H ) = (Aˆβ c) (A ( X X ) 1 A ) 1 (Aˆβ c), jossajälkimmäinenyhtälöseuraarajoitetunpns-estimaattorinˆβ H lausekkeesta(28) suorallalaskulla KoskaS 2 =(n p) 1 S(ˆβ),voidaannäinollenkirjoittaa F = (S(ˆβ H ) S(ˆβ))/q S(ˆβ)/(n p) H F q,n p Tämän perusteella testisuure F asettaa nollahypoteesin epäilyksen alaiseksi, jos rajoitettu residuaalineliösumma S(ˆβ H ) =(Y Xˆβ H ) (Y Xˆβ H ) on kohtuuttoman paljon suurempikuinvapaaresiduaalineliösummas(ˆβ)=(y Xˆβ) (Y Xˆβ)Tämä on residuaalien tulkinta huomioon ottaen luonnollista Tarkasteltavasta tapauksesta riippuu kumpi edellä esitetyistä kahdesta testisuureen lausekkeesta on kätevämpi (Sovelluksissa tietokoneohjelma tietysti laskee testisuureen arvon automaattisesti) Edellä johdetusta tuloksesta voidaan myös päätellä, että F-testi on identtinen uskottavuusosamäärän testin kanssa Koska ˆσ 2 =n 1 S(ˆβ) ja ˆσ 2 H =n 1 S(ˆβ H ), on uskottavuusosamäärän testisuure [ ] r(y) = 2 l(ˆβ,ˆσ 2 ;y) l(ˆβ H,ˆσ 2 H;y) [ n = 2 2 logˆσ2 H +n 2 n 2 logˆσ2 n ( ) 2] (S(ˆβ = nlog H ) S(ˆβ)) +1 S(ˆβ) ( ) q = nlog n p F+1 Testisuure r(y) on siis monotoninen funktio F-testisuureesta, joten molemmat testisuureet määrittelevät saman testin Ilman perustelua mainitaan, että myös Raon testisuure ja F-testisuure määrittelevät saman testin 32 F-testin erikoistapauksia Sovelletaan nyt edellä johdettua F-testiä kahteen erikoistapaukseen Ensimmäisessä malli perustuu yhtälöön Y i =β 1 +β 2 x i2 + +β p x ip +ε i,,,n, jossa ns yleistesti koskee nollahypoteesia H:β 2 = =β p =0 eli [0 I p 1 ]β=0 Tämän nollahypoteesin voimassa ollessa kaikki selittäjät vakiota lukuun ottamatta ovat turhia Tässä tapauksessa testi on kätevää esittää käyttäen F-testisuureen residuaalineliösummaesitystä KoskanollahypoteesinvoimassaollessaY N ( β 1 1 n,σ 2 I n ), 19

22 saadaan rajoitetuksi PNS-estimaattoriksi ˆβ H = [ Ȳ 0 0 ] (Ȳ =n 1 n Y i), joten S(ˆβ H )= ( Y Ȳ1 n ) ( Y Ȳ1n ) =Y Y nȳ 2 Vapaa residuaalineliösumma voidaan(halutessa) kirjoittaa(ks (23), s 9) Testisuureeksi saadaan siis S(ˆβ)=(Y Xˆβ) (Y Xˆβ)=Y Y ˆβ X Y F = (ˆβ X Y nȳ2 )/(p 1) (Y Y ˆβ X Y)/(n p) H F p 1,n p Yksittäistä selittäjää koskevassa testissä nollahypoteesina on H j :β j =0, 1 j p (Tässä ei välttämättä ole enää x i1 = 1, i = 1,,n) Tämä nollahypoteesi merkitsee, että muiden selittäjien ollessa mallissa tutkitaan onko selittäjän x j lisääminen tarpeen Testattaessa oletetaansiis, että muutkertoimetβ k,k j,saavatpoiketa nollasta Merkitään ˆβ=[ˆβ 1 ˆβ p ] ja [ (X X) 1 =M 1 = m ab], a,b=1,,p Valitsemalla A=[ ], jossa ykkönen on j komponentti, ja c=0 nähdään, että nollahypoteesi on vaadittua lineaarista muotoa ja että Aˆβ c= ˆβ j sekä (Aˆβ c) (A ( X X ) 1 A ) 1 (Aˆβ c)=ˆβ 2 j/m jj F-testisuureen ensimmäisestä lausekkeesta saadaan näin ollen F =ˆβ 2 j /S2 m jj H F1,n p, jossajälleens 2 =(n p) 1 (Y Xˆβ) (Y Xˆβ) Jos Z N(0,1) ja Z χ 2 k, niin tunnetusti T 1 k = Z/ k χ2 k t k (t-jakauma vapausasteink)jatk 2 F 1,kNollahypoteesiavoidaansiistestatamyöstestisuureella T =t(y)=ˆβ j /s m jj H t n p Tämäntestin -arvotperustetaantulokseen =P Hj ( t(y) t(y))=p( T n p t(y)), jossa satunnaismuuttuja T n p t n p Tässä vaihtoehdon ajatellaan olevan kaksisuuntaineneliβ j 0Yksisuuntaisenvaihtoehdonβ j >0 [ taiβ j <0 ] tapauksessa -arvotlasketaankaavallap(t n p t(y))[taip(t n p t(y))] Käytännössä käytetään yleensä t-testisuuretta ja laaditaan esimerkiksi seuraavanlainen taulukko, jollaisen tietokoneohjelmat tulostavat automaattisesti (Taulukossa ˆβ j :nkeskivirhe= ˆβ j :nestimoituhajonta) 20

23 Parametri Estimaatti Keskivirhe t-suhde β 1 ˆβ1 s m 11 ˆβ 1 /s m 11 β p ˆβp s m pp ˆβ p /s m pp Toinen yleinen tapa esittää tulokset on kirjoittaa estimoitu malliyhtälö y i = ˆβ1 x i1 + + ˆβ p x ip + ˆε i, s 2 =, (se(ˆβ 1 )) (se(ˆβ p )) jossase(ˆβ j )onˆβ j :nkeskivirhe(standarderror) Keskivirheenpaikallanäkeekäytettävän myös t-suhdetta eikä havaintoyksikköä i välttämättä merkitä näkyviin Ontärkeäähuomata,ettätestattaessauseitahypoteesejaH j eivätkäytetyttestisuureet ole yleensä riippumattomia Tämä vaikeuttaa näin saatavan yhdistetyn testin -arvonlaskemistajasitenjohtopäätöstentekoa Kun mallissa on vakio (eli x i1 = 1, i = 1,,n), ei yksittäisiä hypoteeseja H j kannata ilmeisestikään tutkia, ellei yleishypoteesia β 2 = = β p = 0 ole hylätty (vakiotermiä ei yleensä testata tilastollisella testillä, vaan sen oletetaan olevan mallissa mukana; vrt selitysaste ja sen tulkinnat s 10) Yksittäisten testien riippuvuus saattaa kuitenkin aiheuttaa sen, että yleishypoteesi on hylättävä, vaikka kaikki yksittäiset hypoteesit jäävät voimaan JosjoitakinhypoteesejaH j eihylätä,niinvastaavatselittäjätovatmallissaturhia Selittäjienpoistamineneiolekuitenkaanyksiselitteistä, silläselittäjäänx j liittyvän t-suhteen saama arvo riippuu (yleensä) siitä mitä muita selittäjiä mallissa on Jos selittäjiä poistetaan t-suhteiden perusteella, voidaan siten päätyä eri malleihin riippuensiitä,missäjärjestyksessähypoteesejah j testataan Viimeksi tarkastellusta testistä saadaan erikoistapauksena testi hypoteesille µ = µ 0 riippumattoman normaalisen otoksen mallissa Y 1,,Y n, Y i N ( µ,σ 2), (µ R, σ 2 > 0) Koska tässä tapauksessa X = 1 n, A = 1 ja c = µ 0, saadaan X X=njaedelleent-testisuure n (Ȳ µ0 ) /S H tn 1, jossanyts 2 = 1 n 1 n ( Yi Ȳ ) 2 Tämäperusteleetilastollisenpäättelynkurssilla tähäntilanteeseenesitetyntestin HuomaatuloksenȲ S 2 merkitystestisuureen jakauman johtamisessa 21

24 4 Luottamusvälien ja -joukkojen muodostaminen 41 Luottamusvälit Kutenedellisessäjaksossakinoletetaan,ettäY N ( Xβ,σ 2 I n ) (r(x)=p) Tyypillisin esimerkki tämän jakson yleisestä otsikosta koskee luottamusvälien muodostamista parametrivektorin β yksittäisille komponentille β j (1 j p) Seuraavassa luottamusväli johdetaan hieman yleisemmin tarkastelemalla parametrivektorin β lineaarikombinaatiota a β = a 1 β 1 + +a p β p, jossa a (p 1) on tunnettu (nollasta poikkeava)vektori Valitsemallaa =[ ],jossaykkönenonjkomponentti,saadaana β=β j Seuraavassamuitatyypillisiäerikoistapauksia - a = [ x 1 x p], jolloin a β = β 1 x 1 + +β px p = Y:n odotusarvo, kun selittävillemuuttujilleannetaanarvotx 1,,x p - odotusarvojen erotus µ 1 µ 2 kahden riippumattoman normaalisen otoksen mallissaonmyöstyyppiäa βsamoinkuinvastaavaterotuksetµ j µ k (j k) eli ns kontrastit yleisemmässä yksisuuntaisessa varianssianalyysimallissa (ks jakso 13) Kuten tilastollisen päättelyn kurssilla todetaan, voidaan luottamusvälejä muodostaa testien avulla Tätä menettelyä käytetään seuraavassa Tarkastellaan ensin edellisessä jaksossa johdettua F-testiä nollahypoteesille H:a β=a β 0 a (β β 0 )=0, jossaβ 0 (p 1)ontunnettu Testisuureeksisaadaan(ks s 18) F =(ˆβ β 0 ) a(a ( X X ) 1 a) 1 a (ˆβ β 0 )/S 2 [ 2/S = a (ˆβ β 0 )] 2 a ( X X ) 1 a H F 1,n p, jossaaikaisempaantapaanˆβ=(x X) 1 X YjaS 2 =(n p) 1 (Y Xˆβ) (Y Xˆβ) KutenedellisessäjaksossatarkastellunhypoteesinH j tapauksessanähdään,ettäftestisuureen asemesta voidaan käyttää t-testisuuretta a ˆβ a β 0 H t n p S a (X X) 1 a Kunvaihtoehtonaona β a β 0,saadaankriittiseksialueeksimerkitsevyystasollaα ( C α a ) β 0 = y: a ˆβ a β 0 s a (X X) 1 a t n p(α/2), jossap( T n p >t n p (α/2))=αvastaavahyväksymisaluemuodostuuaineistoista, joille pätee t n p (α/2)< a ˆβ a β 0 <t n p (α/2) s a (X X) 1 a 22

25 tai yhtäpitävästi a ˆβ tn p (α/2)s a (X X) 1 a<a β 0 <a ˆβ+tn p (α/2)s a (X X) 1 a Tämä väli peittää lineaarikombinaation a β 0 jos ja vain jos y / C α (a β 0 ) Koska kaikillaβ 0 jaσ 2 pätee P β0,σ 2 ( Y / Cα ( a β 0 )) =Pβ0,σ 2( T n p <t n p (α/2))=1 α, onlineaarikombinaationa βluottamusväliluottamustasolla1 α a ˆβ±tn p (α/2)s a (X X) 1 a Huomaa,ettäVar(a ˆβ)=a Cov(ˆβ)a=σ 2 a (X X) 1 a(lause21(i)),jotenedellä s a (X X) 1 a on estimaattorin a ˆβ keskivirhe Jos erityisesti a β =β j, saadaan luottamusväli ˆβ j ±t n p (α/2)s m jj, [ jossam jj = (X X) 1] jj onmatriisin(x X) 1 j diagonaalialkio Tapauksessaa β=β 1 x 1 + +β px p onsyytähuomata,ettäkiinnostuksenkohteena on satunnaismuuttujan Y odotusarvo, kun selittäville muuttujille annetaan arvot x 1,,x p Jos tarkastellaan satunnaismuuttujaa Y = β 1 x 1 + +β px p+ε, jossa ε N ( 0,σ 2),ja halutaanennustaa sen arvoa, eiedellä esitettyämenettelyä soveltaensaadaoikeaaennusteenluottamusväliä,koskasatunnaismuuttujanε vaikutus ei tule huomioon otetuksi Tämän ongelman ratkaisu vaatii oman menettelynsä On myös syytä huomata, että edellä esitetty pätee vain yksittäisen lineaarikombinaationa β luottamusvälille Josluottamusvälitmuodostetaanuseallelineaarikombinaatiollea jβ, j =1,,k,niintodennäköisyys,ettäkaikkiluottamusvälitpeittäisivät samanaikaisesti vastaavien lineaarikombinaatioiden todelliset arvot ei ole 1 α Tämän toteamiseksi merkitään E j = { a j βsisältyyluottamusväliinsä} OlkoonEj ctämäntapahtumankomplementti(j=1,,k)josp(e j)=1 α j,niin ( ) (( ) c ) P k j=1 E j = 1 P k j=1 E j ( ) = 1 P k j=1 Ec j 1 = 1 k j=1 P ( Ej c ) k α j j=1 Joserityisestiα j =α,j=1,,k,niin ) P ( k j=1e j 1 kα 23

26 (vrt edellisenjaksonlopussatehtyhuomautusyksittäistent-testien -arvojenlaskemisesta) Valitsemallaα j =α/k voidaanluottamusvälitmuodostaakaikillelineaarikombinaatioillea jβkutenedelläesitettiin Luottamustasoaeikuitenkaansaadalasketuksi tarkasti, sillä edellä todetusta saadaan vain epäyhtälö ) P ( k j=1e j 1 k(α/k)=1 α, joka on yleensä aito Korvaamalla tämä epäyhtälö yhtälöllä saadaan ns Bonferronin t-välit Tämä on helppo ratkaisu usean samanaikaisen luottamusvälin muodostamisongelmalle, mutta johtaa hyvin leveisiin(epäinformatiivisiin) luottamusväleihin, jos k on suuri Muita ratkaisuja ovat ns suurimman absoluuttisen t-suhteen menetelmä ja Scheffen S-menetelmä 42 Luottamusjoukot Esimerkkinä luottamusjoukoista johdetaan luottamusjoukko parametrivektorille β kokonaisuudessaan LähtökohdaksiotetaantestinollahypoteesilleH :β=β 0,jossa β 0 on annettu p 1 vektori Valitsemalla A = I p ja c = β 0 nähdään, että tämä nollahypoteesi on tyyppiä Aβ = c F-testisuureeksi saadaan(ks s 18) F =(ˆβ β 0 ) X X(ˆβ β 0 )/ps 2 H Fp,n p, jossamerkinnätovatkutenaikaisemmin JosF p,n p (α)onreaaliluku,jokatoteuttaa P(F p,n p >F p,n p (α))=α,niinedellätodetunperusteellapäteekaikillaβ 0 jaσ 2 ) P β0,σ ((ˆβ β 2 0 ) X X(ˆβ β 0 )/ps 2 <F p,n p (α) =1 α Parametrivektorin β luottamusjoukko luottamustasolla 1 α on näin ollen { } β R p :(ˆβ β) X X(ˆβ β)/ps 2 <F p,n p (α) Sen rajoittama pinta on R p :n ellipsoidi, jonka keskipiste on ˆβ ja muodon määrää matriisi X X Tapauksessa p = 2 tilanne on oheisen kuvan kaltainen Jos p > 2, on luottamusellipsoidien hahmottaminen hankalaa Projektiot koordinaattiakseleille auttavat vain rajoitetusti, sillä esimerkiksi kuvan piste (75, 25) kuuluu yksiulotteisiin luottamusväleihin, mutta ei luottamusjoukkoon Tämä havainnollistaa myös sitä, mikä tekee useita parametrivektorin β komponentteja koskevien luottamusvälien tai t-testien muodostamisen hankalaksi 24

Lineaarinen malli. Pentti Saikkonen. Kevät Korjattu versio: Toukokuu 2011

Lineaarinen malli. Pentti Saikkonen. Kevät Korjattu versio: Toukokuu 2011 Lineaarinen malli Pentti Saikkonen Kevät 2007 Korjattu versio: Toukokuu 2011 Sisältö 1 Lineaarisen mallin määrittely 1 11 Yksinkertainen esimerkki 1 12 Yleinen lineaarinen malli 2 13 Lineaarisen mallin

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

2. Teoriaharjoitukset

2. Teoriaharjoitukset 2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

5.7 Uskottavuusfunktioon perustuvia testejä II

5.7 Uskottavuusfunktioon perustuvia testejä II 5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa

Lisätiedot

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen

Lisätiedot

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1 Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän

Lisätiedot

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa TKK (c) Ilkka Mellin (2007) 1 Erityiskysymyksiä yleisen lineaarisen

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET 16..015 1. a Poliisivoimien suuruuden lisäksi piirikuntien rikostilastoihin vaikuttaa monet muutkin tekijät. Esimerkiksi asukkaiden keskimääräinen

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

2. Uskottavuus ja informaatio

2. Uskottavuus ja informaatio 2. Uskottavuus ja informaatio Aluksi käsittelemme uskottavuus- ja log-uskottavuusfunktioita Seuraavaksi esittelemme suurimman uskottavuuden estimointimenetelmän Ensi viikolla perehdymme aiheeseen lisääkö

Lisätiedot

Harjoitus 9: Excel - Tilastollinen analyysi

Harjoitus 9: Excel - Tilastollinen analyysi Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

6.1.2 Luottamusjoukon määritelmä

6.1.2 Luottamusjoukon määritelmä 6.1.1 Johdanto Olemme tarkastelleet piste-estimointia: tavoitteemme oli etsiä tunnuslukuja t, joilla piste t(y) hyvä arvio mallin parametrille θ (tai sen muunnokselle g(θ)). Pelkän piste-estimaatin esittäminen

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: 4. Tyhjentyvyys Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: Voidaanko päätelmät perustaa johonkin tunnuslukuun t = t(y) koko aineiston y sijasta? Mitä

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61 3.3. Satunnaismuuttujien ominaisuuksia 61 Odotusarvo Määritelmä 3.5 (Odotusarvo) Olkoon X diskreetti satunnaismuuttuja, jonka arvojoukko on S ja todennäköisyysfunktio f X (x). Silloin X:n odotusarvo on

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1, Todennäköisyyslaskenta, 2. kurssikoe 7.2.22 Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu.. Satunnaismuuttujien X ja Y yhteistiheysfunktio on

Lisätiedot

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Tilastollinen päättely II, kevät 2017 Harjoitus 2A Tilastollinen päättely II, kevät 07 Harjoitus A Heikki Korpela 3. tammikuuta 07 Tehtävä. (Monisteen tehtävä.3 Olkoot Y,..., Y n Exp(λ. Kirjoita vastaava tilastollisen mallin lauseke (ytf. Muodosta sitten

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

9. laskuharjoituskierros, vko 12-13, ratkaisut

9. laskuharjoituskierros, vko 12-13, ratkaisut 9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾. 24.11.2006 1. Oletetaan, että kaksiulotteinen satunnaismuuttuja µ noudattaa kaksiulotteista normaalijakaumaa. Oletetaan lisäksi, että satunnaismuuttujan regressiofunktio satunnaismuuttujan suhteen on ݵ

Lisätiedot

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1 Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

10 Moniulotteinen normaalijakauma

10 Moniulotteinen normaalijakauma 10 Moniulotteinen normaalijakauma Tässä luvussa tarkastellaan normaalijakauman moniulotteista yleistystä eli moniulotteista (eli monimuuttujaista) normaalijakaumaa (engl. multivariate normal distribution).

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Ominaisvektoreiden lineaarinen riippumattomuus

Ominaisvektoreiden lineaarinen riippumattomuus Ominaisvektoreiden lineaarinen riippumattomuus Lause 17 Oletetaan, että A on n n -matriisi. Oletetaan, että λ 1,..., λ m ovat matriisin A eri ominaisarvoja, ja oletetaan, että v 1,..., v m ovat jotkin

Lisätiedot

Maximum likelihood-estimointi Alkeet

Maximum likelihood-estimointi Alkeet Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X

Lisätiedot

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus 1 / 51 Lineaarikombinaatio Johdattelua seuraavaan asiaan (ei tarkkoja määritelmiä): Millaisen kuvan muodostaa joukko {λv λ R, v R 3 }? Millaisen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

Matematiikan tukikurssi

Matematiikan tukikurssi Matematiikan tukikurssi Kurssikerta 9 1 Implisiittinen derivointi Tarkastellaan nyt yhtälöä F(x, y) = c, jossa x ja y ovat muuttujia ja c on vakio Esimerkki tällaisesta yhtälöstä on x 2 y 5 + 5xy = 14

Lisätiedot

H 0 : R = b; jossa R (q dim ()) ja b (q 1) ovat tunnettuja ja r (R) = q. 2 J () =

H 0 : R = b; jossa R (q dim ()) ja b (q 1) ovat tunnettuja ja r (R) = q. 2 J () = Edellä esitetty voidaan yleistää tapaukseen, jossa yi matriisi toteuttaa lineaarisia rajoitteita. Jos rajoitteet koskevat parametrivektoria a on tilanne suoraviivainen. Tällöin voidaan tarkastella rajoitteita

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin 3 Yleistä estimointiteoriaa Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin 3.1 Johdanto Tähän mennessä olemme tarkastelleet estimointia

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Yleinen lineaarinen malli

Yleinen lineaarinen malli MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2015 Viikko 1: 1 Määritelmä ja standardioletukset 2

Lisätiedot

Luento 9: Yhtälörajoitukset optimoinnissa

Luento 9: Yhtälörajoitukset optimoinnissa Luento 9: Yhtälörajoitukset optimoinnissa Lagrangen kerroin Oletetaan aluksi, että f, g : R R. Merkitään (x 1, x ) := (x, y) ja johdetaan Lagrangen kerroin λ tehtävälle min f(x, y) s.t. g(x, y) = 0 Olkoon

Lisätiedot

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B Tilastollinen päättömyys, kevät 7 Harjoitus 6B Heikki Korpela 8. helmikuuta 7 Tehtävä. Monisteen teht. 6... Olkoot Y,..., Y 5 Nµ, σ, ja merkitään S 5 i Y i Y /4. Näytä, että S/σ on saranasuure eli sen

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

7 Vapaus. 7.1 Vapauden määritelmä

7 Vapaus. 7.1 Vapauden määritelmä 7 Vapaus Kuten edellisen luvun lopussa mainittiin, seuraavaksi pyritään ratkaisemaan, onko annetussa aliavaruuden virittäjäjoukossa tarpeettomia vektoreita Jos tällaisia ei ole, virittäjäjoukkoa kutsutaan

Lisätiedot

1. Tutkitaan tavallista kahden selittäjän regressiomallia

1. Tutkitaan tavallista kahden selittäjän regressiomallia TA7, Ekonometrian johdantokurssi HARJOITUS 5 RATKAISUEHDOTUKSET 232215 1 Tutkitaan tavallista kahden selittäjän regressiomallia Y i = β + β 1 X 1,i + β 2 X 2,i + u i (a) Kirjoita regressiomalli muodossa

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Inversio-ongelmien laskennallinen peruskurssi Luento 2 Inversio-ongelmien laskennallinen peruskurssi Luento 2 Kevät 2012 1 Lineaarinen inversio-ongelma Määritelmä 1.1. Yleinen (reaaliarvoinen) lineaarinen inversio-ongelma voidaan esittää muodossa m = Ax +

Lisätiedot

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos: 8 Kanta Tässä luvussa tarkastellaan aliavaruuden virittäjävektoreita, jotka muodostavat lineaarisesti riippumattoman jonon. Merkintöjen helpottamiseksi oletetaan luvussa koko ajan, että W on vektoreiden

Lisätiedot

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on

Vektorien pistetulo on aina reaaliluku. Esimerkiksi vektorien v = (3, 2, 0) ja w = (1, 2, 3) pistetulo on 13 Pistetulo Avaruuksissa R 2 ja R 3 on totuttu puhumaan vektorien pituuksista ja vektoreiden välisistä kulmista. Kuten tavallista, näiden käsitteiden yleistäminen korkeampiulotteisiin avaruuksiin ei onnistu

Lisätiedot

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin 3 Yleistä estimointiteoriaa Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin 3.1 Johdanto Tähän mennessä olemme tarkastelleet estimointia

Lisätiedot

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

MS-A0003/A Matriisilaskenta Laskuharjoitus 6 MS-A3/A - Matriisilaskenta Laskuharjoitus 6 Ratkaisuehdotelmia. Diagonalisointi on hajotelma A SΛS, jossa diagonaalimatriisi Λ sisältää matriisin A ominaisarvot ja matriisin S sarakkeet ovat näitä ominaisarvoja

Lisätiedot

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat: Mat-.9 Sovellettu todennäköisyyslasku A Mat-.9 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Moniulotteiset jakaumat Diskreetti jakauma, Ehdollinen jakauma, Ehdollinen odotusarvo, Jatkuva

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus TKK (c) Ilkka Mellin (2007) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset

Lisätiedot

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen Yhden faktorin malli: n kpl sijoituskohteita, joiden tuotot ovat r i, i =, 2,..., n. Olkoon f satunnaismuuttuja ja oletetaan, että tuotot voidaan selittää yhtälön r i = a i + b i f + e i avulla, missä

Lisätiedot

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35 Numeeriset menetelmät TIEA381 Luento 8 Kirsi Valjus Jyväskylän yliopisto Luento 8 () Numeeriset menetelmät 11.4.2013 1 / 35 Luennon 8 sisältö Interpolointi ja approksimointi Funktion approksimointi Tasainen

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä TKK (c) Ilkka Mellin (2007) 1 Suurimman uskottavuuden menetelmä >> Suurimman uskottavuuden estimointimenetelmä Tarkentuvuus Asymptoottinen

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Testit järjestysasteikollisille muuttujille

Testit järjestysasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit järjestysasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit järjestysasteikollisille muuttujille >> Järjestysasteikollisten

Lisätiedot

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 017 Harjoitus 5 Ratkaisuehdotuksia Tehtäväsarja I 1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X

Lisätiedot