TKK (c) Ilkka Melli (004) Regressiomalli valita Eälieaariste riiuvuuksie liearisoiti Johdatus tilastotieteesee Regressiomalli valita TKK (c) Ilkka Melli (004) Regressiomalli valita: Mitä oimme? Tässä luvussa tarkastellaa seuraavia kysymyksiä: (i) Mite regressiomallii valitaa selittäät? (ii) Missä tilateissa a mite eälieaarie regressiomalli voidaa liearisoida ii, että tuloksea sytyyt trasformoitu malli voidaa estimoida tavaomaisee lieaarise mallii yhteydessä käytettävällä tekiikalla? Selittäie valitaogelmaa esitetää kaksi ratkaisua: (i) Mallivalitatestie a askellusstrategioitte käyttö. (ii) Mallivalitakriteereide käyttö. Regressiomalli valita: Esitiedot Esitiedot: ks. seuraavia lukua: Yleie lieaarie malli Moiulotteiset satuaismuuttuat a todeäköisyysakaumat Moiulotteisia todeäköisyysakaumia TKK (c) Ilkka Melli (004) 3 TKK (c) Ilkka Melli (004) 4 Regressiomalli valita: Lisätiedot Yleise lieaarise malli soveltamise erityiskysymyksiä käsitellää myös luvuissa Regressiodiagostiikka Regressioaalyysi erityiskysymyksiä Regressiomalli valita >> Eälieaariste riiuvuuksie liearisoiti TKK (c) Ilkka Melli (004) 5 TKK (c) Ilkka Melli (004) 6
TKK (c) Ilkka Melli (004) 7 Regressiomalli selittäie valita Avaisaat Harhaisuus Harhattomuus Malli valita Mallivalitakriteerit Puuttuvat selittäät Selittäie valita Selittääkadidaatti Tehokkuus Yleie lieaarie malli Estimoiti Sesifioiti Stadardioletukset Regressiomalli selittäiksi o usei tarolla oukko selittääkadidaattea tai -ehdokkaita a tilastollise aalyysi tehtävää o löytää kadidaattie oukosta oikeat tai arhaat mahdolliset. Selittäie valitaa regressiomalli kutsutaa tavallisesti malli valiaksi, vaikka oikeastaa kaikki mikä liittyy malli rakeeosa a ääöstermi sesifikaatioide valitaa o malli valitaa. TKK (c) Ilkka Melli (004) 8 Yleie lieaarie malli: Määritelmä Olkoo y = β0 + βx+ βx + + βkxk + ε, =,,, yleie lieaarie malli, ossa y = selitettävä muuttua y satuaie a havaittu arvo havaitoyksikössä x i = selittävä muuttua eli selittää x i havaittu arvo havaitoyksikössä, i =,,, k β 0 = vakioselittää tutemato regressiokerroi β i = selittää x i tutemato regressiokerroi ε = satuaie a ei-havaittu ääös- eli virhetermi havaitoyksikössä Yleie lieaarie malli: Matriisiesitys Yleise lieaarise malli matriisiesitys o muotoa y = Xβ + ε ossa y = selitettävä muuttua y havaittue arvoe muodostama satuaie -vektori X = selittäie x, x,, x k havaittue arvoe a ykköste muodostama (k + )-matriisi β = regressiokertoimie muodostama tutemato a kiiteä eli ei-satuaie (k + )-vektori ε = ääöstermie muodostama ei-havaittu a satuaie -vektori TKK (c) Ilkka Melli (004) 9 TKK (c) Ilkka Melli (004) 0 Yleie lieaarie malli: Stadardioletukset kiiteille selittäille Jos yleise lieaarise malli y = Xβ + ε selittäät x, x,, x k ovat kiiteitä eli ei-satuaisia muuttuia, mallia koskevat stadardioletukset voidaa esittää matriisei seuraavassa muodossa: (i) Matriisi X alkiot ovat ei-satuaisia vakioita. (ii) Matriisi X o täysiasteie: r(x) = k + (iii) E(ε) = 0 (iv)&(v) Homoskedastisuus- a korreloimattomuusoletus: Cov(ε) = σ I (vi) Normaalisuusoletus: ε N (0, σ I) Yleie lieaarie malli: Stadardioletukset satuaisille selittäille Jos yleise lieaarise malli y = Xβ + ε selittäät x, x,, x k ovat satuaismuuttuia, mallia koskevat stadardioletukset voidaa esittää matriisei seuraavassa muodossa: (i) Matriisi X alkiot ovat satuaismuuttuia. (ii) Matriisi X o täysiasteie: r(x) = k + (iii) E(ε X) = 0 (iv) &(v) Homoskedastisuus a korreloimattomuusoletus: Cov(ε X) = σ I (vi) Normaalisuusoletus: (ε X) N (0, σ I) TKK (c) Ilkka Melli (004) TKK (c) Ilkka Melli (004)
TKK (c) Ilkka Melli (004) 3 Yleie lieaarie malli: Rakeeosa a ääösosa Yleisessä lieaarisessa mallissa y = Xβ + ε selitettävä muuttua arvoe vektori y o esitetty kahde osatekiä summaa. Malli systemaattie eli rakeeosa E( yx) = Xβ riiuu selittäie havaituista arvoista. Jääöstermi ε muodostaa malli satuaise osa, oka ei riiu selittäie havaituista arvoista. Yleie lieaarie malli: Regressiokertoimie PNS-estimaattorit / Yleise lieaarise malli y = β0 + βx+ βx + + βkxk + ε, =,,, regressiokertoimie β 0, β, β,, β k PNS- eli ieimmä eliösumma estimaattorit b 0, b, b,, b k miimoivat ääös- eli virhetermie ε eliösumma ε = ( y β0 βx βx βkxk) = = kertoimie β 0, β, β,, β k suhtee. TKK (c) Ilkka Melli (004) 4 Yleie lieaarie malli: Regressiokertoimie PNS-estimaattorit / Yleise lieaarise malli y = Xβ + ε regressiokertoimie vektori β = (β 0, β, β,, β k ) PNS-estimaattori voidaa esittää matriisei muodossa b= ( XX ) Xy Yleie lieaarie malli: PNS-estimaattoreide omiaisuudet Yleise lieaarise malli y = Xβ + ε regressiokertoimie vektori β PNS-estimaattorilla b= ( XX ) Xy o stadardioletuksie (i)-(vi) ätiessä seuraavat stokastiset omiaisuudet: E( b) = β Cov( b) = σ ( XX ) b N ( β, σ ( XX ) ) k+ TKK (c) Ilkka Melli (004) 5 TKK (c) Ilkka Melli (004) 6 Yleie lieaarie malli: Sovitteet a residuaalit / Olkoo b = (b 0, b, b,, b k ) regressiokertoimie vektori β = (β 0, β, β,, β k ) PNS-estimaattori. Määritellää estimoidu malli sovitteet yˆ kaavalla yˆ = b0 + bx + bx + + b k x k, =,,, Määritellää estimoidu malli residuaalit e kaavalla e = y yˆ = y b bx b x b x, =,,, 0 k k Yleie lieaarie malli: Sovitteet a residuaalit / Sovitteide muodostama -vektori voidaa esittää matriisei muodossa yˆ = Xb = X( X X) X y = Py Residuaalie muodostama -vektori voidaa esittää matriisei muodossa e = y yˆ = ( I X( XX ) X ) y = ( I P) y = My TKK (c) Ilkka Melli (004) 7 TKK (c) Ilkka Melli (004) 8
TKK (c) Ilkka Melli (004) 9 Sovitteide a residuaalie omiaisuudet Jääösvariassi estimoiti Sovitteide a residuaalie muodostamilla vektoreilla o seuraavat stokastiset omiaisuudet: Sovitteide muodostama vektori ŷ : E( yˆ ) = Xβ Cov( yˆ ) = σ P = σ X( XX ) X Residuaalie muodostama vektori e : E( e) = 0 Cov( e) = σ M = σ ( I P) = σ ( I X( XX ) X ) Huomautus: Residuaalit e ovat (lievästi) korreloitueita, vaikka ääöstermit ε o oletettu korreloimattomiksi. Jos yleise lieaarise malli ääös- eli virhetermeä ε koskevat stadardioletukset (i)-(v) ätevät, ääösvariassi Var(ε ) = σ harhato estimaattori o s = e k = ossa e = estimoidu malli residuaali, =,,, = havaitoe lukumäärä k = (aitoe) selittäie x i lukumäärä TKK (c) Ilkka Melli (004) 0 Yleie lieaarie malli: Malli sesifioiti Lieaarise malli y = Xβ + ε muotoilua a siitä tehtävie oletuste valitaa kutsutaa malli sesifioiiksi eli täsmetämiseksi. Oikea sesifikaatio löytämie malli systemaattiselle osalle eli rakeeosalle E( yx) = Xβ o regressioaalyysi äätehtävä, koska uuri malli rakeeosa kuvaa selitettävä muuttua y riiuvuutta selittäistä x, x,, x k. Yleie lieaarie malli: Malli rakeeosa sesifioiti / Lieaariste regressiomallie estimoitia, testausta a eustamista koskevat tulokset edellyttävät, että malli rakeeosa o oikei sesifioitu. Virheet regressiomalli rakeeosa sesifioiissa ohtavat virheellisii ohtoäätöksii selitettävä muuttua a selittäie välisestä riiuvuudesta. Ku regressiomalli rakeeosalle etsitää oikeata sesifikaatiota, keskeie ogelma o löytää mallii oikeat selittäät. TKK (c) Ilkka Melli (004) TKK (c) Ilkka Melli (004) Miksi oikeide selittäie löytämie o tärkeätä? Miksi oikea selittäie löytämie o vaikeata? Jos regressiomallista uuttuu siihe kuuluvia selittäiä, malli regressiokertoimie PNS-estimaattorit ovat (yleesä) harhaisia. Jos regressiomallissa o turhia selittäiä, malli regressiokertoimie PNS-estimaattorit ovat (yleesä) tehottomia, mikä merkitsee sitä, että kertoimie variassit ovat tareettoma suuria. Huomautus: Estimaattori harhaisuus o alo vakavami ogelma kui estimaattori tehottomuus. Hyvä regressiomalli ääöseliösumma o iei (selitysaste o korkea), mutta mikä tahasa selittää lisäämie mallii yleesä ieetää ääöseliösummaa (kasvattaa selitysastetta). Hyvä regressiomalli kaikki selittäät ovat tilastollisesti merkitseviä, mutta mikä tahasa selittää oistamie mallista tai lisäämie mallii saattaa muuttaa mallii äävie tai siellä o olevie selittäie tilastollista merkitsevyyttä. TKK (c) Ilkka Melli (004) 3 TKK (c) Ilkka Melli (004) 4
TKK (c) Ilkka Melli (004) 5 Puuttuvie selittäie ogelma /3 Puuttuvie selittäie ogelma /3 Olkoo oikea malli selittävälle muuttualle y muotoa () y = Xβ + Xβ+ ε Oletetaa, että estimoimme regressiokertoimie vektori β väärästä mallista () y = Xβ + δ osta siis uuttuu osa oikea malli () selittäistä. Koska väärästä mallista () uuttuu osa oikea malli () selittäistä, väärä malli () ääöstermi o muotoa δ = Xβ + ε Olkoo kerroivektori β PNS-estimaattori väärästä mallista () b = ( X X) X y Estimaattori b o (yleesä) harhaie (ks. seuraava kalvo). Estimaattori b lauseke voidaa esittää muodossa b = ( X X) X y = ( XX ) X ( Xβ + Xβ + ε) = β+ ( XX ) XXβ + ( XX ) XXε Estimaattori b o yleesä harhaie: E( b) = β+ ( XX ) XXβ β ellei ehto ( XX ) XXβ = 0 äde. Tämä ehto voi käytäössä toteutua vai kahdella tavalla: β = 0 tai XX = 0 TKK (c) Ilkka Melli (004) 6 Puuttuvie selittäie ogelma 3/3 Ratkaisua malli valitaa Jos β = 0 selitettävä muuttua y havaitut arvot eivät riiu lieaarisesti matriisii X liittyvistä selittäistä a regressiokertoimie vektori β voidaa siis estimoida harhattomasti mallista (). Jos XX = 0 matriisi X sarakkeet ovat kohtisuorassa matriisi X sarakkeita vastaa a regressiokertoimie vektori β voidaa estimoida harhattomasti mallista (). Huomautus: Edellise erusteella vektori β komoetit voidaa ortogoaaliste selittäie taauksessa estimoida harhattomasti yhde selittää regressiomalleista. TKK (c) Ilkka Melli (004) 7 Regressiomalli selittäie valitaa o tarolla kaksi erilaista meetelmää: (i) Mallivalitatesteä käytettäessä mallii yritää valitsemaa otaki testausstrategiaa käyttäe kaikki tilastollisesti merkitsevät selittäät. (ii) Mallivalitakriteereitä käytettäessä mallii valitaa selittäiksi kaikkie tarolla olevie selittäie oukosta sellaie osaoukko, oka otimoi käytety kriteerifuktio arvo. TKK (c) Ilkka Melli (004) 8 Regressiomalli valita >> Eälieaariste riiuvuuksie liearisoiti Avaisaat Askellus alasäi Askeltava regressio Lähtömalli Selittää lisäämie Selittää oistamie t-testi TKK (c) Ilkka Melli (004) 9 TKK (c) Ilkka Melli (004) 30
TKK (c) Ilkka Melli (004) 3 Mallivalitatestie idea / Mallivalitatestie idea / Hyvässä regressiomallissa kaikki regressiokertoimet ovat tilastollisesti merkitseviä. Regressiokertoime β i merkitsevyyttä testataa tilastollisesti testaamalla ollahyoteesia H 0 : β i = 0 Jos ollahyoteesi H 0 ää voimaa, selitettävä muuttua ei riiu lieaarisesti kerroita β i vastaavasta selittäästä. Jos ollahyoteesi H 0 hylätää testissä, selitettävä muuttua riiuu lieaarisesti kerroita β i vastaavasta selittäästä, olloi saotaa, että regressiokerroi β i a sitä vastaava selittää ovat tilastollisesti merkitseviä. Selittää merkitsevyyttä testaavia tilastollisia testeä kutsutaa mallivaliassa mallivalitatesteiksi. Regressiokertoime tilastollista merkitsevyyttä testataa tavallisesti tavaomaisella t-testillä. Ku mallivaliassa käytetää mallivalitatesteä, tavoitteea o ottaa mallii mukaa kaikki tilastollisesti merkitsevät selittäät a sulkea malli ulkouolelle kaikki tilastollisesti ei-merkitsevät selittäät. Mallivalitatesteä käytettäessä muodostetaa tavallisesti esi lähtömalli, oho tilastollisesti merkitsevät selittäät yritää lisäämää a osta ei-merkitsevät yritää oistamaa. TKK (c) Ilkka Melli (004) 3 Mallivalitatestie soveltamise erusogelma Selittää oistamise vaikutukset Tilastollisesti merkitsevie selittäie lisäämie mallii a ei-merkitsevie selittäie oistamie mallista mallivalitatestie erusteella ei kuitekaa ole ogelmatota, koska selittää tilastollisee merkitsevyytee vaikuttaa yleesä se, mitä muita selittäiä mallissa o testaushetkellä. Site testie suoritusärestys saattaa vaikuttaa siihe, mikä malli tulee valituksi. Ku mallista oistetaa tilastollisesti ei-merkitseviä selittäiä kohdataa usei seuraavat ogelmat: (i) Ei-merkitseviä selittäiä oistettaessa oistamisärestys saattaa vaikuttaa loutuloksee. (ii) Selittää oistamie mallista saattaa muuttaa aikaisemmi ei-merkitsevää oistetu selittääkadidaati merkitseväksi, os se otettaisii takaisi mallii. TKK (c) Ilkka Melli (004) 33 TKK (c) Ilkka Melli (004) 34 Selittää lisäämise vaikutukset a askellusstrategiat Ku mallii lisätää tilastollisesti merkitseviä selittäiä kohdataa usei seuraavat ogelmat: (i) Merkitseviä selittäiä lisättäessä lisäämisärestys saattaa vaikuttaa loutuloksee. (ii) Selittää lisäämie mallii saattaa muuttaa mallissa oleva, ee uude selittää lisäämistä merkitsevä selittää ei-merkitseväksi. Mallivalitatestie soveltamise ogelmat ovat ohtaeet erilaiste askellusstrategioide kehittämisee. Tässä esitellää strategiaa: (i) Askellus alasäi (ii) Askeltava regressio Huomautus: Eri strategiat saattavat ohtaa eri malleihi! TKK (c) Ilkka Melli (004) 35 TKK (c) Ilkka Melli (004) 36
TKK (c) Ilkka Melli (004) 37 Askellus alasäi / Askellus alasäi / Alasäi askelluksessa käytettävä mallivalitastrategia: () Otetaa lähtömallii mukaa kaikki selittääkadidaatit. () Valitaa mallivalitatesteissä käytettävä merkitsevyystaso Out. Alasäi askelluksessa käytettävä mallivalitastrategia: Askel muodostuu vaiheista (3)-(7). (3) Estimoidaa malli iillä selittäillä, otka ovat mallissa. (4) Testataa merkitsevyystasoa Out käyttäe kaikkie mallissa olevie selittäie tilastollista merkitsevyyttä. (5) Jos kaikki mallissa olevat selittäät ovat tilastollisesti merkitseviä, malli o valmis. (6) Poistetaa malli ei-merkitsevistä selittäistä se, ota vastaava -arvo o suuri. (7) Palataa vaiheesee (3). TKK (c) Ilkka Melli (004) 38 Askellus alasäi: Kommettea Vaihe (3) eli malli estimoiti uudellee o välttämätö oka askeleessa. Tämä ohtuu siitä, että lukuu ottamatta ortogoaaliste selittäie taausta estimoititulokset yleesä muuttuvat oka askeleessa. Askeltava regressio /4 Askeltavassa regressiossa käytettävä mallivalitastrategia: () Muodostetaa lähtömalli. () Valitaa kaksi mallivalitatesteissä käytettävää merkitsevyystasoa I a Out. TKK (c) Ilkka Melli (004) 39 TKK (c) Ilkka Melli (004) 40 Askeltava regressio /4 Askeltava regressio 3/4 Askeltavassa regressiossa käytettävä mallivalitastrategia: Askel muodostuu vaiheista (3)-(9). (3) Estimoidaa malli iillä selittäillä, otka ovat mallissa. (4) Testataa vuorotelle merkitsevyystasoa I käyttäe kaikkie ko. askeleessa malli ulkouolella olevie selittääkadidaattie tilastollista merkitsevyyttä mallii lisättyiä. (5) Testataa merkitsevyystasoa Out käyttäe kaikkie mallissa olevie selittäie tilastollista merkitsevyyttä. Askeltavassa regressiossa käytettävä mallivalitastrategia: Askel muodostuu vaiheista (3)-(9). (6) Jos mallii liitettyä tilastollisesti merkitseviä selittääkadidaattea löytyy, lisätää mallii kadidaateista se, ota vastaava -arvo o iei. (7) Jos mallissa o tilastollisesti ei-merkityksellisiä selittäiä, oistetaa iistä se, ota vastaava -arvo o suuri. TKK (c) Ilkka Melli (004) 4 TKK (c) Ilkka Melli (004) 4
TKK (c) Ilkka Melli (004) 43 Askeltava regressio 4/4 Askeltavassa regressiossa käytettävä mallivalitastrategia: Askel muodostuu vaiheista (3)-(9). (8) Jos mallii ei voida liittää uusia selittäiä eikä siitä oistaa yhtää siiä olevaa selittäää, malli o valmis. (9) Palataa vaiheesee (3). Askellus alasäi: Kommettea Vaihe (3) eli malli estimoiti uudellee o välttämätö oka askeleessa. Tämä ohtuu siitä, että lukuu ottamatta ortogoaaliste selittäie taausta estimoititulokset yleesä muuttuvat oka askeleessa. TKK (c) Ilkka Melli (004) 44 Regressiomalli valita >> Eälieaariste riiuvuuksie liearisoiti Avaisaat Jääöseliösumma Akaike kriteeri Jääösvariassikriteeri Korattu selitysaste Mallowsi kriteeri Schwarzi kriteeri Pricile of Parsimoy Selitysaste Sakkofuktio TKK (c) Ilkka Melli (004) 45 TKK (c) Ilkka Melli (004) 46 Mallivalitakriteereide idea /3 Mallivalitakriteereide idea /3 Hyvä regressiomalli ääöseliösumma o iei tai mikä o sama asia selitysaste R o korkea. Saattaisi olla houkutteleva aatus valita tarolla olevista selittääkadidaateista mallii e, otka miimoivat ääöseliösumma (maksimoivat selitysastee). Jääöseliösumma miimoitia (selitysastee maksimoitia) ei kuitekaa voida käyttää malli valitaa: (i) Jääöseliösumma ieeee tai ei aiakaa kasva (selitysaste R kasvaa tai ei aiakaa ieee) aia, ku mallii lisätää selittää. (ii) Jääöseliösumma miimoiti (selitysastee maksimoiti) ohtaa aia kaikkie tarolla olevie selittäie valitaa. TKK (c) Ilkka Melli (004) 47 TKK (c) Ilkka Melli (004) 48
TKK (c) Ilkka Melli (004) 49 Mallivalitakriteereide idea 3/3 /3 Mallivalitakriteereissä ääöseliösummaa liitetää sakkofuktio, oka arvo riiuu estimoitavie regressiokertoimie lukumäärästä. Sakkofuktio kasvattaa kriteerifuktio arvoa, elleivät mallii lisätyt selittäät ieeä ääöseliösummaa tareeksi alo. Mallivalitakriteereitä voidaa itää tieteellise äättely keskeise eriaattee ricile of arsimoy kiteytyksiä tilastolliste mallie maailmaa. Pricile of arsimoy: Yksikertaie selitys tosiasioille o aia aremi kui moimutkaie selitys. Olkoo y = X β + ε lieaarie regressiomalli, ossa selittäie lukumäärä o (vakioselittää mukaa luettua) = k +. Olkoo b = ( X X) X y regressiokertoimie vektori β PNS-estimaattori a = ( y Xb )( y Xb ) vastaava ääöseliösumma. TKK (c) Ilkka Melli (004) 50 /3 3/3 voidaa tavallisesti esittää muodossa C(, ) = ˆ σ + f( ) ossa ˆ σ = o ääösvariassi σ suurimma uskottavuude (SU-) estimaattori mallista, ossa o selittäää a f() o ositiivie havaitoe a havaitoe lukumäärä fuktio. Kriteerifuktiolla C(, ) = ˆ σ + f( ) o seuraavat omiaisuudet: (i) Jääösvariassi σ SU-estimaattori σˆ arvo ieeee (tai ei aiakaa kasva), ku mallii lisätää selittää. (ii) Sakkofuktio f() arvo kasvaa, ku mallii lisätää selittää. Kriteerifuktio C(, ) arvo ieeee siis vai, os estimaattori σˆ ieeee tareeksi alo, ku mallii lisätää selittää. TKK (c) Ilkka Melli (004) 5 TKK (c) Ilkka Melli (004) 5 Mallivalitakriteereide käyttö malli valiassa Oletetaa, että tarolla olevia selittääkadidaattea o kaikkiaa q kaaletta. Mallivalitakriteereitä sovelletaa seuraavalla tavalla: (i) Määrätää kriteerifuktio arvo kaikille mahdollisille selittääkadidaattie yhdistelmille eli kaikille malleille, oissa o selittäää, ku =,,, q. (ii) Valitaa mallii selittäiksi se selittääkadidaattie yhdistelmä, oka otimoi kriteerifuktio arvo. Mallivalitakriteeri valitsemie / Kirallisuus tutee useita erilaisia mallivalitakriteereitä. Tässä esitellää 5 kriteeriä: (i) Jääösvariassikriteeri (ii) Korattu selityaste (iii) Mallowsi C (iv) Akaike iformaatiokriteeri AIC (v) Schwarzi Bayeslaie iformaatiokriteeri SBIC Teoreettisesti vahvimmat erustelut o esitetty C -, AICa SBIC-kriteereille Huomautus: Eri kriteerit saattavat ohtaa eri malleihi! TKK (c) Ilkka Melli (004) 53 TKK (c) Ilkka Melli (004) 54
TKK (c) Ilkka Melli (004) 55 Mallivalitakriteeri valitsemie / Voidaa osoittaa, että sekä ääösvariassikriteerillä, koratulla selitysasteella, Mallowsi C -kriteerillä, AICkriteerillä että SBIC-kriteerillä o seuraava hyvyysomiaisuus: Kriteerit tuottavat asymtoottisesti (havaitoe lukumäärä kasvaessa raatta) malli, oka o harhato siiä mielessä, että mallista ei ää ois mallii kuuluvia selittäiä. Tässä esiteltävistä kriteereistä kuiteki vai SBICkriteeri tuottaa asymtoottisesti (havaitoe lukumäärä kasvaessa raatta) malli, oka o tehokas siiä mielessä, että mallissa ei ole turhia selittäiä. Jääösvariassikriteeri / Jääöseliösummaa ei sellaiseaa voida käyttää malli valiassa, koska se ieeee (tai ei aiakaa kasva) aia, ku mallii lisätää selittäiä. Määritellää ääösvariassikriteeri s kaavalla ˆ σ s ˆ = = σ + ossa ˆ = σ = ( y Xβ )( y X β ) o ääöseliösumma mallista, ossa o q selittäää. TKK (c) Ilkka Melli (004) 56 Jääösvariassikriteeri / Jääösvariassikriteeri mukaa aras malli o se, oka miimoi kriteerifuktio ˆ σ s ˆ = = σ + arvo. Huomautus: Jääösvariassikriteeri s arvo saattaa kasvaa, elleivät mallii lisätyt selittäät ieeä estimoidu malli ääöseliösummaa tareeksi alo. Korattu selitysaste / Selitysastetta R ei sellaiseaa voi käyttää malli valiassa, koska se kasvaa (tai ei aiakaa ieee) aia, ku mallii lisätää selittäiä. Määritellää korattu selitysaste R kaavalla R = SST ossa = ( y Xb )( y Xb) o ääöseliösumma mallista, ossa o q selittäää a SST = ( ) s y o muuttua y vaihtelua kuvaava kokoaiseliösumma. TKK (c) Ilkka Melli (004) 57 TKK (c) Ilkka Melli (004) 58 Korattu selitysaste / Koratu selitysastee mukaa aras malli o se, oka maksimoi kriteerifuktio R = SST arvo. Huomautuksia: () Koratu selitysastee R arvo saattaa ieetyä, elleivät mallii lisätyt selittäät kasvata estimoidu malli selitysastetta tareeksi alo. () Koratu selitysastee R maksimoiti ohtaa samaa mallii kui ääösvariassikriteeri miimoiti. s Mallowsi C /3 Määritellää Mallowsi C -kriteeri kaavalla C = + sq ossa ˆ = σ = ( y Xβ )( y X β ) o ääöseliösumma mallista, ossa o q selittäää a ( q) s q = q missä q o kaikkie selittääkadidaattie lukumäärä. Mallowsi kriteeri mukaa aras malli o se, oka miimoi kriteerifuktio C arvo. TKK (c) Ilkka Melli (004) 59 TKK (c) Ilkka Melli (004) 60
TKK (c) Ilkka Melli (004) 6 Mallowsi C /3 Mallowsi C -kriteeristä tuetaa useita ekvivalettea muotoa. Määritellää kriteerifuktiot C a C kaavoilla C = + ( ) sq a s q C ˆ = σ + Kriteerifuktioide C, C, C miimoiti ohtaa täsmällee samaa mallii. Mallowsi C 3/3 b q Olkoo vektori β q estimaattori, oka erustuu q selittääkadidaattii, millä tarkoitetaa sitä, että e kertoimet, oita vastaavat selittäät o ätetty ois mallista, merkitää vektorissa b q olliksi. Mallowsi C -kriteeri o vektori β q estimaattori b q rediktiivise keskieliövirhee PMSE( bq) = E ( bq βq) XX q q( bq βq) aroksimatiivisesti harhato estimaattori eli E( C ) PMSE( bq) os malli y = X β + ε harha o iei. TKK (c) Ilkka Melli (004) 6 Akaike iformaatiokriteeri AIC / Määritellää Akaike iformaatiokriteeri AIC kaavalla ˆ σ AIC = ˆ σ + ossa ˆ σ = o ääösvariassi σ SU-estimaattori mallista, ossa o q selittäää. Aikaike iformaatiokriteeri mukaa aras malli o se, oka miimoi kriteerifuktio AIC arvo. Akaike iformaatiokriteeri AIC / Akaike iformaatiokriteeri o aroksimatiivisesti harhato estimaattori malli y = X β + ε s. Kullbacki a Leibleri iformaatiolle. TKK (c) Ilkka Melli (004) 63 TKK (c) Ilkka Melli (004) 64 Schwarzi kriteeri SBIC / Määritellää Schwarzi kriteeri SBIC kaavalla ˆ σ log( ) SBIC = ˆ σ + ossa ˆ σ = o ääösvariassi σ SU-estimaattori mallista, ossa o q selittäää. Schwarzi kriteeri mukaa aras malli o se, oka miimoi kriteerifuktio SBIC arvo. Schwarzi kriteeri SBIC / Schwarzi kriteeri maksimoi aroksimatiivisesti malli y = X β + ε osteriori-todeäköisyyde soivasti valitulle rioriakaumie erheelle. TKK (c) Ilkka Melli (004) 65 TKK (c) Ilkka Melli (004) 66
TKK (c) Ilkka Melli (004) 67 Kommettea malli valitaogelma tilastollisii ratkaisuihi / Malli valiassa käytettävät tilastolliset kriteerit: (i) Valittu malli selviää diagostisista tarkistuksista; ks. lukua Regressiodiagostiikka. (ii) Valitu malli arametrit ovat tilastollisesti merkitseviä; ks. kaaletta. Mallia ei idä kuitekaa koskaa valita elkästää tilastollisi kriteerei. Kommettea malli valitaogelma tilastollisii ratkaisuihi / Malli valiassa käytettävät asialoogiset kriteerit: (i) Ovatko malli arametrit tulkittavissa? (ii) Ovatko malli arametrit oikea merkkisiä a oikea kokoisia? (iii) Kuvaako malli todellisuutta mielekkäällä tavalla? Asialoogisia kriteereitä ei voida asettaa tilastotieteestä käsi. Vai tutkimukse kohteea oleva ilmiö tutemus a ilmiötä koskeva teoria mahdollistavat asialoogiste kriteerie asettamise. Malli itää aia alistaa asialoogisii tarkistuksii. TKK (c) Ilkka Melli (004) 68 Regressiomalli valita Eälieaariste riiuvuuksie liearisoiti >> Eälieaariste riiuvuuksie liearisoiti Avaisaat Eälieaarie tilastollie riiuvuus Lieaarie tilastollie riiuvuus Liearisoiti Liearisoivat muuokset TKK (c) Ilkka Melli (004) 69 TKK (c) Ilkka Melli (004) 70 Eälieaariste riiuvuuksie liearisoiti Regressiomalli liearisoiti /4 Eälieaariste riiuvuuksie liearisoiti Regressiomalli liearisoiti /4 Jos selitettävä muuttua y tilastollie riiuvuus selittäistä x, x,, x k o eälieaarie, riiuvuude aalysoiti vaatii yleesä eälieaarise regressiomalli raketamista. Eälieaariste regressiomallie käsittely sivuutetaa tässä. Joskus selitettävä muuttua y a selittävie muuttuie x, x,, x k välie eälieaarie tilastollie riiuvuus voidaa kuiteki liearisoida selitettävä muuttua a selittäie soivilla muuoksilla ii, että liearisoii tuloksea sytyyt trasformoitu malli toteuttaa yleise lieaarise malli stadardioletukset. Raoitumme tässä liearisoivie muuoste käytö kuvaamisee yhde selittää taauksessa. Olkoot y, =,,, selitettävä muuttua y havaittua arvoa a x, =,,, selittävä muuttua x havaittua arvoa, otka liittyvät kaikille =,,, samaa havaitoyksikköö. Oletetaa, että selitettävä muuttua y tilastollie riiuvuus selittäästä x o eälieaarista. TKK (c) Ilkka Melli (004) 7 TKK (c) Ilkka Melli (004) 7
TKK (c) Ilkka Melli (004) 73 Eälieaariste riiuvuuksie liearisoiti Regressiomalli liearisoiti 3/4 Eälieaariste riiuvuuksie liearisoiti Regressiomalli liearisoiti 4/4 Saomme, että selitettävä muuttua y a selittää x välie eälieaarie tilastollie riiuvuus voidaa liearisoida, os o olemassa biektiiviset kuvaukset f a g ii, että muuetuille havaitoarvoille ( f( x), g( y)), =,,, ätee regressiokertoimie β 0 a β suhtee lieaarie esitys f( y) = β0 + βg( x) + ε, =,,, ossa ääöstermit ε toteuttavat yleise lieaarise malli stadardioletukset. Tällöi trasformoituu mallii f( y) = β0 + βg( x) + ε, =,,, voidaa soveltaa tavaomaisia lieaarise malli estimoiti- a testaustekiikoita. Parhaimmillaa liearisoivat muuokset f a g löytyvät taustateoria kute fysiika tai taloustietee avulla; ks. kuiteki seuraavat kalvot. TKK (c) Ilkka Melli (004) 74 Eälieaariste riiuvuuksie liearisoiti Liearisoivie muuoste etsimie I / Soivie muuoste etsimisissä voidaa käyttää aua tilastografiikkaa: (i) Piirretää selitettävä muuttua y a selittää x havaituista arvoista istediagrammi ( x, y), =,,, (ii) Piirretää selitettävä muuttua y a selittää x havaittue arvoe muuoksista istediagrammit ( g( x), f( y)), =,,, fuktioide f a g kaikille mahdollisille kadidaateille. Eälieaariste riiuvuuksie liearisoiti Liearisoivie muuoste etsimie I / Muuttuie y a x tilastollise riiuvuude eälieaarisuus äkyy istediagrammi ( x, y), =,,, isteilve tai -arve käyristymiseä. Jos fuktiot f a g oistuvat liearisoimaa muuttuie y a x välise eälieaarise tilastollise riiuvuude, istediagrammi ( g( x), f( y)), =,,, isteilvessä tai -arvessa ei äy käyristymistä. TKK (c) Ilkka Melli (004) 75 TKK (c) Ilkka Melli (004) 76 Eälieaariste riiuvuuksie liearisoiti Liearisoivie muuoste etsimie II / Soivie muuoste f a g etsimisessä auttaa usei myös seuraava tekiikka: (i) Estimoidaa trasformoidut mallit f( y) = β0 + βg( x) + ε, =,,, fuktioide f a g kaikille mahdollisille kadidaateille. (ii) Piirretää estimoitituloksista seuraavat residuaalikuviot: Stadardoidut residuaalit sovitteita vastaa: ( fˆ ( y),std( e)), =,,, Stadardoidut residuaalit selittää arvoa vastaa: ( x,std( e )), =,,, TKK (c) Ilkka Melli (004) 77 Eälieaariste riiuvuuksie liearisoiti Liearisoivie muuoste etsimie II / Jos fuktiot f a g eivät oistu liearisoimaa muuttuie y a x eälieaarista tilastollista riiuvuutta, residuaalikuvioide isteilvissä äkyy käyristymistä. Se siaa, os fuktiot f a g oistuvat liearisoimaa muuttuie y a x eälieaarise tilastollise riiuvuude, residuaalikuvioide isteilvissä ei äy käyristymistä. TKK (c) Ilkka Melli (004) 78
TKK (c) Ilkka Melli (004) 79 Eälieaariste riiuvuuksie liearisoiti Liearisoivia muuoksia / Eälieaariste riiuvuuksie liearisoiti Liearisoivia muuoksia / Alla oleva taulukko esittää sellaisia fuktioide f a g kombiaatioita, oide o moissa sovellustilateissa havaittu tuottava liearisoidu esitykse f ( y) = β0 + βg( x) muuttuie y a x tilastolliselle riiuvuudelle. gx ( ) f( y) x x log( x) y y = β0 + βx y = β0 + β x y= β0 + βlog( x) y y = β0 + βx y = β0 + β x y= β0 + βlog( x) log( y) log( y) = β + β x log( y) = β + β x log( y) = β + β log( x) 0 0 0 Olkoot fuktiot f a g kute esityksessä f( y) = β0 + βg( x) edellisellä kalvolla. Alla oleva taulukko esittää ratkaisua muuttua y suhtee. gx ( ) f( y) x x log( x) y y = β0 + βx y = β0 + β x y= β0 + βlog( x) β y y = y = y = β β 0 0 β β 0 x β 0 β x+ β log( x) β + β + 0 β β0 βx β0 β x β0 β log( y) y = e e y = e e y = e x TKK (c) Ilkka Melli (004) 80 Eälieaariste riiuvuuksie liearisoiti Vaatimukset muuoksille O syytä huomata, että ei riitä, että valitut muuokset tuottavat lieaarise malli, oka soii hyvi havaitoihi, vaa käytettävie muuoste itää toteuttaa selitettävä muuttua a selittää käyttäytymisee liittyvät loogisuusehdot: (i) Muuosfuktioide määrittely-a arvoalueide itää liittyä loogisella tavalla selitettävä muuttua a selittää mahdolliste arvoe alueisii. (ii) Muuosfuktioide asymtoottise käyttäytymise itää vastata loogisella tavalla selitettävä muuttua a selittää mahdolliste arvoe käyttäytymistä iide äärialueilla. TKK (c) Ilkka Melli (004) 8