Regressiomallin valinta. Regressiomallin valinta. Regressiomallin valinta: Esitiedot. Regressiomallin valinta: Mitä opimme?

Samankaltaiset tiedostot
Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Yleinen lineaarinen malli. Yleinen lineaarinen malli. Yleinen lineaarinen malli: Mitä opimme? 2/4. Yleinen lineaarinen malli: Mitä opimme?

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Regressiodiagnostiikka. Regressiodiagnostiikka. Regressiodiagnostiikka: Mitä opimme? 2/2. Regressiodiagnostiikka: Mitä opimme? 1/2

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

Yhden selittäjän lineaarinen regressiomalli: Lisätiedot. Yhden selittäjän lineaarinen regressiomalli

Yhden selittäjän lineaarinen regressiomalli

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Johdatus regressioanalyysiin. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

8.3. Yleinen lineaarinen malli ja yleistetty pienimmän neliösumman menetelmä

Johdatus regressioanalyysiin. Johdatus regressioanalyysiin. Johdatus regressioanalyysiin: Mitä opimme? 2/3

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Osa 2: Otokset, otosjakaumat ja estimointi

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

S Laskennallinen systeemibiologia

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

Harjoitus 9: Excel - Tilastollinen analyysi

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

Osa 2: Otokset, otosjakaumat ja estimointi

Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille: Esitiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

2. Teoriaharjoitukset

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

Mat Lineaarinen ohjelmointi

Yhden selittäjän lineaarinen regressiomalli

4.3 Signaalin autokorrelaatio

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johda jakauman momenttiemäfunktio ja sen avulla jakauman odotusarvo ja varianssi.

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Regressiodiagnostiikka ja regressiomallin valinta

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastolliset menetelmät: Tilastolliset testit

Analyysi A. Harjoitustehtäviä lukuun 1 / kevät 2018

Tilastollinen päättely II, kevät 2017 Harjoitus 3B

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

Satunnaismuuttujien muunnokset ja niiden jakaumat. Satunnaismuuttujien muunnokset ja niiden jakaumat

LIITTEET Liite A Stirlingin kaavan tarkkuudesta...2. Liite B Lagrangen kertoimet...3

Tilastolliset menetelmät: Varianssianalyysi

Mat Sovellettu todennäköisyyslasku 9. harjoitukset/ratkaisut. Luottamusvälit

Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

Insinöörimatematiikka IA

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Osa 2: Otokset, otosjakaumat ja estimointi

Regressiodiagnostiikka ja regressiomallin valinta

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Parametrien oppiminen

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

Tilastollinen todennäköisyys

2. Tietokoneharjoitukset

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2004) 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

9.7 Matriisinormit. Vaasan yliopiston julkaisuja 225. Ei siis lainkaan ongelmia defektiivisyydestä.

Tilastolliset menetelmät: Varianssianalyysi

EX1 EX 2 EX =

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Mat Sovellettu todennäköisyyslaskenta B 9. harjoitukset / Ratkaisut Aiheet: Estimointi Estimointimenetelmät Väliestimointi Avainsanat:

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastolliset luottamusvälit

Yleinen lineaarinen malli

4 KORKEAMMAN KERTALUVUN LINEAARISET DIFFERENTIAALIYHTÄLÖT. Kertaluvun n lineaarinen differentiaaliyhtälö ns. standardimuodossa on

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Sovellettu todennäköisyyslaskenta B

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

( ) k 1 = a b. b 1) Binomikertoimen määritelmän mukaan yhtälön vasen puoli kertoo kuinka monta erilaista b-osajoukkoa on a-joukolla.

5.3 Matriisin kääntäminen adjungaatilla

TYÖNTEKIJÄIN ELÄKELAIN MUKAISEN VAKUUTUKSEN YLEISET LASKUPERUSTEET. Kokooma Viimeisin perustemuutos on vahvistettu

Algebra I Matematiikan ja tilastotieteen laitos Ratkaisuehdotuksia harjoituksiin 5 (6 sivua)

Inversio-ongelmien laskennallinen peruskurssi Luento 11 12

pq n s n Kyllä Ei N Jäsenyys 5,4% 94.6 % 1500 Adressi 21,6% 78.4 % 1495 Lahjoitus 23,7% 76.3 % 1495 Mielenosoitus 1,1% 98.9 % 1489

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Yleistetyistä lineaarisista malleista

Moniulotteisia todennäköisyysjakaumia

SMG-4200 Sähkömagneettisten järjestelmien lämmönsiirto Ehdotukset harjoituksen 6 ratkaisuiksi

Otantajakauma. Otantajakauman käyttö päättelyssä. Otantajakauman käyttö päättelyssä

KURSSIN TILASTOMATEMATIIKKA KAAVOJA

Markov-ketjun hetkittäinen käyttäytyminen

Ryhmän osajoukon generoima aliryhmä ja vapaat ryhmät

MATP153 Approbatur 1B Harjoitus 1, ratkaisut Maanantai

Transkriptio:

TKK (c) Ilkka Melli (004) Regressiomalli valita Eälieaariste riiuvuuksie liearisoiti Johdatus tilastotieteesee Regressiomalli valita TKK (c) Ilkka Melli (004) Regressiomalli valita: Mitä oimme? Tässä luvussa tarkastellaa seuraavia kysymyksiä: (i) Mite regressiomallii valitaa selittäät? (ii) Missä tilateissa a mite eälieaarie regressiomalli voidaa liearisoida ii, että tuloksea sytyyt trasformoitu malli voidaa estimoida tavaomaisee lieaarise mallii yhteydessä käytettävällä tekiikalla? Selittäie valitaogelmaa esitetää kaksi ratkaisua: (i) Mallivalitatestie a askellusstrategioitte käyttö. (ii) Mallivalitakriteereide käyttö. Regressiomalli valita: Esitiedot Esitiedot: ks. seuraavia lukua: Yleie lieaarie malli Moiulotteiset satuaismuuttuat a todeäköisyysakaumat Moiulotteisia todeäköisyysakaumia TKK (c) Ilkka Melli (004) 3 TKK (c) Ilkka Melli (004) 4 Regressiomalli valita: Lisätiedot Yleise lieaarise malli soveltamise erityiskysymyksiä käsitellää myös luvuissa Regressiodiagostiikka Regressioaalyysi erityiskysymyksiä Regressiomalli valita >> Eälieaariste riiuvuuksie liearisoiti TKK (c) Ilkka Melli (004) 5 TKK (c) Ilkka Melli (004) 6

TKK (c) Ilkka Melli (004) 7 Regressiomalli selittäie valita Avaisaat Harhaisuus Harhattomuus Malli valita Mallivalitakriteerit Puuttuvat selittäät Selittäie valita Selittääkadidaatti Tehokkuus Yleie lieaarie malli Estimoiti Sesifioiti Stadardioletukset Regressiomalli selittäiksi o usei tarolla oukko selittääkadidaattea tai -ehdokkaita a tilastollise aalyysi tehtävää o löytää kadidaattie oukosta oikeat tai arhaat mahdolliset. Selittäie valitaa regressiomalli kutsutaa tavallisesti malli valiaksi, vaikka oikeastaa kaikki mikä liittyy malli rakeeosa a ääöstermi sesifikaatioide valitaa o malli valitaa. TKK (c) Ilkka Melli (004) 8 Yleie lieaarie malli: Määritelmä Olkoo y = β0 + βx+ βx + + βkxk + ε, =,,, yleie lieaarie malli, ossa y = selitettävä muuttua y satuaie a havaittu arvo havaitoyksikössä x i = selittävä muuttua eli selittää x i havaittu arvo havaitoyksikössä, i =,,, k β 0 = vakioselittää tutemato regressiokerroi β i = selittää x i tutemato regressiokerroi ε = satuaie a ei-havaittu ääös- eli virhetermi havaitoyksikössä Yleie lieaarie malli: Matriisiesitys Yleise lieaarise malli matriisiesitys o muotoa y = Xβ + ε ossa y = selitettävä muuttua y havaittue arvoe muodostama satuaie -vektori X = selittäie x, x,, x k havaittue arvoe a ykköste muodostama (k + )-matriisi β = regressiokertoimie muodostama tutemato a kiiteä eli ei-satuaie (k + )-vektori ε = ääöstermie muodostama ei-havaittu a satuaie -vektori TKK (c) Ilkka Melli (004) 9 TKK (c) Ilkka Melli (004) 0 Yleie lieaarie malli: Stadardioletukset kiiteille selittäille Jos yleise lieaarise malli y = Xβ + ε selittäät x, x,, x k ovat kiiteitä eli ei-satuaisia muuttuia, mallia koskevat stadardioletukset voidaa esittää matriisei seuraavassa muodossa: (i) Matriisi X alkiot ovat ei-satuaisia vakioita. (ii) Matriisi X o täysiasteie: r(x) = k + (iii) E(ε) = 0 (iv)&(v) Homoskedastisuus- a korreloimattomuusoletus: Cov(ε) = σ I (vi) Normaalisuusoletus: ε N (0, σ I) Yleie lieaarie malli: Stadardioletukset satuaisille selittäille Jos yleise lieaarise malli y = Xβ + ε selittäät x, x,, x k ovat satuaismuuttuia, mallia koskevat stadardioletukset voidaa esittää matriisei seuraavassa muodossa: (i) Matriisi X alkiot ovat satuaismuuttuia. (ii) Matriisi X o täysiasteie: r(x) = k + (iii) E(ε X) = 0 (iv) &(v) Homoskedastisuus a korreloimattomuusoletus: Cov(ε X) = σ I (vi) Normaalisuusoletus: (ε X) N (0, σ I) TKK (c) Ilkka Melli (004) TKK (c) Ilkka Melli (004)

TKK (c) Ilkka Melli (004) 3 Yleie lieaarie malli: Rakeeosa a ääösosa Yleisessä lieaarisessa mallissa y = Xβ + ε selitettävä muuttua arvoe vektori y o esitetty kahde osatekiä summaa. Malli systemaattie eli rakeeosa E( yx) = Xβ riiuu selittäie havaituista arvoista. Jääöstermi ε muodostaa malli satuaise osa, oka ei riiu selittäie havaituista arvoista. Yleie lieaarie malli: Regressiokertoimie PNS-estimaattorit / Yleise lieaarise malli y = β0 + βx+ βx + + βkxk + ε, =,,, regressiokertoimie β 0, β, β,, β k PNS- eli ieimmä eliösumma estimaattorit b 0, b, b,, b k miimoivat ääös- eli virhetermie ε eliösumma ε = ( y β0 βx βx βkxk) = = kertoimie β 0, β, β,, β k suhtee. TKK (c) Ilkka Melli (004) 4 Yleie lieaarie malli: Regressiokertoimie PNS-estimaattorit / Yleise lieaarise malli y = Xβ + ε regressiokertoimie vektori β = (β 0, β, β,, β k ) PNS-estimaattori voidaa esittää matriisei muodossa b= ( XX ) Xy Yleie lieaarie malli: PNS-estimaattoreide omiaisuudet Yleise lieaarise malli y = Xβ + ε regressiokertoimie vektori β PNS-estimaattorilla b= ( XX ) Xy o stadardioletuksie (i)-(vi) ätiessä seuraavat stokastiset omiaisuudet: E( b) = β Cov( b) = σ ( XX ) b N ( β, σ ( XX ) ) k+ TKK (c) Ilkka Melli (004) 5 TKK (c) Ilkka Melli (004) 6 Yleie lieaarie malli: Sovitteet a residuaalit / Olkoo b = (b 0, b, b,, b k ) regressiokertoimie vektori β = (β 0, β, β,, β k ) PNS-estimaattori. Määritellää estimoidu malli sovitteet yˆ kaavalla yˆ = b0 + bx + bx + + b k x k, =,,, Määritellää estimoidu malli residuaalit e kaavalla e = y yˆ = y b bx b x b x, =,,, 0 k k Yleie lieaarie malli: Sovitteet a residuaalit / Sovitteide muodostama -vektori voidaa esittää matriisei muodossa yˆ = Xb = X( X X) X y = Py Residuaalie muodostama -vektori voidaa esittää matriisei muodossa e = y yˆ = ( I X( XX ) X ) y = ( I P) y = My TKK (c) Ilkka Melli (004) 7 TKK (c) Ilkka Melli (004) 8

TKK (c) Ilkka Melli (004) 9 Sovitteide a residuaalie omiaisuudet Jääösvariassi estimoiti Sovitteide a residuaalie muodostamilla vektoreilla o seuraavat stokastiset omiaisuudet: Sovitteide muodostama vektori ŷ : E( yˆ ) = Xβ Cov( yˆ ) = σ P = σ X( XX ) X Residuaalie muodostama vektori e : E( e) = 0 Cov( e) = σ M = σ ( I P) = σ ( I X( XX ) X ) Huomautus: Residuaalit e ovat (lievästi) korreloitueita, vaikka ääöstermit ε o oletettu korreloimattomiksi. Jos yleise lieaarise malli ääös- eli virhetermeä ε koskevat stadardioletukset (i)-(v) ätevät, ääösvariassi Var(ε ) = σ harhato estimaattori o s = e k = ossa e = estimoidu malli residuaali, =,,, = havaitoe lukumäärä k = (aitoe) selittäie x i lukumäärä TKK (c) Ilkka Melli (004) 0 Yleie lieaarie malli: Malli sesifioiti Lieaarise malli y = Xβ + ε muotoilua a siitä tehtävie oletuste valitaa kutsutaa malli sesifioiiksi eli täsmetämiseksi. Oikea sesifikaatio löytämie malli systemaattiselle osalle eli rakeeosalle E( yx) = Xβ o regressioaalyysi äätehtävä, koska uuri malli rakeeosa kuvaa selitettävä muuttua y riiuvuutta selittäistä x, x,, x k. Yleie lieaarie malli: Malli rakeeosa sesifioiti / Lieaariste regressiomallie estimoitia, testausta a eustamista koskevat tulokset edellyttävät, että malli rakeeosa o oikei sesifioitu. Virheet regressiomalli rakeeosa sesifioiissa ohtavat virheellisii ohtoäätöksii selitettävä muuttua a selittäie välisestä riiuvuudesta. Ku regressiomalli rakeeosalle etsitää oikeata sesifikaatiota, keskeie ogelma o löytää mallii oikeat selittäät. TKK (c) Ilkka Melli (004) TKK (c) Ilkka Melli (004) Miksi oikeide selittäie löytämie o tärkeätä? Miksi oikea selittäie löytämie o vaikeata? Jos regressiomallista uuttuu siihe kuuluvia selittäiä, malli regressiokertoimie PNS-estimaattorit ovat (yleesä) harhaisia. Jos regressiomallissa o turhia selittäiä, malli regressiokertoimie PNS-estimaattorit ovat (yleesä) tehottomia, mikä merkitsee sitä, että kertoimie variassit ovat tareettoma suuria. Huomautus: Estimaattori harhaisuus o alo vakavami ogelma kui estimaattori tehottomuus. Hyvä regressiomalli ääöseliösumma o iei (selitysaste o korkea), mutta mikä tahasa selittää lisäämie mallii yleesä ieetää ääöseliösummaa (kasvattaa selitysastetta). Hyvä regressiomalli kaikki selittäät ovat tilastollisesti merkitseviä, mutta mikä tahasa selittää oistamie mallista tai lisäämie mallii saattaa muuttaa mallii äävie tai siellä o olevie selittäie tilastollista merkitsevyyttä. TKK (c) Ilkka Melli (004) 3 TKK (c) Ilkka Melli (004) 4

TKK (c) Ilkka Melli (004) 5 Puuttuvie selittäie ogelma /3 Puuttuvie selittäie ogelma /3 Olkoo oikea malli selittävälle muuttualle y muotoa () y = Xβ + Xβ+ ε Oletetaa, että estimoimme regressiokertoimie vektori β väärästä mallista () y = Xβ + δ osta siis uuttuu osa oikea malli () selittäistä. Koska väärästä mallista () uuttuu osa oikea malli () selittäistä, väärä malli () ääöstermi o muotoa δ = Xβ + ε Olkoo kerroivektori β PNS-estimaattori väärästä mallista () b = ( X X) X y Estimaattori b o (yleesä) harhaie (ks. seuraava kalvo). Estimaattori b lauseke voidaa esittää muodossa b = ( X X) X y = ( XX ) X ( Xβ + Xβ + ε) = β+ ( XX ) XXβ + ( XX ) XXε Estimaattori b o yleesä harhaie: E( b) = β+ ( XX ) XXβ β ellei ehto ( XX ) XXβ = 0 äde. Tämä ehto voi käytäössä toteutua vai kahdella tavalla: β = 0 tai XX = 0 TKK (c) Ilkka Melli (004) 6 Puuttuvie selittäie ogelma 3/3 Ratkaisua malli valitaa Jos β = 0 selitettävä muuttua y havaitut arvot eivät riiu lieaarisesti matriisii X liittyvistä selittäistä a regressiokertoimie vektori β voidaa siis estimoida harhattomasti mallista (). Jos XX = 0 matriisi X sarakkeet ovat kohtisuorassa matriisi X sarakkeita vastaa a regressiokertoimie vektori β voidaa estimoida harhattomasti mallista (). Huomautus: Edellise erusteella vektori β komoetit voidaa ortogoaaliste selittäie taauksessa estimoida harhattomasti yhde selittää regressiomalleista. TKK (c) Ilkka Melli (004) 7 Regressiomalli selittäie valitaa o tarolla kaksi erilaista meetelmää: (i) Mallivalitatesteä käytettäessä mallii yritää valitsemaa otaki testausstrategiaa käyttäe kaikki tilastollisesti merkitsevät selittäät. (ii) Mallivalitakriteereitä käytettäessä mallii valitaa selittäiksi kaikkie tarolla olevie selittäie oukosta sellaie osaoukko, oka otimoi käytety kriteerifuktio arvo. TKK (c) Ilkka Melli (004) 8 Regressiomalli valita >> Eälieaariste riiuvuuksie liearisoiti Avaisaat Askellus alasäi Askeltava regressio Lähtömalli Selittää lisäämie Selittää oistamie t-testi TKK (c) Ilkka Melli (004) 9 TKK (c) Ilkka Melli (004) 30

TKK (c) Ilkka Melli (004) 3 Mallivalitatestie idea / Mallivalitatestie idea / Hyvässä regressiomallissa kaikki regressiokertoimet ovat tilastollisesti merkitseviä. Regressiokertoime β i merkitsevyyttä testataa tilastollisesti testaamalla ollahyoteesia H 0 : β i = 0 Jos ollahyoteesi H 0 ää voimaa, selitettävä muuttua ei riiu lieaarisesti kerroita β i vastaavasta selittäästä. Jos ollahyoteesi H 0 hylätää testissä, selitettävä muuttua riiuu lieaarisesti kerroita β i vastaavasta selittäästä, olloi saotaa, että regressiokerroi β i a sitä vastaava selittää ovat tilastollisesti merkitseviä. Selittää merkitsevyyttä testaavia tilastollisia testeä kutsutaa mallivaliassa mallivalitatesteiksi. Regressiokertoime tilastollista merkitsevyyttä testataa tavallisesti tavaomaisella t-testillä. Ku mallivaliassa käytetää mallivalitatesteä, tavoitteea o ottaa mallii mukaa kaikki tilastollisesti merkitsevät selittäät a sulkea malli ulkouolelle kaikki tilastollisesti ei-merkitsevät selittäät. Mallivalitatesteä käytettäessä muodostetaa tavallisesti esi lähtömalli, oho tilastollisesti merkitsevät selittäät yritää lisäämää a osta ei-merkitsevät yritää oistamaa. TKK (c) Ilkka Melli (004) 3 Mallivalitatestie soveltamise erusogelma Selittää oistamise vaikutukset Tilastollisesti merkitsevie selittäie lisäämie mallii a ei-merkitsevie selittäie oistamie mallista mallivalitatestie erusteella ei kuitekaa ole ogelmatota, koska selittää tilastollisee merkitsevyytee vaikuttaa yleesä se, mitä muita selittäiä mallissa o testaushetkellä. Site testie suoritusärestys saattaa vaikuttaa siihe, mikä malli tulee valituksi. Ku mallista oistetaa tilastollisesti ei-merkitseviä selittäiä kohdataa usei seuraavat ogelmat: (i) Ei-merkitseviä selittäiä oistettaessa oistamisärestys saattaa vaikuttaa loutuloksee. (ii) Selittää oistamie mallista saattaa muuttaa aikaisemmi ei-merkitsevää oistetu selittääkadidaati merkitseväksi, os se otettaisii takaisi mallii. TKK (c) Ilkka Melli (004) 33 TKK (c) Ilkka Melli (004) 34 Selittää lisäämise vaikutukset a askellusstrategiat Ku mallii lisätää tilastollisesti merkitseviä selittäiä kohdataa usei seuraavat ogelmat: (i) Merkitseviä selittäiä lisättäessä lisäämisärestys saattaa vaikuttaa loutuloksee. (ii) Selittää lisäämie mallii saattaa muuttaa mallissa oleva, ee uude selittää lisäämistä merkitsevä selittää ei-merkitseväksi. Mallivalitatestie soveltamise ogelmat ovat ohtaeet erilaiste askellusstrategioide kehittämisee. Tässä esitellää strategiaa: (i) Askellus alasäi (ii) Askeltava regressio Huomautus: Eri strategiat saattavat ohtaa eri malleihi! TKK (c) Ilkka Melli (004) 35 TKK (c) Ilkka Melli (004) 36

TKK (c) Ilkka Melli (004) 37 Askellus alasäi / Askellus alasäi / Alasäi askelluksessa käytettävä mallivalitastrategia: () Otetaa lähtömallii mukaa kaikki selittääkadidaatit. () Valitaa mallivalitatesteissä käytettävä merkitsevyystaso Out. Alasäi askelluksessa käytettävä mallivalitastrategia: Askel muodostuu vaiheista (3)-(7). (3) Estimoidaa malli iillä selittäillä, otka ovat mallissa. (4) Testataa merkitsevyystasoa Out käyttäe kaikkie mallissa olevie selittäie tilastollista merkitsevyyttä. (5) Jos kaikki mallissa olevat selittäät ovat tilastollisesti merkitseviä, malli o valmis. (6) Poistetaa malli ei-merkitsevistä selittäistä se, ota vastaava -arvo o suuri. (7) Palataa vaiheesee (3). TKK (c) Ilkka Melli (004) 38 Askellus alasäi: Kommettea Vaihe (3) eli malli estimoiti uudellee o välttämätö oka askeleessa. Tämä ohtuu siitä, että lukuu ottamatta ortogoaaliste selittäie taausta estimoititulokset yleesä muuttuvat oka askeleessa. Askeltava regressio /4 Askeltavassa regressiossa käytettävä mallivalitastrategia: () Muodostetaa lähtömalli. () Valitaa kaksi mallivalitatesteissä käytettävää merkitsevyystasoa I a Out. TKK (c) Ilkka Melli (004) 39 TKK (c) Ilkka Melli (004) 40 Askeltava regressio /4 Askeltava regressio 3/4 Askeltavassa regressiossa käytettävä mallivalitastrategia: Askel muodostuu vaiheista (3)-(9). (3) Estimoidaa malli iillä selittäillä, otka ovat mallissa. (4) Testataa vuorotelle merkitsevyystasoa I käyttäe kaikkie ko. askeleessa malli ulkouolella olevie selittääkadidaattie tilastollista merkitsevyyttä mallii lisättyiä. (5) Testataa merkitsevyystasoa Out käyttäe kaikkie mallissa olevie selittäie tilastollista merkitsevyyttä. Askeltavassa regressiossa käytettävä mallivalitastrategia: Askel muodostuu vaiheista (3)-(9). (6) Jos mallii liitettyä tilastollisesti merkitseviä selittääkadidaattea löytyy, lisätää mallii kadidaateista se, ota vastaava -arvo o iei. (7) Jos mallissa o tilastollisesti ei-merkityksellisiä selittäiä, oistetaa iistä se, ota vastaava -arvo o suuri. TKK (c) Ilkka Melli (004) 4 TKK (c) Ilkka Melli (004) 4

TKK (c) Ilkka Melli (004) 43 Askeltava regressio 4/4 Askeltavassa regressiossa käytettävä mallivalitastrategia: Askel muodostuu vaiheista (3)-(9). (8) Jos mallii ei voida liittää uusia selittäiä eikä siitä oistaa yhtää siiä olevaa selittäää, malli o valmis. (9) Palataa vaiheesee (3). Askellus alasäi: Kommettea Vaihe (3) eli malli estimoiti uudellee o välttämätö oka askeleessa. Tämä ohtuu siitä, että lukuu ottamatta ortogoaaliste selittäie taausta estimoititulokset yleesä muuttuvat oka askeleessa. TKK (c) Ilkka Melli (004) 44 Regressiomalli valita >> Eälieaariste riiuvuuksie liearisoiti Avaisaat Jääöseliösumma Akaike kriteeri Jääösvariassikriteeri Korattu selitysaste Mallowsi kriteeri Schwarzi kriteeri Pricile of Parsimoy Selitysaste Sakkofuktio TKK (c) Ilkka Melli (004) 45 TKK (c) Ilkka Melli (004) 46 Mallivalitakriteereide idea /3 Mallivalitakriteereide idea /3 Hyvä regressiomalli ääöseliösumma o iei tai mikä o sama asia selitysaste R o korkea. Saattaisi olla houkutteleva aatus valita tarolla olevista selittääkadidaateista mallii e, otka miimoivat ääöseliösumma (maksimoivat selitysastee). Jääöseliösumma miimoitia (selitysastee maksimoitia) ei kuitekaa voida käyttää malli valitaa: (i) Jääöseliösumma ieeee tai ei aiakaa kasva (selitysaste R kasvaa tai ei aiakaa ieee) aia, ku mallii lisätää selittää. (ii) Jääöseliösumma miimoiti (selitysastee maksimoiti) ohtaa aia kaikkie tarolla olevie selittäie valitaa. TKK (c) Ilkka Melli (004) 47 TKK (c) Ilkka Melli (004) 48

TKK (c) Ilkka Melli (004) 49 Mallivalitakriteereide idea 3/3 /3 Mallivalitakriteereissä ääöseliösummaa liitetää sakkofuktio, oka arvo riiuu estimoitavie regressiokertoimie lukumäärästä. Sakkofuktio kasvattaa kriteerifuktio arvoa, elleivät mallii lisätyt selittäät ieeä ääöseliösummaa tareeksi alo. Mallivalitakriteereitä voidaa itää tieteellise äättely keskeise eriaattee ricile of arsimoy kiteytyksiä tilastolliste mallie maailmaa. Pricile of arsimoy: Yksikertaie selitys tosiasioille o aia aremi kui moimutkaie selitys. Olkoo y = X β + ε lieaarie regressiomalli, ossa selittäie lukumäärä o (vakioselittää mukaa luettua) = k +. Olkoo b = ( X X) X y regressiokertoimie vektori β PNS-estimaattori a = ( y Xb )( y Xb ) vastaava ääöseliösumma. TKK (c) Ilkka Melli (004) 50 /3 3/3 voidaa tavallisesti esittää muodossa C(, ) = ˆ σ + f( ) ossa ˆ σ = o ääösvariassi σ suurimma uskottavuude (SU-) estimaattori mallista, ossa o selittäää a f() o ositiivie havaitoe a havaitoe lukumäärä fuktio. Kriteerifuktiolla C(, ) = ˆ σ + f( ) o seuraavat omiaisuudet: (i) Jääösvariassi σ SU-estimaattori σˆ arvo ieeee (tai ei aiakaa kasva), ku mallii lisätää selittää. (ii) Sakkofuktio f() arvo kasvaa, ku mallii lisätää selittää. Kriteerifuktio C(, ) arvo ieeee siis vai, os estimaattori σˆ ieeee tareeksi alo, ku mallii lisätää selittää. TKK (c) Ilkka Melli (004) 5 TKK (c) Ilkka Melli (004) 5 Mallivalitakriteereide käyttö malli valiassa Oletetaa, että tarolla olevia selittääkadidaattea o kaikkiaa q kaaletta. Mallivalitakriteereitä sovelletaa seuraavalla tavalla: (i) Määrätää kriteerifuktio arvo kaikille mahdollisille selittääkadidaattie yhdistelmille eli kaikille malleille, oissa o selittäää, ku =,,, q. (ii) Valitaa mallii selittäiksi se selittääkadidaattie yhdistelmä, oka otimoi kriteerifuktio arvo. Mallivalitakriteeri valitsemie / Kirallisuus tutee useita erilaisia mallivalitakriteereitä. Tässä esitellää 5 kriteeriä: (i) Jääösvariassikriteeri (ii) Korattu selityaste (iii) Mallowsi C (iv) Akaike iformaatiokriteeri AIC (v) Schwarzi Bayeslaie iformaatiokriteeri SBIC Teoreettisesti vahvimmat erustelut o esitetty C -, AICa SBIC-kriteereille Huomautus: Eri kriteerit saattavat ohtaa eri malleihi! TKK (c) Ilkka Melli (004) 53 TKK (c) Ilkka Melli (004) 54

TKK (c) Ilkka Melli (004) 55 Mallivalitakriteeri valitsemie / Voidaa osoittaa, että sekä ääösvariassikriteerillä, koratulla selitysasteella, Mallowsi C -kriteerillä, AICkriteerillä että SBIC-kriteerillä o seuraava hyvyysomiaisuus: Kriteerit tuottavat asymtoottisesti (havaitoe lukumäärä kasvaessa raatta) malli, oka o harhato siiä mielessä, että mallista ei ää ois mallii kuuluvia selittäiä. Tässä esiteltävistä kriteereistä kuiteki vai SBICkriteeri tuottaa asymtoottisesti (havaitoe lukumäärä kasvaessa raatta) malli, oka o tehokas siiä mielessä, että mallissa ei ole turhia selittäiä. Jääösvariassikriteeri / Jääöseliösummaa ei sellaiseaa voida käyttää malli valiassa, koska se ieeee (tai ei aiakaa kasva) aia, ku mallii lisätää selittäiä. Määritellää ääösvariassikriteeri s kaavalla ˆ σ s ˆ = = σ + ossa ˆ = σ = ( y Xβ )( y X β ) o ääöseliösumma mallista, ossa o q selittäää. TKK (c) Ilkka Melli (004) 56 Jääösvariassikriteeri / Jääösvariassikriteeri mukaa aras malli o se, oka miimoi kriteerifuktio ˆ σ s ˆ = = σ + arvo. Huomautus: Jääösvariassikriteeri s arvo saattaa kasvaa, elleivät mallii lisätyt selittäät ieeä estimoidu malli ääöseliösummaa tareeksi alo. Korattu selitysaste / Selitysastetta R ei sellaiseaa voi käyttää malli valiassa, koska se kasvaa (tai ei aiakaa ieee) aia, ku mallii lisätää selittäiä. Määritellää korattu selitysaste R kaavalla R = SST ossa = ( y Xb )( y Xb) o ääöseliösumma mallista, ossa o q selittäää a SST = ( ) s y o muuttua y vaihtelua kuvaava kokoaiseliösumma. TKK (c) Ilkka Melli (004) 57 TKK (c) Ilkka Melli (004) 58 Korattu selitysaste / Koratu selitysastee mukaa aras malli o se, oka maksimoi kriteerifuktio R = SST arvo. Huomautuksia: () Koratu selitysastee R arvo saattaa ieetyä, elleivät mallii lisätyt selittäät kasvata estimoidu malli selitysastetta tareeksi alo. () Koratu selitysastee R maksimoiti ohtaa samaa mallii kui ääösvariassikriteeri miimoiti. s Mallowsi C /3 Määritellää Mallowsi C -kriteeri kaavalla C = + sq ossa ˆ = σ = ( y Xβ )( y X β ) o ääöseliösumma mallista, ossa o q selittäää a ( q) s q = q missä q o kaikkie selittääkadidaattie lukumäärä. Mallowsi kriteeri mukaa aras malli o se, oka miimoi kriteerifuktio C arvo. TKK (c) Ilkka Melli (004) 59 TKK (c) Ilkka Melli (004) 60

TKK (c) Ilkka Melli (004) 6 Mallowsi C /3 Mallowsi C -kriteeristä tuetaa useita ekvivalettea muotoa. Määritellää kriteerifuktiot C a C kaavoilla C = + ( ) sq a s q C ˆ = σ + Kriteerifuktioide C, C, C miimoiti ohtaa täsmällee samaa mallii. Mallowsi C 3/3 b q Olkoo vektori β q estimaattori, oka erustuu q selittääkadidaattii, millä tarkoitetaa sitä, että e kertoimet, oita vastaavat selittäät o ätetty ois mallista, merkitää vektorissa b q olliksi. Mallowsi C -kriteeri o vektori β q estimaattori b q rediktiivise keskieliövirhee PMSE( bq) = E ( bq βq) XX q q( bq βq) aroksimatiivisesti harhato estimaattori eli E( C ) PMSE( bq) os malli y = X β + ε harha o iei. TKK (c) Ilkka Melli (004) 6 Akaike iformaatiokriteeri AIC / Määritellää Akaike iformaatiokriteeri AIC kaavalla ˆ σ AIC = ˆ σ + ossa ˆ σ = o ääösvariassi σ SU-estimaattori mallista, ossa o q selittäää. Aikaike iformaatiokriteeri mukaa aras malli o se, oka miimoi kriteerifuktio AIC arvo. Akaike iformaatiokriteeri AIC / Akaike iformaatiokriteeri o aroksimatiivisesti harhato estimaattori malli y = X β + ε s. Kullbacki a Leibleri iformaatiolle. TKK (c) Ilkka Melli (004) 63 TKK (c) Ilkka Melli (004) 64 Schwarzi kriteeri SBIC / Määritellää Schwarzi kriteeri SBIC kaavalla ˆ σ log( ) SBIC = ˆ σ + ossa ˆ σ = o ääösvariassi σ SU-estimaattori mallista, ossa o q selittäää. Schwarzi kriteeri mukaa aras malli o se, oka miimoi kriteerifuktio SBIC arvo. Schwarzi kriteeri SBIC / Schwarzi kriteeri maksimoi aroksimatiivisesti malli y = X β + ε osteriori-todeäköisyyde soivasti valitulle rioriakaumie erheelle. TKK (c) Ilkka Melli (004) 65 TKK (c) Ilkka Melli (004) 66

TKK (c) Ilkka Melli (004) 67 Kommettea malli valitaogelma tilastollisii ratkaisuihi / Malli valiassa käytettävät tilastolliset kriteerit: (i) Valittu malli selviää diagostisista tarkistuksista; ks. lukua Regressiodiagostiikka. (ii) Valitu malli arametrit ovat tilastollisesti merkitseviä; ks. kaaletta. Mallia ei idä kuitekaa koskaa valita elkästää tilastollisi kriteerei. Kommettea malli valitaogelma tilastollisii ratkaisuihi / Malli valiassa käytettävät asialoogiset kriteerit: (i) Ovatko malli arametrit tulkittavissa? (ii) Ovatko malli arametrit oikea merkkisiä a oikea kokoisia? (iii) Kuvaako malli todellisuutta mielekkäällä tavalla? Asialoogisia kriteereitä ei voida asettaa tilastotieteestä käsi. Vai tutkimukse kohteea oleva ilmiö tutemus a ilmiötä koskeva teoria mahdollistavat asialoogiste kriteerie asettamise. Malli itää aia alistaa asialoogisii tarkistuksii. TKK (c) Ilkka Melli (004) 68 Regressiomalli valita Eälieaariste riiuvuuksie liearisoiti >> Eälieaariste riiuvuuksie liearisoiti Avaisaat Eälieaarie tilastollie riiuvuus Lieaarie tilastollie riiuvuus Liearisoiti Liearisoivat muuokset TKK (c) Ilkka Melli (004) 69 TKK (c) Ilkka Melli (004) 70 Eälieaariste riiuvuuksie liearisoiti Regressiomalli liearisoiti /4 Eälieaariste riiuvuuksie liearisoiti Regressiomalli liearisoiti /4 Jos selitettävä muuttua y tilastollie riiuvuus selittäistä x, x,, x k o eälieaarie, riiuvuude aalysoiti vaatii yleesä eälieaarise regressiomalli raketamista. Eälieaariste regressiomallie käsittely sivuutetaa tässä. Joskus selitettävä muuttua y a selittävie muuttuie x, x,, x k välie eälieaarie tilastollie riiuvuus voidaa kuiteki liearisoida selitettävä muuttua a selittäie soivilla muuoksilla ii, että liearisoii tuloksea sytyyt trasformoitu malli toteuttaa yleise lieaarise malli stadardioletukset. Raoitumme tässä liearisoivie muuoste käytö kuvaamisee yhde selittää taauksessa. Olkoot y, =,,, selitettävä muuttua y havaittua arvoa a x, =,,, selittävä muuttua x havaittua arvoa, otka liittyvät kaikille =,,, samaa havaitoyksikköö. Oletetaa, että selitettävä muuttua y tilastollie riiuvuus selittäästä x o eälieaarista. TKK (c) Ilkka Melli (004) 7 TKK (c) Ilkka Melli (004) 7

TKK (c) Ilkka Melli (004) 73 Eälieaariste riiuvuuksie liearisoiti Regressiomalli liearisoiti 3/4 Eälieaariste riiuvuuksie liearisoiti Regressiomalli liearisoiti 4/4 Saomme, että selitettävä muuttua y a selittää x välie eälieaarie tilastollie riiuvuus voidaa liearisoida, os o olemassa biektiiviset kuvaukset f a g ii, että muuetuille havaitoarvoille ( f( x), g( y)), =,,, ätee regressiokertoimie β 0 a β suhtee lieaarie esitys f( y) = β0 + βg( x) + ε, =,,, ossa ääöstermit ε toteuttavat yleise lieaarise malli stadardioletukset. Tällöi trasformoituu mallii f( y) = β0 + βg( x) + ε, =,,, voidaa soveltaa tavaomaisia lieaarise malli estimoiti- a testaustekiikoita. Parhaimmillaa liearisoivat muuokset f a g löytyvät taustateoria kute fysiika tai taloustietee avulla; ks. kuiteki seuraavat kalvot. TKK (c) Ilkka Melli (004) 74 Eälieaariste riiuvuuksie liearisoiti Liearisoivie muuoste etsimie I / Soivie muuoste etsimisissä voidaa käyttää aua tilastografiikkaa: (i) Piirretää selitettävä muuttua y a selittää x havaituista arvoista istediagrammi ( x, y), =,,, (ii) Piirretää selitettävä muuttua y a selittää x havaittue arvoe muuoksista istediagrammit ( g( x), f( y)), =,,, fuktioide f a g kaikille mahdollisille kadidaateille. Eälieaariste riiuvuuksie liearisoiti Liearisoivie muuoste etsimie I / Muuttuie y a x tilastollise riiuvuude eälieaarisuus äkyy istediagrammi ( x, y), =,,, isteilve tai -arve käyristymiseä. Jos fuktiot f a g oistuvat liearisoimaa muuttuie y a x välise eälieaarise tilastollise riiuvuude, istediagrammi ( g( x), f( y)), =,,, isteilvessä tai -arvessa ei äy käyristymistä. TKK (c) Ilkka Melli (004) 75 TKK (c) Ilkka Melli (004) 76 Eälieaariste riiuvuuksie liearisoiti Liearisoivie muuoste etsimie II / Soivie muuoste f a g etsimisessä auttaa usei myös seuraava tekiikka: (i) Estimoidaa trasformoidut mallit f( y) = β0 + βg( x) + ε, =,,, fuktioide f a g kaikille mahdollisille kadidaateille. (ii) Piirretää estimoitituloksista seuraavat residuaalikuviot: Stadardoidut residuaalit sovitteita vastaa: ( fˆ ( y),std( e)), =,,, Stadardoidut residuaalit selittää arvoa vastaa: ( x,std( e )), =,,, TKK (c) Ilkka Melli (004) 77 Eälieaariste riiuvuuksie liearisoiti Liearisoivie muuoste etsimie II / Jos fuktiot f a g eivät oistu liearisoimaa muuttuie y a x eälieaarista tilastollista riiuvuutta, residuaalikuvioide isteilvissä äkyy käyristymistä. Se siaa, os fuktiot f a g oistuvat liearisoimaa muuttuie y a x eälieaarise tilastollise riiuvuude, residuaalikuvioide isteilvissä ei äy käyristymistä. TKK (c) Ilkka Melli (004) 78

TKK (c) Ilkka Melli (004) 79 Eälieaariste riiuvuuksie liearisoiti Liearisoivia muuoksia / Eälieaariste riiuvuuksie liearisoiti Liearisoivia muuoksia / Alla oleva taulukko esittää sellaisia fuktioide f a g kombiaatioita, oide o moissa sovellustilateissa havaittu tuottava liearisoidu esitykse f ( y) = β0 + βg( x) muuttuie y a x tilastolliselle riiuvuudelle. gx ( ) f( y) x x log( x) y y = β0 + βx y = β0 + β x y= β0 + βlog( x) y y = β0 + βx y = β0 + β x y= β0 + βlog( x) log( y) log( y) = β + β x log( y) = β + β x log( y) = β + β log( x) 0 0 0 Olkoot fuktiot f a g kute esityksessä f( y) = β0 + βg( x) edellisellä kalvolla. Alla oleva taulukko esittää ratkaisua muuttua y suhtee. gx ( ) f( y) x x log( x) y y = β0 + βx y = β0 + β x y= β0 + βlog( x) β y y = y = y = β β 0 0 β β 0 x β 0 β x+ β log( x) β + β + 0 β β0 βx β0 β x β0 β log( y) y = e e y = e e y = e x TKK (c) Ilkka Melli (004) 80 Eälieaariste riiuvuuksie liearisoiti Vaatimukset muuoksille O syytä huomata, että ei riitä, että valitut muuokset tuottavat lieaarise malli, oka soii hyvi havaitoihi, vaa käytettävie muuoste itää toteuttaa selitettävä muuttua a selittää käyttäytymisee liittyvät loogisuusehdot: (i) Muuosfuktioide määrittely-a arvoalueide itää liittyä loogisella tavalla selitettävä muuttua a selittää mahdolliste arvoe alueisii. (ii) Muuosfuktioide asymtoottise käyttäytymise itää vastata loogisella tavalla selitettävä muuttua a selittää mahdolliste arvoe käyttäytymistä iide äärialueilla. TKK (c) Ilkka Melli (004) 8