Mat-2.2104 Tilastollisen analyysin erusteet, kevät 2007 10. luento: Regressiomallin (selittäjien) valinta Kai Virtanen 1
Regressiomallin selittäjien valinnasta Mallista uuttuu selittäjiä => harhaiset regressiokertoimien PNS-estimaattorit Mallissa turhia selittäjiä => tehottomat regressiokertoimien PNS-estimaattorit Hyvä malli: ieni jäännösneliösumma / korkea selitysaste Minkä tahansa selittäjän lisääminen yleensä ienentää jäännösneliösummaa / kasvattaa selitysastetta Hyvä malli: kaikki selittäjät tilastollisesti merkitseviä Minkä tahansa selittäjän oistaminen / lisääminen saattaa muuttaa malliin jäävien tai sieltä jo oistettujen selittäjien tilastollista merkitsevyyttä Selittäjien valintamenetelmät: Mallinvalintatestit: yritään valitsemaan jotakin testausstrategiaa käyttäen kaikki tilastollisesti merkitsevät selittäjät Mallinvalintakriteerit: valitaan selittäjiksi kaikkien tarjolla olevien selittäjien joukosta osajoukko, joka otimoi kriteerifunktion arvon Kai Virtanen 2
Mallinvalintatestien idea Hyvä malli kaikki regressiokertoimet tilastollisesti merkitseviä Mallinvalintatestit: Selittäjän merkitsevyyttä testaavat tilastolliset testit Regressiokertoimenβ i tilastollisen merkitsevyyden testaaminen (t-testi): H 0 : β i = 0 H 0 ok => selitettävä ei riiu selittäjästä x i H 0 hylätään => selitettävä riiuu selittäjästä x i, regressiokerroinβ i ja vastaava selittäjä tilastollisesti merkitseviä Mallinvalintatestien tavoite: Malliin mukaan kaikki tilastollisesti merkitsevät selittäjät Mallin ulkouolelle kaikki tilastollisesti ei-merkitsevät selittäjät Mallinvalintatestien toimintastrategia: Muodostetaan lähtömalli Merkitsevät selittäjät yritään lisäämään em. malliin Ei-merkitsevät selittäjät yritään oistamaan em. mallista Kai Virtanen 3
Selittäjän oistamisen ja lisäämisen vaikutukset Ongelma: Selittäjän tilastolliseen merkitsevyyteen vaikuttaa (yleensä) mallin muut selittäjät => Testien suoritusjärjestys saattaa vaikuttaa loulliseen malliin Mallista oistetaan tilastollisesti ei-merkitseviä selittäjiä: Poistamisjärjestys saattaa vaikuttaa loutulokseen Selittäjän oistaminen mallista saattaa muuttaa aikaisemmin eimerkitsevänä oistetun selittäjäkandidaatin merkitseväksi, jos se otettaisiin takaisin malliin Malliin lisätään tilastollisesti merkitseviä selittäjiä: Lisäämisjärjestys saattaa vaikuttaa loutulokseen Selittäjän lisääminen malliin saattaa muuttaa mallissa olevan, ennen uuden selittäjän lisäämistä merkitsevän selittäjän ei-merkitseväksi Kai Virtanen 4
Askellusstrategiat Mallinvalintatesteihin liittyvät ongelmat ovat johtaneet erilaisten askellusstrategioiden kehittämiseen Tarkastellaan kahta strategiaa: (i) (ii) Askellus alasäin Askeltava regressio (iii) (Askellus ylösäin) Eri strategiat saattavat johtaa eri malleihin!!!! Kai Virtanen 5
Alasäin askelluksen mallinvalintastrategia (1) Lähtömalliin kaikki selittäjäkandidaatit (2) Valitaan mallinvalintatesteissä käytettävä merkitsevyystaso Out Askel muodostuu vaiheista (3)-(7): (3) Estimoidaan malli mallissa olevilla selittäjillä (4) Testataan merkitsevyystasoa Out käyttäen kaikkien selittäjien tilastollista merkitsevyyttä (5) Kaikki selittäjät tilastollisesti merkitseviä => Malli valmis (6) Poistetaan mallin ei-merkitsevistä selittäjistä se, jota vastaava -arvo on suurin (7) Goto (3) Kai Virtanen 6
Askeltavan regression mallinvalintastrategia (1) Muodostetaan lähtömalli (2) Valitaan kaksi mallinvalintatesteissä käytettävää merkitsevyystasoa In ja Out Askel muodostuu vaiheista (3)-(9) (3) Estimoidaan malli mallissa olevilla selittäjillä (4) Testataan yksitellen kaikkien mallin ulkouolella olevien selittäjäkandidaattien tilastollista merkitsevyyttä malliin lisättyinä, merkitsevyystaso In (5) Testataan kaikkien mallissa olevien selittäjien tilastollista merkitsevyyttä, merkitsevyystaso Out (6) Löytyy tilastollisesti merkitseviä selittäjäkandidaatteja malliin liitettynä => Lisätään ienintä -arvoa vastaava selittäjä (7) Mallissa tilastollisesti ei-merkitseviä selittäjiä => Poistetaan suurinta -arvoa vastaava selittäjä (8) Malliin ei voida liittää uusia selittäjiä & Mallista ei voida oistaa selittäjiä => malli valmis (9) Goto (3) Kai Virtanen 7
Mallinvalintakriteereiden idea Hyvä regressiomalli ieni jäännösneliösumma SSE / korkea selitysaste R 2 Älynväläys: Valitaan malliin selittäjät s.e. SSE minimoituu / R 2 maksimoituu!! Ei kauhean älykäs väläys: Malliin lisätään selittäjä => SSE ienenee tai ei ainakaan kasva / R 2 kasvaa tai ei ainakaan ienene Älynväläys johtaa aina kaikkien tarjolla olevien selittäjien valintaan Mallinvalintakriteeri: Jäännösneliösumma + regressiokertoimien lukumäärästä riiuva sakkofunktio Sakkofunktio kasvattaa kriteerifunktion arvoa, elleivät malliin lisätyt selittäjät ienennä jäännösneliösummaa tareeksi Tieteellisen äättelyn keskeisen eriaatteen rincile of arsimony kiteytys tilastollisten mallien maailmaan Princile of arsimony: Yksinkertainen selitys tosiasioille on aina aremi kuin monimutkainen selitys, Kee It Simle Stuid!!!! Kai Virtanen 8
Mallinvalintakriteereiden käyttö mallin valinnassa Mallinvalintakriteereiden soveltaminen: (i) Määrätään kriteerifunktion arvo kaikille mahdollisille selittäjäkandidaattien yhdistelmille (ii) Valitaan malliin selittäjiksi se selittäjäkandidaattien yhdistelmä, joka maksimoi/minimoi kriteerifunktion Kirjallisuudessa iso läjä erilaisia mallinvalintakriteereitä Tarkastellaan kolmea kriteeriä: (i) Jäännösvarianssikriteeri (ii) Korjattu selityaste (iii) Mallowsin C Nämä kriteerit tuottavat asymtoottisesti (havaintojen lukumäärän kasvaessa rajatta) harhattoman mallin siinä mielessä, että mallista ei jää ois siihen kuuluvia selittäjiä Eri kriteerit saattavat johtaa eri malleihin! Kai Virtanen 9
Jäännösvarianssikriteeri Olkoon selittäjiä (vakioselittäjä mukaan luettuna) = k + 1 kl ja havaintoja n kl 2 Jäännösvarianssikriteeri: s SSE ˆ 2 σ 2 ˆ = = σ + n n 2 ˆ ( y X β ) ( y X β ) SSE = nσ = jossa jäännösneliösumma SSE 2 ˆ σ = ja n on jäännösvarianssin suurimman uskottavuuden estimaattori Paras malli minimoi kriteerifunktion arvon Jäännösvarianssikriteerin arvo saattaa kasvaa, elleivät malliin lisätyt selittäjät ienennä estimoidun mallin jäännösneliösummaa SSE tareeksi aljon Kai Virtanen 10
Korjattu selitysaste Olkoon selittäjiä (vakioselittäjä mukaan luettuna) = k + 1 kl ja havaintoja n kl Korjattu selitysaste: jossa jäännösneliösumma 2 n 1 1 ja y:n vaihtelua kuvaava kokonaisneliösumma Paras malli maksimoi kriteerifunktion arvon R SSE = n SST SSE = ( y X b ) ( y X b ) 2 SST = ( n 1) s y Korjatun selitysasteen arvo saattaa ienentyä, elleivät malliin lisätyt selittäjät kasvata estimoidun mallin selitysastetta tareeksi aljon Korjatun selitysasteen maksimointi / jäännösvarianssikriteerin minimointi => sama malli!! Kai Virtanen 11
Mallowsin C -kriteeri Olkoon selittäjiä (vakioselittäjä mukaan luettuna) = k + 1 kl ja havaintoja n kl Mallowsin C -kriteeri: jossa jäännösneliösumma on ja SSE C = + n s 2 2 q SSE = nσ ˆ = ( y X β ) ( y X β ) 2 2 ( n q) s q = SSE q missä q on kaikkien selittäjäkandidaattien lukumäärä Paras malli minimoi kriteerifunktion arvon Mallowsin kriteerin arvo saattaa kasvaa, elleivät malliin lisätyt selittäjät ienennä estimoidun mallin jäännösneliösummaa SSE tareeksi aljon Kai Virtanen 12
Kommentteja mallin valintaan Mallinvalintatestit ja kriteerit => sadaan mallikandidaatteja Mikä valitaan loulliseksi malliksi? Tilastollisia kriteereitä: Mallin on selvittävä diagnostisista tarkistuksista Mallin arametrien on oltava tilastollisesti merkitseviä Suunnilleen yhtäsuuret selitysasteet => Valitaan yksinkertaisin malli Mallia ei idä kuitenkaan koskaan valita elkästään tilastollisin kriteerein!!!! Mallia itää aina tarkastella käyttäen maalais/kauunkilaisjärkeä: Ovatko mallin arametrit oikean merkkisiä ja oikean kokoisia? Kuvaako malli todellisuutta mielekkäällä tavalla? Tutkimuksen kohteena olevan ilmiön tuntemus ja ilmiötä koskeva teoria auttaa em. tarkastelussa Kai Virtanen 13
Mat-2.2104 Tilastollisen analyysin erusteet, kevät 2007 10. luento: Yleistetty ienimmän neliösumman menetelmä Kai Virtanen 14
Yleistettyyn PNS-menetelmään liittyvät oletukset Tarkastellaan mallia Korvataan standardioletukset (iv)&(v) (iv) jäännöstermit homoskedastisia (vakio varianssi) (v) jäännöstermit korreloimattomia oletuksella Cov( ε) 2 = σ V y = Xβ+ ε jossa V on ositiividefiniitti matriisi (i.e., on olemassa käänteismatriisi) Uusi oletus => jäännöstermit ε j, j = 1,2,,n saavat olla sekä heteroskedastisia että korreloituneita Kai Virtanen 15
Yleistetty PNS-estimaattori 1 Minimoidaan neliömuoto ( y Xβ) V ( y Xβ) vektorinβsuhteen 1 1 1 => yleistetty PNS-estimaattori GLS = Generalized Least Squares Estimaattori on aras (eli tehokkain) vektorin β lineaarinen ja harhaton estimaattori Käytännössä törmätään ikkurobleemiin: Matriisi V tuntematon b = ( X V X) X V y Matriisissa n(n + 1)/2 arametria, n havaintojen lukumäärä => matriisia ei voi estimoida havainnoista Aikasarjamalleissa V voidaan sesifioida jäännöstermin autokorrelaatiorakenteen (osittaisautokorrelaatio, käänteinen autokorrelaatio) erusteella GLS Kai Virtanen 16
Yleistetty PNS-estimaattori, korreloimaton jäännöstermi Oletaan korreloimattomat, mutta heteroskedastiset jäännöstermit Matriisi V on diagonaalinen Yleistetyn PNS-estimaattorin kaavassa 1 1 1 b GLS = ( X V X) X V y matriisin V käänteismatriisi on b GLS kutsutaan ainotetuksi PNS-estimaattoriksi Estimaattori voidaan muodostaa tavallisella PNS-menetelmällä kerrotaan alkueräiset havaintoarvot y j,x j1,x j2,,x jk, j=1,2,,n ainoilla 1/z j, j=1,2,,n Painojen estimointi haasteellista 2 2 2 = diag( z1, z2, K, z n ) Robusti regressio: aino riiuu residuaalin suuruudesta V V 1 2 2 2 = z1 z2 K z n diag(1/,1/,,1/ ) Kai Virtanen 17
Mat-2.2104 Tilastollisen analyysin erusteet, kevät 2007 10. luento: Regressiomuuttujien mitta-asteikoista Kai Virtanen 18
Lineaarinen regessiomalli, dummy-muuttujat Selitettävä y ja selittäjät x j intervalli- tai suhdeastoikollisia muuttujia => yleinen malli ok! y intervalli- tai suhdeasteikollinen ja x j laatuero- tai järjestysasteikollinen => yleinen malli ok! Dummy-muuttuja x x=0 tai x=1 Esim. alkan riiuvuus iästä (x 1 ), sukuuolesta (x 2 ) ja koulutuksesta Dummy-muuttuja x 2 : x 2 =1 nainen ja x 2 =0 mies Yleinen malli y=b 0 +b 1 x 1 +b 2 x 2 toimii! Koulutus: eruskoulu, keskiaste, korkeakoulu Dummy-muuttuja x 3 : x 3 =1 eruskoulu ja x 3 =0 ei eruskoulu Dummy-muuttuja x 4 : x 4 =1 keskiaste ja x 4 =0 ei keskiaste x 3 =0 ja x 4 =0 vastaa korkeakoulua => ei tarvita muuttujaa Yleinen malli y=b 0 +b 1 x 1 +b 2 x 2 ++b 3 x 3 +b 4 x 4 toimii! Kai Virtanen 19
Erikoisemia regressiomalleja Selitettävä y on kaksitasoinen laatuero- tai järjestysasteikollinen muuttuja Esim. y=1 yksilö äänesti ja y=0 yksilö ei äänestänyt Mitkä tekijät x 1, x 2 jne. vaikuttivat äänestyskäyttäytymiseen? Vastaus: Logistinen regressiomalli - estimoidun mallin selitettävän arvot nollan ja ykkösen välillä, todennäköisyys Selitettävä y saa ieniä ei-negatiivisia kokonaislukuarvoja Esim. vikojen tai onnettomuuksien lukumäärä aikayksikössä Poisson regressiomalli Kai Virtanen 20