Mat Tilastollisen analyysin perusteet, kevät 2007

Mat-.104 Tilastollisen analyysin erusteet, kevät 007 Regressiomallin (selittäjien valinta Kai Virtanen 1 Regressiomallin selittäjien valinnasta Mallista uuttuu selittäjiä => harhaiset regressiokertoimien PNS-estimaattorit Mallissa turhia selittäjiä => tehottomat regressiokertoimien PNS-estimaattorit Hyvä malli: ieni jäännösneliösumma / korkea selitysaste Minkä tahansa selittäjän lisääminen yleensä ienentää jäännösneliösummaa / kasvattaa selitysastetta Hyvä malli: kaikki selittäjät tilastollisesti merkitseviä Minkä tahansa selittäjän oistaminen / lisääminen saattaa muuttaa malliin jäävien tai sieltä jo oistettujen selittäjien tilastollista merkitsevyyttä Selittäjien valintamenetelmät: Mallinvalintatestit: yritään valitsemaan jotakin testausstrategiaa käyttäen kaikki tilastollisesti merkitsevät selittäjät Mallinvalintakriteerit: valitaan selittäjiksi kaikkien tarjolla olevien selittäjien joukosta osajoukko, joka otimoi kriteerifunktion arvon Kai Virtanen Mallinvalintatestien idea Hyvä malli kaikki regressiokertoimet tilastollisesti merkitseviä Mallinvalintatestit: Selittäjän merkitsevyyttä testaavat tilastolliset testit Regressiokertoimenβ i tilastollisen merkitsevyyden testaaminen (t-testi: H 0 : β i = 0 H 0 ok => selitettävä ei riiu selittäjästä x i H 0 hylätään => selitettävä riiuu selittäjästä x i, regressiokerroinβ i ja vastaava selittäjä tilastollisesti merkitseviä Mallinvalintatestien tavoite: Malliin mukaan kaikki tilastollisesti merkitsevät selittäjät Mallin ulkouolelle kaikki tilastollisesti ei-merkitsevät selittäjät Mallinvalintatestien toimintastrategia: Muodostetaan lähtömalli Merkitsevät selittäjät yritään lisäämään em. malliin Ei-merkitsevät selittäjät yritään oistamaan em. mallista Selittäjän oistamisen ja lisäämisen vaikutukset Ongelma: Selittäjän tilastolliseen merkitsevyyteen vaikuttaa (yleensä mallin muut selittäjät => Testien suoritusjärjestys saattaa vaikuttaa loulliseen malliin Mallista oistetaan tilastollisesti ei-merkitseviä selittäjiä: Poistamisjärjestys saattaa vaikuttaa loutulokseen Selittäjän oistaminen mallista saattaa muuttaa aikaisemmin eimerkitsevänä oistetun selittäjäkandidaatin merkitseväksi, jos se otettaisiin takaisin malliin Malliin lisätään tilastollisesti merkitseviä selittäjiä: Lisäämisjärjestys saattaa vaikuttaa loutulokseen Selittäjän lisääminen malliin saattaa muuttaa mallissa olevan, ennen uuden selittäjän lisäämistä merkitsevän selittäjän ei-merkitseväksi Kai Virtanen 3 Kai Virtanen 4 1

Askellusstrategiat Mallinvalintatesteihin liittyvät ongelmat ovat johtaneet erilaisten askellusstrategioiden kehittämiseen Tarkastellaan kahta strategiaa: (i (ii Askellus alasäin Askeltava regressio (iii (Askellus ylösäin Eri strategiat saattavat johtaa eri malleihin!!!! Alasäin askelluksen mallinvalintastrategia (1 Lähtömalliin kaikki selittäjäkandidaatit ( Valitaan mallinvalintatesteissä käytettävä merkitsevyystaso Out Askel muodostuu vaiheista (3-(7: (3 Estimoidaan malli mallissa olevilla selittäjillä (4 Testataan merkitsevyystasoa Out käyttäen kaikkien selittäjien tilastollista merkitsevyyttä (5 Kaikki selittäjät tilastollisesti merkitseviä => Malli valmis (6 Poistetaan mallin ei-merkitsevistä selittäjistä se, jota vastaava -arvo on suurin (7 Goto (3 Kai Virtanen 5 Kai Virtanen 6 Askeltavan regression mallinvalintastrategia (1 Muodostetaan lähtömalli ( Valitaan kaksi mallinvalintatesteissä käytettävää merkitsevyystasoa In ja Out Askel muodostuu vaiheista (3-(9 (3 Estimoidaan malli mallissa olevilla selittäjillä (4 Testataan yksitellen kaikkien mallin ulkouolella olevien selittäjäkandidaattien tilastollista merkitsevyyttä malliin lisättyinä, merkitsevyystaso In (5 Testataan kaikkien mallissa olevien selittäjien tilastollista merkitsevyyttä, merkitsevyystaso Out (6 Löytyy tilastollisesti merkitseviä selittäjäkandidaatteja malliin liitettynä => Lisätään ienintä -arvoa vastaava selittäjä (7 Mallissa tilastollisesti ei-merkitseviä selittäjiä => Poistetaan suurinta -arvoa vastaava selittäjä (8 Malliin ei voida liittää uusia selittäjiä & Mallista ei voida oistaa selittäjiä => malli valmis (9 Goto (3 Kai Virtanen 7 Mallinvalintakriteereiden idea Hyvä regressiomalli ieni jäännösneliösumma / korkea selitysaste R Älynväläys: Valitaan malliin selittäjät s.e. minimoituu / R maksimoituu!! Ei kauhean älykäs väläys: Malliin lisätään selittäjä => ienenee tai ei ainakaan kasva / R kasvaa tai ei ainakaan ienene Älynväläys johtaa aina kaikkien tarjolla olevien selittäjien valintaan Mallinvalintakriteeri: Jäännösneliösumma + regressiokertoimien lukumäärästä riiuva sakkofunktio Sakkofunktio kasvattaa kriteerifunktion arvoa, elleivät malliin lisätyt selittäjät ienennä jäännösneliösummaa tareeksi Tieteellisen äättelyn keskeisen eriaatteen rincile of arsimony kiteytys tilastollisten mallien maailmaan Princile of arsimony: Yksinkertainen selitys tosiasioille on aina aremi kuin monimutkainen selitys, Kee It Simle Stuid!!!! Kai Virtanen 8

Mallinvalintakriteereiden käyttö mallin valinnassa Mallinvalintakriteereiden soveltaminen: (i Määrätään kriteerifunktion arvo kaikille mahdollisille selittäjäkandidaattien yhdistelmille (ii Valitaan malliin selittäjiksi se selittäjäkandidaattien yhdistelmä, joka maksimoi/minimoi kriteerifunktion Kirjallisuudessa iso läjä erilaisia mallinvalintakriteereitä Tarkastellaan kolmea kriteeriä: (i Jäännösvarianssikriteeri (ii Korjattu selityaste (iii Mallowsin C Nämä kriteerit tuottavat asymtoottisesti (havaintojen lukumäärän kasvaessa rajatta harhattoman mallin siinä mielessä, että mallista ei jää ois siihen kuuluvia selittäjiä Eri kriteerit saattavat johtaa eri malleihin! Jäännösvarianssikriteeri Olkoon selittäjiä (vakioselittäjä mukaan luettuna = k + 1 kl ja havaintoja n kl ˆ σ Jäännösvarianssikriteeri: s ˆ = = σ + n n jossa jäännösneliösumma ˆ = nσ = β β ˆ σ = ja n on jäännösvarianssin suurimman uskottavuuden estimaattori Paras malli minimoi kriteerifunktion arvon Jäännösvarianssikriteerin arvo saattaa kasvaa, elleivät malliin lisätyt selittäjät ienennä estimoidun mallin jäännösneliösummaa tareeksi aljon Kai Virtanen 9 Kai Virtanen 10 Korjattu selitysaste Mallowsin C -kriteeri Olkoon selittäjiä (vakioselittäjä mukaan luettuna = k + 1 kl ja havaintoja n kl n 1 Korjattu selitysaste: R = 1 n SST jossa jäännösneliösumma = b b ja y:n vaihtelua kuvaava kokonaisneliösumma SST = ( n 1 s y Paras malli maksimoi kriteerifunktion arvon Korjatun selitysasteen arvo saattaa ienentyä, elleivät malliin lisätyt selittäjät kasvata estimoidun mallin selitysastetta tareeksi aljon Korjatun selitysasteen maksimointi / jäännösvarianssikriteerin minimointi => sama malli!! Olkoon selittäjiä (vakioselittäjä mukaan luettuna = k + 1 kl ja havaintoja n kl Mallowsin C -kriteeri: C = + n sq jossa jäännösneliösumma on ˆ = nσ = β β ja ( n q s q = q missä q on kaikkien selittäjäkandidaattien lukumäärä Paras malli minimoi kriteerifunktion arvon Mallowsin kriteerin arvo saattaa kasvaa, elleivät malliin lisätyt selittäjät ienennä estimoidun mallin jäännösneliösummaa tareeksi aljon Kai Virtanen 11 Kai Virtanen 1 3

Kommentteja mallin valintaan Mallinvalintatestit ja kriteerit => sadaan mallikandidaatteja Mikä valitaan loulliseksi malliksi? Tilastollisia kriteereitä: Mallin on selvittävä diagnostisista tarkistuksista Mallin arametrien on oltava tilastollisesti merkitseviä Suunnilleen yhtäsuuret selitysasteet => Valitaan yksinkertaisin malli Mallia ei idä kuitenkaan koskaan valita elkästään tilastollisin kriteerein!!!! Mallia itää aina tarkastella käyttäen maalais/kauunkilaisjärkeä: Ovatko mallin arametrit oikean merkkisiä ja oikean kokoisia? Kuvaako malli todellisuutta mielekkäällä tavalla? Tutkimuksen kohteena olevan ilmiön tuntemus ja ilmiötä koskeva teoria auttaa em. tarkastelussa Mat-.104 Tilastollisen analyysin erusteet, kevät 007 Yleistetty ienimmän neliösumman menetelmä Kai Virtanen 13 Kai Virtanen 14 Yleistettyyn PNS-menetelmään liittyvät oletukset Tarkastellaan mallia Korvataan standardioletukset (iv&(v (iv jäännöstermit homoskedastisia (vakio varianssi (v jäännöstermit korreloimattomia oletuksella Cov( ε = σ V y = β+ ε jossa V on ositiividefiniitti matriisi (i.e., on olemassa käänteismatriisi Uusi oletus => jäännöstermit ε j, j = 1,,,n saavat olla sekä heteroskedastisia että korreloituneita Yleistetty PNS-estimaattori 1 Minimoidaan neliömuoto β V β vektorinβ suhteen 1 1 1 => yleistetty PNS-estimaattori b GLS = ( V V y GLS = Generalized Least Squares Estimaattori on aras (eli tehokkain vektorin β lineaarinen ja harhaton estimaattori Käytännössä törmätään ikkurobleemiin: Matriisi V tuntematon Matriisissa n(n + 1/ arametria, n havaintojen lukumäärä => matriisia ei voi estimoida havainnoista Aikasarjamalleissa V voidaan sesifioida jäännöstermin autokorrelaatiorakenteen (osittaisautokorrelaatio, käänteinen autokorrelaatio erusteella Kai Virtanen 15 Kai Virtanen 16 4

Yleistetty PNS-estimaattori, korreloimaton jäännöstermi Oletaan korreloimattomat, mutta heteroskedastiset jäännöstermit Matriisi V on diagonaalinen V = diag( z1, z, K, z n Yleistetyn PNS-estimaattorin kaavassa 1 1 1 b GLS = ( V V y matriisin V käänteismatriisi on 1 V = diag(1/ z1,1/ z, K,1/ z n b GLS kutsutaan ainotetuksi PNS-estimaattoriksi Estimaattori voidaan muodostaa tavallisella PNS-menetelmällä kerrotaan alkueräiset havaintoarvot y j,x j1,x j,,x jk, j=1,,,n ainoilla 1/z j, j=1,,,n Painojen estimointi haasteellista Robusti regressio: aino riiuu residuaalin suuruudesta Mat-.104 Tilastollisen analyysin erusteet, kevät 007 Regressiomuuttujien mitta-asteikoista Kai Virtanen 17 Kai Virtanen 18 Lineaarinen regessiomalli, dummy-muuttujat Selitettävä y ja selittäjät x j intervalli- tai suhdeastoikollisia muuttujia => yleinen malli ok! y intervalli- tai suhdeasteikollinen ja x j laatuero- tai järjestysasteikollinen => yleinen malli ok! Dummy-muuttuja x x=0 tai x=1 Esim. alkan riiuvuus iästä (x 1, sukuuolesta (x ja koulutuksesta Dummy-muuttuja x : x =1 nainen ja x =0 mies Yleinen malli y=b 0 +b 1 x 1 +b x toimii! Koulutus: eruskoulu, keskiaste, korkeakoulu Dummy-muuttuja x 3 : x 3 =1 eruskoulu ja x 3 =0 ei eruskoulu Dummy-muuttuja x 4 : x 4 =1 keskiaste ja x 4 =0 ei keskiaste x 3 =0 ja x 4 =0 vastaa korkeakoulua => ei tarvita muuttujaa Yleinen malli y=b 0 +b 1 x 1 +b x ++b 3 x 3 +b 4 x 4 toimii! Erikoisemia regressiomalleja Selitettävä y on kaksitasoinen laatuero- tai järjestysasteikollinen muuttuja Esim. y=1 yksilö äänesti ja y=0 yksilö ei äänestänyt Mitkä tekijät x 1, x jne. vaikuttivat äänestyskäyttäytymiseen? Vastaus: Logistinen regressiomalli - estimoidun mallin selitettävän arvot nollan ja ykkösen välillä, todennäköisyys Selitettävä y saa ieniä ei-negatiivisia kokonaislukuarvoja Esim. vikojen tai onnettomuuksien lukumäärä aikayksikössä Poisson regressiomalli Kai Virtanen 19 Kai Virtanen 0 5