Mat Tilastollisen analyysin perusteet, kevät 2007

Samankaltaiset tiedostot
Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Johdatus regressioanalyysiin. Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Regressiodiagnostiikka ja regressiomallin valinta

Regressiodiagnostiikka ja regressiomallin valinta

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Yleinen lineaarinen malli

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

Regressiomallin valinta. Regressiomallin valinta. Regressiomallin valinta: Esitiedot. Regressiomallin valinta: Mitä opimme?

Yleistetyistä lineaarisista malleista

Harjoitus 9: Excel - Tilastollinen analyysi

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

2. Teoriaharjoitukset

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Dynaamiset regressiomallit

2. Tietokoneharjoitukset

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Korrelaatiokertoinen määrittely 165

Osa 2: Otokset, otosjakaumat ja estimointi

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

MS-C2128 Ennustaminen ja aikasarja-analyysi 2. harjoitukset / Tehtävät Kotitehtävä: 3,4

Lohkoasetelmat. Heliövaara 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Väliestimointi (jatkoa) Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Lohkoasetelmat. Kuusinen/Heliövaara 1

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Mat Tilastollisen analyysin perusteet, kevät 2007

Pienimmän neliösumman menetelmä (PNS)

Identifiointiprosessi

Sovellettu todennäköisyyslaskenta B

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Pienimmän neliösumman menetelmä (PNS)

Pienimmän neliösumman menetelmä (PNS)

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Tilastolliset menetelmät. β versio. Tilastolliset menetelmät. Ilkka Mellin. Teknillinen korkeakoulu, Matematiikan laboratorio

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastolliset menetelmät

Sovellettu todennäköisyyslaskenta B

Vastepintamenetelmä. Heliövaara 1

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Harjoitus 2: Matlab - Statistical Toolbox

Estimointi. Vilkkumaa / Kuusinen 1

1. Tutkitaan tavallista kahden selittäjän regressiomallia

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Koesuunnittelu 2 k -faktorikokeet. TKK (c) Ilkka Mellin (2005) 1

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Harjoitukset 4 : Paneelidata (Palautus )

Harjoitus 7: NCSS - Tilastollinen analyysi

Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

Yhden selittäjän lineaarinen regressiomalli

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Pienimmän Neliösumman menetelmä (PNS)

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Todennäköisyyden ominaisuuksia

Testejä suhdeasteikollisille muuttujille

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Sovellettu todennäköisyyslaskenta B

1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

4. Tietokoneharjoitukset

Koesuunnittelu Vastepintamenetelmä. TKK (c) Ilkka Mellin (2005) 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

4.2 Useampi selittävä muuttuja (kertausta)

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Transkriptio:

Mat-.104 Tilastollisen analyysin erusteet, kevät 007 Regressiomallin (selittäjien valinta Kai Virtanen 1 Regressiomallin selittäjien valinnasta Mallista uuttuu selittäjiä => harhaiset regressiokertoimien PNS-estimaattorit Mallissa turhia selittäjiä => tehottomat regressiokertoimien PNS-estimaattorit Hyvä malli: ieni jäännösneliösumma / korkea selitysaste Minkä tahansa selittäjän lisääminen yleensä ienentää jäännösneliösummaa / kasvattaa selitysastetta Hyvä malli: kaikki selittäjät tilastollisesti merkitseviä Minkä tahansa selittäjän oistaminen / lisääminen saattaa muuttaa malliin jäävien tai sieltä jo oistettujen selittäjien tilastollista merkitsevyyttä Selittäjien valintamenetelmät: Mallinvalintatestit: yritään valitsemaan jotakin testausstrategiaa käyttäen kaikki tilastollisesti merkitsevät selittäjät Mallinvalintakriteerit: valitaan selittäjiksi kaikkien tarjolla olevien selittäjien joukosta osajoukko, joka otimoi kriteerifunktion arvon Kai Virtanen Mallinvalintatestien idea Hyvä malli kaikki regressiokertoimet tilastollisesti merkitseviä Mallinvalintatestit: Selittäjän merkitsevyyttä testaavat tilastolliset testit Regressiokertoimenβ i tilastollisen merkitsevyyden testaaminen (t-testi: H 0 : β i = 0 H 0 ok => selitettävä ei riiu selittäjästä x i H 0 hylätään => selitettävä riiuu selittäjästä x i, regressiokerroinβ i ja vastaava selittäjä tilastollisesti merkitseviä Mallinvalintatestien tavoite: Malliin mukaan kaikki tilastollisesti merkitsevät selittäjät Mallin ulkouolelle kaikki tilastollisesti ei-merkitsevät selittäjät Mallinvalintatestien toimintastrategia: Muodostetaan lähtömalli Merkitsevät selittäjät yritään lisäämään em. malliin Ei-merkitsevät selittäjät yritään oistamaan em. mallista Selittäjän oistamisen ja lisäämisen vaikutukset Ongelma: Selittäjän tilastolliseen merkitsevyyteen vaikuttaa (yleensä mallin muut selittäjät => Testien suoritusjärjestys saattaa vaikuttaa loulliseen malliin Mallista oistetaan tilastollisesti ei-merkitseviä selittäjiä: Poistamisjärjestys saattaa vaikuttaa loutulokseen Selittäjän oistaminen mallista saattaa muuttaa aikaisemmin eimerkitsevänä oistetun selittäjäkandidaatin merkitseväksi, jos se otettaisiin takaisin malliin Malliin lisätään tilastollisesti merkitseviä selittäjiä: Lisäämisjärjestys saattaa vaikuttaa loutulokseen Selittäjän lisääminen malliin saattaa muuttaa mallissa olevan, ennen uuden selittäjän lisäämistä merkitsevän selittäjän ei-merkitseväksi Kai Virtanen 3 Kai Virtanen 4 1

Askellusstrategiat Mallinvalintatesteihin liittyvät ongelmat ovat johtaneet erilaisten askellusstrategioiden kehittämiseen Tarkastellaan kahta strategiaa: (i (ii Askellus alasäin Askeltava regressio (iii (Askellus ylösäin Eri strategiat saattavat johtaa eri malleihin!!!! Alasäin askelluksen mallinvalintastrategia (1 Lähtömalliin kaikki selittäjäkandidaatit ( Valitaan mallinvalintatesteissä käytettävä merkitsevyystaso Out Askel muodostuu vaiheista (3-(7: (3 Estimoidaan malli mallissa olevilla selittäjillä (4 Testataan merkitsevyystasoa Out käyttäen kaikkien selittäjien tilastollista merkitsevyyttä (5 Kaikki selittäjät tilastollisesti merkitseviä => Malli valmis (6 Poistetaan mallin ei-merkitsevistä selittäjistä se, jota vastaava -arvo on suurin (7 Goto (3 Kai Virtanen 5 Kai Virtanen 6 Askeltavan regression mallinvalintastrategia (1 Muodostetaan lähtömalli ( Valitaan kaksi mallinvalintatesteissä käytettävää merkitsevyystasoa In ja Out Askel muodostuu vaiheista (3-(9 (3 Estimoidaan malli mallissa olevilla selittäjillä (4 Testataan yksitellen kaikkien mallin ulkouolella olevien selittäjäkandidaattien tilastollista merkitsevyyttä malliin lisättyinä, merkitsevyystaso In (5 Testataan kaikkien mallissa olevien selittäjien tilastollista merkitsevyyttä, merkitsevyystaso Out (6 Löytyy tilastollisesti merkitseviä selittäjäkandidaatteja malliin liitettynä => Lisätään ienintä -arvoa vastaava selittäjä (7 Mallissa tilastollisesti ei-merkitseviä selittäjiä => Poistetaan suurinta -arvoa vastaava selittäjä (8 Malliin ei voida liittää uusia selittäjiä & Mallista ei voida oistaa selittäjiä => malli valmis (9 Goto (3 Kai Virtanen 7 Mallinvalintakriteereiden idea Hyvä regressiomalli ieni jäännösneliösumma / korkea selitysaste R Älynväläys: Valitaan malliin selittäjät s.e. minimoituu / R maksimoituu!! Ei kauhean älykäs väläys: Malliin lisätään selittäjä => ienenee tai ei ainakaan kasva / R kasvaa tai ei ainakaan ienene Älynväläys johtaa aina kaikkien tarjolla olevien selittäjien valintaan Mallinvalintakriteeri: Jäännösneliösumma + regressiokertoimien lukumäärästä riiuva sakkofunktio Sakkofunktio kasvattaa kriteerifunktion arvoa, elleivät malliin lisätyt selittäjät ienennä jäännösneliösummaa tareeksi Tieteellisen äättelyn keskeisen eriaatteen rincile of arsimony kiteytys tilastollisten mallien maailmaan Princile of arsimony: Yksinkertainen selitys tosiasioille on aina aremi kuin monimutkainen selitys, Kee It Simle Stuid!!!! Kai Virtanen 8

Mallinvalintakriteereiden käyttö mallin valinnassa Mallinvalintakriteereiden soveltaminen: (i Määrätään kriteerifunktion arvo kaikille mahdollisille selittäjäkandidaattien yhdistelmille (ii Valitaan malliin selittäjiksi se selittäjäkandidaattien yhdistelmä, joka maksimoi/minimoi kriteerifunktion Kirjallisuudessa iso läjä erilaisia mallinvalintakriteereitä Tarkastellaan kolmea kriteeriä: (i Jäännösvarianssikriteeri (ii Korjattu selityaste (iii Mallowsin C Nämä kriteerit tuottavat asymtoottisesti (havaintojen lukumäärän kasvaessa rajatta harhattoman mallin siinä mielessä, että mallista ei jää ois siihen kuuluvia selittäjiä Eri kriteerit saattavat johtaa eri malleihin! Jäännösvarianssikriteeri Olkoon selittäjiä (vakioselittäjä mukaan luettuna = k + 1 kl ja havaintoja n kl ˆ σ Jäännösvarianssikriteeri: s ˆ = = σ + n n jossa jäännösneliösumma ˆ = nσ = β β ˆ σ = ja n on jäännösvarianssin suurimman uskottavuuden estimaattori Paras malli minimoi kriteerifunktion arvon Jäännösvarianssikriteerin arvo saattaa kasvaa, elleivät malliin lisätyt selittäjät ienennä estimoidun mallin jäännösneliösummaa tareeksi aljon Kai Virtanen 9 Kai Virtanen 10 Korjattu selitysaste Mallowsin C -kriteeri Olkoon selittäjiä (vakioselittäjä mukaan luettuna = k + 1 kl ja havaintoja n kl n 1 Korjattu selitysaste: R = 1 n SST jossa jäännösneliösumma = b b ja y:n vaihtelua kuvaava kokonaisneliösumma SST = ( n 1 s y Paras malli maksimoi kriteerifunktion arvon Korjatun selitysasteen arvo saattaa ienentyä, elleivät malliin lisätyt selittäjät kasvata estimoidun mallin selitysastetta tareeksi aljon Korjatun selitysasteen maksimointi / jäännösvarianssikriteerin minimointi => sama malli!! Olkoon selittäjiä (vakioselittäjä mukaan luettuna = k + 1 kl ja havaintoja n kl Mallowsin C -kriteeri: C = + n sq jossa jäännösneliösumma on ˆ = nσ = β β ja ( n q s q = q missä q on kaikkien selittäjäkandidaattien lukumäärä Paras malli minimoi kriteerifunktion arvon Mallowsin kriteerin arvo saattaa kasvaa, elleivät malliin lisätyt selittäjät ienennä estimoidun mallin jäännösneliösummaa tareeksi aljon Kai Virtanen 11 Kai Virtanen 1 3

Kommentteja mallin valintaan Mallinvalintatestit ja kriteerit => sadaan mallikandidaatteja Mikä valitaan loulliseksi malliksi? Tilastollisia kriteereitä: Mallin on selvittävä diagnostisista tarkistuksista Mallin arametrien on oltava tilastollisesti merkitseviä Suunnilleen yhtäsuuret selitysasteet => Valitaan yksinkertaisin malli Mallia ei idä kuitenkaan koskaan valita elkästään tilastollisin kriteerein!!!! Mallia itää aina tarkastella käyttäen maalais/kauunkilaisjärkeä: Ovatko mallin arametrit oikean merkkisiä ja oikean kokoisia? Kuvaako malli todellisuutta mielekkäällä tavalla? Tutkimuksen kohteena olevan ilmiön tuntemus ja ilmiötä koskeva teoria auttaa em. tarkastelussa Mat-.104 Tilastollisen analyysin erusteet, kevät 007 Yleistetty ienimmän neliösumman menetelmä Kai Virtanen 13 Kai Virtanen 14 Yleistettyyn PNS-menetelmään liittyvät oletukset Tarkastellaan mallia Korvataan standardioletukset (iv&(v (iv jäännöstermit homoskedastisia (vakio varianssi (v jäännöstermit korreloimattomia oletuksella Cov( ε = σ V y = β+ ε jossa V on ositiividefiniitti matriisi (i.e., on olemassa käänteismatriisi Uusi oletus => jäännöstermit ε j, j = 1,,,n saavat olla sekä heteroskedastisia että korreloituneita Yleistetty PNS-estimaattori 1 Minimoidaan neliömuoto β V β vektorinβ suhteen 1 1 1 => yleistetty PNS-estimaattori b GLS = ( V V y GLS = Generalized Least Squares Estimaattori on aras (eli tehokkain vektorin β lineaarinen ja harhaton estimaattori Käytännössä törmätään ikkurobleemiin: Matriisi V tuntematon Matriisissa n(n + 1/ arametria, n havaintojen lukumäärä => matriisia ei voi estimoida havainnoista Aikasarjamalleissa V voidaan sesifioida jäännöstermin autokorrelaatiorakenteen (osittaisautokorrelaatio, käänteinen autokorrelaatio erusteella Kai Virtanen 15 Kai Virtanen 16 4

Yleistetty PNS-estimaattori, korreloimaton jäännöstermi Oletaan korreloimattomat, mutta heteroskedastiset jäännöstermit Matriisi V on diagonaalinen V = diag( z1, z, K, z n Yleistetyn PNS-estimaattorin kaavassa 1 1 1 b GLS = ( V V y matriisin V käänteismatriisi on 1 V = diag(1/ z1,1/ z, K,1/ z n b GLS kutsutaan ainotetuksi PNS-estimaattoriksi Estimaattori voidaan muodostaa tavallisella PNS-menetelmällä kerrotaan alkueräiset havaintoarvot y j,x j1,x j,,x jk, j=1,,,n ainoilla 1/z j, j=1,,,n Painojen estimointi haasteellista Robusti regressio: aino riiuu residuaalin suuruudesta Mat-.104 Tilastollisen analyysin erusteet, kevät 007 Regressiomuuttujien mitta-asteikoista Kai Virtanen 17 Kai Virtanen 18 Lineaarinen regessiomalli, dummy-muuttujat Selitettävä y ja selittäjät x j intervalli- tai suhdeastoikollisia muuttujia => yleinen malli ok! y intervalli- tai suhdeasteikollinen ja x j laatuero- tai järjestysasteikollinen => yleinen malli ok! Dummy-muuttuja x x=0 tai x=1 Esim. alkan riiuvuus iästä (x 1, sukuuolesta (x ja koulutuksesta Dummy-muuttuja x : x =1 nainen ja x =0 mies Yleinen malli y=b 0 +b 1 x 1 +b x toimii! Koulutus: eruskoulu, keskiaste, korkeakoulu Dummy-muuttuja x 3 : x 3 =1 eruskoulu ja x 3 =0 ei eruskoulu Dummy-muuttuja x 4 : x 4 =1 keskiaste ja x 4 =0 ei keskiaste x 3 =0 ja x 4 =0 vastaa korkeakoulua => ei tarvita muuttujaa Yleinen malli y=b 0 +b 1 x 1 +b x ++b 3 x 3 +b 4 x 4 toimii! Erikoisemia regressiomalleja Selitettävä y on kaksitasoinen laatuero- tai järjestysasteikollinen muuttuja Esim. y=1 yksilö äänesti ja y=0 yksilö ei äänestänyt Mitkä tekijät x 1, x jne. vaikuttivat äänestyskäyttäytymiseen? Vastaus: Logistinen regressiomalli - estimoidun mallin selitettävän arvot nollan ja ykkösen välillä, todennäköisyys Selitettävä y saa ieniä ei-negatiivisia kokonaislukuarvoja Esim. vikojen tai onnettomuuksien lukumäärä aikayksikössä Poisson regressiomalli Kai Virtanen 19 Kai Virtanen 0 5