Mat Tilastollisen analyysin perusteet, kevät 2007

Samankaltaiset tiedostot
Mat Tilastollisen analyysin perusteet, kevät 2007

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Harjoitus 9: Excel - Tilastollinen analyysi

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Sovellettu todennäköisyyslaskenta B

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Korrelaatiokertoinen määrittely 165

Yhden selittäjän lineaarinen regressiomalli

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Dynaamiset regressiomallit

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Mat Tilastollisen analyysin perusteet, kevät 2007

Väliestimointi (jatkoa) Heliövaara 1

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Mat Tilastollisen analyysin perusteet, kevät 2007

Yleinen lineaarinen malli

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Kaksisuuntainen varianssianalyysi. Heliövaara 1

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Yhden selittäjän lineaarinen regressiomalli: Lisätiedot. Yhden selittäjän lineaarinen regressiomalli

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Estimointi. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Regressiomallin valinta. TKK (c) Ilkka Mellin (2004) 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiomallin valinta. TKK (c) Ilkka Mellin (2007) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Todennäköisyyden ominaisuuksia

Testejä suhdeasteikollisille muuttujille

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Vastepintamenetelmä. Kuusinen/Heliövaara 1

1. Tilastollinen malli??

Mat Tilastollisen analyysin perusteet, kevät 2007

031021P Tilastomatematiikka (5 op) viikko 6

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Kertausluento. Vilkkumaa / Kuusinen 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Mat Sovellettu todennäköisyyslasku A

Regressiodiagnostiikka ja regressiomallin valinta

Mat Tilastollisen analyysin perusteet, kevät 2007

Yleistetyistä lineaarisista malleista

4.0.2 Kuinka hyvä ennuste on?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

2. Teoriaharjoitukset

Yleinen lineaarinen malli. Yleinen lineaarinen malli. Yleinen lineaarinen malli: Mitä opimme? 2/4. Yleinen lineaarinen malli: Mitä opimme?

10. laskuharjoituskierros, vko 14, ratkaisut

Regressiodiagnostiikka ja regressiomallin valinta

Sovellettu todennäköisyyslaskenta B

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Lohkoasetelmat. Heliövaara 1

031021P Tilastomatematiikka (5 op) viikko 6

Harjoitus 3: Regressiomallit (Matlab)

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Johdatus regressioanalyysiin

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Harjoitus 3: Regressiomallit (Matlab)

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastollinen aineisto Luottamusväli

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Regressiodiagnostiikka. TKK (c) Ilkka Mellin (2007) 1

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Transkriptio:

Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1

Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään lineaarisella regressiomallilla y = β + β1 x + ε, = 1,, K, n Standardioletukset äännöstermeistä Regressiokertoimien estimaattorit PNS-menetelmällä Jäännösvarianssin Var(ε ) = σ estimaattori: n = e n = 1 ossa e estimoidun mallin residuaali eli havainnon a sovitteen erotus Varianssianalyysihaotelma: kokonaisns SST = äännösns SEE + mallins SSM Selitysaste: R = SSM / SST = 1 SSE / SST regressiomallin hyvyys s 1 Kai Virtanen

Päättely yhden selittään lineaarisesta regressiomallista Regressiokerroin b 1 lähellä nollaa => muuttuien välillä ei ole lineaarista tilastollista riippuvuutta kaukana nollasta => muuttuien välillä on lineaarinen rilastollinen riippuvuus merkki => riippuvuuden suunta, + / - Selitysaste R lähellä nollaa => ei riippuvuutta, malli ei selitä alkuunkaan selitettävän muuttuan vaihtelua lähellä ykkästä => riippuvuus, malli selittää hyvin selitettävän muuttaan vaihtelun Mitä tarkoittaa lähellä / kaukana? Ratkaisu: regressiokertoimien luottamusvälit testit regressiokertoimille testi selitysasteelle Selitettävän ennustaminen annetulla selittään arvolla yksittäisen arvon ennuste a luottamusväli keskimääräisen arvon ennuste a luottamusväli Kai Virtanen 3

Regressiokertoimien luottamusvälit Jos äännöstermien standardioletukset ok, regressiokertoimien PNS-estimaattorit normaaliakautuneita Jakaumien avulla luottamusvälit Regressiosuoran kulmakertoimen β 1 luottamusväli luottamustasolla (1 α) b ± t 1 α / 1 s x Regressiosuoran vakion β luottamusväli luottamustasolla (1 α) b ± t α / Luottamuskertoimet Studentin t-akaumasta, vapausasteet (n ) s on äännösvarianssin σ harhaton estimaattori n s s n = 1 x n( n 1) s x Kai Virtanen 4

Testi regressiosuoran kulmakertoimelle Nollahypoteesi t-testisuure (t-akautunut, vapausasteet n-) t 1 H : β = β = 1 1 1 b β 1 1 s /( n 1 s ) Itseisarvoltaan suuri testisuureen arvo / pieni p-arvo => nollahypoteesi ei päde Kaksisuuntainen vaihtoehtoinen hypoteesi, merkitsevyystaso α: nollahypoteesi ei päde β 1 ei ole luottamusvälin sisällä, luottamustaso 1-α Yksisuuntainen vaihtoehtoinen hypoteesi, merkitsevyystaso α: nollahypoteesi ei päde β 1 ei ole luottamusvälin sisällä, luottamustaso 1-α x Kai Virtanen 5

Nollahypoteesi Testi regressiosuoran vakiolle t-testisuure (t-akautunut, vapausasteet n-) t H : β = β = ( ( 1) ) x Itseisarvoltaan suuri testisuureen arvo / pieni p-arvo => nollahypoteesi ei päde b β s x n n s Kaksisuuntainen vaihtoehtoinen hypoteesi, merkitsevyystaso α: nollahypoteesi ei päde β ei ole luottamusvälin sisällä, luottamustaso 1-α Yksisuuntainen vaihtoehtoinen hypoteesi, merkitsevyystaso α: nollahypoteesi ei päde β ei ole luottamusvälin sisällä, luottamustaso 1-α Kai Virtanen 6

Testi selitysasteelle Nollahypoteesi R =, vaihtoehtoinen hypoteesi R > Ekvivalentisti H : β = 1 1 F-testisuure (F-akauma, vapausasteet 1 a n ) R F = ( n ) 1 R ossa R on estimoidun mallin selitysaste Suuret testisuureen arvot => nollahypoteesi ei päde p-arvo = P(F > testisuureen arvo) Kai Virtanen 7

Selitysasteen testaamisesta Yhden selittään mallille => Neliöuuri edellisestä R = r xy t = n rxy 1 r rxy = ( n ) 1 r - t-akautunut, vapausasteet (n ) Suuret testisuureen arvot => nollahypoteesi R = ei päde Huom! edellinen t-testisuure a t-testisuure korreloimattomuudelle ovat ekvivalenttea Lisäksi rxy b1 t = n = = t 1 1 r s / n 1 s xy x eli käytännössä ykshailee testataanko b 1 vai R (yhden selittään malli!!!) F xy xy Kai Virtanen 8

Ennustaminen yhden selittään lineaarisella regressiomallilla Oletetaan muuttuien x a y välille lineaarinen tilastollinen riippuvuus Ennustetaan selitettävää muuttuaa y, kun selittävä muuttua x saa arvon x% Kaksi aatusmallia: (i) (ii) y = β + β1 x + ε, = 1,, K, n Tavoitteena ennustaa selitettävän muuttuan y odotettavissa oleva eli keskimääräinen arvo Tavoitteena ennustaa selitettävän muuttuan y yksittäinen arvo Kai Virtanen 9

y:n odotusarvon ennustaminen Mikä on paras ennuste y:n odotettavissa olevalle arvolle y% x% = β + β + % ε 1 kun selittää saa arvon? Vastaus: Selitettävän muuttuan y ehdollinen odotusarvo E( y% x% ) = β + β x% 1 Odotusarvo kuvaa y:n keskimäärin saamia arvoa x:n saamien arvoen funktiona Estimaattori 1 - b a b 1 regressiokertoimien PNS-estimaattorit - ennuste normaaliakautunut x% ŷ x% = b + b x% Kai Virtanen 1

y:n odotusarvon luottamusväli Odotusarvon luottamusväli luottamustasolla (1 α) 1 ( x% x ) b + b x% ± t s + n ( n 1) s x 1 α / - luottamuskertoimet Studentin t-akaumasta, vapausasteet n - s on äännösvarianssin σ harhaton estimaattori Luottamusväli muodostaa selittään x arvoen funktiona luottamusvyön estimoidun regressiosuoran y = b + b 1 x ympärille Luottamusväli kaventuu, os havaintoen lukumäärä tai selittään otosvarianssi kasvaa Luottamusväli on sitä leveämpi, mitä kauempana piste on selittään keskiarvosta x% Kai Virtanen 11

y:n arvon ennustaminen Oletetaan, että selitettävä muuttua y saa arvon y% x% = β + β + % ε 1 kun selittää x saa arvon Mikä on paras ennuste selitettävän muuttuan y arvolle y%, kun selittää x saa arvon? Valitaan selitettävän muuttuan arvon ennusteen estimaattoriksi ŷ x% = b + b x% 1 ossa b a b 1 ovat regressiokertoimien PNS-estimaattorit Tällöin ennustevirhe y% yˆ x% normaaliakautunut, odotusarvo = x% x% Kai Virtanen 1

y:n arvon luottamusväli Selitettävän muuttuan arvon luottamusväli luottamustasolla (1 α) 1 ( x% x ) b + b x% ± t s 1 + + n ( n 1) s x 1 α / - luottamuskertoimet Studentin t-akaumasta, vapausasteet (n ) - s on äännösvarianssin σ harhaton estimaattori Luottamusväli muodostaa selittään x arvoen x% funktiona luottamusvyön estimoidun regressiosuoran y = b + b 1 x ympärille Luottamusväli kaventuu, os havaintoen lukumäärä tai selittään otosvarianssi kasvaa Luottamusväli on sitä leveämpi, mitä kauempana piste on selittään keskiarvosta x% Kai Virtanen 13

y:n arvon luottamusväli vs. y:n odotusarvon luottamusväli Yksittäisen arvon luottamusvyö on leveämpi kuin odotusarvon luottamusvyö Selitettävän muuttuan keskimääräisen arvon ennustaminen on helpompaa kuin yksittäisen arvon ennustaminen Yksittäisen arvon luottamusvälissä otetaan huomioon mittausvirhe / koevirhe, oka poistuu keskiarvoistamalla Kumpaa sitten käytännössä käytetään? kumpaakin riippuu tilanteesta: laaki a vainaa vs. keskimäärin laaki aiheuttaa vainaan Kai Virtanen 14