Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Samankaltaiset tiedostot
Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Väliestimointi (jatkoa) Heliövaara 1

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Testejä suhdeasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus regressioanalyysiin. Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Sovellettu todennäköisyyslaskenta B

Testit laatueroasteikollisille muuttujille

Harjoitus 7: NCSS - Tilastollinen analyysi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastollinen aineisto Luottamusväli

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

10. laskuharjoituskierros, vko 14, ratkaisut

2. TILASTOLLINEN TESTAAMINEN...

Mat Sovellettu todennäköisyyslasku A

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Sovellettu todennäköisyyslaskenta B

Testit järjestysasteikollisille muuttujille

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Estimointi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Todennäköisyyden ominaisuuksia

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Yleinen lineaarinen malli

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

tilastotieteen kertaus

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Korrelaatiokertoinen määrittely 165

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

2. Teoriaharjoitukset

Harjoitus 9: Excel - Tilastollinen analyysi

031021P Tilastomatematiikka (5 op) viikko 5

Osa 2: Otokset, otosjakaumat ja estimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Parametrin estimointi ja bootstrap-otanta

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Otantajakauma

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Lohkoasetelmat. Kuusinen/Heliövaara 1

Transkriptio:

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon

Sisältö arvon Bootstrap-luottamusvälit arvon

arvon

Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n ), pareja (x, y). Oletetaan, että arvot y i ovat muuttujan y satunnaisia havaittuja arvoja ja oletetaan, että arvot x i ovat muuttujan x ei-satunnaisia havaittuja arvoja. Oletetaan, että muuttujan y arvot riippuvat muuttujan x arvoista lineaarisesti. Yhden selittävän muuttujan lineaarinen malli voidaan nyt esittää seuraavalla tavoin. y i = b 0 + b 1 x i + ε i, i 1,..., n, missä regressiokertoimet b 0 ja b 1 ovat tuntemattomia vakioita ja virhetermien (jäännöstermien) ε i odotusarvo E[ε i ] = 0. arvon

, tarvittavat oletukset testeille ja luottamusväleille Tarkastelemme nyt lineaarisen regressiomallin testaamista ja estimaattien luottamusvälejä seuraavien klassisten oletusten ollessa voimassa. Muuttuja y on normaalijakautunut. Virhetermit ovat riippumattomia muuttujan x arvoista. Virhetermit ovat normaalijakautuneita. Virhetermien odotusarvo E[ε i ] = 0, kaikilla i 1,..., n. Virhetermit ovat homoskedastisia eli niillä on kaikilla sama varianssi E[ε 2 i ] = σ2. Virhetermit ovat korreloimattomia eli ρ(ε i, ε j ) = 0, i j. arvon

arvon

, testaus Nollahypoteesi H 0 : b 1 = b1 0. (Useimmiten testataan nollahypoteesin b 1 = 0 paikkansapitävyyttä.) Mahdolliset vaihtoehtoiset hypoteesit: H 1 : b 1 > b 0 1 (yksisuuntainen), H 1 : b 1 < b 0 1 (yksisuuntainen) tai H 1 : b 1 b 0 1 (kaksisuuntainen). t testisuure t = ˆb 1 b 0 1 s/( n 1s x ), missä s 2 on jäännösvarianssin harhaton estimaatti (ks. luento 7) ja s 2 x on muuttujan x otosvarianssi. Jos nollahypoteesi pätee, niin testisuure noudattaa Studentin t jakaumaa vapausastein n 2. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[t] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni. arvon

, testaus Huomaa että jos halutaan testata onko yhden selittävän muuttujan lineaarisen regression selitysaste 0, niin tämä voidaan tehdä testaamalla nollahypoteesin b 1 = 0 paikkansapitävyyttä! arvon

, luottamusväli kulmakertoimen b 1 luottamusväli luottamustasolla (1 α) on muotoa s (ˆb1 t n 2,α/2, ˆb s 1 + t n 2,α/2 ), n 1sx n 1sx missä s 2 on jäännösvarianssin harhaton estimaatti, s 2 x on muuttujan x otosvarianssi ja t n 2,α/2 on Studentin t-jakauman, vapausasteella n 2, luottamuskerroin α/2 (P(t > t n 2,α/2 ) = α/2). arvon

arvon

Lineaarisen regression, testaus Nollahypoteesi H 0 : b 0 = b 0 0. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : b 0 > b 0 0 (yksisuuntainen), H 1 : b 0 < b 0 0 (yksisuuntainen) tai H 1 : b 0 b 0 0 (kaksisuuntainen). t testisuure ˆb 0 b0 0 t = n s i=1 x i 2 /(, n(n 1)s x ) missä s 2 on jäännösvarianssin harhaton estimaatti ja s 2 x on muuttujan x otosvarianssi. Jos nollahypoteesi pätee, niin testisuure noudattaa Studentin t jakaumaa vapausastein n 2. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[t] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni. arvon

Lineaarisen regression, luottamusväli n b 0 luottamusväli luottamustasolla (1 α) on muotoa (ˆb0 t n 2,α/2 s n i=1 x n i 2, ˆb s i=1 0 + t x i 2 n 2,α/2 n(n 1)sx n(n 1)sx ), missä s 2 on jäännösvarianssin harhaton estimaatti, s 2 x on muuttujan x otosvarianssi ja t n 2,α/2 on Studentin t-jakauman, vapausasteella n 2, luottamuskerroin α/2. arvon

arvon arvon

arvon arvon ennuste ỹ, kun x saa arvon x saadaan asettamalla ỹ x = ˆb 0 + ˆb 1 x. Ennuste on sitä parempi (tarkempi), mitä enemmän havaintoja otoksessa on, mitä pienempi on varianssi σ 2 ja mitä lähempänä x:n arvojen keskiarvoa x on. Ääriarvojen ennustamisessa tulee aina olla erityisen varovainen ja ennustamisessa tulee rajoittua tilanteisiin, joissa x on x:n havaittujen arvojen alueen sisällä! arvon

arvon arvon luottamusväli luottamustasolla (1 α), kun x saa arvon x, on muotoa ˆb 0 + b 1 x ± t n 2,α/2 s 1 + 1 ( x x)2 + n (n 1)sx 2, missä s 2 on jäännösvarianssin harhaton estimaatti, s 2 x on muuttujan x otosvarianssi ja t n 2,α/2 on Studentin t-jakauman, vapausasteella n 2, luottamuskerroin α/2. arvon

arvon

E[y] estimaatti ˆµ y, kun x saa arvon x saadaan kuten edellä ˆµ y x = ˆb 0 + ˆb 1 x. Huomaa, että ỹ x estimoi satunnaismuuttujan saamaa arvoa kun taas ˆµ y x estimoi odotusarvoa (vakiota). Estimaatti ỹ x estimoi muuttujan y arvoa yksilötasolla, kun x saa arvon x. Estimaatti ˆµ y x estimoi muuttujan y "keskimääräistä"arvoa, kun x saa arvon x. Vaikka estimaatit ovat samat, niin luottamusväli on pienempi. Intuitiivisesti se on ymmärrettävää, sillä keskimääräisen käyttäytymisen on helpompaa kuin yksilötasolla! arvon

luottamusväli luottamustasolla (1 α), kun x saa arvon x, on muotoa ˆb 0 + ˆb 1 ( x x)2 1 x ± t n 2,α/2 s + n (n 1)sx 2, missä s 2 on jäännösvarianssin harhaton estimaatti, s 2 x on muuttujan x otosvarianssi ja t n 2,α/2 on Studentin t-jakauman, vapausasteella n 2, luottamuskerroin α/2. arvon

Numeerinen esimerkki muuttujan y arvon ja ennustamisesta. Viime luennon esimerkeissä Kallen superkeksifirman toimitusjohtaja antoi sihteerinsä kesäapulaiselle tehtäväksi tutkia Kallen superkeksien ja Panun pahanmakuisten prinsessakeksien myyntien välistä yhteyttä. Toimitusjohtaja oli oikein tyytyväinen kesätyöntekijän toimintaan ja pyysi tätä vielä ennustamaan Panun pahanmakuisten prinsessakeksien myyntimäärän, jos Kallen superkeksejä myydään 5500 kappaletta ja laskemaan ennusteelle 95% luottamusvälin. arvon

Regressiomallin estimaattien ˆb 0 = 10723.87 ja ˆb 1 = 0.9386 avulla voidaan laskea ennuste Panun myynnille ehdolla että Kallen superkeksejä myydään x = 5500 pakettia: p k = ˆb 0 + ˆb 1 k = 10723.87 0.9386 5500 = 5561.57. Luottamusväli voidaan laskea kaavalla: ˆb 0 + ˆb 1 x ± t n 2,α/2 s 1 + 1 n ( x x)2 + (n 1)sk 2. Studentin t-jakaumasta saadaan kriittiseksi arvoksi vapausasteella 10 ja merkitsevyystasolla 5% 2.228. Edellisen luennon luvuista saadaan kallen keksien myyntimäärän otoskeskiarvoksi x = 5567.833, kallen keksien myyntimäärän otoskeskihajonnaksi s k = 302.95 ja jäännösvarianssiksi s 2 = 11948.42. arvon

Luottamusväli Panun pahanmakuisten prinsessakeksien myynnin ennusteelle on ˆb 0 + ˆb 1 x ± t n 2,α/2 s 1 + 1 ( x x)2 + n (n 1)sk 2 = 5561.57±2.228 11948.42 = (5308.093, 5815.047) 1 + 1 (5500 5567.833)2 + 12 11 302.95 2 Jos Kallen superkeksejä myytäisiin 5500 pakettia, ennusteen mukaan Panun pahanmakuisia prinsessakeksejä myytäisiin 5562 pakettia. 95% luottamusväli ennusteelle on (5308, 5816). Ennusteen laskeminen on ok. Miksi laskettuun luottamusväliin kannattaa kuitenkin suhtautua kriittisesti? arvon

Bootstrap-luottamusvälit arvon

Epäparametriset bootstrap-luottamusvälit arvon Jos halutaan luopua normaalisuusoletuksesta, niin regressiomallin voidaan silti muodostaa bootstrap-persentiililuottamusvälit.

Bootstrap-luottamusvälit Alkuperäisen otoksen otospareista (x 1, y 1 ), (x 2, y 2 )..., (x n, y n ) otetaan uusi alkuperäisen otoksen kokoinen satunnaisotos. (Jokainen otospari voi siis tulla valituksi nolla kertaa, yhden kerran tai useampaan kertaan, riippuen sattumasta.) Tästä uudesta otoksesta lasketaan uudet estimaatit regressiomallin parametreille. Tätä toistetaan useaan kertaan, esim. 999 kertaa. Nyt kaikkien otosten (uusien ja alkuperäisen) estimaatit laitetaan suuruusjärjestykseen pienimmästä suurimpaan. Jos estimaatteja on nyt esim. 1000 kpl, niin 95% persentiili luottamusväli (l, u) saadaan valitsemalla alarajaksi l järjestetyistä estimaateista viideskymmenes ja ylärajaksi u järjestetyistä estimaateistä estimaatti, joka on järjestyksessä 950. arvon

Bootstrap-luottamusvälit arvon Bootstrap-luottamusvälin toimivuuteen vaikuttaa alkuperäinen otoskoko (mitä suurempi, sitä parempi) ja bootstrap-otosten lukumäärä (mitä useampia otoksia, sitä parempi).

Epäparametriset bootstrap-luottamusvälit Vastaavasti kuten edellä, bootstrap-otoksien avulla voidaan myös laskea tietylle y :n arvon ennusteelle epäparametrinen luottamusväli. Lisäksi mallin selitysasteelle voidaan laskea persentiililuottamusvälit käyttämällä bootstrap-menetelmää. arvon

arvon

Mitä tehdä, jos muuttujien välinen onkin epälineaarista? Voidaan kokeilla muuttujien linearisointia. Voidaan tarkastella mallia paloissa. Voidaan sovittaa suoran sijaan esim. paraabeli - tosin jotakin tietoa käyrän muodosta tarvitaan! Jos selitettävä muuttuja on kaksiluokkainen, käytetään logistista regressiota. arvon

arvon

Mitä tehdä, jos alla olevat oletukset eivät päde? Virhetermit ovat normaalijakautuneita. Virhetermit ovat riippumattomia muuttujan x arvoista. Virhetermit ovat homoskedastisia eli niillä on kaikilla sama varianssi E[ε 2 i ] = σ2. Virhetermit ovat korreloimattomia eli ρ(ε i, ε j ) = 0, i j. Pohdimme tätä yhdessä luennolla... arvon

J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. Pertti Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. Ilkka Mellin: Tilastolliset menetelmät, http://math.aalto.fi/opetus/sovtoda/materiaali.html. arvon