Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon
Sisältö arvon Bootstrap-luottamusvälit arvon
arvon
Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n ), pareja (x, y). Oletetaan, että arvot y i ovat muuttujan y satunnaisia havaittuja arvoja ja oletetaan, että arvot x i ovat muuttujan x ei-satunnaisia havaittuja arvoja. Oletetaan, että muuttujan y arvot riippuvat muuttujan x arvoista lineaarisesti. Yhden selittävän muuttujan lineaarinen malli voidaan nyt esittää seuraavalla tavoin. y i = b 0 + b 1 x i + ε i, i 1,..., n, missä regressiokertoimet b 0 ja b 1 ovat tuntemattomia vakioita ja virhetermien (jäännöstermien) ε i odotusarvo E[ε i ] = 0. arvon
, tarvittavat oletukset testeille ja luottamusväleille Tarkastelemme nyt lineaarisen regressiomallin testaamista ja estimaattien luottamusvälejä seuraavien klassisten oletusten ollessa voimassa. Muuttuja y on normaalijakautunut. Virhetermit ovat riippumattomia muuttujan x arvoista. Virhetermit ovat normaalijakautuneita. Virhetermien odotusarvo E[ε i ] = 0, kaikilla i 1,..., n. Virhetermit ovat homoskedastisia eli niillä on kaikilla sama varianssi E[ε 2 i ] = σ2. Virhetermit ovat korreloimattomia eli ρ(ε i, ε j ) = 0, i j. arvon
arvon
, testaus Nollahypoteesi H 0 : b 1 = b1 0. (Useimmiten testataan nollahypoteesin b 1 = 0 paikkansapitävyyttä.) Mahdolliset vaihtoehtoiset hypoteesit: H 1 : b 1 > b 0 1 (yksisuuntainen), H 1 : b 1 < b 0 1 (yksisuuntainen) tai H 1 : b 1 b 0 1 (kaksisuuntainen). t testisuure t = ˆb 1 b 0 1 s/( n 1s x ), missä s 2 on jäännösvarianssin harhaton estimaatti (ks. luento 7) ja s 2 x on muuttujan x otosvarianssi. Jos nollahypoteesi pätee, niin testisuure noudattaa Studentin t jakaumaa vapausastein n 2. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[t] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni. arvon
, testaus Huomaa että jos halutaan testata onko yhden selittävän muuttujan lineaarisen regression selitysaste 0, niin tämä voidaan tehdä testaamalla nollahypoteesin b 1 = 0 paikkansapitävyyttä! arvon
, luottamusväli kulmakertoimen b 1 luottamusväli luottamustasolla (1 α) on muotoa s (ˆb1 t n 2,α/2, ˆb s 1 + t n 2,α/2 ), n 1sx n 1sx missä s 2 on jäännösvarianssin harhaton estimaatti, s 2 x on muuttujan x otosvarianssi ja t n 2,α/2 on Studentin t-jakauman, vapausasteella n 2, luottamuskerroin α/2 (P(t > t n 2,α/2 ) = α/2). arvon
arvon
Lineaarisen regression, testaus Nollahypoteesi H 0 : b 0 = b 0 0. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : b 0 > b 0 0 (yksisuuntainen), H 1 : b 0 < b 0 0 (yksisuuntainen) tai H 1 : b 0 b 0 0 (kaksisuuntainen). t testisuure ˆb 0 b0 0 t = n s i=1 x i 2 /(, n(n 1)s x ) missä s 2 on jäännösvarianssin harhaton estimaatti ja s 2 x on muuttujan x otosvarianssi. Jos nollahypoteesi pätee, niin testisuure noudattaa Studentin t jakaumaa vapausastein n 2. Testisuureen normaaliarvo on 0, koska nollahypoteesin pätiessä E[t] = 0. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni. arvon
Lineaarisen regression, luottamusväli n b 0 luottamusväli luottamustasolla (1 α) on muotoa (ˆb0 t n 2,α/2 s n i=1 x n i 2, ˆb s i=1 0 + t x i 2 n 2,α/2 n(n 1)sx n(n 1)sx ), missä s 2 on jäännösvarianssin harhaton estimaatti, s 2 x on muuttujan x otosvarianssi ja t n 2,α/2 on Studentin t-jakauman, vapausasteella n 2, luottamuskerroin α/2. arvon
arvon arvon
arvon arvon ennuste ỹ, kun x saa arvon x saadaan asettamalla ỹ x = ˆb 0 + ˆb 1 x. Ennuste on sitä parempi (tarkempi), mitä enemmän havaintoja otoksessa on, mitä pienempi on varianssi σ 2 ja mitä lähempänä x:n arvojen keskiarvoa x on. Ääriarvojen ennustamisessa tulee aina olla erityisen varovainen ja ennustamisessa tulee rajoittua tilanteisiin, joissa x on x:n havaittujen arvojen alueen sisällä! arvon
arvon arvon luottamusväli luottamustasolla (1 α), kun x saa arvon x, on muotoa ˆb 0 + b 1 x ± t n 2,α/2 s 1 + 1 ( x x)2 + n (n 1)sx 2, missä s 2 on jäännösvarianssin harhaton estimaatti, s 2 x on muuttujan x otosvarianssi ja t n 2,α/2 on Studentin t-jakauman, vapausasteella n 2, luottamuskerroin α/2. arvon
arvon
E[y] estimaatti ˆµ y, kun x saa arvon x saadaan kuten edellä ˆµ y x = ˆb 0 + ˆb 1 x. Huomaa, että ỹ x estimoi satunnaismuuttujan saamaa arvoa kun taas ˆµ y x estimoi odotusarvoa (vakiota). Estimaatti ỹ x estimoi muuttujan y arvoa yksilötasolla, kun x saa arvon x. Estimaatti ˆµ y x estimoi muuttujan y "keskimääräistä"arvoa, kun x saa arvon x. Vaikka estimaatit ovat samat, niin luottamusväli on pienempi. Intuitiivisesti se on ymmärrettävää, sillä keskimääräisen käyttäytymisen on helpompaa kuin yksilötasolla! arvon
luottamusväli luottamustasolla (1 α), kun x saa arvon x, on muotoa ˆb 0 + ˆb 1 ( x x)2 1 x ± t n 2,α/2 s + n (n 1)sx 2, missä s 2 on jäännösvarianssin harhaton estimaatti, s 2 x on muuttujan x otosvarianssi ja t n 2,α/2 on Studentin t-jakauman, vapausasteella n 2, luottamuskerroin α/2. arvon
Numeerinen esimerkki muuttujan y arvon ja ennustamisesta. Viime luennon esimerkeissä Kallen superkeksifirman toimitusjohtaja antoi sihteerinsä kesäapulaiselle tehtäväksi tutkia Kallen superkeksien ja Panun pahanmakuisten prinsessakeksien myyntien välistä yhteyttä. Toimitusjohtaja oli oikein tyytyväinen kesätyöntekijän toimintaan ja pyysi tätä vielä ennustamaan Panun pahanmakuisten prinsessakeksien myyntimäärän, jos Kallen superkeksejä myydään 5500 kappaletta ja laskemaan ennusteelle 95% luottamusvälin. arvon
Regressiomallin estimaattien ˆb 0 = 10723.87 ja ˆb 1 = 0.9386 avulla voidaan laskea ennuste Panun myynnille ehdolla että Kallen superkeksejä myydään x = 5500 pakettia: p k = ˆb 0 + ˆb 1 k = 10723.87 0.9386 5500 = 5561.57. Luottamusväli voidaan laskea kaavalla: ˆb 0 + ˆb 1 x ± t n 2,α/2 s 1 + 1 n ( x x)2 + (n 1)sk 2. Studentin t-jakaumasta saadaan kriittiseksi arvoksi vapausasteella 10 ja merkitsevyystasolla 5% 2.228. Edellisen luennon luvuista saadaan kallen keksien myyntimäärän otoskeskiarvoksi x = 5567.833, kallen keksien myyntimäärän otoskeskihajonnaksi s k = 302.95 ja jäännösvarianssiksi s 2 = 11948.42. arvon
Luottamusväli Panun pahanmakuisten prinsessakeksien myynnin ennusteelle on ˆb 0 + ˆb 1 x ± t n 2,α/2 s 1 + 1 ( x x)2 + n (n 1)sk 2 = 5561.57±2.228 11948.42 = (5308.093, 5815.047) 1 + 1 (5500 5567.833)2 + 12 11 302.95 2 Jos Kallen superkeksejä myytäisiin 5500 pakettia, ennusteen mukaan Panun pahanmakuisia prinsessakeksejä myytäisiin 5562 pakettia. 95% luottamusväli ennusteelle on (5308, 5816). Ennusteen laskeminen on ok. Miksi laskettuun luottamusväliin kannattaa kuitenkin suhtautua kriittisesti? arvon
Bootstrap-luottamusvälit arvon
Epäparametriset bootstrap-luottamusvälit arvon Jos halutaan luopua normaalisuusoletuksesta, niin regressiomallin voidaan silti muodostaa bootstrap-persentiililuottamusvälit.
Bootstrap-luottamusvälit Alkuperäisen otoksen otospareista (x 1, y 1 ), (x 2, y 2 )..., (x n, y n ) otetaan uusi alkuperäisen otoksen kokoinen satunnaisotos. (Jokainen otospari voi siis tulla valituksi nolla kertaa, yhden kerran tai useampaan kertaan, riippuen sattumasta.) Tästä uudesta otoksesta lasketaan uudet estimaatit regressiomallin parametreille. Tätä toistetaan useaan kertaan, esim. 999 kertaa. Nyt kaikkien otosten (uusien ja alkuperäisen) estimaatit laitetaan suuruusjärjestykseen pienimmästä suurimpaan. Jos estimaatteja on nyt esim. 1000 kpl, niin 95% persentiili luottamusväli (l, u) saadaan valitsemalla alarajaksi l järjestetyistä estimaateista viideskymmenes ja ylärajaksi u järjestetyistä estimaateistä estimaatti, joka on järjestyksessä 950. arvon
Bootstrap-luottamusvälit arvon Bootstrap-luottamusvälin toimivuuteen vaikuttaa alkuperäinen otoskoko (mitä suurempi, sitä parempi) ja bootstrap-otosten lukumäärä (mitä useampia otoksia, sitä parempi).
Epäparametriset bootstrap-luottamusvälit Vastaavasti kuten edellä, bootstrap-otoksien avulla voidaan myös laskea tietylle y :n arvon ennusteelle epäparametrinen luottamusväli. Lisäksi mallin selitysasteelle voidaan laskea persentiililuottamusvälit käyttämällä bootstrap-menetelmää. arvon
arvon
Mitä tehdä, jos muuttujien välinen onkin epälineaarista? Voidaan kokeilla muuttujien linearisointia. Voidaan tarkastella mallia paloissa. Voidaan sovittaa suoran sijaan esim. paraabeli - tosin jotakin tietoa käyrän muodosta tarvitaan! Jos selitettävä muuttuja on kaksiluokkainen, käytetään logistista regressiota. arvon
arvon
Mitä tehdä, jos alla olevat oletukset eivät päde? Virhetermit ovat normaalijakautuneita. Virhetermit ovat riippumattomia muuttujan x arvoista. Virhetermit ovat homoskedastisia eli niillä on kaikilla sama varianssi E[ε 2 i ] = σ2. Virhetermit ovat korreloimattomia eli ρ(ε i, ε j ) = 0, i j. Pohdimme tätä yhdessä luennolla... arvon
J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. Pertti Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. Ilkka Mellin: Tilastolliset menetelmät, http://math.aalto.fi/opetus/sovtoda/materiaali.html. arvon