Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19

1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen lineaarisessa tapauksessa 2 Epälineaarisista malleista 3 Linearisoituvat mallit 4 Usean muuttujan lineaarinen regressiomalli Polynomimalli Antti Rasila () TodB 30. marraskuuta 2007 2 / 19

Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä 2/2 Tutkitaan havaintoja (x 1, y 1 ),..., (x n, y n ). Oletetaan, että y i = β 0 + β 1 x i + ε i, i = 1,..., n, missä β 0, β 1 ovat regeressiomallin kertoimet ja ε i :t ovat riippumattomia, ε i N(0, σ 2 ). Tällöin kullakin x:n arvolla havainto y on satunnaismuuttujan saama arvo. Y N(β 0 + β 1 x, σ 2 ) Antti Rasila () TodB 30. marraskuuta 2007 3 / 19

Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä 1/2 Voidaan määrittää otoksen likelihood-funktio L(β 0, β 1 ) = f Y (y 1 ; β 0, β1)... f Y (y n ; β 0, β1), missä f Y on normaalijakauman tiheysfunktio: Saadaan L(β 0, β 1 ) = f Y (y) = 1 ( exp (y β 0 + β 1 x) 2 ) 2πσ 2σ 2. 1 ( ( 2πσ) exp 1 n 2σ 2 n (y i β 0 β 1 x i ) 2). i=1 Antti Rasila () TodB 30. marraskuuta 2007 4 / 19

Likelihood-funktio ja PNS-menetelmä Koska eksponenttifunktio on kaikkialla kasvava, likelihood-funktio L(β 0, β 1 ) saavuttaa maksiminsa parametrien β 0, β 1 suhteen, kun neliösumma n F (β 0, β 1 ) = (y i β 0 β 1 x i ) 2 saavuttaa miniminsä. i=1 Seuraus: Pienimmän neliösumman estimaatti parametreille β 0, β 1 on suurimma uskottavuuden estimaatti ko. parametreille. Antti Rasila () TodB 30. marraskuuta 2007 5 / 19

Minimin löytäminen lineaarisessa tapauksessa 1/2 Tarkastellaan funktiota F (β 0, β 1 ) = i (y i β 0 β 1 x i ) 2. Etsitään piste (β 0, β 1 ) siten, että Lasketaan osittaisderivaatta Ratkaistaan nollakohta F (β 0, β 1 ) = 0. β 0 F (β 0, β 1 ) = 2 ( β 1 xi + nβ 0 y i ). β 0 = 1 n yi β 1 n xi = ȳ β 1 x. Antti Rasila () TodB 30. marraskuuta 2007 6 / 19

Minimin löytäminen lineaarisessa tapauksessa 2/2 Lasketaan seuraavaksi osittaisderivaatta β 1 F (β 0, β 1 ) = 2 ( β 0 xi + β 1 x 2 i x i y i ). Sijoittamalla β 0 :n lauseke saadaan Ratkaistaa nollakohta n xȳ nβ 1 x 2 + β 1 x 2 i x i y i = 0. β 1 = n xȳ x i y i n x 2 x 2 i = (xi x) 2 (xi x)(y i ȳ). Antti Rasila () TodB 30. marraskuuta 2007 7 / 19

Esimerkki: 2. asteen sovitus 1/3 Tutkitaan lisäaineen määrän x vaikutusta kuivumisaikaan y. Eri lisäaineen määrillä x i (grammaa) saatiin kuivumisajat y i (tuntia), i = 1,..., 9: x i 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 y i 11.0 9.4 9.1 7.0 6.2 7.1 6.6 7.5 8.2 Huomataan, että kuivumisajan riippuvuus lisäaineen määrästä on epälineaarista. Minimikohdan estimoimiseksi sovitetaan havaintoihin paraabeli y = β 0 + β 1 x + β 2 x 2. Pienimmän neliösumman yhtälöryhmä mallille on β k (yi β 0 β 1 x i β 2 x 2 i ) 2 = 0, k = 0, 1, 2. Antti Rasila () TodB 30. marraskuuta 2007 8 / 19

Esimerkki: 2. asteen sovitus 2/3 Näistä saadaan yhtälöryhmä nβ 0 + β 1 xi + β 2 x 2 i = y i, β 0 xi + β 1 x 2 i + β 2 x 3 i = x i y i β 0 x 2 i + β 1 x 3 i + β 2 x 4 i = xi 2y i. Laskemalla yhtälöryhmän kertoimet havainnoista saadaan 9β 0 + 36β 1 + 204β 2 = 72.1 36β 0 + 204β 1 + 1296β 2 = 266.6 204β 0 + 1296β 1 + 8772β 2 = 1515.4 Ratkaisuna ovat estimaatit ˆβ 0 = 11.15, ˆβ 1 = 1.806 ja ˆβ 2 = 0.1803. Pienimmän neliösumman mielessä parhaiten havaintoihin liittyvä paraabeli on siis y = 11.15 1.806x + 0.1803x 2. Antti Rasila () TodB 30. marraskuuta 2007 9 / 19

Esimerkki: 2. asteen sovitus 3/3 Havainnoista voidaan edelleen laskea kokonaisneliösumma jäännösneliösumma SST = (y i ȳ) 2 = 19.469, SSE = (y i 11.15 + 1.806x i 0.1803x 2 i ) 2 = 1.525, ja mallineliösumma Selitysasteeksi saadaan SSM = SST SSE = 17.944. R 2 = SSM SST = 17.944 19.469 = 0.922. Antti Rasila () TodB 30. marraskuuta 2007 10 / 19

Linearisoituvat mallit Toisinaan funktio, joka ei ole lineaarinen parametrien suhteen, voidaan saattaa sopivalla muunnoksella lineaariseksi. Esimerkki tällaisesta tapauksesta on funktio y = β 0 e β 1x, joka linearisoituu lograritmin avulla: ln(y) = ln(β 0 ) + β 1 x. Nyt voidaan sovittaa suora aineistoon, jossa arvot on logaritmoitu. Antti Rasila () TodB 30. marraskuuta 2007 11 / 19

Esimerkki (Laininen) 1/2 Vesialtaan happipitoisuus DO (mg/l) riippuu altaan lämpötilasta ( C) yhtälön DO = ae bt mukaisesti, missä a, b > 0. Parametrien estimoimiseksi mitattiin erilaisilla T :n arvoilla t i vastaavat DO:n arvot d i : t i 23.1 24.4 25.0 26.5 27.1 28.0 d i 4.7 3.2 3.2 2.8 2.8 2.5 Ottamalla logaritmi saadaan ln(do) = ln(a) bt. Antti Rasila () TodB 30. marraskuuta 2007 12 / 19

Esimerkki (Laininen) 2/2 Merkitään t i = x i ja ln(d i ) = y i. Saadaan ja ˆβ 1 = b = 1.853 16.828 = 0.110. ˆβ 0 = ln(a) = 1.141 ( 0.110) 25.683 = 3.966. Saadaan siis eli ln(do) = 3.966 0.110 T, DO = 52.77 e 0.110 T. Antti Rasila () TodB 30. marraskuuta 2007 13 / 19

Usean muuttujan lineaarinen regressiomalli 1/4 Oletetaan suure y riippuu useasta muuttujasta x i, i = 1, 2,..., m ja riippuvuus on lineaarista. Voidaan kirjoittaa y = β 0 + β 1 x 1 + β 2 x 2 +... + β m x m. Oletetaan edelleen, että käytettävissä on tilastoaineisto, jossa suureesta y ja jokaisesta selittävästä muuttujasta x i on n havaintoa. Käytännön syistä on oletettavas myös, että n m + 1 (ja mieluiten tietysti n on vieläkin suurempi). Merkitään havaintoja y k, x ik, i = 1,..., m, k = 1,..., n, Antti Rasila () TodB 30. marraskuuta 2007 14 / 19

Usean muuttujan lineaarinen regressiomalli 2/4 Kuten yhden muuttujan tapauksessa, malli saadaan minimoimalla funktio f (β 0,..., β m ) = n ( yk (β 0 + β 1 x 1k +... + β m x mk ) ) 2. k=1 Minimi saadaan etsimällä piste, jossa F (β 0,..., β m ) = 0. Nollakohdat ratkaisemalla päädytään yhtälöryhmään, jotka kutsutaan normaaliryhmäksi. Kertoimet saadaan ratkaisemalla normaaliryhmä. Antti Rasila () TodB 30. marraskuuta 2007 15 / 19

Usean muuttujan lineaarinen regressiomalli 3/4 Kirjoitetaan nyt regressiomalli muotoon y = X β, (1) missä X on kerrointen x ik muodostama n m-matriisi: y 1 1 x 11 x 21... x m1 y = y 2..., X = 1 x 12 x 22... x m2............... y n 1 x 1n x 2n... x mn ja β = β 0 β 1... β m. Antti Rasila () TodB 30. marraskuuta 2007 16 / 19

Usean muuttujan lineaarinen regressiomalli 4/4 Valitettavasti yleensä n m + 1, joten X ei ole neliömatriisi. Kertomalla matriisiyhtälö (1) puolittain X :n transpoosilla X T, saadaan normaaliyhtälö muotoon X T y = X T X β, missä X T X on (m + 1) (m + 1)-neliömatriisi. Yhtälön ratkaisu on β = (X T X ) 1 X T y, olettaen tietenkin, että käänteismatriisi (X T X ) 1 on olemassa. Antti Rasila () TodB 30. marraskuuta 2007 17 / 19

Esimerkki Etsitään aineistoon x k -2.2 0 3.5 4.2 y k -8.8 0.2 3.9 5.2 Erityisesti yhden muuttujan lineaarinen regressiomalli on erikoistapaus: y = β 0 + β 1 x. Ratkaistaan missä β = (X T X ) 1 X T y = y = 8.8 0.2 3.9 5.2 ja X = ( 2.616 1.994 1 2.2 1 0 1 3.5 1 4.2 ),. Antti Rasila () TodB 30. marraskuuta 2007 18 / 19

Polynomimalli Polynomimallissa sovitetaan tilastoaineistoon astetta n oleva polynomi. y = c 0 + c 1 x + c 2 x 2 +... + c n x n Malli palautuu usean muuttujan lineaariseksi malliksi sijoittamalla x 1 = x, x 2 = x 2, jne. Antti Rasila () TodB 30. marraskuuta 2007 19 / 19