Yleistetyn lineaarisen mallin perusteita

Koko: px
Aloita esitys sivulta:

Download "Yleistetyn lineaarisen mallin perusteita"

Transkriptio

1 Yleistetyt lineaariset mallit II Jarkko Isotalo - TILTS18 Kertausta syksy 2009-kevät 2010 Yleistetyn lineaarisen mallin perusteita Kaikissa yleistetyissä lineaarisissa malleissa on seuraavat kolme komponenttia: Satunnaiskomponentti Määrittää mallin selitettävän muuttujan Y ja Y :n jakauman. Systemaattinen komponentti Määrittää mallin selittävät muuttujat x 1, x 2..., x k joidenka katsotaan vaikuttavan selitettävän muuttujan Y odotusarvon EY = µ arvoon. Linkkifunktio Määrittää sen funktion g rakenteen, minkä kautta selitettävän muuttujan Y odotusarvo µ riippuu lineaarisesti selittävistä muuttujista x 1, x 2..., x k. Satunnaiskomponentti Satunnaiskomponentti identifioi yleistetyn lineaarisen mallin selitettävän muuttujan Y ja Y :n jakauman. Olkoon Y 1, Y 2,... Y n satunnaisotos Y jakaumasta, eli oletetaan, että jokainen Y i noudattaa muuttujan Y jakaumaa. Oletetaan myös, että Y i :t ovat toisistaan riippumattomia. Yleistetyissä lineaarisissa malleissa oletetaan, että Y i :n jakauma kuuluu eksponentiaaliseen jakaumaperheeseen, eli että Y i :n tiheysfunktio on muoto fy i ; θ i = aθ i by i e y iqθ i, kun satunnaismuuttujan Y i jakauma riippuu vain yhdestä tuntemattomasta parametrista θ i. Termiä Qθ i kutsutaan luonnolliseksi parametriksi. Usein eksponentiaaliseen jakaumaperheeseen kuuluvan muuttujan Y tiheysfunktio esitetään luonnollisen parametrin Θ i = Qθ i funktiona fy i ; Θ i = aθ i by i e y iθ i. Lisäksi on hyödyllistä laajentaa yleistettyjen lineaaristen mallien tarkastelu koskemaan satunnaismuuttujia, jotka kuuluvat eksponentiaaliseen hajontajakaumaperheeseen. Tällöin satunnaismuuttuja Y :n tiheysfunktio on muotoa yi Θ i bθ i fy i ; Θ i, φ = exp + cy i, φ, aφ missä φ:tä kutsutaan hajontaparametriksi. Useissa tilanteissa satunnaismuuttujalla Y i on kaksi toisensa poissulkevaa tulosvaihtoehtoa. Tällöin satunnaismuuttuja Y i on binaarinen muuttuja ja tulosvaihtoehdot voidaan

2 syksy 2009-kevät 2010 Kertausta TILTS18 - Jarkko Isotalo 2 koodata 0:lla ja 1:llä. Yleisemmin Y i voi olla satunnaismuuttuja, mikä kuvaa binaarisen satunnaismuuttujan 1:s tulosvaihtoehtojen onnistumisten lukumäärää tilanteessa, missä havainnoidaan binaarisen satunnaismuuttujan toteutunut arvo n kertaa. Kummassakin tilanteessa oletetaan, että Y i :t noudattavat binomijakaumaa. Toisinaan selitettävä muuttuja voi saada positiivisia lukumääräarvoja. Esimerkiksi ristiintaulukoissa solufrekvenssit ovat ei-negatiivisia kokonaislukuja. Tilanteessa, missä selitettävä muuttujan tulosvaihtoehdot ovat ei-negatiivisia kokonaislukuja, voidaan olettaa, että Y i :t noudattavat Poissonin jakaumaa. Mikäli selitettävä muuttuja voidaan määritellä suhde- tai intervalliasteikolliseksi muuttujaksi, usein oletetaan, että Y i :t noudattavat normaalijakaumaa. Systemaattinen komponentti ja linkkifunktio Yleistetyssä lineaarisessa mallissa mallinnetaan selitettävän muuttujan Y odotusarvosta EY = µ riippuvan linkkifunktion gµ arvoa selittävien muuttujien x 1, x 2..., x k avulla lineaarisen yhtälön gµ = η = β 0 + β 1 x 1 + β 2 x β k x k = x β kautta, missä 1 β 0 x 1 β 1 x = x 2, β = β 2... x k β k Linkkifunktio gµ yhdistää selittävät muuttujat x 1, x 2..., x k systemaattisen komponentin selitettävän muuttujan Y arvoihin satunnaiskomponenttiin. Yksinkertaisin linkkifunktio on identtilinkki gµ = µ. Tällöin satunnaismuuttujan Y i odotusarvon µ i odotetaan olevan lineaarisesti riippuvainen selittävien muuttujien x 1, x 2..., x k arvoista µ i = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik = x iβ. Tavallisen lineaarisen regressiomallin tilanteessa oletetaan nimenomaan, että normaalisti jakautuneen Y i :n odotusarvo µ i riippuu identtilinkin kautta lineaarisesti selittävistä muuttujista. Toisenlaiset linkkifunktiot mahdollistavat odotusarvon µ olevan epälineaarisesti riippuvainen selittävistä muuttujista x 1, x 2..., x k. Hyödyllinen linkkifunktio on log-linkki

3 syksy 2009-kevät 2010 Kertausta TILTS18 - Jarkko Isotalo 3 gµ = logµ, mikä sopii tilanteisiin missä odotusarvo µ ei voi olla negatiivinen, kuten frekvenssidatan tilanteessa. Yleistettyä lineaarista mallia kutsutaan log-lineaariseksi malliksi, mikäli linkkifunktio on log-linkki muotoa. Log-lineaarinen malli on muotoa logµ i = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik = x iβ. Jos odotusarvo on välillä 0 µ 1, kuten todennäköisyyksien tilanteessa, käyttökelpoinen linkkifunktio on logit-linkki µ gµ = log. 1 µ Yleistettyä lineaarista mallia kutsutaan logistiseksi regressiomalliksi, mikäli linkkifunktio on logit-linkki muotoa. Logistinen regressiomalli on muotoa µi log = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik 1 µ i = x iβ. Linkkifunktio gµ i voidaan koko datan osalta kirjoittaa matriisimuodossa gµ = η = Xβ, missä µ 1 µ 2 µ n η 1 η n x 1 x 2 µ =., η = η 2., X =.. x n Jos satunnaismuuttujan Y i jakauman ainoa tuntematon parametri on sen odotusarvo µ i, ja jos satunnaismuuttuja Y i kuuluu eksponentiaaliseen jakaumaperheeseen, niin funktio Qµ i on satunnaismuuttujan Y i luonnollinen parametri. Linkkifunktiota gµ i kutsutaan kanooniseksi linkiksi, mikäli linkkifunktio on muotoa gµ i = Θ i = Qµ i. Käytännössä usein miten linkkifunktioksi gµ i valitaan satunnaismuuttujan Y i kanooninen linkkifunktio Θ i = Qµ i. Logistinen regressiomalli Logistinen regressiomalli on erittäin käyttökelpoinen malli kun oletetaan, että Bernoullin jakaumaa noudattavan selitettävän muuttujan Y tulosvaihtoehdon 1 todennäköisyys πx riippuu epälineaarisesti selittävien muuttujien x arvoista. Logistisessa regressiomallissa π:n ja x:iten välinen riippuvuus havainnon i tilanteessa noudattaa yhtälöä πx i = ex i β 1 + e x i β.

4 syksy 2009-kevät 2010 Kertausta TILTS18 - Jarkko Isotalo 4 Logistisen regressiomallin tilanteessa vedonlyöntikerroin γx i on muotoa γx i = πx i 1 πx i = ex i β, ja täten logaritmoitu vedonlyöntikerroin noudattaa lineaarista yhtälöä πxi logγx i = log = logitπx i = x 1 πx i iβ. Logistinen regressiomalli on yleistetty lineaarinen malli, missä satunnaiskomponentti on binomijakautunut ja linkkifunktio gµ i on logit-linkki. Logit-linkki on binomijakauman tilanteessa kanooninen linkkifunktio. Logistista regressiomallia kutsutaan myös logit malliksi. Tehtävä 1. Muodosta alla olevasta datasta logistinen regressiomalli kun selittävänä muuttujana on ck ja selitettävänä muuttujana sydänkohtauksen saaminen. ck yes - heart attack no - heart attack Poissonin log-lineaarinen malli Oletetaan, että selitettävä muuttuja Y saa ei-negatiivisia kokonaislukuarvoja ja noudattaa Poissonin jakaumaa parametrilla λ, Y P oiλ. Tällöin Y :n odotusarvo ja varianssi ovat µ = λ ja σ 2 = λ. Poissonin jakaumaa noudattavan selitettävän muuttujan Y odotusarvoa µ voidaan mallintaa yleistetyllä lineaarisella mallilla, missä linkkifunktio on identtilinkki. Tällöin odotusarvon µ ja selittävien muuttujien x välinen riippuvuus havainnon i tilanteessa noudattaa Poissonin lineaarista regressiomallia: µ i = x iβ. Useimmin Poissonin jakauman tilanteessa kuitenkin mallinnetaan logaritmoitua odotusarvoa logµ. Poissonin log-lineaarinen malli on yleistetty lineaarinen malli, missä siis linkkifunktio gµ i on log-linkki: logµ i = x iβ.

5 syksy 2009-kevät 2010 Kertausta TILTS18 - Jarkko Isotalo 5 Poissonin log-lineaarisen mallin tilanteessa havainnon i odotusarvo µ i riippuu epälineaarisesti selittävistä muuttujista x i : µ i = e x i β. I J K-ristiintaulukko Poissonin log-lineaarista mallia voidaan käyttää mallintamaan ristiintaulukon solufrekvenssejä. Olkoon Y ijk :t I J K-ristiintaulukon solufrekvenssejä, jotka noudattavat Poissonin jakaumaa Y ijk P oiµ ijk. Oletetaan, että ristiintaulukon muuttujat ovat riippumattomia, eli solutodennäköisyyksille on voimassa π ijk = π i++ π +j+ π ++k. Tällöin odotetut frekvenssit µ ijk ovat muotoa ja siten logaritmoidut odotusarvot muotoa µ ijk = n +++ π ijk = n +++ π i++ π +j+ π ++k, logµ ijk = logn logπ i++ + logπ +j+ + logπ ++k = α + β i + γ j + δ k. Eli jos ristiintaulukon muuttujat ovat riippumattomia, log-lineaarisessa mallissa on muuttujien päävaikutukset muttei niiden yhdysvaikutuksia. Tehtävä 2. Alla olevassa frekvenssidatassa on esitetty datan ensimmäiset 6 havaintoa tutkittaessa ihmisten tyytyväisyyttä asumisolosuhteisiin Kööpenhaminassa. Mallinna frekvenssidataa Poissonin log-lineaarisella mallilla, mikä sisältää muuttujien päävaikutukset. > librarymass > datahousing > headhousing Sat Infl Type Cont Freq 1 Low Low Tower Low 21 2 Medium Low Tower Low 21 3 High Low Tower Low 28 4 Low Medium Tower Low 34 5 Medium Medium Tower Low 22 6 High Medium Tower Low 36

6 syksy 2009-kevät 2010 Kertausta TILTS18 - Jarkko Isotalo 6 Ristiintaulukoiden kertausta Olkoon X ja Y satunnaismuuttujia joilla kummallakin on kaksi toisensa poissulkevaa tulosvaihtoehtoa. Jos tulosvaihtoehtoja merkitään 0:lla ja 1:llä, niin satunnaismuuttujien yhteistodennäköisyysjakauma voidaan esittää 2 2-ristiintaulukon avulla: P X = x i, Y = y j : y j = 1 0 Yhteensä x i = 1 π 11 π 12 π 1+ 0 π 21 π 22 π 2+ Yhteensä π +1 π +2 1 Ristiintaulukossa rivi- ja sarakesummat π 1+ = π 11 + π 12, π 2+ = π 21 + π 22, π +1 = π 11 + π 21, π +2 = π 12 + π 22, ovat muuttujien X ja Y marginaalijakaumia. Ristiintaulukolla voidaan esittää myös ehdollisten todennäköisyyksien P Y = y j X = x i jakauma. Tällöin taulukon rivit tulkitaan riippumattomiksi binomijakaumiksi parametrein π 1 ja π 2 : P Y = y j X = x i : y j = 1 0 Yhteensä x i = 1 π 1 1 π π 2 1 π 2 1 Yhteensä π +1 π +2 1 Vastaavasti jos satunnaismuuttujilla X ja Y on I ja J toisensa poissulkevaa tulosvaihtoehtoa, satunnaismuuttujien X ja Y yhteistodennäköisyysjakauma voidaan esittää I J-ristiintaulukon avulla: P X = x i, Y = y j : y j = J Yhteensä x i = 1 π 11 π π 1J π 1+ 2 π 21 π π 2J π I π I1 π I2... π IJ π I+ Yhteensä π +1 π π +J 1 Ehdollisten todennäköisyyksien P Y = y j X = x i jakauma yleisemmässä tilanteessa on muotoa:

7 syksy 2009-kevät 2010 Kertausta TILTS18 - Jarkko Isotalo 7 P Y = y j X = x i : y j = J Yhteensä x i = 1 π 11 π π 1J 1 2 π 21 π π 2J I π I1 π I2... π IJ 1 Yhteensä π +1 π π +J 1 Toistettaessa satunnaismuuttujien X ja Y muodostamaa 2-ulotteista satunnaiskoetta n ++ kertaa, voidaan tulosvaihtoehtojen X = x i, Y = y j frekvenssijakauma kuvata ristiintaulukolla: F reqx = x i, Y = y j : y j = J Yhteensä x i = 1 n 11 n n 1J n 1+ 2 n 21 n n 2J n I n I1 n I2... n IJ n I+ Yhteensä n +1 n n +J n ++ Klassinen päättely ristiintaulukoissa Oletetaan, että 2 2-frekvenssitaulukon havainnot n ij ovat toteutuneita arvoja riippumattomista binomijakaumista Binn 1+, π 1 ja Binn 2+, π 2. Testataan hypoteesia H 0 : P Y = y j X = 1 = P Y = y j X = 0 π 1 = π 2 π 1 π 2 = 0. Testattaessa hypoteesia H 0 : π 1 π 2 = 0, Waldin testisuure Z = ˆπ 1 ˆπ 2 ˆπ1 1 ˆπ 1 /n 1+ + ˆπ 2 1 ˆπ 2 /n 2+ noudattaa asymptoottisesti standardoitua normaalijakaumaa Z N0, 1. Toisinaan erotuksen π 1 π 2 sijaan voi olla järkevä tutkia todennäköisyyksien π 1 ja π 2 suhdetta. Suhteellinen riski δ on suhde ja sen estimaatti on ˆδ = ˆπ 1 /ˆπ 2. δ = π 1 π 2, Oletetaan edelleen, että 2 2-frekvenssitaulukon havainnot n ij ovat toteutuneita arvoja riippumattomista binomijakaumista Binn 1+, π 1 ja Binn 2+, π 2. Todennäköisyyksistä π 1 ja π 2 voidaan muodostaa vedonlyöntikertoimet γ 1 ja γ 2 : γ 1 = π 1 1 π 1, γ 2 = π 2 1 π 2.

8 syksy 2009-kevät 2010 Kertausta TILTS18 - Jarkko Isotalo 8 Vedonlyöntikertoimien γ 1 ja γ 2 suhdetta θ = θ Y X = γ 1 = π 1/1 π 1 γ 2 π 2 /1 π 2 kutsutaan vedonlyöntisuhteeksi. Kun muuttujat X ja Y ovat riippumattomia, eli π 1 = π 2, vedonlyöntisuhde saa arvon θ = 1. Vedonlyöntisuhteen estimaatti on muotoa ˆθ = ˆθ Y X = ˆπ 1/1 ˆπ 1 ˆπ 2 /1 ˆπ 2 = n 11n 22 n 12 n 21. Koska estimaatin ˆθ jakauma on hyvin vino, on hyödyllistä perustaa vedonlyöntisuhteen päättely logaritmoituun vedonlyöntisuhteeseen. Kun θ = 1, niin logθ = 0. Logaritmoidulle vedonlyöntisuhteelle muodostettu suhde Z = logˆθ logθ ˆσ logˆθ noudattaa asymptoottisesti standardoitua normaalijakaumaa, missä 1 ˆσ logˆθ = n 11 n 12 n 21 n 22 Logaritmoidulle vedonlyöntisuhteelle logθ saadaan muodostettua 1001 α% luottamusväli kaavalla 1 logˆθ ± z α/ , n 11 n 12 n 21 n 22 missä z α/2 luku, jolle voimassa P Z > z α/2 = α/2 kun Z N0, 1. Korottamalla eksponenttiin logaritmoidun vedonlyöntisuhteen luottamusvälin raja-arvot, saadaan muodostettua luottamusväli itse vedonlyöntisuhteelle θ. Jos oletetaan, että muuttujat X ja Y ovat molemmat selitettäviä muuttujia, ja että 2 2- frekvenssitaulukon havainnot n ij ovat toteutuneita arvoja joko multinomijakaumasta Mult n ++, π 11, π 12, π 21, π 22 tai siten niin, että n ij P oiλ ij. Kun kokonaisfrekvenssisumma n ++ on tiedossa, voidaan jokaiselle ristiintaulukon solulle laskea odotetut frekvenssit µ ij = n ++ π ij. En ij : y j = 1 0 Yhteensä x i = 1 µ 11 µ 12 µ 1+ 0 µ 21 µ 22 µ 2+ Yhteensä µ +1 µ +2 µ ++ Tarkastellaan X:n ja Y :n riippumattomuutta. Testataan hypoteesia H 0 : π ij = π i+ π +j kaikille i ja j

9 syksy 2009-kevät 2010 Kertausta TILTS18 - Jarkko Isotalo 9 H 0 hypoteesin vallitessa odotetut frekvenssit µ ij ovat muotoa µ ij = n ++ π i+ π +j. Koska π i+ ja π +j ovat tuntemattomia, pitää ne estimoida ja siten myös saadaan estimoidut odotetut frekvenssit n i+ ˆµ ij = n ++ n+j = n i+n +j. n ++ n ++ n ++ H 0 hypoteesin voimassaoloa voidaan nyt testata Pearsonin χ 2 -testisuureella χ 2 = 2 2 j=1 n ij ˆµ ij 2 ˆµ ij. Testisuure χ 2 noudattaa H 0 hypoteesin vallitessa asymptoottisesti χ 2 -jakaumaa vapausastein df = 1. Vaihtoehtoisesti H 0 hypoteesin voimassaoloa voidaan testata uskottavuussuhteen avulla. Multinomijakauman tilanteessa uskottavuussuhde on muotoa G 2 = n ij log j=1 nij Uskottavuussuhde G 2 noudattaa H 0 hypoteesin vallitessa asymptoottisesti myös χ 2 - jakaumaa vapausastein df = 1. Tehtävä 3. Alla olevassa ristiintaulukossa on esitetty frekvenssit kysyttäessä naisilta ja miehiltä hyväksyvätkö he raskauden keskeytyksen. Laske ristiintaulukosta suhteellinen riski δ, vedonlyöntisuhde θ, Pearsonin χ 2 -testi ja uskottavuussuhde G 2. ˆµ ij. Hyväksyy Ei hyväksy Yhteensä Nainen Mies Yhteensä

10 Yleistetyt lineaariset mallit II TILTS18 Eksponentiaalinen jakaumaperhe syksy 2009-kevät 2010 Tiheysfunktio Tarkastellaan satunnaismuuttujaa Y. Olkoon Y 1, Y 2,... Y n satunnaisotos Y :n jakaumasta, eli oletetaan, että jokainen Y i noudattaa muuttujan Y jakaumaa. Oletetaan myös, että Y i :t ovat toisistaan riippumattomia. Satunnaismuuttuja Y i :n todennäköisyysjakauma kuuluu eksponentiaaliseen jakaumaperheeseen eksponentiaaliseen hajontajakaumaperheeseen, jos Y i :n tiheysfunktioa on muotoa yi Θ i bθ i fy i ; Θ i, φ = exp + cy i, φ, aφ missä parametria Θ i kutsutaan luonnolliseksi parametriksi kanooniseksi parametriksi ja φ:tä hajontaparametriksi. Luonnollinen parametri Θ i kertoo jakauman sijainnin location, ja tilanteissa jossa jakauma riippuu vain yhdestä tuntemattomasta parametristä, hajontaparametri voidaan asettaa arvoksi φ = 1. Usein käytetyt jakaumat kuten normaalijakauma, binomijakauma, poissonin jakauma ja gamma jakauma kuuluvat eksponentiaaliseen jakaumaperheeseen. Esimerkki 1. Osoita, että normaalijakauma Y i Nµ i, σ 2 kuuluu eksponentiaaliseen jakaumaperheeseen. Normaalijakauman tiheysfunktio on muotoa fy i µ i, σ 2 1 = exp 1 2πσ 2 2 y i µ i 2 σ 2 = exp 1 2 y2 i 2y i µ i + µ 2 i missä siis yi µ i 1 2 = exp µ2 i σ 2 yi Θ i bθ i = exp aφ σ 2 y2 i 1 + log 2πσ 2 1 2σ + log 2 2πσ 2 + cy i, φ, Θ i = µ i, φ = σ 2, aφ = φ, bθ i = 1 2 Θ2 i, cy i, φ = y2 i 2φ 2 + log 1. 2πφ 2

11 syksy 2009-kevät 2010 Eksponentiaalinen jakaumaperhe Yleistetyt lineaariset mallit II 2 Esimerkki 2. Osoita, että Poissonin jakauma Y i P oiλ i kuuluu eksponentiaaliseen jakaumaperheeseen. Poissonin jakauman tiheysfunktio on muotoa missä siis fy i λ i = e λ i λ y i i = exp λ i + y i logλ i y i! y i! yi logλ i e logλ i = exp logy i! 1 yi Θ i bθ i = exp cy i 1 Θ i = logλ i, aφ = 1, bθ i = e Θ i, cy i = logy i!. Tehtävä 1. Osoita, että binomijakautunut n i Y i Binn i, π i kuuluu eksponentiaaliseen jakaumaperheeseen. Tehtävä 2. Osoita, että gamma jakauma Y i kuuluu eksponentiaaliseen jakaumaperheeseen kun gamma jakauman tiheysfunktio on esitetty muodossa fy i µ i, ν = 1 ν ν y ν 1 i e yi ν µ i, y i > 0. Γν µ i

12 syksy 2009-kevät 2010 Eksponentiaalinen jakaumaperhe Yleistetyt lineaariset mallit II 3 Odotusarvo ja varianssi Satunnaismuuttujan Y i tiheysfunktio voidaan ajatella myös uskottavuusfunktiona. Merkitään uskottavuusfunktiota L:llä ja logaritmoitua uskottavuusfunktiota l:llä, eli lθ i, φ = loglθ i, φ = logfy i ; Θ i, φ. Eksponentiaalisen jakaumaperheen tilanteessa satunnaismuuttujan Y i logaritmoitu uskottavuusfunktio lθ i, φ on muotoa lθ i, φ = logfy i ; Θ i, φ = y iθ i bθ i aφ + cy i, φ. Tarkastellaan logaritmoidun uskottavuusfunktiota derivaattaa Θ i suhteen. Yleisesti on voimassa joten Täten l E = Θ i = l Θ i = logl Θ i = Θ i l L = L. Θ i Θ i = 1 L, L Θ i l fy i ; Θ i, φ dy i Θ i l L L dy i = dy i Θ i Θ i L dy i = fy i ; Θ i, φ dy i Θ i = Θ i 1 = 0. Lisäksi on voimassa 2 l Θ 2 i = 1 L = 1 2 L l Θ i L Θ i L 2 Θ i L Θ 2 i 2 l = l. Θ i L Θ 2 i Täten 2 l l 2 l Var = E = E Θ i Θ i Θ 2 i 2 l = E Θ 2 i 2 l = E Θ 2 i 2 l = E Θ 2 i 2 l = E Θ 2 i. 1 2 l + E L Θ 2 i 1 2 l + L dy L Θ 2 i i 2 l + dy i + 2 l Θ 2 i Θ 2 i L dy i

13 syksy 2009-kevät 2010 Eksponentiaalinen jakaumaperhe Yleistetyt lineaariset mallit II 4 Erityisesti eksponentiaalisen jakaumaperheen tilanteessa on nyt voimassa, että lθ i, φ = y i b Θ i, Θ i aφ ja siten ominaisuudesta seuraa, että lθi, φ E Θ i = EY i b Θ i aφ EY i = µ i = b Θ i. = 0 Eksponentiaalisessa jakaumaperheessa varianssi VarY i saadaan johdettua ominaisuuksista 2 lθ i, φ Θ 2 i = b Θ i aφ ja lθi, φ Θ i 2 = y i b Θ i 2 aφ 2. Koska 2 lθi, φ 2 lθ i, φ E = E, Θ i Θ 2 i niin EY i b Θ i 2 aφ 2 = b Θ i aφ, ja siten VarY i = EY i b Θ i 2 = b Θ i aφ. Koska toisen asteeen derivaatta b Θ i riippuu Y i.n odotusarvosta ensimmäisen asteen derivaatan kautta b Θ i, merkitään usein derivaattaa b Θ i = V µ i, missä V µ i kutsutaan varianssifunktioksi. Jos yleistetyssä lineaarisessa mallissa linkkifunktio g on valittu kanooniseksi linkkifunktioksi, on voimassa, että Tämä johtuu siitä, että V µ i = [g µ i ] 1. [g µ i ] 1 = µ i = g 1 Θ i Θ i = b Θ i Θ i = b Θ i = V µ i.

14 syksy 2009-kevät 2010 Eksponentiaalinen jakaumaperhe Yleistetyt lineaariset mallit II 5 Tehtävä 3. Laske Poissonin jakauman Y i P oiλ i odotusarvo ja varianssi. Tehtävä 4. Laske binomijakautuneen n i Y i Binn i, π i odotusarvo ja varianssi.

15 Yleistetyt lineaariset mallit II TILTS18 Estimointi syksy 2009-kevät 2010 Suurimman uskottavuuden ratkaisuyhtälöt Olkoon Y 1, Y 2,..., Y n satunnaisotos jakaumasta, mikä kuuluu eksponentiaaliseen jakaumaperheeseen. Merkitään Y 1 Y 2 y =. = y 2.. Y n y 1 y n Tavoitteena on nyt estimoida suurimman uskottavuuden menetelmällä yleistettyyn lineaariseen malliin liittyvä tuntematon parametrivektori β. Parametrivektori β liittyy satunnaismuuttujiin Y i odotusarvon EY i = µ i ja linkkifunktion gµ i = η i = x iβ kautta, missä vektori x i sisältää selittävien muuttujien arvot havainnon i tilanteessa. Jokaiselle Y i :lle on voimassa, että logaritmoitu uskottavuusfunktio l i on muotoa l i Θ i, φ = logfy i ; Θ i, φ = y iθ i bθ i aφ + cy i, φ. Täten satunnaisotoksen y logaritmoitu uskottavuusfunktio l on muotoa lθ, φ = logfy; Θ, φ = n l i Θ i, φ = n y i Θ i bθ i aφ + cy i, φ, missä Θ 1 Θ 2 Θ n Θ =.. Parametrivektorin β 1 β 2 β m β =. suurimman uskottavuuden estimaatit saadaan ratkaisemalla yhtäaikaisesti logaritmoidun uskottavuusfunktion osittaisderivaattojen nollakohdat parametrien β j suhteen: lθ, φ β j = n l i Θ i, φ β j = 0, j = 1, 2... m.

16 syksy 2009-kevät 2010 Estimointi Yleistetyt lineaariset mallit II 2 Derivoinnin ketjusäännön perusteella osittaisderivaatta l i β j voidaan kirjoittaa muodossa l i Θ i, φ β j = l i Θ i Θ i µ i µ i η i η i β j. Täten koska missä b Θ i = EY i = µ i, l i = y i b Θ i Θ i aφ = y i µ i aφ, 1 Θ i µi = = b Θ i 1 = aφ µ i Θ i VarY i, µ i η i = ηi µ i missä x ij on vektorin x i j:nes elementti, 1 = g µ i 1 = 1 g µ i, η i β j = x ij, niin l i Θ i, φ β j = y i µ i aφ aφ 1 VarY i g µ i x ij. Suurimman uskottavuuden estimaatin ratkaisuyhtälöt estimointiyhtälöt ovat siten muotoa lθ, φ n y i µ i 1 n = β j VarY i g µ i x y i µ i ij = VarY i x µi ij = 0, j = 1, 2... m. η i Vaikka parametrivektori β ei suoranaisesti ole näkyvillä suurimman uskottavuuden estimaatin ratkaisuyhtälöissä, parametrivektori on implisiittisesti mukana ratkaisuyhtälöissä µ i kautta, koska µ i = g 1 η i = g 1 x iβ. Ratkaisuyhtälöillä ei usein miten ole suljetun muodon ratkaisua, joten suurimman uskottavuuden estimaatti pitää ratkaista numeerisesti esimerkiksi Newton-Raphson tai Fisherin Scoring-menetelmää käyttäen. Esimerkki 1. Noudattakoon satunnaisvektori y normaalijakaumaa y Nµ, σ 2 I, ja olkoon linkkifunktio g muotoa gµ i = µ i = η i = x iβ. Johda suurimman uskottavuuden estimaatin ratkaisuyhtälöt parametrivektorille β.

17 syksy 2009-kevät 2010 Estimointi Yleistetyt lineaariset mallit II 3 Normaalijakauman tilanteessa estimointiyhtälöt ovat muotoa n y i µ i VarY i x µi n y i x ij = iβ x η i σ 2 ij 1 = 1 σ 2 x jy Xβ, missä x 1 x 2 X =. = x 1 : x 2 : : x m. Täten on yhtä kuin x n 1 σ 2 x jy Xβ = 0, j = 1, 2... m, 1 σ 2 X y Xβ = 0, ja siten suurimman uskottavuuden estimaatin ratkaisu ˆβ saadaan ratkaisemalla matriisiyhtälö parametrivektorin β suhteen. X Xβ = X y Esimerkki 2. Olkoon satunnaisotos Y 1, Y 2,... Y n binomijakaumasta n i Y i Binn i, π i, ja olkoon linkkifunktio g muotoa µi πi gµ i = logitµ i = log = log = η i = x 1 µ i 1 π iβ. i Johda suurimman uskottavuuden estimaatin ratkaisuyhtälöt parametrivektorille β. Binomijakauman tilanteessa estimointiyhtälöt ovat muotoa n y i µ i VarY i x µi n y i π i ij = η π i 1 π i x ij π i 1 π i i n i n = n i y i π i x ij, koska VarY i = π i1 π i n i, µ i η i = 1 ηi = µ i 1 π i 1 π i 1 = π i 1 π i. Täten n n i y i ex i β x 1+e x i β ij = 0, j = 1, 2... m. Suurimman uskottavuuden estimaatti joudutaan ratkaisemaan numeerisesti.

18 syksy 2009-kevät 2010 Estimointi Yleistetyt lineaariset mallit II 4 Tehtävä 1. Olkoon satunnaisotos Y 1, Y 2,... Y n Poissonin jakaumasta Y i P oiλ i, ja olkoon linkkifunktio g muotoa gµ i = logµ i = logλ i = η i = x iβ. Johda suurimman uskottavuuden estimaatin ratkaisuyhtälöt parametrivektorille β.

19 syksy 2009-kevät 2010 Estimointi Yleistetyt lineaariset mallit II 5 Asymptoottinen kovarianssimatriisi Parametrivektoriin β liittyvä Fisherin informaatiomatriisin I β elementti j, k määritellään odotusarvona lθ, φ lθ, φ l 2 Θ, φ I jk = E = E. β j β k β j β k Kaikille parametrivektorin β harhattomille estimaattoreille β on voimassa Cramer Rao epäyhtälö cov β I 1 β 0, missä epäyhtälö tarkoittaa, että matriisi cov β I 1 β on ei-negatiivisesti definiitti. Olkoon ˆβ nyt suurimman uskottavuuden estimaattori parametrivektorille β. Tällöin asymptoottisesti on voimassa yhtälö cov ˆβ = I 1 β. Eksponentiaalisen jakaumaperheen tilanteessa on voimassa, että li l i Yi µ i E = E β j β k VarY i x µi ij Yi µ i η i VarY i x µi ik η i = x 2 ijx ik µi. VarY i η i Täten I jk = E lθ, φ lθ, φ = β j β k n x ij x ik VarY i µi = x jx k 1 VarY i 2 η i 2 µi = x ja siten koko informaatiomatriisi voidaan kirjoittaa muodossa I β = X WX, η i missä W on diagonaalimatriisi päädiagonaalielementteinä W ii = 1 VarY i 2 µi. η i j 2 1 µi x k, VarY i η i Koska usein W ii riippuu tuntemattomista parametreistä Θ, φ, saadaan suurimman uskottavuuden estimaattorin ˆβ estimoidulle kovarianssimatriisille ĉov ˆβ asymptoottinen esitys ĉov ˆβ = Î 1 β = X ŴX 1, missä Ŵ matriisin W estimaatti laskettuna estimaateilla ˆΘ, ˆφ.

20 syksy 2009-kevät 2010 Estimointi Yleistetyt lineaariset mallit II 6 Tehtävä 2. Noudattakoon satunnaisvektori y normaalijakaumaa y Nµ, σ 2 I, ja olkoon linkkifunktio g muotoa gµ i = µ i = η i = x iβ. Johda estimaattorin ˆβ estimoidun kovarianssimatriisin ĉov ˆβ asymptoottinen esitys. Tehtävä 3. Olkoon satunnaisotos Y 1, Y 2,... Y n Poissonin jakaumasta Y i P oiλ i, ja olkoon linkkifunktio g muotoa gµ i = logµ i = logλ i = η i = x iβ. Johda estimaattorin ˆβ estimoidun kovarianssimatriisin ĉov ˆβ asymptoottinen esitys.

21 syksy 2009-kevät 2010 Estimointi Yleistetyt lineaariset mallit II 7 Newton-Raphson menetelmä Suurimman uskottavuuden ratkaisuyhtälöillä ei aina ole suljetun muodon ratkaisua, joten suurimman uskottavuuden estimaattorin ˆβ arvo joudutaan numeerisesti ratkaisemaan. Newton-Raphson menetelmä on iteratiivinen numeerinen menetelmä, jonka avulla voidaan ratkaista epälineaarisia yhtälöitä. Suurimman uskottavuuden estimoinnin tilanteessa Newton-Raphson menetelmän avulla lasketaan iteratiivisesti parametrivektorille β arvoja β t, t = 0, 1, 2,..., kunnes arvo β t on numeerisesti riittävän lähellä suurimman uskottavuuden estimaattorin ˆβ ratkaisua. Newton-Raphson menetelmä perustuu Taylorin sarjakehitelmään. Merkitään parametrivektorista β riippuvaa logaritmoitua uskottavuusfunktiota lβ:llä. Lisäksi olkoon lβ l 2 β l 2 β l β 1 β lβ 1 β 1 β 1 β β β 1 β m u = β 2 l 2 l., H = β 2 β l 2 β l = β 2 β 1 β 2 β β β 2 β m β j β k lβ l 2 β β m β m β 2... Matriisia H kutsutaan Hessianin matriisiksi. l 2 β β m β 1 l 2 β β m β m Merkitään lβ t :llä, u t :llä ja H t :llä logaritmoidun uskottavuusfunktion lβ, vektorin u ja matriisin H arvoja, kun logaritmoidun uskottavuusfunktion lβ, vektorin u ja matriisin H arvot on laskettu parametrivektorin β arvoilla β t, missä t = 0, 1, 2,.... Taylorin sarjakehitelmän perusteella logaritmoidun uskottavuusfunktion lβ arvoa voidaan approksimoida Taylorin toisen asteen termein arvolla β t seuraavasti: lβ lβ t + u tβ β t β β t H t β β t Koska suurimman uskottavuuden estimaattori ˆβ on se parametrivektorin β arvo, mikä toteuttaa yhtälön lβ β = 0, niin Taylorin sarjakehitelmän perusteella suurimman uskottavuuden estimaattori ˆβ on se parametrivektorin β arvo, mikä toteuttaa yhtälön lβ β u t + H t β β t = 0. Ratkaisemalla ylläolevasta yhtälöstä β ja merkitsemällä ratkaisua β t+1, saadaan yhtälö β t+1 = β t H 1 t u t, mikä toimiin iteratiivisena menetelmänä löytää numeerisesti suurimman uskottuvuuden estimaattori ˆβ. Iterointiprosessia jatketaan niin kauan, kunnes erotus lβ t+1 lβ t on numeerisesti riittävän pieni ja sitten suurimman uskottavuuden estimaatiksi saadaan ˆβ = β t+1.

22 syksy 2009-kevät 2010 Estimointi Yleistetyt lineaariset mallit II 8 Fisherin Scoring menetelmä Fisherin Scoring menetelmä on vaihtoehtoinen iteratiivinen menetelmä suurimman uskottavuuden estimaatin numeeriseen ratkaisemiseen. Fisherin Scoring menetelmä perustuu Newton-Raphson menetelmään, mutta erona on, että menetelmässä ei käytetä Hessianin matriisia H laskennassa hyväksi vaan informaatiomatriisia I β, mille on voimassa l 2 Θ, φ I β = E = EH. β j β k Merkitään I βt :llä informaatiomatriisin I β arvoa, kun informaatiomatriisin I β arvo on laskettu parametrivektorin β arvoilla β t, missä t = 0, 1, 2,.... Tällöin Fisherin Scoring menetelmän iteratiivinen suurimman uskottavuuden estimaatin ratkaisumenetelmä on muotoa β t+1 = β t + I 1 β t u t, tai toisaalta I βt β t+1 = I βt β t + u t. Jälleen iterointiprosessia jatketaan niin kauan, kunnes erotus lβ t+1 lβ t on numeerisesti riittävän pieni ja sitten suurimman uskottavuuden estimaatiksi saadaan ˆβ = β t+1. Eksponentiaalisen jakaumaperheen tilanteessa informaatiomatriisi I β on muotoa I β = X WX, missä W on diagonaalimatriisi päädiagonaalielementteinä Merkitään W ii = 1 VarY i 2 µi. η i I βt = X W t X, jolloin Fisherin Scoring ratkaisumenetelmä on muotoa tai toisaalta β t+1 = β t + X W t X 1 u t, X W t Xβ t+1 = X W t Xβ t + u t. Täten Fisherin Scoring menetelmän sivutuotteena saadaan suurimman uskottavuuden estimaattorin ˆβ estimoitu kovarianssimatriisi ĉov ˆβ = Î 1 β = X ŴX 1 tilanteessa, jossa matriisi W riippuu vain parametrivektorista β.

23 syksy 2009-kevät 2010 Estimointi Yleistetyt lineaariset mallit II 9 Tehtävä 4. Noudattakoon satunnaisvektori y normaalijakaumaa y Nµ, σ 2 I, ja olkoon linkkifunktio g muotoa gµ i = µ i = η i = x iβ. Johda estimaattorin ˆβ Fisherin Scoring ratkaisumenetelmä. Tehtävä 5. Olkoon satunnaisotos Y 1, Y 2,... Y n Poissonin jakaumasta Y i P oiλ i, ja olkoon linkkifunktio g muotoa gµ i = logµ i = logλ i = η i = x iβ. Johda estimaattorin ˆβ Fisherin Scoring ratkaisumenetelmä.

24 syksy 2009-kevät 2010 Estimointi Yleistetyt lineaariset mallit II 10 Iteratiivinen pienimmän neliösumman menetelmä Fisherin Scoring ratkaisumenetelmä voidaan siis kirjoittaa muodossa Koska missä u = lβ β 1 lβ β 2. lβ β m { n = X W t Xβ t+1 = X W t Xβ t + u t. y i µ i VarY i x ij µi η i y 1 µ 1 { } µi y s = y i µ i = 2 µ 2 η i. y n µ n niin Fisherin Scoring ratkaisumenetelmä saadaan muotoon missä } = { x jws } = X Ws µ 1 µ 2 η 1 η 2 µ n η n, X W t Xβ t+1 = X W t Xβ t + X W t s t = X W t z t, z t = Xβ t + s t. Täten β t+1 suhteen Fisherin Scoring ratkaisumenetelmä on muotoa β t+1 = X W t X 1 X W t z t. Koska matriisia W t voidaan kutsua painomatriisiksi, niin suurimman uskottavuuden estimaatti ˆβ saadaan laskemalla iteratiivisesti painotetun pienimmän neliösumman ratkaisu. Fisherin Scoring ratkaisumenetelmän prosessia voidaankin kutsua iteratiiviseksi pienimmän painotetun neliösumman menetelmäksi.

25 Yleistetyt lineaariset mallit II TILTS18 Lineaaristen mallien teoriaa syksy 2009-kevät 2010 Mallin oletukset Olkoon Y 1, Y 2,..., Y n satunnaisotos normaalijakaumasta Y i Nµ i, σ 2. Lineaarisessa mallissa oletetaan, että odotusarvo µ i riippuu lineaarisesti selittävistä muuttujista x i : µ i = x iβ, missä β on tuntematon parametrivektori. Yleensä lineaarinen malli esitetään matriisimuodossa y = Xβ + ε, missä Y 1 Y 2 Y n y 1 y n x 1 x 2 x n y =. = y 2., X =. = x 1 : x 2 : : x m, β =., ε = ε 2.. β 1 β 2 β m ε 1 ε n Oletuksena on siis eli y NXβ, σ 2 I, ε N0, σ 2 I. Estimointi Suurimman uskottavuuden estimaattori parametrivektorille β saadaan ratkaisemalla logaritmoituun uskottavuusfunktioon liittyvä maksimointiongelma arg max lβ, β σ2 ; y = arg max log 2πσ 2 n/2 1 β 2σ y 2 Xβ y Xβ. Parametrivektorin β suurimman uskottavuuden estimaattoriksi saadaan ˆβ = X X 1 X y. Estimaattori ˆβ on samalla myös pienimmän nelisumman estimaattori, eli ratkaisu minimointiongelmaan arg miny Xβ y Xβ, β ja vielä yleisemmin paras lineaarinen harhaton estimaattori β:lle.

26 syksy 2009-kevät 2010 Lineaaristen mallien teoriaa Yleistetyt lineaariset mallit II 2 Mallin antamat sovitearvot ŷ = ŷ 1, ŷ 2,..., ŷ n ovat muotoa ŷ = ˆµ = X ˆβ = XX X 1 X y = Hy, missä H = XX X 1 X. Vastaavasti residuaalit ovat muotoa e = y ŷ = y X ˆβ = I XX X 1 X y = My, missä M = I H = I XX X 1 X. Estimaattorin ˆβ kovarianssimatriisi Cov ˆβ on puolestaan muotoa Cov ˆβ = σ 2 X X 1, ja kovarianssimatriisin estimaattori on muotoa Ĉov ˆβ = ˆσ 2 X X 1, missä ˆσ 2 = y X ˆβ y X ˆβ n m = e e n m = e 2 i n m. Selitysaste Merkitään n SST = y i ȳ 2, n SSR = ŷ i ȳ 2, SST = Tällöin on voimassa SST = SSR + SSE. n = y i ŷ i 2. Tarkastellaan nyt malleja missä M 0 : y = 1β 0 + ε, M 1 : y = Xβ + ε, X = 1 : X 1, 1 = 1, 1,..., 1, β = β 0, β 1. Tällöin malli M 0 vastaa mallia M 1 kun voimassa β 1 = 0. Mallin M 1 selitysaste R 2 M 1 määritellään nyt suhteena missä J = R 2 M 1 = SSRM 1 SST M 1 = 1 SSEM 1 SST M 1 = 1 SSEM 1 SSEM 0 = 1 y I Hy y I Jy,

27 syksy 2009-kevät 2010 Lineaaristen mallien teoriaa Yleistetyt lineaariset mallit II 3 Devianssi Tarkastellaan logaritmoitua uskottavuusfunktiota odotusarvovektorin µ suhteen. Koska odotusarvovektori µ riippuu parametrivektorista β, voidaan se kirjoittaa parametrivektorin funktiota µβ. Normaalijakauman tilanteessa logaritmoitu uskottavuusfunktio on muotoa lµβ, σ 2 ; y = log 2πσ 2 n/2 1 2σ 2 y µβ y µβ = log 2πσ 2 n/2 1 2σ 2 y Xβ y Xβ. Merkitään nyt vektorilla ˆµ ˆβ max sellaista odotusarvovektorin µ estimaattoria, mille on voimassa ominaisuus y = ˆµ ˆβ max. Estimaattori ˆβ max on suurimman uskottavuuden estimaattori parametrivektorille β max, missä parametrivektori β max liittyy kyllästettyyn lineaariseen malliin K : y = X max β max. Tällöin mallin M : y NXβ, σ 2 I devianssi DM määritellään kyllästetyn mallin K ja tarkasteltavan mallin M logaritmoitujen uskottavuusfunktioiden erotuksena DM = 2 lˆµ ˆβ max, σ 2 ; y lµ ˆβ, σ 2 ; y = 2 log 2πσ 2 n/2 log 2πσ 2 n/2 1 2σ y X ˆβ y X ˆβ 2 = 1 σ 2 y X ˆβ y X ˆβ = 1 σ 2 y My = 1 σ 2 e e. Nyt voidaan osoittaa, että devianssi DM noudattaa χ 2 -jakaumaa vapausastein df = n m. Normaalijakauman tapauksessa devianssi DM riippuu tuntemattomasta parametrista σ 2. Täten devianssin käyttäminen hypoteesin testaamiseen tai mallin sopivuuden mittaamiseen ei ole normaalijakauman tilanteessa suoraan mahdollista. Normaalijakauman tilanteessa voidaan määritellä skaalattu devianssi D s M = σ 2 DM = y X ˆβ y X ˆβ. R-ohjelmisto laskee nimenomaan skaalatun devianssin normaalijakauman tilanteessa. Skaalattu devianssi D s M ei kuitenkaan koskaan tarkasti ottaen noudata χ 2 -jakaumaa, joten on parempi käyttää muita otossuureita hypoteesin testaamiseen ja mallin sopivuuden tarkasteluun.

28 syksy 2009-kevät 2010 Lineaaristen mallien teoriaa Yleistetyt lineaariset mallit II 4 Hypoteesin testaus Tarkastellaan seuraavia ositettuja malleja M 1 : y = X 1 β 1 + ε, M 2 : y = X 1 β 1 + X 2 β 2 + ε, ja merkitään vielä X = X 1 : X 2. Testataan hypoteeseja H 0 : β 2 = 0, H a : β 2 0. Hypoteesit voidaan esittää mallien M 1 ja M 2 avulla: H 0 : Malli M 1 on voimassa, H a : Malli M 2 on voimassa. Mallien M 1 ja M 2 devianssit ovat puolestaan seuraavat: missä DM 1 = 1 σ 2 y M 1 y, DM 2 = 1 σ 2 y My, M 1 = I X 1 X 1X 1 1 X 1, M = I XX X 1 X. Matriisi XX X 1 X voidaan kuitenkin hajoittaa osiin Täten XX X 1 X = X 1 X 1X 1 1 X 1 + M 1 X 2 X 2 M 1 X 2 1 X 2M 1. M = I X 1 X 1X 1 1 X 1 + M 1 X 2 X 2 M 1 X 2 1 X 2M 1 = M 1 M 1 X 2 X 2 M 1 X 2 1 X 2M 1, ja siten mallien M 1 ja M 2 devianssien erotus on Matriisi D = DM 1 DM 2 = 1 σ 2 y M 1 X 2 X 2 M 1 X 2 1 X 2M 1 y. M 1 X 2 X 2 M 1 X 2 1 X 2M 1 on ortogonaaliprojektori sarakeavaruuteen CM 1 X 2, ja siten voidaan osoittaa, että devianssien erotus D noudattaa χ 2 -jakaumaa vapausastein df = rankx 2 kun H 0 hypoteesi on voimassa. Lisäksi koska devianssi DM 2 noudattaa aina χ 2 -jakaumaa vapausastein df = n rankx = n m, niin suhde F = D/ rankx 2 DM 2 /n m = y M 1 X 2 X 2 M 1 X 2 1 X 2M 1 y/ rankx 2 y My/n m noudattaa H 0 hypoteesin ollessa voimassa F -jakaumaa vapausastein df 1 = rankx 2, df 2 = n m. F -testisuureen avulla ollaan siten pystytty eliminoimaan parametrin σ 2 vaikutus hypoteesin testaamiseen.

29 syksy 2009-kevät 2010 Lineaaristen mallien teoriaa Yleistetyt lineaariset mallit II 5 Residuaalit Lineaarisessa mallissa residuaali e i määritellään siis e i = y i ŷ i = y i x i ˆβ = i ii Hy = i imy, missä i i = 0, 0,..., 1,..., 0, 0. Standardoitu residuaali sisäisesti Studentoitu residuaali r i puolestaan määritellään kaavalla r i = y i ŷ i ˆσ 1 h ii = i ii Hy ˆσ i i I Hi i = i imy ˆσ i i Mi, i missä siis h ii = x ix X 1 x i. Vastaavasti ulkoisesti Studentoitu residuaali t i määritellään kaavalla t i = y i ŷ i ˆσ i 1 hii = i ii Hy ˆσ i i i I Hi i = i imy ˆσ i i i Mi i, missä ˆσ i on parametrin σ estimaatti laskettuna tilanteessa, missä i:s havainto on poistettu datasta. Studentoitu residuaali t i noudattaa Studentin t-jakaumaa vapausastein df = n m 1. Lisäksi jos merkitään ˆβ i :llä parametrin β suurimman uskottavuuden estimaattia tilanteessa, missä estimaatti on laskettu kun i:s havainto on poistettu datasta, niin silloin saadaan, että estimaattien ˆβ ja ˆβ i erotus on muotoa ˆβ i = ˆβ ˆβ i = X X 1 X i i. 1 h ii Cookin etäisyys D i määritellään sitten neliömuotona D i = ˆβ ˆβ i X X ˆβ ˆβ i mˆσ 2. e i

30 Yleistetyt lineaariset mallit II Jarkko Isotalo - TILTS18 Tilastollinen päättely syksy 2009-kevät 2010 Lähtökohta Olkoon Y 1, Y 2,..., Y n satunnaisotos jakaumasta, mikä kuuluu eksponentiaaliseen jakaumaperheeseen. Merkitään edelleen Y 1 Y 2 y =. = y 2.. Y n y 1 y n Tarkastellaan yleistettyihin lineaarisiin malleihin liittyviä tilastollisia päättelytilanteita. Erityisesti kiinnostuksen kohteena on erilaisten otossuureiden otosfunktioiden sy jakaumat yleistettyjen lineaaristen mallien tilanteessa. Lähtökohta päättelyissä on se, että jos satunnaisvektori y on satunnaisotos eksponentiaalisesta jakaumaperheestä, niin otossuureelle sy on asymptoottisesti voimassa Z = sy Esy Varsy N0, 1, tai yhtäpitävästi Z 2 = sy Esy Varsy 2 χ 2 1. Mikäli satunnaisvektori y noudattaa normaalijakaumaa, niin edellinen on tarkasti ottaen voimassa ja muissa tapauksissa asymptoottinen tulos voidaan perustella keskeisen rajaarvolauseen avulla. Vastaavasti jos sy on otosvektori muotoa s 1 y s 2 y sy =, Covsy = Σ,. s p y niin silloin asymptoottisesti on voimassa X 2 = sy Esy Σ 1 sy Esy χ 2 p, olettaen, että käänteismatriisi Σ 1 on olemassa.

31 syksy 2009-kevät 2010 Tilastollinen päättely TILTS18 - Jarkko Isotalo 2 Suurimman uskottavuuden estimaattorin otosjakauma Tarkastellaan logaritmoitua uskottavuusfunktiota lθβ, φ yleistettyjen lineaaristen mallien tilanteessa. Merkitään parametrivektorista β riippuvaa logaritmoitua uskottavuusfunktiota lθβ, φ = lβ:llä. Merkitään lisäksi logaritmoidun uskottavuusfunktion osittaisderivaattoja parametrien β j suhteen vektorilla u seuraavasti: u = lβ β 1 lβ β 2. lβ β m Lisäksi merkitään Hessianin matriisilla logaritmoidun uskottavuusfunktion toisia derivaattoja l 2 β l 2 β l β 1 β 1 β 1 β β β 1 β m l 2 l β 2 β l 2 β l H = = β 2 β 1 β 2 β β β 2 β m β j β k l 2 β l 2 β l β m β 1 β m β β β m β m Parametrivektoriin β liittyvä Fisherin informaatiomatriisi I β määritellään Hessianin matriisin odotusarvona I β = EH. Olkoon ˆβ nyt suurimman uskottavuuden estimaattori parametrivektorille β. Tällöin asymptoottisesti on voimassa yhtälö. Cov ˆβ = I 1 β. Informaatiomatriisi I β voi kuitenkin riippua tuntemattomista parametreistä Θβ, φ. Suurimman uskottavuuden estimaattorin ˆβ estimoidulle kovarianssimatriisille Ĉov ˆβ saadaan kuitenkin asymptoottinen esitys Ĉov ˆβ = Î 1 β, kun informaatiomatriisissa I β tuntemattomat parametrit Θβ, φ korvataan sopivilla estimaatteilla ˆΘ ˆβ, ˆφ. Merkitään l ˆβ:llä, u ˆβ :llä ja H ˆβ :llä logaritmoidun uskottavuusfunktion lβ, vektorin u ja matriisin H arvoja, kun logaritmoidun uskottavuusfunktion lβ, vektorin u ja matriisin H arvot on laskettu parametrivektorin β suurimman uskottavuuden estimaatin ˆβ arvolla. Taylorin sarjakehitelmän perusteella logaritmoidun uskottavuusfunktion lβ arvoa voidaan approksimoida Taylorin toisen asteen termein suurimman uskottavuuden estimaatin ˆβ arvolla seuraavasti: lβ l ˆβ + u ˆβ β ˆβ β ˆβ H ˆββ ˆβ. Taylorin sarjakehitelmässä Hessianin matriisi H ˆβ voidaan korvata informaatiomatriisin I β estimaatilla Î β, milloin logaritmoidulle uskottavuusfunktiolle lβ on voimassa lβ l ˆβ + u ˆβ β ˆβ 1 2 β ˆβ Î β β ˆβ.

32 syksy 2009-kevät 2010 Tilastollinen päättely TILTS18 - Jarkko Isotalo 3 Täten logaritmoidun uskottavuusfunktion l ˆβ osittaisderivaatat β suhteen ovat approksimaalisesti lβ β = u u ˆβ Î β β ˆβ. Koska u ˆβ = 0, niin osittaisderivaatat ovat muotoa lβ β = u Î β β ˆβ, ja siten ˆβ β Î 1 β u. Estimoitua informaatiomatriisia Î β voidaan pitää asymptoottisesti vakiona, milloin ottamalla yllä olevasta yhtälöstä puolittain odotusarvot, saadaan E ˆβ β EÎ 1 β u = EI 1 β u = I 1 β Eu = 0, eli asymptoottisesti E ˆβ = β, koska Eu = 0. Lisäksi suurimman uskottavuuden estimaattorin ˆβ asymptoottiseksi kovarianssimatriisiksi saadaan jo edellä mainittu Cov ˆβ = E ˆβ β ˆβ β EÎ 1 β uu Î 1 β = EI 1 β uu I 1 β = I 1 β Euu I 1 β = I 1 β I βi 1 β ja siten asymptoottisen kovarianssimatriisin estimaatiksi saadaan Ĉov ˆβ = Î 1 β. Täten suurimman uskottavuuden estimaattorille ˆβ on voimassa, että W = ˆβ β Î β ˆβ β χ 2 m, = I 1 β, missä m on parametrien β 1, β 2,..., β m lukumäärä. Otossuuretta W kutsutaan nyt Waldin otossuureeksi. Waldin otossuureen avulla voidaan parametreille β j muodostaa luottamusväliestimaatteja ja testata erilaisia hypoteeseja. Waldin otossuureesta seuraa, että yksittäiselle estimaattorille ˆβ j on asymptoottisesti voimassa W j = ˆβ j β j 2 Var ˆβ j χ 2 1, joten asymptoottisesti ˆβ j Nβ j, Var ˆβ j. Täten β j :lle saadaan muodostettua 1001 α% luottamusväli kaavalla ˆβ j ± z α/2 Var ˆβ j,

33 syksy 2009-kevät 2010 Tilastollinen päättely TILTS18 - Jarkko Isotalo 4 missä z α/2 on luku, jolle voimassa P Z > z α/2 = α/2 kun Z N0, 1. Vastaavasti Waldin otossuureella voidaan testata hypoteeseja. Testattaessa hypoteesia Waldin testisuure H 0 : β = β 0, W = ˆβ β 0 Î β ˆβ β 0 noudattaa H 0 hypoteesin ollessa voimassa asymptoottisesti χ 2 jakaumaa vapausastein df = m. Mikäli parametrivektori on ositettu β = β 1, β 2, ja kiinnostuksen kohteena on testata hypoteesi H 0 : β 2 = β 02, niin Waldin testisuure W 2 = ˆβ 2 β 02 Σ 1 22 ˆβ 2 β 02, missä Ĉov ˆβ 2 = Σ 22, noudattaa H 0 hypoteesin ollessa tosi asymptoottisesti χ 2 jakaumaa vapausastein vektorin β 2 elementtien lukumäärä. Estimoidulle kovarianssianssimatriisille Ĉov ˆβ on siis voimassa ositus Ĉov ˆβ ˆβ1 = Ĉov = Î ˆβ 1 β = Σ Σ11 Σ12 =. 2 Tehtävä 1. Testaa Waldin testisuureella alla olevasta mallista hypoteesi H 0 : β 0 = β 1 = 0. Σ 21 Σ22 > summarymalli Call: glmformula = cbindyes, no ~ x, family = binomial Deviance Residuals: Coefficients: Estimate Std. Error z value Pr> z Intercept <2e-16 *** x <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Dispersion parameter for binomial family taken to be 1 Null deviance: on 4 degrees of freedom Residual deviance: on 3 degrees of freedom AIC: Number of Fisher Scoring iterations: 3 > summarymalli$cov.unscaled Intercept x Intercept x

34 syksy 2009-kevät 2010 Tilastollinen päättely TILTS18 - Jarkko Isotalo 5 Uskottavuussuhde ja devianssi Olkoon tarkastelun kohteena jokin yleistetty lineaarinen malli M. Yksi tapa tutkia tarkasteltavan mallin M sopivuutta aineistoon on verrata mallia M niin sanottuun kyllästettyyn malliin K. Kyllästetty malli on rakenteeltaan sellainen, että parametrivektorista β max riippuva odotusarvo µ on yhtä kuin K : y = µβ max. Kyllästetyn mallin sovitearvoille on siten myös voimassa yhtäsuuruus K : y = ˆµ ˆβ max, missä ˆβ max on suurimman uskottavuuden estimaattori parametrivektorille β max. Olkoon ˆβ suurimman uskottavuuden estimaattori parametrivektorille β tarkasteltavassa yleistetyssä lineaarisessa mallissa M, ja olkoon L M ˆβ; y ja L K ˆβ max ; y tarkasteltavan mallin M ja kyllästetyn mallin K uskottavuusfunktioiden maksimiarvot suurimman uskottavuuden estimaattien arvoilla ˆβ ja ˆβ max. Tällöin uskottavuussuhde Λ määritellään suhteena Λ = L K ˆβ max ; y L M ˆβ;. y Käytännössä on helpompi tarkastella logaritmoitua uskottavuussuhdetta. Yleistettyjen lineaaristen mallien tilanteessa logaritmoitua uskottavuussuhdetta 2 logλ kutsutaan mallin M devianssiksi DM: DM = 2 logλ = 2 l K ˆβ max ; y l M ˆβ; y, missä l K ja l M ovat logaritmoituja uskottavuusfunktioita. Yleistettyjen lineaaristen mallien tilanteessa uskottavuusfunktio voi riippua parametrivektorin β lisäksi myös hajontaparametrista φ. Eli logaritmoitu uskottavuusfunktion maksimiarvo l M ˆβ; y parametrivektorin β suhteen on itse asiassa muotoa l M ˆβ; y = l M ˆβ, φ; y = l M ˆµ ˆβ, φ; y = l M Θ ˆβ, φ; y, ja siten myös devianssi DM voi itse asiassa riippua vielä tuntemattomasta hajontaparametristä φ. Silloin kun hajontaparametrin funktio aφ on muotoa aφ = φ, voidaan devianssi esittää muodossa DM = 2 l K Θ ˆβ max, φ; y l M Θ ˆβ, φ; y n = 2 l i Θ i ˆβ n max, φ l i Θ i ˆβ, φ n y i Θi ˆβ = 2 max b Θ i ˆβ max n y i Θi + cy i, φ ˆβ b Θ i ˆβ + cy i, φ φ φ n y i Θ i = 2 ˆβ max Θ i ˆβ b Θ i ˆβ max + b Θ i ˆβ φ n = 2 y i Θ i φ ˆβ max Θ i ˆβ b Θ i ˆβ max + b Θ i ˆβ.

35 syksy 2009-kevät 2010 Tilastollinen päättely TILTS18 - Jarkko Isotalo 6 Lisäksi tällöin voidaan määritellä skaalattu devianssi, mikä on muotoa D s M = φdm. Esimerkiksi normaalijakauman tilanteessa R-ohjelmisto laskee nimenomaan skaalatun devianssin arvon. Devianssin otosjakauma Taylorin sarjakehitelmän perusteella logaritmoidulle uskottavuusfunktiolle lβ on voimassa Täten asymptoottisesti on voimassa, että lβ l ˆβ 1 2 β ˆβ Î β β ˆβ. 2l ˆβ lβ β ˆβ Î β β ˆβ χ 2 m, missä m on parametrivektorin β elementtien lukumäärä. Devianssin DM otosjakauma saadaan kun kirjoitetaan devianssi muodossa DM =2 l K ˆβ max ; y l M ˆβ; y =2 l K ˆβ max ; y l K β max ; y 2 l M ˆβ; y l M β; y + 2 l K β max ; y l M β; y. Nyt ensimmäinen termi noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein n 2 l K ˆβ max ; y l K β max ; y χ 2 n, ja toinen termi χ 2 -jakaumaa vapausastein m 2 l M ˆβ; y l M β; y χ 2 m. Kolmas termi on vakio, mikä saa arvon lähellä nollaa kun tarkasteltava malli M sopii aineistoon lähes yhtä hyvin kuin kyllästetty malli K. Termi voidaan tulkita epäkeskisyysparametriksi ν = 2 l K β max ; y l M β; y, ja siten devianssi DM noudattaa asymptoottisesti jakaumaa DM χ 2 n m,ν. Jos satunnaisvektori y noudattaa normaalijakaumaa, niin silloin devianssi DM noudattaa tarkasti χ 2 -jakaumaa. Normaalijakauman tilanteessa kuitenkin devianssi DM riippuu vielä tuntemattomasta parametrista φ, joten normaalijakauman tilanteessa devianssia ei voida käyttää suoraan mallin sopivuuden tutkimiseen.

36 syksy 2009-kevät 2010 Tilastollinen päättely TILTS18 - Jarkko Isotalo 7 Hypoteesin testaus devianssin avulla Tarkastellaan seuraavaksi kahta hierarkkista yleistettyä lineaarista mallia M 1 ja M 2, joidenka linkkifunktiot g ovat muotoa: M 1 : gµ = X 1 β 1, M 2 : gµ = X 1 β 1 + X 2 β 2, missä X = X 1 : X 2 ja β = β 1, β 2. Mallit M 1 ja M 2 liittyvät seuraavien hypoteesien testaamiseen: H 0 : β 2 = 0, H a : β 2 0. Hypoteesit voidaan siis yhtäpitävästi esittää mallien M 1 ja M 2 avulla: H 0 : Malli M 1 on voimassa, H a : Malli M 2 on voimassa. Hypoteeseja voidaan nyt testata mallien M 1 ja M 2 devianssien avulla. Hierarkkisten mallien M 1 ja M 2 devianssien erotus on muotoa D = DM 1 DM 2 = 2 l K ˆβ max ; y l M1 ˆβ; y = 2 l M2 ˆβ; y l M1 ˆβ; y. 2 l K ˆβ max ; y l M2 ˆβ; y Jos oletetaan, että malli M 2 sopii riittävän hyvin aineistoon, mallien M 1 ja M 2 devianssien erotus D noudattaa χ 2 m m 1 -jakaumaa kun H 0 hypoteesi on voimassa, missä m 1 parametrien lukumäärä vektorissa β 1. H 0 hypoteesin ollessa voimassa ajatellaan, että molemmat mallit M 1 ja M 2 sopivat aineistoon hyvin ja siten katsotaan, että vähäparametrisempänä mallina malli M 1 kuvaa aineiston riippuvuutta paremmin. Jos taas laskettu devianssien erotus D kuuluu kriittiselle alueelle eli on suurempi kuin χ 2 m m 1 jakauman kertymäfunktion α% arvo, niin silloin H 0 hypoteesi hylätään ja katsotaan, että M 2 sopii selkeästi paremmin aineistoon kuin malli M 1. Ylläolevaan hypoteesin testausongelmaa voidaan yleistää niin, että testaan esimerkiksi hypoteeseja H 0 : β 2 = β 02, H a : β 2 β 02. Tällöin hierarkkiset mallit M 1 ja M 2 ovat linkkifunktioiden suhteen muotoa M 1 : gµ = X 1 β 1 + X 1 β 02, M 2 : gµ = X 1 β 1 + X 2 β 2. Edelleen mallien devianssien erotuksen D avulla voidaan testata ylläolevaa hypoteesia. Jos siis devianssi voidaan laskea datasta kokonaisuudessaan, niin silloin sen avulla voidaan tehdä hypoteesin testausta ja mallin sopivuuden tarkastelua aineistoon. Kuitenkin joissakin tilanteissa, kuten normaalijakauman tilanteessa, devianssi saattaa riippua hajontaparametrista φ, jolloin devianssin käyttö suoraan hypoteesin testaamiseen ei onnistu.

37 syksy 2009-kevät 2010 Tilastollinen päättely TILTS18 - Jarkko Isotalo 8 Tehtävä 2. Testaa alla olevasta liikenneonnettomuuksiin liittyvästä datasta Liikenne.txt Poissonin log-lineaariseen malliin MXZY, Y W : logµ ijkl = β 0 + β x i + β z j + β y k + βw l + β xz ij + β xy ik + βzy jk + βyw kl + β xzy ijk, missä x = gender, z = location, y = seatbelt ja w = injury, liittyvät hypoteesit H 0 : β yw kl = 0, H a : β yw kl 0. gender location seatbelt injury Freq 1 Female Rural No yes Male Rural No yes Female Urban No yes Male Urban No yes Female Rural Yes yes Male Rural Yes yes Female Urban Yes yes Male Urban Yes yes Female Rural No no Male Rural No no Female Urban No no Male Urban No no Female Rural Yes no Male Rural Yes no Female Urban Yes no Male Urban Yes no Tehtävä 3. Kuinka testaisit devianssien avulla edellisen tehtävän hypoteesit logististen regressiomallien avulla, jos ajatellaan, että w = injury on selitettävä muuttuja ja muut on selittäviä muuttujia.

38 syksy 2009-kevät 2010 Tilastollinen päättely TILTS18 - Jarkko Isotalo 9 Devianssi ja hypoteesin testaus hajontaparametrin tilanteessa Tarkastellaan tilannetta, missä eksponentiaaliseen jakaumaperheeseen kuuluvan satunnaismuuttujan Y i varianssi VarY i on muotoa VarY i = EY i b Θ i 2 = b Θ i aφ = V µ i φ, missä V µ i :tä kutsutaan varianssifunktioksi. Tällöin satunnaismuuttujan Y i todennäköisyysjakauma yi Θ i bθ i fy i ; Θ i, φ = exp + cy i, φ aφ riippuu hajontaparametrista φ ja hajontaparametrin funktio aφ on muotoa aφ = φ. Lisäksi tällöin tarkasteltavan yleistetyn lineaarisen mallin M devianssi voidaan esittää muodossa n DM = 2 y i Θ i φ ˆβ max Θ i ˆβ b Θ i ˆβ max + b Θ i ˆβ. Hajontaparametrin tilanteessa devianssi DM edelleen noudattaa asymptoottisesti χ 2 - jakaumaa DM χ 2 n m,ν, mutta devianssia DM ei voida numeerisesti laskea, koska se riippuu tuntemattomasta hajontaparametrista φ. Hajontaparametrin tilanteessa voidaan määritellä skaalattu devianssi, mikä on muotoa D s M = φdm. Skaalattu devianssi D s M ei kuitenkaan enää noudata asymptoottisesti χ 2 -jakaumaa. Hajontaparametri φ voidaan estimoida aineistosta käyttämällä hyväksi Pearsonin otossuuretta: y i ˆµ i 2 V ˆµ i n ˆφM = ˆφ = n m = X2 n m. Estimaattorin ˆφ kaavaa voidaan perustella sillä, että varianssin VarY i = V µ i φ tilanteessa on asymptoottisesti voimassa, että Täten ja siten n y i ˆµ i V ˆµi φ 2 = 1 φ n y i ˆµ i 2 V ˆµ i 1 E φ X2 = 1 φ E X 2 = n m, E ˆφ = E X2 n m = φ, eli ˆφ on hajontaparametrin φ harhaton estimaattori. = 1 φ X2 χ 2 n m,

39 syksy 2009-kevät 2010 Tilastollinen päättely TILTS18 - Jarkko Isotalo 10 Tarkastellaan seuraavaksi kahta hierarkkista yleistettyä lineaarista mallia M 1 ja M 2, joidenka linkkifunktiot g ovat muotoa: M 1 : gµ = X 1 β 1, M 2 : gµ = X 1 β 1 + X 2 β 2, missä X = X 1 : X 2 ja β = β 1, β 2. Mallit M 1 ja M 2 siis liittyvät seuraavien hypoteesien testaamiseen: H 0 : β 2 = 0, H a : β 2 0. Hajontaparametrin tilanteessa mallien M 1 ja M 2 devianssien erotus on muotoa D = DM 1 DM 2 = 1 φ D sm 1 1 φ D sm 2 = 1 φ D sm 1 D s M 2, eli devianssien erotus riippuu tuntemattomasta hajontaparametrista φ, eikä hypoteesien testausta näin voida tehdä devianssien erotuksen perusteella. Devianssien erotus D kuitenkin noudattaa asymptoottisesti χ 2 m m 1 -jakaumaa kun H 0 hypoteesi on voimassa. Lisäksi 1 φ X2 noudattaa asymptoottisesti χ 2 n m -jakaumaa H 0 hypoteesin voimassa olosta riippumatta, kun Pearsonin otossuure X 2 on laskettu mallista M 2. Täten suhde F = DM 1 DM 2 /m m 1 1 φ X2 /n m = 1 φ D sm 1 D s M 2 /m m 1 1 φ X2 /n m = D sm 1 D s M 2 /m m 1 X 2 /n m = D sm 1 D s M 2 /m m 1, ˆφ missä ˆφ on laskettu mallista M 2, noudattaa F -jakaumaa vapaustein df 1 = m m 1 ja df 2 = n m kun H 0 hypoteesi on voimassa. Hypoteesien testaus täten perustuu F -testiin hajontaparametrin tilanteessa.

Jarkko Isotalo. Johdatus yleistettyihin lineaarisiin malleihin

Jarkko Isotalo. Johdatus yleistettyihin lineaarisiin malleihin Jarkko Isotalo Johdatus yleistettyihin lineaarisiin malleihin INFORMAATIOTIETEIDEN YKSIKKÖ TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 8/2012 TAMPERE 2012 TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN

Lisätiedot

Load

Load Tampereen yliopisto Tilastollinen mallintaminen Mikko Alivuotila ja Anne Puustelli Lentokoneiden rakennuksessa käytettävien metallinkiinnittimien puristuskestävyys Matematiikan, tilastotieteen ja filosofian

Lisätiedot

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen

Lisätiedot

Maximum likelihood-estimointi Alkeet

Maximum likelihood-estimointi Alkeet Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X

Lisätiedot

5.7 Uskottavuusfunktioon perustuvia testejä II

5.7 Uskottavuusfunktioon perustuvia testejä II 5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1 Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Uskottavuuden ominaisuuksia

Uskottavuuden ominaisuuksia Luku 9 Uskottavuuden ominaisuuksia 9.1 Tyhjentävyys T yhjentävyys (Fisher 1922) luonnehtii täsmällisesti havaintoihin sisältyvän informaation kvantitatiivisesti. Parametrin θ estimaatti T(x) on tyhjentävä

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

9. laskuharjoituskierros, vko 12-13, ratkaisut

9. laskuharjoituskierros, vko 12-13, ratkaisut 9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

2. Teoriaharjoitukset

2. Teoriaharjoitukset 2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä

Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä Ilkka Mellin Aikasarja-analyysi Suurimman uskottavuuden menetelmä TKK (c) Ilkka Mellin (2007) 1 Suurimman uskottavuuden menetelmä >> Suurimman uskottavuuden estimointimenetelmä Tarkentuvuus Asymptoottinen

Lisätiedot

η i (θ)t i (x) A(θ) + c(x),

η i (θ)t i (x) A(θ) + c(x), 288 Luku 10. Perusmallit ja niiden sovelluksia muotoa (10.9.1) log f θ (x) = p η i (θ)t i (x) A(θ) + c(x), i=1 missä θ = (θ 1,...,θ p ) ja A(θ), c(x), η i (θ) ja T i (x) ovat tunnettuja funktioita. Lisäksi

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio. Määritelmä 4.3. Estimaattoria X(Y ) nimitetään lineaariseksi projektioksi, jos X on lineaarinen kuvaus ja E[(X X(Y )) Y] 0 }{{} virhetermi Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1 Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu

Lisätiedot

1 Johdatus varianssianalyysiin

1 Johdatus varianssianalyysiin Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A 15.1.2013 1 Johdatus varianssianalyysiin 1.1 Milloin varianssianalyysiä käytetään? Varianssianalyysi on tilastotieteellinen menetelmä,

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

ARMA(p, q)-prosessin tapauksessa maksimikohdan määrääminen on moniulotteinen epälineaarinen optimointiongelma.

ARMA(p, q)-prosessin tapauksessa maksimikohdan määrääminen on moniulotteinen epälineaarinen optimointiongelma. missä µ = c φ ja C j,k = Γj k) = σ 2 φj k φ 2. ARMAp, q)-prosessin tapauksessa maksimikohdan määrääminen on moniulotteinen epälineaarinen optimointiongelma. Käytännösssä optimointi tehdään numeerisesti

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Tilastollinen päättely II, kevät 2017 Harjoitus 2A Tilastollinen päättely II, kevät 07 Harjoitus A Heikki Korpela 3. tammikuuta 07 Tehtävä. (Monisteen tehtävä.3 Olkoot Y,..., Y n Exp(λ. Kirjoita vastaava tilastollisen mallin lauseke (ytf. Muodosta sitten

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Väliestimointi TKK (c) Ilkka Mellin (2005) 1 Väliestimointi Todennäköisyysjakaumien parametrien estimointi Luottamusväli Normaalijakauman odotusarvon luottamusväli Normaalijakauman

Lisätiedot

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2004) 1 Yleinen lineaarinen malli Usean selittäjän lineaarinen regressiomalli Yleisen lineaarisen mallin matriisisesitys Yleisen

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: 4. Tyhjentyvyys Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: Voidaanko päätelmät perustaa johonkin tunnuslukuun t = t(y) koko aineiston y sijasta? Mitä

Lisätiedot

2. Uskottavuus ja informaatio

2. Uskottavuus ja informaatio 2. Uskottavuus ja informaatio Viimeksi käsittelimme uskottavuusfunktioita, log-uskottavuusfunktioita ja su-estimaatteja Seuraavaksi tarkastelemme parametrin muunnoksia ja kuinka su-estimaatit käyttäytyvät

Lisätiedot

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1 Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus KE (2014) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset testit ja testisuureet Virheet

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 15. marraskuuta 2007 Antti Rasila () TodB 15. marraskuuta 2007 1 / 19 1 Tilastollisia testejä (jatkoa) Yhden otoksen χ 2 -testi varianssille Kahden riippumattoman

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1 Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Yleinen lineaarinen malli TKK (c) Ilkka Mellin (2007) 1 Yleinen lineaarinen malli >> Usean selittäjän lineaarinen regressiomalli

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät Ratkaisuehdotuksia

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät Ratkaisuehdotuksia HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 14..2017 Ratkaisuehdotuksia 1. Olkoon θ positiivinen parametri, ja asetetaan 2θ 1 y exp y 2 /θ), kun y > 0 fy; θ) = 0, muuten

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B Tilastollinen päättömyys, kevät 7 Harjoitus 6B Heikki Korpela 8. helmikuuta 7 Tehtävä. Monisteen teht. 6... Olkoot Y,..., Y 5 Nµ, σ, ja merkitään S 5 i Y i Y /4. Näytä, että S/σ on saranasuure eli sen

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Normaalijakaumasta johdettuja jakaumia

Normaalijakaumasta johdettuja jakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2007) 1 Normaalijakaumasta johdettuja jakaumia >> Johdanto χ 2 -jakauma F-jakauma

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 017 Harjoitus 5 Ratkaisuehdotuksia Tehtäväsarja I 1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

2. Uskottavuus ja informaatio

2. Uskottavuus ja informaatio 2. Uskottavuus ja informaatio Aluksi käsittelemme uskottavuus- ja log-uskottavuusfunktioita Seuraavaksi esittelemme suurimman uskottavuuden estimointimenetelmän Ensi viikolla perehdymme aiheeseen lisääkö

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin 3 Yleistä estimointiteoriaa Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin 3.1 Johdanto Tähän mennessä olemme tarkastelleet estimointia

Lisätiedot

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin 3 Yleistä estimointiteoriaa Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin 3.1 Johdanto Tähän mennessä olemme tarkastelleet estimointia

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio Ilkka Mellin Todennäköisyyslaskenta Osa : Satunnaismuuttujat ja todennäköisyysjakaumat Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (7) 1 Momenttiemäfunktio ja karakteristinen funktio

Lisätiedot

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta MS-A00 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta 7.. Gripenberg Kirjoita jokaiseen koepaperiin nimesi, opiskelijanumerosi ym. tiedot ja minkä kokeen suoritat! Laskin,

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta) MTTTP5, luento 7.12.2017 7.12.2017/1 6.1.3 Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta) y = lepopulssi x = sukupuoli y = musikaalisuus x = sukupuoli

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 4 Tilastollisen aineiston kuvaileminen, mallintaminen ja estimointi Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (5) 1 Momenttiemäfunktio ja karakteristinen funktio Momenttiemäfunktio Diskreettien jakaumien momenttiemäfunktioita

Lisätiedot

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa Ilkka Mellin Tilastolliset menetelmät Osa 4: Lineaarinen regressioanalyysi Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa TKK (c) Ilkka Mellin (2007) 1 Erityiskysymyksiä yleisen lineaarisen

Lisätiedot

Risto Nikkanen Innovatiivisten työkäytäntöjen vaikutus yrityksen suorituskykyyn

Risto Nikkanen Innovatiivisten työkäytäntöjen vaikutus yrityksen suorituskykyyn PRO GRADU -TUTKIELMA Risto Nikkanen Innovatiivisten työkäytäntöjen vaikutus yrityksen suorituskykyyn TAMPEREEN YLIOPISTO Matematiikan ja tilastotieteen laitos Tilastotiede Toukokuu 2010 Tampereen yliopisto

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat. TKK (c) Ilkka Mellin (2004) 1

Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat. TKK (c) Ilkka Mellin (2004) 1 Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat TKK (c) Ilkka Mellin (2004) 1 Satunnaismuuttujien muunnokset ja niiden jakaumat Satunnaismuuttujien muunnosten jakaumat

Lisätiedot