Jarkko Isotalo. Johdatus yleistettyihin lineaarisiin malleihin

Koko: px
Aloita esitys sivulta:

Download "Jarkko Isotalo. Johdatus yleistettyihin lineaarisiin malleihin"

Transkriptio

1 Jarkko Isotalo Johdatus yleistettyihin lineaarisiin malleihin INFORMAATIOTIETEIDEN YKSIKKÖ TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 8/2012 TAMPERE 2012

2 TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKKÖ INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 8/2012 TAMMIKUU 2012 Jarkko Isotalo Johdatus yleistettyihin lineaarisiin malleihin INFORMAATIOTIETEIDEN YKSIKKÖ TAMPEREEN YLIOPISTO ISBN ISSN L ISSN

3 Esipuhe Tätä luentomonistetta on käytetty oppimateriaalina Tampereen yliopistossa yleistettyjen lineaaristen mallien kursseilla. Lähdemateriaalina on käytetty seuraavia yleistettyjen lineaaristen mallien oppikirjoja. Agresti, A. 2007). An Introduction to Categorial Data Analysis. Second Edition, Wiley. Christensen, R. 1997). Log-Linear Models and Logistic Regression. Springer. Dobson, A. 2002). An Introduction to Generalized Linear Models. Second Edition, Chapman & Hall. Faraway, J.J. 2005). Extending the Linear Model with R. Chapman & Hall. McCullagh, P. & Nelder, J.A. 1983). Generalized Linear Models. Chapman & Hall. Tampere, tammikuu 2012 Jarkko Isotalo i

4 Sisältö 1 Johdatus tilastolliseen päättelyyn ja jakaumiin Suurimman uskottavuuden estimaattori Luottamusväliestimaatti, Waldin ja Score testit Uskottavuussuhdetesti Eksponentiaalinen jakaumaperhe Normaalijakauma Bernoullin jakauma Binomijakauma Multinomijakauma Poissonin jakauma Ristiintaulukot Ristiintaulukoiden merkinnät Päättelyasetelmat 2 2-ristiintaulukossa Kaksi riippumatonta binomijakaumaa Vedonlyöntisuhde Riippumattomuustestit 2 2-ristiintaulukossa Riippumattomuustestit I J-ristiintaulukossa Trenditesti ii

5 SISÄLTÖ iii 3 Lineaaristen mallien perusteita Parametrien estimoinnista Mallin selitysaste Mallin devianssi Hypoteesin testaus Yleistettyjen lineaaristen mallien teoriaa Mallin rakenne Hypoteesin testaus yleistetyssä lineaarisessa mallissa Mallin devianssi Yleistetty lineaarinen malli binaaridatan tilanteessa Mallintaminen 2 2-ristiintaulukossa Yleistetty lineaarinen malli frekvenssidatan tilanteessa Poissonin log-lineaarinen malli I J-ristiintaulukossa Logistinen regressio Mallin perusteet Mallin arvioiminen Residuaalit logistisessa regressiomallissa Luokitteluasteikolliset selittävät muuttujat Moniluokkaiset logit mallit Kumulatiiviset logit mallit Poissonin log-lineaarinen malli Log-lineaariset mallit kaksiulotteisissa ristiintaulukoissa Log-lineaarinen malli ja logistinen regressio Log-lineaariset mallit kolmeulotteisissa ristiintaulukoissa Järjestysasteikolliset muuttujat

6 Luku 1 Johdatus tilastolliseen päättelyyn ja jakaumiin 1.1 Suurimman uskottavuuden estimaattori Olkoon f Y y; β) satunnaismuuttuja Y :n tiheysfunktio, mikä riippuu tuntemattomasta parametrista β. Olkoon y 1, y 2,..., y n havaittu satunnaisotos Y :n jakaumasta. Tuntemattoman parametrin β arvoa voidaan estimoida suurimman uskottavuuden menetelmällä. Parametrin β suurimman uskottavuuden estimaatti ˆβ on ratkaisu seuraavaan maksimointiongelmaan: ˆβ = arg max β n f Y y i ; β). 1.1) Usein suurimman uskottavuuden estimaatti ˆβ on helpompi muodostaa ratkaisuna logaritmoidun yhteistiheysfunktion maksimointina: ˆβ = arg max β i=1 n logf Y y i ; β)). 1.2) i=1 Suurimman uskottavuuden menetelmässä yhteistiheysfunktiota kutsutaan uskottavuusfunktioksi Lβ, y) = n f Y y i ; β) 1.3) ja logaritmoitua yhteistiheysfunktiota logaritmoiduksi uskottavuusfunktioksi i=1 lβ, y) = n logf Y y i ; β)), 1.4) i=1 1

7 LUKU 1. JOHDATUS TILASTOLLISEEN PÄÄTTELYYN JA JAKAUMIIN 2 missä y on satunnaisvektori y 1 y 2 y =.. y n Koska ˆβ on satunnaisotoksen y funktio, se on itsestään satunnaismuuttuja tilanteessa, missä havaittuja arvoja y i kohdellaan satunnaismuuttujina. Tällöin ˆβ:a kutsutaan suurimman uskottavuuden estimaattoriksi. Voidaan osoittaa, että suurimman uskottavuuden estimaattori ˆβ noudattaa asymptoottisesti kun n ) normaalijakaumaa ˆβ N β, 1 Iβ) ) = N β, σ 2ˆββ) ), 1.5) missä Iβ) on parametriin β liittyvä informaatioluku [ lβ, ) ] y) 2 2 ) lβ, y) Iβ) = E = E. 1.6) β β β 1.2 Luottamusväliestimaatti, Waldin ja Score testit Suurimman uskottavuuden estimaattorin ˆβ varianssi Var ˆβ) = σ 2ˆββ) voi riippua tuntemattomasta parametrista β ja siten esimerkiksi keskihajontaa σ ˆββ) = Var ˆβ) ei mahdollisesti voida tarkasti laskea. Estimaattorin ˆβ varianssia ja siten keskihajontaa voidaan estimoida siten, että varianssin tuntemattoman parametrin arvo korvataan suurimman uskottavuuden estimaatin ˆβ arvolla: Var ˆβ) = ˆσ 2ˆβ ˆβ). 1.7) Estimoidun keskihajonnan avulla ˆσ ˆβ ˆβ) avulla voidaan nyt tuntemattomalle parametrille β muodostaa normaalijakaumaan perustuva 1001 α)% asymptoottinen luottamusväliestimaatti ˆβ zα/2ˆσ ˆβ ˆβ), ˆβ + z α/2ˆσ ˆβ ˆβ)), 1.8) missä z α/2 on luku, jolle on voimassa todennäköisyys P Z > z α/2 ) = 1 α/2, missä Z noudattaa standardoitua normaalijakaumaa Z N0, 1). Tarkastellaan seuraavaksi hypoteeseja H 0 : β = β 0, missä β 0 on jokin annettu arvo. Kun H 0 on tosi, otossuure H a : β β 0, 1.9) Z = ˆβ β 0 ˆσ ˆβ ˆβ) 1.10)

8 LUKU 1. JOHDATUS TILASTOLLISEEN PÄÄTTELYYN JA JAKAUMIIN 3 noudattaa asymptoottisesti standardoitua normaalijakaumaa Z N0, 1). Tämän tyylistä testisuuretta kutsutaan Waldin testiksi, missä suurimman uskottavuuden estimaattorin keskihajontaa σ ˆββ) on estimoitu suurimman uskottavuuden estimaatin avulla. Score testissä testataan edellä olevaa hypoteesia samalla testisuureella kuin Waldin testissä paitsi että keskihajonnan σ ˆββ) estimaatti korvataan keskihajonnalla, mikä olisi H 0 hypoteesin vallitessa voimassa: Z = ˆβ β 0 σ ˆββ 0 ). 1.11) 1.3 Uskottavuussuhdetesti Tarkastellaan edelleen hypoteeseja H 0 : β = β 0, H a : β β 0, 1.12) missä β 0 on jokin annettu arvo. Suurimman uskottavuuden menetelmän mukaisesti uskottavuusfunktio Lβ, y) saa suurimman arvonsa suurimman uskottavuuden estimaatin arvolla L ˆβ, y). Toisaalta uskottavuusfunktion arvo voidaan laskea myös H 0 hypoteesin ollessa voimassa. Tällöin uskottavuusfunktio saa arvon Lβ 0, y). Suhdetta ) Lβ 0, y) = 2 log L ˆβ, y) = 2 lβ 0, y) l ˆβ, ) y) = 2 l ˆβ, ) y) lβ 0, y) 1.13) kutsutaan uskottavuussuhteeksi. Hypoteesin H 0 : β = β 0 vallitessa uskottavuussuhde noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = Eksponentiaalinen jakaumaperhe Mikäli satunnaismuuttujan Y jakauma riippuu vain yhdestä tuntemattomasta parametrista β, satunnaismuuttuja Y :n todennäköisyysjakauma kuuluu eksponentiaaliseen jakaumaperheeseen, jos Y :n tiheysfunktio f Y y, β) voidaan kirjoittaa muodossa missä a, b ja Q merkitsevät joitakin funktioita. f Y y; β) = aβ)by)e yqβ), 1.14) Yleisemmin eksponentiaaliseen jakaumaperheeseen kuuluvat jatkuvista jakaumista muun muassa normaalijakauma, gamma jakauma, käänteinen normaalijakauma ja eksponenttijakauma. Diskreeteistä jakaumista eksponentiaaliseen jakaumaperheeseen kuuluvat muun muassa Bernoullin jakauma, binomijakauma, käänteinen binomijakauma, Poissonin jakauma ja multinomijakauma.

9 LUKU 1. JOHDATUS TILASTOLLISEEN PÄÄTTELYYN JA JAKAUMIIN Normaalijakauma Satunnaismuuttuja Y noudattaa normaalijakaumaa Y Nµ, σ 2 ), jos Y :n tiheysfunktio on muotoa f Y y) = 1 1 y µ) 2 2πσ 2 e 2 σ ) Normaalijakauma on tilastotieteen eniten käytetty jakauma. Normaalijakaumalla on tärkeä lineaarinen ominaisuus, eli jos Y Nµ, σ 2 ), niin silloin lineaarinen muunnos X = ay + b 1.16) noudattaa normaalijakaumaa X Naµ + b, a 2 σ 2 ). Normaalijakaumaa Z N0, 1) kutsutaan standardoiduksi normaalijakaumaksi. 1.6 Bernoullin jakauma Bernoullin koe on satunnaiskoe, jolla on täsmälleen kaksi toisensa poissulkevaa tulosvaihtoehtoa. Bernoullin kokeen tulosvaihtoehdot voidaan koodata luvuilla 0 ja 1. Satunnaismuuttuja Y noudattaa Bernoullin jakaumaa Y Berπ), kun P Y = 1) = π, P Y = 0) = 1 π, 1.17) missä 0 π 1. Bernoullin jakaumaa noudattavan satunnaismuuttujan Y :n odotusarvo ja varianssi ovat EY ) = π, VarY ) = π1 π). 1.18) 1.7 Binomijakauma Olkoon X 1, X 2..., X n riippumattomia Bernoullin jakaumaa noudattavia satunnaismuuttujia X i Berπ). Tällöin satunnaismuuttuja Y = X 1 + X X n noudattaa binomijakaumaa parametrein n ja π. Satunnaismuuttuja Y :n jakaumaa merkitään Y Binn, π) ja pistetodennäköisyysfunktio on muotoa ) n P Y = y) = f Y y, π) = π y 1 π) n y), y = 0, 1, 2,..., n. 1.19) y Binomijakaumaa noudattavan satunnaismuuttuja X:n odotusarvo ja varianssi ovat EY ) = nπ, VarY ) = nπ1 π). 1.20) Jos Y Binn, π), niin silloin X = n Y noudattaa X Binn, 1 π). Tällöin satunnaismuuttujien Y ja X välillä on täydellinen riippuvuus kun Y saa suuren arvon,

10 LUKU 1. JOHDATUS TILASTOLLISEEN PÄÄTTELYYN JA JAKAUMIIN 5 X saa pienen. Satunnaismuuttujien Y ja X yhteisjakauma noudattaa kaksiulotteista multinomijakaumaa Y, X) Mult n, π, 1 π)). Binomijakauman tilanteessa suurimman uskottavuuden estimaattori π:lle on muotoa ˆπ = Y n. 1.21) Suurimman uskottavuuden estimaattorin ˆπ odotusarvo ja varianssi ovat Eˆπ) = π, Varˆπ) = π1 π). 1.22) n 1.8 Multinomijakauma Multinomijakauma on binomijakauman yleistys. Multinomijakauma liittyy satunnaiskokeisiin, joissa on useampia kuin kaksi toisensa poissulkevaa tulosvaihtoehtoa. Toistettaessa tällaisia moniulotteisia riippumattomia satunnaiskokeita n kappaletta, saatujen tulosten frekvenssijakauma voidaan kuvata multinomijakauman avulla. Tarkastellaan tilannetta, missä satunnaiskokeella on k kappaletta toisensa poissulkevaa tulosvaihtoehtoa. Merkitään tulosvaihtoehtoja luvuilla 1, 2,..., k ja olkoon π i tulosvaihtoehdon i todennäköisyys. Toistetaan k-ulotteista satunnaiskoetta n kappaletta ja merkitään Y i :llä tuloksen i lukumäärää n:n kokeen sarjassa. Tällöin satunnaisvektori Y = Y 1, Y 2,..., Y k ) noudattaa k-ulotteista multinomijakaumaa parametrein n ja π = π 1, π 2,..., π k ), Y Multn, π). Multinomijakauman pistetodennäköisyysfunktio on muotoa ) n f Y y 1, y 2,..., y k ; π) = π y 1 2 y 1 y 2... y πy 2 2 πy k k, 1.23) k missä y 1 + y y k = n, π 1 + π π k = 1 ja ) n y 1 y 2... y k = n! Multinomijakaumalle on voimassa seuraavat ominaisuudet: y 1! y 2!... y k!. Y i Binn, π i ), EY i ) = nπ i, VarY i ) = nπ i 1 π i ), CovY i, Y j ) = nπ i π j. Suurimman uskottavuuden estimaattorit ovat muotoa ˆπ i = Y i n. 1.24) 1.9 Poissonin jakauma Toisinaan frekvenssidata ei synny ehdolla, että jotain toistokoetta toistetaan tietyn n kertaa. Usein on tilanteita, että jonkin ajan tai tilan aikana vain havainnoidaan jonkin satunnaisilmiön toteutuminen y frekvenssin kerran. Poissonin jakauma sopii hyvin tällaisten frekvenssidatojen mallintamiseen. Satunnaismuuttuja Y noudattaa Poissonin jakaumaa parametrilla λ > 0, jos Y :n pistetodennäköisyysfunktio on muotoa P Y = y) = f Y y) = e λ λ y, y = 0, 1, 2, ) y!

11 LUKU 1. JOHDATUS TILASTOLLISEEN PÄÄTTELYYN JA JAKAUMIIN 6 Jos Y P oiλ), niin silloin EY ) = λ, VarY ) = λ. 1.26)

12 Luku 2 Ristiintaulukot 2.1 Ristiintaulukoiden merkinnät Olkoon X ja Y satunnaismuuttujia joilla kummallakin on kaksi toisensa poissulkevaa tulosvaihtoehtoa. Jos tulosvaihtoehtoja merkitään 0:lla ja 1:llä, niin satunnaismuuttujien yhteistodennäköisyysjakauma voidaan esittää 2 2-ristiintaulukon avulla: P X = x i, Y = y j ) : y j = 1 0 Yhteensä x i = 1 π 11 π 12 π 1+ 0 π 21 π 22 π 2+ Yhteensä π +1 π +2 1 Ristiintaulukossa rivi- ja sarakesummat π 1+ = π 11 + π 12, π 2+ = π 21 + π 22, π +1 = π 11 + π 21, π +2 = π 12 + π 22, ovat muuttujien X ja Y marginaalijakaumia. Ristiintaulukolla voidaan esittää myös ehdollisten todennäköisyyksien P Y = y j X = x i ) jakauma. Tällöin taulukon rivit tulkitaan riippumattomiksi binomijakaumiksi parametrein π 1 ja π 2 : P Y = y j X = x i ) : y j = 1 0 Yhteensä x i = 1 π 1 1 π π 2 1 π 2 1 Yhteensä π +1 π

13 LUKU 2. RISTIINTAULUKOT 8 Vastaavasti jos satunnaismuuttujilla X ja Y on I ja J toisensa poissulkevaa tulosvaihtoehtoa, satunnaismuuttujien X ja Y yhteistodennäköisyysjakauma voidaan esittää I J-ristiintaulukon avulla: P X = x i, Y = y j ) : y j = J Yhteensä x i = 1 π 11 π π 1J π 1+ 2 π 21 π π 2J π I π I1 π I2... π IJ π I+ Yhteensä π +1 π π +J 1 Ehdollisten todennäköisyyksien P Y = y j X = x i ) jakauma yleisemmässä tilanteessa on muotoa: P Y = y j X = x i ) : y j = J Yhteensä x i = 1 π 11 π π 1J 1 2 π 21 π π 2J I π I1 π I2... π IJ 1 Yhteensä π +1 π π +J 1 Toistettaessa satunnaismuuttujien X ja Y muodostamaa 2-ulotteista satunnaiskoetta n ++ kertaa, voidaan tulosvaihtoehtojen X = x i, Y = y j ) frekvenssijakauma kuvata ristiintaulukolla: F reqx = x i, Y = y j ) : y j = J Yhteensä x i = 1 n 11 n n 1J n 1+ 2 n 21 n n 2J n I n I1 n I2... n IJ n I+ Yhteensä n +1 n n +J n Päättelyasetelmat 2 2-ristiintaulukossa Ristiintaulukoissa havaittujen frekvenssien n ij avulla tehdään päättelyitä tuntemattomista todennäköisyyksistä π ij. Riippuen koeasetelmasta ja päättelyn tavoitteista voidaan erotella seuraavia päättelyasetelmia: Jos X on selittävä muuttuja ja Y selitettävä muuttuja, silloin ollaan yleensä kiinnostuneita ehdollisten todennäköisyyksien P Y = y j X = 1) ja P Y =

14 LUKU 2. RISTIINTAULUKOT 9 y j X = 0) eroavuuksista. Tällöin 2 2-frekvenssitaulukon rivien oletetaan olevan toteutuneita arvoja riippumattomista binomijakaumista Binn 1+, π 1 ) ja Binn 2+, π 2 ). Mikäli 2 2-frekvenssitaulukossa rivisummat n 1+ ja n 2+ ovat ennalta kiinnitettyjä, taulukon havaittujen frekvenssien tulkitaan myös olevan toteutuneita riippumattomista binomijakaumista Binn 1+, π 1 ) ja Binn 2+, π 2 ). 1 0 Yhteensä 1 π 1 1 π π 2 1 π 2 1 Yhteensä π +1 π Yhteensä 1 n 11 n 12 n 1+ 0 n 21 n 22 n 2+ Yhteensä n +1 n +2 n ++ Jos kumpikin X ja Y ovat selitettäviä muuttujia, silloin ollaan yleensä kiinnostuneita ovatko muuttujat X ja Y riippumattomia toisistaan, eli onko voimassa P X = x i, Y = y j ) = P X = x i )P Y = y j ). Tällöin 2 2-frekvenssitaulukon havaintojen n ij oletetaan olevan toteutuneita arvoja joko multinomijakaumasta Mult n ++, π 11, π 12, π 21, π 22 )) tai siten niin, että n ij P oiλ ij ). 1 0 Yhteensä 1 π 11 π 12 π 1+ 0 π 21 π 22 π 2+ Yhteensä π +1 π Yhteensä 1 n 11 n 12 n 1+ 0 n 21 n 22 n 2+ Yhteensä n +1 n +2 n Kaksi riippumatonta binomijakaumaa Oletetaan, että 2 2-frekvenssitaulukon havainnot n ij ovat toteutuneita arvoja riippumattomista binomijakaumista Binn 1+, π 1 ) ja Binn 2+, π 2 ). Testataan hypoteesia H 0 : P Y = y j X = 1) = P Y = y j X = 0) π 1 = π 2 π 1 π 2 = 0. Testattaessa hypoteesia H 0 : π 1 π 2 = 0, Waldin testisuure Z = ˆπ 1 ˆπ 2 ˆπ1 1 ˆπ 1 )/n 1+ + ˆπ 2 1 ˆπ 2 )/n ) noudattaa asymptoottisesti standardoitua normaalijakaumaa Z N0, 1).

15 LUKU 2. RISTIINTAULUKOT 10 Toisinaan erotuksen π 1 π 2 sijaan voi olla järkevä tutkia todennäköisyyksien π 1 ja π 2 suhdetta. Suhteellinen riski δ on suhde ja sen estimaatti on ˆδ = ˆπ 1 /ˆπ 2. δ = π 1 π 2, 2.2) 2.4 Vedonlyöntisuhde Oletetaan edelleen, että 2 2-frekvenssitaulukon havainnot n ij ovat toteutuneita arvoja riippumattomista binomijakaumista Binn 1+, π 1 ) ja Binn 2+, π 2 ). Todennäköisyyksistä π 1 ja π 2 voidaan muodostaa vedonlyöntikertoimet γ 1 ja γ 2 : Vedonlyöntikertoimien γ 1 ja γ 2 suhdetta γ 1 = π 1 1 π 1, γ 2 = π 2 1 π ) θ = θ Y X = γ 1 = π 1/1 π 1 ) γ 2 π 2 /1 π 2 ) 2.4) kutsutaan vedonlyöntisuhteeksi. Kun muuttujat X ja Y ovat riippumattomia, eli π 1 = π 2, vedonlyöntisuhde saa arvon θ = 1. Vedonlyöntisuhteen estimaatti on muotoa ˆθ = ˆθ Y X = ˆπ 1/1 ˆπ 1 ) ˆπ 2 /1 ˆπ 2 ) = n 11n 22 n 12 n ) Vedonlyöntisuhteella on sellainen hyödyllinen ominaisuus, että vedonlyöntisuhteen estimaatin arvo pysyy samana tilanteessa, missä Y :llä selitetään X:n arvoja. Tarkastellaan ehdollisia todennäköisyyksiä P X = x i Y = y j ): P X = x i Y = y j ) : y j = 1 0 Yhteensä x i = 1 π 1 π 2 π π 1 1 π 2 π 2+ Yhteensä Tällöin vedonlyöntisuhteen estimaatti saa myös arvon ˆθ = ˆθ X Y = ˆπ 1/1 ˆπ 1 ) ˆπ 2 /1 ˆπ 2 ) = n 11n 22 n 12 n ) Täten sama estimaatti ˆθ estimoi vedonlyöntisuhteita θ Y X ja θ X Y. Tämä ominaisuus tekee vedonlyöntisuhteesta erityisen hyödyllisen parametrin tilanteissa, missä muodostettu frekvenssidata kuvaa toteutuneita arvoja todennäköisyysjakauman P X = x i Y = y j ) tapauksessa ja silti varsinainen kiinnostuksen kohde on tutkia ehdollisen jakauman P Y = y j X = x i ) ominaisuuksia.

16 LUKU 2. RISTIINTAULUKOT 11 Silloin kun molemmat muuttujat X ja Y ovat selitettäviä muuttujia, vedonlyöntisuhde voidaan määritellä suhteena θ = π 11/π 12 π 21 /π ) Estimaattina toimii edelleen ˆθ. Koska estimaatin ˆθ jakauma on hyvin vino, on hyödyllistä perustaa vedonlyöntisuhteen päättely logaritmoituun vedonlyöntisuhteeseen. Kun θ = 1, niin logθ) = 0. Logaritmoitu vedonlyöntisuhteen estimaatti logˆθ) noudattaa asymptoottisesti normaalijakaumaa parametrein E ) logˆθ) = logθ), σ ) 1 logˆθ) = ) n 11 n 12 n 21 n 22 Logaritmoidulle vedonlyöntisuhteelle logθ) saadaan muodostettua 1001 α)% luottamusväli kaavalla logˆθ)π ± z α/2 1 n n n n 22, 2.9) missä z α/2 on luku, jolle voimassa P Z > z α/2 ) = α/2 kun Z N0, 1). Korottamalla eksponenttiin logaritmoidun vedonlyöntisuhteen luottamusvälin raja-arvot, saadaan muodostettua luottamusväli itse vedonlyöntisuhteelle θ. Jos jokin n ij = 0, niin ˆθ on 0 tai. Tällöin voidaan käyttää muunneltua estimaattia θ = n )n ) n )n ) 2.10) estimoimaan vedonlyöntisuhdetta θ. Logaritmoidun estimaatin θ keskihajonta on muotoa ) 1 σ log θ) = n n n n ) 2.5 Riippumattomuustestit 2 2-ristiintaulukossa Oletetaan, että muuttujat X ja Y ovat molemmat selitettäviä muuttujia, ja että 2 2- frekvenssitaulukon havainnot n ij ovat toteutuneita arvoja joko multinomijakaumasta Mult n ++, π 11, π 12, π 21, π 22 )) tai siten niin, että n ij P oiλ ij ). Kun kokonaisfrekvenssisumma n ++ on tiedossa, voidaan jokaiselle ristiintaulukon solulle laskea odotetut frekvenssit µ ij = n ++ π ij. 2.12) En ij ) : y j = 1 0 Yhteensä x i = 1 µ 11 µ 12 µ 1+ 0 µ 21 µ 22 µ 2+ Yhteensä µ +1 µ +2 µ ++

17 LUKU 2. RISTIINTAULUKOT 12 Tarkastellaan X:n ja Y :n riippumattomuutta. Testataan hypoteesia H 0 : π ij = π i+ π +j kaikille i ja j Hypoteesin H 0 vallitessa odotetut frekvenssit µ ij ovat muotoa µ ij = n ++ π i+ π +j. Koska π i+ ja π +j ovat tuntemattomia, pitää ne estimoida ja siten myös saadaan estimoidut odotetut frekvenssit ˆµ ij = n ++ n i+ n ++ n+j n ++ = n i+n +j n ) H 0 hypoteesin voimassaoloa voidaan nyt testata Pearsonin X 2 -testisuureella X 2 = 2 2 n ij ˆµ ij ) 2 i=1 j=1 ˆµ ij. 2.14) Testisuure X 2 noudattaa H 0 hypoteesin vallitessa asymptoottisesti χ 2 -jakaumaa vapausastein df = 1. Vaihtoehtoisesti H 0 hypoteesin voimassaoloa voidaan testata uskottavuussuhteen avulla. Multinomijakauman tilanteessa uskottavuussuhde on muotoa G 2 = 2 2 i=1 j=1 2 n ij log nij ˆµ ij ). 2.15) Uskottavuussuhde G 2 noudattaa H 0 hypoteesin vallitessa asymptoottisesti myös χ 2 - jakaumaa vapausastein df = Riippumattomuustestit I J-ristiintaulukossa Tarkastellaan tilannetta, jossa satunnaismuuttujilla X ja Y on I ja J toisensa poissulkevaa tulosvaihtoehtoa. I J-ristiintaulukon tilanteessa vedonlyöntisuhde θ voidaan määritellä lukuna θ = π ijπ i j. 2.16) π ij π i j Tilanteessa, jossa I J-ristiintaulukko kuvaa ehdollisten todennäköisyyksien P Y = y j X = x i ) jakaumaa, hypoteesi H 0 : π 1j = π 2j = = π Ij kaikille j = 1, 2,..., J on voimassa jos ja vain jos π ij π i j π ij π i j kaikille i, i = 1, 2,..., I ja j, j = 1, 2,..., J. Pearsonin X 2 -testisuuren ja uskottavuussuhteen G 2 avulla voidaan testata yleistä muuttujien X ja Y välistä riippumattomuutta = 1 H 0 : π ij = π i+ π +j kaikille i = 1, 2,..., I, j = 1, 2,..., J.

18 LUKU 2. RISTIINTAULUKOT 13 Pearsonin X 2 -testisuure ja uskottavuussuhde G 2 ovat I J-ristiintaulukon tilanteessa muotoa I J X 2 n ij ˆµ ij ) 2 I J ) =, G 2 nij = 2 n ij log, 2.17) ˆµ ij i=1 j=1 missä estimoidut odotetut frekvenssit ovat muotoa i=1 j=1 ˆµ ij ˆµ ij = n i+n +j n ) Testisuureet X 2 ja G 2 noudattavat H 0 hypoteesin vallitessa asymptoottisesti χ 2 - jakaumaa vapausastein df = I 1)J 1). Pearsonin X 2 -testisuure ja uskottavuussuhde G 2 testaavat siis onko muuttujien X ja Y välillä riippuvuutta. Standardoitujen soluresiduaalien ˆɛ ij = n ij ˆµ ij ˆµij 1 ˆπ i+ )1 ˆπ +j ) 2.19) avulla voidaan tutkia minkä suuntainen muuttujien X ja Y välinen riippuvuus on. H 0 hypoteesin ollessa voimassa, standardoitu soluresiduaali noudattaa asymptoottisesti standardoitua normaalijakaumaa ˆɛ ij N0, 1). 2.7 Trenditesti Olkoon muuttujat X ja Y järjestysasteikollisia. Tällöin X:n ja Y :n tulosvaihtoehdot i = 1, 2,..., I ja j = 1, 2,..., J voidaan järjestää esimerkiksi nousevaan järjestykseen. Olkoon nyt u 1 u 2 u I muuttujan X tulosvaihtoehdoille i = 1, 2,..., I määriteltyjä lukuarvoja, ja vastaavasti olkoon v 1 v 2 v J muuttujan Y tulosvaihtoehdoille j = 1, 2,..., J määriteltyjä lukuarvoja. Korrelaatiokertoimen r avulla voidaan testata onko muuttujien X ja Y välillä lineaarista riippuvuutta. Korrelaatiokerroin lasketaan kaavalla r = [ I I J i=1 j=1 u i ū)v j v)ˆπ ij i=1 u i ū) 2ˆπ i+ ] [ J j=1 v j v) 2ˆπ +j ], 2.20) missä ˆπ ij = n ij n ++, ˆπ i+ = n i+ n ++ ja ˆπ +j = n +j n ++, sekä ū = I i=1 u iˆπ i+ ja v = J j=1 v iˆπ +j. Merkitään muuttujien X ja Y välistä populaatiokorrelaatiokerrointa ρ:lla. Testataan lineaarista riippumattomuutta, eli hypoteesia Testisuure H 0 : ρ = 0. M 2 = n ++ 1)r ) noudattaa H 0 hypoteesin ollessa voimassa asymptoottisesti χ 2 -jakaumaa vapausastein df = 1.

19 Luku 3 Lineaaristen mallien perusteita 3.1 Parametrien estimoinnista Olkoon y 1, y 2,..., y n satunnaisotos normaalijakaumasta Y i Nµ i, σ 2 ). Lineaarisessa mallissa oletetaan, että odotusarvo µ i riippuu lineaarisesti selittävistä muuttujista µ i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik = x iβ, 3.1) missä β 0 β 1 β =. β k 1 x i1 x i =.. x ik Tuntemattoman parametrivektorin β suurimman uskottavuuden estimaattori saadaan ratkaisemalla logaritmoituun uskottavuusfunktioon liittyvä maksimointiongelma arg max lβ, β σ2 ; y 1, y 2,..., y n ) = arg max β log 2πσ 2 ) n/2) 1 n 2σ 2 i=1 y i x iβ) 2 ) 3.2) Suurimman uskottavuuden estimaattorin ˆβ avulla saadaan laskettua jokaisen havainnon i odotusarvon µ i suurimman uskottavuuden estimaatti: ˆµ i = ˆβ 0 + ˆβ 1 x i1 + ˆβ 2 x i2 + + ˆβ k x ik = x i ˆβ. 3.3) Lineaarisessa mallissa odotusarvon estimaatteja ˆµ i kutsutaan usein sovitearvoiksi ja niistä käytetään merkintää ˆµ i = ŷ i. Odotusarvon estimaattien avulla voidaan laskea jokaiselle havainnolle residuaalit e i = y i ˆµ i. 3.4) 14.

20 LUKU 3. LINEAARISTEN MALLIEN PERUSTEITA 15 Mallin varianssiin liittyvän tuntemattoman parametrin σ 2 estimaattorina yleisesti käytetään kaavaa e ˆσ 2 2 = i n k + 1). 3.5) Tämä itse asiassa ei ole parametrin σ 2 suurimman uskottavuuden estimaattori, vaan niin sanottu rajoitettu suurimman uskottavuuden estimaattori. Kun merkitään x 1 x 2 x n X =., niin estimaattorin ˆβ kovarianssimatriisi on muotoa Cov ˆβ) = σ 2 X X) 1, 3.6) ja täten yksittäisen estimaattorin varianssi on muotoa Var ˆβ j ) = σ 2 t jj, 3.7) missä t jj on matriisin X X) 1 j:nes diagonaalielementti. Estimaattorin kovarianssimatriisin estimaattori on puolestaan muotoa Ĉov ˆβ) = ˆσ 2 X X) 1, 3.8) ja siten siis Var ˆβ j ) = ˆσ 2 t jj. 3.9) Yksittäiselle parametrille β j saadaan muodostettua 1001 α)% luottamusväliestimaatti välin ˆβ tα/2ˆσ t jj, ˆβ + t α/2ˆσ t jj ) 3.10) avulla, missä t α/2 on luku, jolle on voimassa P t n k+1) > t α/2 ) = α/2, kun t n k+1) noudattaa Studentin t-jakaumaa vapausastein df = n k + 1). Luottamusväliestimaatti annetuilla x :n arvoilla odotusarvolle µ = x β saadaan puolestaan kaavan x ˆβ t α/2ˆσ x X X) 1 x, x ˆβ + t ) α/2ˆσ x X X) 1 x 3.11) avulla. Luottamusväliennuste uudelle havainnolle y saadaan taasen välillä x ˆβ t α/2 ˆσ x X X) 1 x ), x ˆβ ) + t α/2 ˆσ x X X) 1 x ). 3.12)

21 LUKU 3. LINEAARISTEN MALLIEN PERUSTEITA Mallin selitysaste Merkitään n SST = y i ȳ) 2, n SSR = ˆµ i ȳ) 2, SSE = i=1 i=1 Tällöin on voimassa SST = SSR + SSE. n y i ˆµ i ) ) i=1 Tarkastellaan nyt malleja M 0 : µ i = β 0, M : µ i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik. Mallin M selitysaste R 2 M) määritellään nyt suhteena R 2 M) = SSRM) SST M) = 1 SSEM) SST M) = 1 SSEM) SSEM 0 ). 3.14) 3.3 Mallin devianssi Tarkastellaan logaritmoitua uskottavuusfunktiota odotusarvojen µ i suhteen. Normaalijakauman tilanteessa logaritmoitu uskottavuusfunktio on muotoa n ) lµ i, σ 2 ; y) = log 2πσ 2 ) n/2) 1 2σ 2 y i µ i ) ) Odotusarvojen µ i estimaateiksi voidaan valitaan havaitut arvot y i. Tällöin odotusarvojen µ i estimaatteja kutsutaan kyllästetyiksi estimaateiksi i=1 ˆµ i,k = y i. 3.16) Kyllästettyjen estimaattien ˆµ i,k arvoilla logaritmoidun uskottavuusfunktion arvo supistuu muotoon lˆµ i,k, σ 2 ; y) = log 2πσ 2 ) n/2). 3.17) Mallin M : µ i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik = x iβ tilanteessa suurimman uskottavuuden estimaattien ˆµ i = x ˆβ i arvoilla logaritmoitu uskottavuusfunktio saa arvon n ) lˆµ i, σ 2 ; y) = log 2πσ 2 ) n/2) 1 2σ 2 y i ˆµ i ) ) i=1

22 LUKU 3. LINEAARISTEN MALLIEN PERUSTEITA 17 Mallin M devianssi DM) määritellään kyllästettyjen estimaattien ja suurimman uskottavuuden estimaattien arvoilla laskettujen logaritmoitujen uskottavuusfunktion erotuksena DM) = 2 lˆµ i,k, σ 2 ; y) lˆµ i, σ 2 ; y) ) = 2 log 2πσ 2 ) n/2) log n )) 1 = 2 2σ 2 y i ˆµ i ) 2 = i=1 2πσ 2 ) n/2) 1 2σ 2 n i=1 y i ˆµ i ) 2 σ 2 = n ))) y i ˆµ i ) 2 i=1 n i=1 e2 i σ ) Voidaan osoittaa, että devianssi DM) noudattaa χ 2 -jakaumaa vapausastein df = n k +1). Normaalijakauman tapauksessa devianssi DM) riippuu tuntemattomasta parametrista σ 2. Täten devianssin käyttäminen hypoteesin testaamiseen tai mallin sopivuuden mittaamiseen ei ole normaalijakauman tilanteessa suoraan mahdollista. Edellä määritelty devianssi on itse asiassa oikealta termiltään skaalattu devianssi. Normaalijakauman tilanteessa voidaan määritellä myös niin sanottu ei-skaalattu devianssi engl. unscaled deviance) D u M) = σ 2 DM) = n y i ˆµ i ) 2 = i=1 n e 2 i. 3.20) i=1 Ei-skaalattu devianssi D u M) ei kuitenkaan koskaan tarkasti ottaen noudata χ 2 - jakaumaa, joten on parempi käyttää muita otossuureita hypoteesin testaamiseen ja mallin sopivuuden tarkasteluun. 3.4 Hypoteesin testaus Yksittäisiin parametreihin β j liittyviä hypoteeseja voidaan testata t-testillä H 0 : β j = b j, H a : β j b j, 3.21) t = ˆβ j b j ˆσ, 3.22) tjj missä testisuure t noudattaa Studentin t-jakaumaa vapausastein df = n k + 1) kun H 0 hypoteesi on tosi. Ositetaan seuraavaksi selittävät muuttujat ja parametrit kahteen osaan ) ) xi1 β1 x i =, β =. x i2 β 2

23 LUKU 3. LINEAARISTEN MALLIEN PERUSTEITA 18 Testataan hypoteeseja H 0 : β 2 = b 2, H a : β 2 b ) Testattavat hypoteesit vastaavat mallien muodossa hypoteeseja H 0 : Malli M 1 : µ i = x i1β 1 + x i2b 2 on voimassa, H a : Malli M 2 : µ i = x i1β 1 + x i2β 2 on voimassa. Mallien M 1 ja M 2 devianssit DM 1 ) ja DM 2 ) voidaan laskea ja samoin devianssien erotus Hypoteeseja saadaan testattua F -testin avulla D = DM 1 ) DM 2 ). 3.24) F = D/ dimx 2 ) DM 2 )/n k + 1), 3.25) missä testisuure F noudattaa H 0 hypoteesin ollessa voimassa F -jakaumaa vapausastein df 1 = dimx 2 ), df 2 = n k + 1). Merkintä dimx 2 ) tarkoittaa vektoreiden x i2 pituutta.

24 Luku 4 Yleistettyjen lineaaristen mallien teoriaa 4.1 Mallin rakenne Kaikissa yleistetyissä lineaarisissa malleissa on seuraavat kolme komponenttia. Satunnaiskomponentti Määrittää mallin selitettävän muuttujan Y ja Y :n jakauman. Systemaattinen komponentti Määrittää mallin selittävät muuttujat x 1, x 2,..., x k joidenka katsotaan vaikuttavan selitettävän muuttujan Y odotusarvon µ arvoon. Linkkifunktio Määrittää sen funktion g ) rakenteen, minkä kautta muuttujan Y odotusarvo µ riippuu lineaarisesti selittävistä muuttujista x 1, x 2,..., x k. Satunnaiskomponentti identifioi yleistetyn lineaarisen mallin selitettävän muuttujan Y ja Y :n jakauman. Olkoon Y 1, Y 2,..., Y n satunnaisotos Y :n jakaumasta, eli oletetaan, että jokainen Y i noudattaa muuttujan Y jakaumaa. Oletetaan myös, että Y i :t ovat toisistaan riippumattomia. Yleistetyissä lineaarisissa malleissa oletetaan, että Y i :n jakauma kuuluu eksponentiaaliseen jakaumaperheeseen, eli että Y i :n tiheysfunktio on muoto fy i ; θ i ) = aθ i )by i )e y iqθ i ), 4.1) kun satunnaismuuttujan Y i jakauma riippuu vain yhdestä tuntemattomasta parametrista θ i. Termiä Qθ i ) kutsutaan luonnolliseksi parametriksi. Useissa tilanteissa satunnaismuuttujalla Y i on kaksi toisensa poissulkevaa tulosvaihtoehtoa. Tällöin satunnaismuuttuja Y i on binaarinen muuttuja ja tulosvaihtoehdot voidaan koodata 0:lla ja 1:llä. Yleisemmin Y i voi olla satunnaismuuttuja, mikä kuvaa binaarisen satunnaismuuttujan 1:s tulosvaihtoehtojen onnistumisten) lukumäärää tilanteessa, missä havainnoidaan binaarisen satunnaismuuttujan toteutunut arvo n kertaa. Kummassakin tilanteessa oletetaan, että Y i :t noudattavat binomijakaumaa. 19

25 LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA 20 Toisinaan selitettävä muuttuja voi saada positiivisia lukumääräarvoja. Esimerkiksi ristiintaulukoissa solufrekvenssit ovat ei-negatiivisia kokonaislukuja. Kun selitettävän muuttujan Y i tulosvaihtoehdot ovat ei-negatiivisia kokonaislukuja, voidaan olettaa, että Y i :t noudattavat Poissonin jakaumaa. Mikäli selitettävä muuttuja voidaan määritellä suhde- tai intervalliasteikolliseksi muuttujaksi, voidaan olettaa, että Y i :t noudattavat normaalijakaumaa. Yleistetyssä lineaarisessa mallissa mallinnetaan selitettävän muuttujan Y odotusarvosta EY ) = µ riippuvan linkkifunktion gµ) arvoa selittävien muuttujien x 1, x 2,..., x k avulla lineaarisen yhtälön gµ) = η = β 0 + β 1 x 1 + β 2 x β k x k 4.2) kautta. Linkkifunktio gµ) yhdistää selittävät muuttujat x 1, x 2,..., x k systemaattisen komponentin) selitettävän muuttujan Y arvoihin satunnaiskomponenttiin). Yksinkertaisin linkkifunktio on identtilinkki gµ) = µ. Tällöin satunnaismuuttujan Y i odotusarvon µ i odotetaan olevan lineaarisesti riippuvainen selittävien muuttujien x 1, x 2,..., x k arvoista µ i = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik 4.3) Tavallisen lineaarisen regressiomallin tilanteessa oletetaan nimenomaan, että normaalisti jakautuneen Y i :n odotusarvo µ i riippuu identtilinkin kautta lineaarisesti selittävistä muuttujista. Toisenlaiset linkkifunktiot mahdollistavat odotusarvon µ olevan epälineaarisesti riippuvainen selittävistä muuttujista x 1, x 2,..., x k. Hyödyllinen linkkifunktio on loglinkki gµ) = logµ) mikä sopii tilanteisiin, missä odotusarvo µ ei voi olla negatiivinen kuten frekvenssidatan tilanteessa. Yleistettyä lineaarista mallia kutsutaan loglineaariseksi malliksi, mikäli linkkifunktio on log-linkki muotoa. Log-lineaarinen malli on muotoa logµ i ) = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik. 4.4) Jos odotusarvo on välillä 0 µ 1, kuten todennäköisyyksien tilanteessa, käyttökelpoinen linkkifunktio on logit-linkki ) µ gµ) = log. 4.5) 1 µ Yleistettyä lineaarista mallia kutsutaan logistiseksi regressiomalliksi, mikäli linkkifunktio on logit-linkki muotoa. Logistinen regressiomalli on muotoa ) µi log = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik. 4.6) 1 µ i Jos satunnaismuuttujan Y i jakauman ainoa tuntematon parametri on sen odotusarvo µ i, ja jos satunnaismuuttuja Y i kuuluu eksponentiaaliseen jakaumaperheeseen, niin

26 LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA 21 funktio Qµ i ) on satunnaismuuttujan Y i luonnollinen parametri. Linkkifunktiota gµ i ) kutsutaan kanooniseksi linkiksi, mikäli linkkifunktio on muotoa gµ i ) = Qµ i ). 4.7) Käytännössä usein linkkifunktioksi gµ i ) valitaan satunnaismuuttujan Y i kanooninen linkkifunktio Qµ i ). 4.2 Hypoteesin testaus yleistetyssä lineaarisessa mallissa Oletetaan, että selitettävän muuttujan Y jakauma kuuluu eksponentiaaliseen jakaumaperheeseen tuntemattomana parametrina Y :n odotusarvo µ, ja että mallin linkkifunktio gµ) on kanooninen linkkifunktio gµ) = η = Qµ). Oletetaan lisäksi, että kanooniselle linkkifunktiolle on olemassa käänteisfunktio µ = g 1 η), missä η = β 0 + β 1 x 1 + β 2 x β k x k. 4.8) Tällöin havaittuun satunnaisotokseen y = y 1, y 2,... y n ) perustuva logaritmoitu uskottavuusfunktio on muotoa n [ lβ, y) = logag 1 ] η i ))) + logby i )) + y i η i, 4.9) i=1 missä β = β 0, β 1,..., β k ). Logaritmoidun uskottavuusfunktion avulla parametreille β voidaan laskea suurimman uskottavuuden estimaatit ˆβ. Yleensä estimaateille ˆβ ei löydy suljetun muodon ratkaisua ja siten estimaattien arvot joudutaan numeerisesti ratkaisemaan käyttämällä esim. Newton-Raphson algoritmia. Yleistetyssä lineaarisessa mallissa suurimman uskottavuuden estimaatit ˆβ noudattavat asymptoottisesti normaalijakaumaa. Esimerkiksi testattaessa hypoteesia Waldin testisuure H 0 : β j = b j, H a : β j b j, 4.10) Z = ˆβ j b j ˆσ ˆβj ˆβ j ) 4.11) noudattaa asymptoottisesti standardoitua normaalijakaumaa H 0 hypoteesin ollessa voimassa. Vastaavasti uskottavuussuhde ) Lb j, y) = 2 log L ˆβ j, y) 4.12) noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = 1 kun H 0 hypoteesi on voimassa.

27 LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA Mallin devianssi Merkitään satunnaisotoksen Y 1, Y 2,..., Y n toteutuneita arvoja satunnaisvektorilla y = y 1, y 2,..., y n ) ja satunnaisotoksen odotusarvoja vektorilla µ = µ 1, µ 2,..., µ n ). Uskottavuusfunktio L voidaan kirjoittaa odotusarvovektorin µ funktiona Lµ, y). Jos nyt odotusarvovektorin µ estimaattina käytetään toteutuneita arvoja y, eli ˆµ K = y, saadaan täydelliset sovitearvot tarkasteltavan datan tilanteessa. Estimaatteja ˆµ K = y kutsutaan kyllästetyksi estimaateiksi. Kyllästetyt estimaatit eivät ole käytännössä hyödyllinen, koska ne ei tiivistä informaatiota mitenkään alkuperäisistä toteutuneista havainnoista. Merkitään kyllästettyjen estimaattien tilanteessa uskottavuusfunktiota Lˆµ K, y):llä. Tarkastellaan yleistettyä lineaarista mallia M : gµ i ) = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik, missä parametrit β 0, β 1,..., β k estimoidaan suurimman uskottavuuden menetelmällä. Odotusarvojen estimaatit ˆµ i saadaan mallin M tilanteessa linkkifunktion g käänteisfunktion g 1 avulla. Merkitään mallin M tilanteessa uskottavuusfunktiota Lˆµ, y):llä. Yleistettyjen lineaaristen mallien devianssi määritellään uskottavuussuhteena ) Lˆµ, y) DM) = 2 log = 2 lˆµ Lˆµ K, y) K, y) lˆµ, y)). 4.13) Tarkastellaan seuraavaksi kahta hierarkista mallia M 0 ja M 1 : M 1 : gµ i ) = η i = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip, M 2 : gµ i ) = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik, missä p < k. Tällöin mallien M 1 ja M 2 devianssien erotus DM 1 ) DM 2 ) 4.14) noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = k p. Devianssien erotus saa suuria arvoja tilanteessa, jossa malli M 1 sopii aineistoon huonommin verrattuna malliin M 2. Devianssien erotuksella voidaan siis vertailla mallien M 1 ja M 2 sopivuutta dataan. 4.4 Yleistetty lineaarinen malli binaaridatan tilanteessa Oletetaan, että selitettävä muuttuja Y on binaarinen ja noudattaa Bernoullin jakaumaa parametrilla π, Y Berπ), eli P Y = 1) = π ja P Y = 0) = 1 π. Tällöin Y :n odotusarvo µ = π. Ajatellaan, että todennäköisyys π riippuu jostain selittävästä muuttujasta x. Jos π:n ja x:n välinen riippuvuus havainnon i tilanteessa noudattaa lineaarista yhtälöä πx i ) = β 0 + β 1 x i, 4.15)

28 LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA 23 niin mallia kutsutaan lineaariseksi todennäköisyysmalliksi. Lineaarinen todennäköisyysmalli on yleistetty lineaarinen malli, missä satunnaiskomponentti on binomijakautunut Berπ) = Bin1, π)) ja linkkifunktio gµ i ) on identtilinkki. Lineaarisen todennäköisyysmalli ongelma on se, että sovitemalli saattaa antaa isoilla tai pienillä x:n arvoilla todennäköisyyden sovitearvoiksi ˆπx) arvoja, jotka eivät kuulu välille 0,1). Täten lineaarinen todennäköisyysmalli saattaa olla käyttökelpoinen vain tietyillä x:n arvoilla. Logistinen regressiomalli on erittäin käyttökelpoinen malli kun oletetaan, että Bernoullin jakaumaa noudattavan selitettävän muuttujan Y tulosvaihtoehdon 1 todennäköisyys πx) riippuu epälineaarisesti selittävän muuttujan x arvoista. Logistisessa regressiomallissa π:n ja x:n välinen riippuvuus havainnon i tilanteessa noudattaa yhtälöä πx i ) = eβ 0+β 1 x i 1 + e β 0+β 1 x i. 4.16) Logistisen regressiomallin tilanteessa vedonlyöntikerroin γx i ) on muotoa γx i ) = πx i) 1 πx i ) = eβ 0+β 1 x i, 4.17) ja täten logaritmoitu vedonlyöntikerroin noudattaa lineaarista yhtälöä ) πxi ) logγx i )) = log = logitπx i )) = β 0 + β 1 x i. 4.18) 1 πx i ) Logistinen regressiomalli on yleistetty lineaarinen malli, missä satunnaiskomponentti on binomijakautunut ja linkkifunktio gµ i ) on logit-linkki. Logit-linkki on binomijakauman tilanteessa kanooninen linkkifunktio. Logistista regressiomallia kutsutaan myös logit malliksi. Alla olevassa kuvassa on esitetty miltä π:n ja x:n välinen riippuvuus näyttää logistisen regressiomallin tilanteessa kun parametri β 1 > 0 ja β 1 < 0. π π x x

29 LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA Mallintaminen 2 2-ristiintaulukossa Tarkastellaan seuraavaa muuttujien X ja Y välistä 2 2-ristiintaulukkoa: y j = 1 0 Yhteensä x i = 1 π 1 1 π π 2 1 π 2 1 Yhteensä π +1 π +2 1 Oletetaan nyt, että Y noudattaa Bernoullin jakaumaa Y Berπx)), missä todennäköisyys πx) riippuu X:n havaitusta arvosta x. Mikäli todennäköisyys π riippuu havaitusta arvosta x i lineaarisen todennäköisyysmallin mukaan niin silloin πx i ) = β 0 + β 1 x i, 4.19) β 1 = πx i = 1) πx i = 0). 4.20) Mikäli taas logistisessa regressiomalli kuvaa π:n ja x:n välistä riippuvuutta, niin silloin ) ) π1) π0) β 1 = logit[πx i = 1)] logit[πx i = 0)] = log log 1 π1) 1 π0) = log π1)/1 π1) π0)/1 π0) ). 4.21) Logistisen regressiomallin tilanteessa siis parametri β 1 on logaritmoitu vedonlyöntisuhde logθ). 4.6 Yleistetty lineaarinen malli frekvenssidatan tilanteessa Oletetaan, että selitettävä muuttuja Y saa ei-negatiivisia kokonaislukuarvoja ja noudattaa Poissonin jakaumaa parametrilla λ, Y P oiλ). Tällöin Y :n odotusarvo ja varianssi ovat µ = λ ja σ 2 = λ. Poissonin jakaumaa noudattavan selitettävän muuttujan Y odotusarvoa µ voidaan mallintaa yleistetyllä lineaarisella mallilla, missä linkkifunktio on identtilinkki. Tällöin odotusarvon µ ja selittävän muuttujan x välinen riippuvuus havainnon i tilanteessa noudattaa Poissonin lineaarista regressiomallia µ i = β 0 + β 1 x i. 4.22)

30 LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA 25 Useimmin Poissonin jakauman tilanteessa kuitenkin mallinnetaan logaritmoitua odotusarvoa logµ). Poissonin log-lineaarinen malli on yleistetty lineaarinen malli, missä siis linkkifunktio on log-linkki: logµ i ) = β 0 + β 1 x i. 4.23) Poissonin log-lineaarisen mallin tilanteessa havainnon i odotusarvo µ i riippuu epälineaarisesti selittävästä muuttujasta x i : µ i = e β 0+β 1 x i = e β 0 e 1) β xi. 4.24) Poissonin log-lineaariselle mallille tyypillinen ongelma on se, että datassa selitettävän muuttujan varianssi on suurempi verrattuna mallin antamaan varianssiin. Poissonin jakauman tilanteessa odotusarvon ja varianssin pitäisi olla yhtä suuret. Usein kuitenkin käytännön aineistoissa selitettävän muuttujan varianssi on suurempi kuin mitä Poissonin log-lineaarinen mallin mukaan varianssin pitäisi olla annetulla selittävän muuttujan x i arvolla. Tälläistä ilmiötä kutsutaan ylihajonnaksi. 4.7 Poissonin log-lineaarinen malli I J-ristiintaulukossa Poissonin log-lineaarista mallia voidaan käyttää mallintamaan ristiintaulukon solufrekvenssejä. Olkoon Y ij :t I J-ristiintaulukon solufrekvenssejä, jotka noudattavat Poissonin jakaumaa Y ij P oiµ ij ). Oletetaan, että ristiintaulukon rivi-ja sarakemuuttujat ovat riippumattomia, eli solutodennäköisyyksille on voimassa Tällöin odotetut frekvenssit µ ij ovat muotoa ja siten logaritmoidut odotusarvot muotoa π ij = π i+ π +j. 4.25) µ ij = n ++ π ij = n ++ π i+ π +j, 4.26) logµ ij ) = logn ++ ) + logπ i+ ) + logπ +j ) = α + β i + γ j. 4.27) Eli jos ristiintaulukon rivi-ja sarakemuuttujat ovat riippumattomia, log-lineaarisessa mallissa on rivi-ja sarakemuuttujien päävaikutukset muttei niiden yhdysvaikutuksia.

31 Luku 5 Logistinen regressio 5.1 Mallin perusteet Logistinen regressiomalli on tärkein binaarisen selitettävän muuttujan malli. Olkoon Y Bernoullin jakaumaa noudattava selitettävä muuttuja ja olkoon X selittävä muuttuja. Merkitään Logistisessa regressiomallissa oletetaan, että πx) = P Y = 1 X = x). 5.1) πx) = eβ 0+β 1 x 1 + e β 0+β 1 x, 5.2) eli, että logaritmoitu vedonlyönti kerroin γx) on lineaarisesti riippuvainen selittävästä muuttujasta X: ) πx) logγx)) = log = logitπx)) = β 0 + β 1 x. 5.3) 1 πx) Jos selittäviä muuttujia on useita X = X 1, X 2,..., X k ) ja πx) = P Y = 1 X = x), 5.4) niin silloin logistinen regressiomalli on muotoa ) πx) gπx)) = log = logitπx)) = β 0 + β 1 x 1 + β 2 x β k x k. 5.5) 1 πx) Logistinen regressiomalli on yleistetty lineaarinen malli, missä linkkifunktio g on logitlinkki. Tarkastellaan logistista regressiomallia ) πx) log = logitπx)) = β 0 + β 1 x. 5.6) 1 πx) 26

32 LUKU 5. LOGISTINEN REGRESSIO 27 Jos β 1 > 0, niin πx) kasvaa kun x kasvaa. Jos β 1 = 0, niin todennäköisyys πx) ei riipu selittävästä muuttujasta ja siten Y on riippumaton X:stä. Tarkastellaan logistisen regressiomallin arvoja X:n arvoilla X = x ja X = x + 1. Tällöin logaritmoitu vedonlyöntisuhde θ x+1 x on muotoa logθ x+1 x ) = log πx+1) 1 πx+1) πx+1) 1 πx+1) = log ) ) πx + 1) πx) log 1 πx + 1) 1 πx) = β 0 + β 1 x + 1) β 0 + β 1 x)) = β 1, 5.7) ja siten θ x+1 x = e β 1 ja ˆθ x+1 x = e ˆβ 1. Tarkastellaan logistisen regressiomallin tilanteessa hypoteesia Tällöin Waldin testisuure H 0 : β 1 = ) Z = ˆβ 1 ˆσ ˆβ 1 ) 5.9) noudattaa asymptoottisesti standardoitua normaalijakaumaa H 0 hypoteesin ollessa voimassa. H 0 hypoteesi voidaan testata myös devianssien avulla. Tarkastellaan malleja M 0 ja M 1 : ) πx) M 0 : log = logitπx)) = β 0, 1 πx) ) πx) M 1 : log = logitπx)) = β 0 + β 1 x. 1 πx) Tällöin mallien M 0 ja M 1 devianssien erotus DM 0 ) DM 1 ) 5.10) noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = 1 kun H 0 hypoteesi on voimassa. Waldin testisuureen avulla voidaan muodostaa parametrille β α)% asymptoottinen luottamusväli käyttäen kaavaa missä P Z > z α/2 ) = α/2 kun Z N0, 1). ˆβ 1 ± z α/2ˆσ ˆβ 1 ), 5.11) Todennäköisyydelle πx) voidaan luoda luottamusestimaatti logistisen regressiomallin kautta. Logit-linkin suurimman uskottavuuden estimaatti on muotoa logitˆπx)) = ˆβ 0 + ˆβ 1 x, 5.12)

33 LUKU 5. LOGISTINEN REGRESSIO 28 ja estimoidun logit-linkin varianssi on muotoa σ 2 logitˆπx))) = Var logitˆπx))) = Var ˆβ0 + ˆβ ) 1 x = Var ˆβ 0 ) + x 2 Var ˆβ 1 ) + 2x Cov ˆβ 0, ˆβ 1 ). 5.13) Estimoidun logit-linkin estimoitu varianssi ˆσ 2 logitˆπx))) saadaan sitten laskettua korvaamalla varianssin kaavassa tuntemattomat varianssit ja kovarianssit niiden estimaateilla. Estimoidun varianssin avulla voidaan logit-linkille muodostaa 1001 α)% asymptoottinen luottamusväli käyttäen kaavaa ˆβ 0 + ˆβ 1 x ± z α/2ˆσ logitˆπx))). 5.14) Täten todennäköisyydelle πx) voidaan muodostaa luottamusväliestimaatti laskemalla logit-linkin käänteisfunktion arvot logit-linkin luottamusväliestimaatin päätepisteiden arvoilla ˆβ0+ ˆβ1x zα/2ˆσlogitˆπx))) ˆβ e 1 + e ˆβ 0 + ˆβ, e 0 + ˆβ ) 1 x+z α/2ˆσlogitˆπx))) 1 x z α/2ˆσlogitˆπx))) 1 + e ˆβ 0 + ˆβ. 5.15) 1 x+z α/2ˆσlogitˆπx))) 5.2 Mallin arvioiminen Tarkastellaan seuraavaksi kahta hierarkista logistista regressiomallia M 1 ja M 2 : ) πxi ) M 1 : log = logitπx i )) = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip, 1 πx i ) ) πxi ) M 2 : log = logitπx i )) = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik, 1 πx i ) missä p < k. Tällöin mallien M 1 ja M 2 devianssien erotus DM 1 ) DM 2 ) 5.16) noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = k p mikäli mallin M 1 osalta tietyt jakaumaoletukset ovat kunnossa n i x i ) riittävän suuri). Devianssien erotus saa suuria arvoja tilanteessa, jossa malli M 1 sopii aineistoon huonommin verrattuna malliin M 2. Devianssien erotuksella voidaan siis vertailla mallien M 1 ja M 2 sopivuutta dataan. Yksittäisen mallin M 1 riittävyyttä verrattuna kyllästettyyn malliin K voidaan testata devianssilla DM 1 ), mikäli jokaisella x i arvolla n i x i ) 5. Tällöin devianssi DM 1 ) noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = N 1 p, missä N 1 on eri x i vektoreiden lukumäärä. Vaihtoehtoinen tapa tarkastella mallien M 1 ja M 2 paremmuutta on laskea malleista Akaikenin informaatio kriteerit AIC: AICM 1 ) = 2[logL M1 ˆβ)) p], 5.17) AICM 2 ) = 2[logL M2 ˆβ)) k]. 5.18)

34 LUKU 5. LOGISTINEN REGRESSIO 29 Malli, millä on pienempi AIC arvo, on Akaikenin informaatio kriteerin mukaan parempi. Malleista M 1 ja M 2 voidaan laskea myös lineaarisen mallin selitysastetta vastaava Naglekerken arvo: R 2 M 1 ) = 1 edm 1) DM 0 ))/n ++ 1 e DM 0)/n ++, 5.19) R 2 M 2 ) = 1 edm 2) DM 0 ))/n ++ 1 e DM 0)/n ++, 5.20) missä DM 0 ) on devianssi mallista ) πxi ) M 0 : log = logitπx i )) = β 0. 1 πx i ) Naglekerken selitysaste saa arvoja väliltä 0 R Residuaalit logistisessa regressiomallissa Olkoon ˆπx i ) logistisen regressiomallin antama sovite todennäköisyydelle πx i ) selittävien muuttujien x i arvoilla. Jos x i arvoilla on toistettu Bernoullin koetta n i x i ) kertaa, niin Pearsonin residuaali määritellään suhteena e i = y ix i ) n i x i )ˆπx i ) ni x i )ˆπx i )1 ˆπx i )), 5.21) missä y i x i ) on onnistumisten lukumäärä arvoilla x i. Standardoitu residuaali on puolestaan määritelty suhteena r i = y i x i ) n i x i )ˆπx i ), 5.22) n i x i )ˆπx i )1 ˆπx i ))1 ĥix i )) missä ĥix i ) on selittävien muuttujien arvoista riippuva leverage arvo. Logistisesta regressiomallista voidaan laskea myös devianssiresiduaalit missä q i = 2 d i = q i signy i x i ) n i x i )ˆπx i )), 5.23) ) )) yi x i ) ni x i ) y i x i ) y i x i ) log + n i x i ) y i x i )) log. n i x i )ˆπx i ) n i x i ) n i x i )ˆπx i ) Muodostamalla pisteparvikuvioita residuaaleista ja selittävistä muuttujista tai logitˆπx i )) sovitearvoista, voidaan kuvien avulla yrittää löytää mahdollisia syitä miksei malli mahdollisesti sovi tarpeeksi hyvin dataan. Kun n i x i ) = 1 residuaalien käyttökelpoisuus on kuitenkin hyvin rajallinen.

35 LUKU 5. LOGISTINEN REGRESSIO Luokitteluasteikolliset selittävät muuttujat Olkoon Y Bernoullin jakaumaa noudattava selitettävä muuttuja ja olkoon X 1 ja X 2 binaarisia selittäviä muuttujia, jotka siten voivat saada kaksi toisensa poissulkevaa tulosvaihtoehtoa. Tässä tilanteessa satunnaisotoksen Y 1, Y 2,..., Y n tulokset voidaan siten esittää ristiintaulukon avulla, missä todennäköisyyksillä on voimassa ristiintaulukko y k = 1 0 Yhteensä x i1 = 1 x j2 = 1 π1, 1) 1 π1, 1) 1 0 π1, 0) 1 π1, 0) 1 x i1 = 0 x j2 = 1 π0, 1) 1 π0, 1) 1 0 π0, 0) 1 π0, 0) 1 Yhteensä π ++1 π Mallinnetaan todennäköisyyttä P Y = 1 X 1 = x 1, X 2 = x 2 ) = πx 1, x 2 ) logistisella regressiomallilla logitπx)) = β 0 + β 1 x 1 + β 2 x ) Mallia kutsutaan päävaikutusmalliksi. Muuttujat x 1 ja x 2 ovat indikaattorimuuttujia, jotka voivat saada arvoja 0 tai 1. Jos logistiseen regressiomalliin lisätään muuttujien x 1 ja x 2 yhteisvaikutus, on malli muotoa logitπx)) = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x ) Yllä olevien mallien avulla voidaan tutkia, että selittävätkö kummatkin muuttujat X 1 ja X 2 selitettävän muuttujan Y arvoja, ja onko muuttujilla X 1 ja X 2 lisäksi vielä yhdysvaikutusta muuttujan Y arvoihin. Mikäli muuttujilla X 1 ja X 2 olisi I ja J eri toisensa poissulkevaa tulosvaihtoehtoa, voidaan päävaikutusmalli kuvata parametrein logitπx)) = β 0 + β x 1 i + β x 2 j, 5.26) missä tuntemattomia parametreja β i on I 1 kappaletta ja parametreja β j J 1 kappaletta. Eli β x 1 i tarkoittaa samaa kuin β x 1 i = β 11 x 11 + β 12 x β 1I 1) x 1I 1), 5.27) missä x 11, x 12,..., x 1I 1) ovat kaikki indikaattorimuuttujia saaden arvoja 0 tai 1 riippuen muuttujan X 1 tulosvaihtoehdon toteutumisesta.

36 LUKU 5. LOGISTINEN REGRESSIO Moniluokkaiset logit mallit Logistisen regressiomallin tilanteessa olettiin, että selitettävä muuttuja Y on binaarinen Bernoullin jakaumaa Y Berπ) noudattava satunnaismuuttuja, missä logitlinkkifunktio riippuu selittävästä muuttujasta X lineaarisesti ) πx) log = logitπx)) = β 0 + β 1 x. 5.28) 1 πx) Moniluokkaiset logit mallit ovat logistisen regressiomallin yleistyksiä tilanteeseen, missä selitettävällä muuttujalla Y on J toisensa poissulkevaa tulosvaihtoehtoa. Merkitään tulosvaihtoehtojen J todennäköisyyksiä vektorilla π = π 1, π 2,..., π J ). 5.29) Moniluokkaisissa logit malleissa valitaan jokin todennäköisyyksistä π 1, π 2,..., π J vertailukohdaksi, esim. todennäköisyys π 1, ja sen jälkeen mallinnetaan logaritmoituja vedonlyöntikertoimia ) πj log, j = 2, 3,..., J. 5.30) π 1 Moniluokkaisissa logit malleissa logaritmoidut vedonlyöntikertoimet riippuvat sitten lineaarisesti selittävästä muuttujasta X: ) πj log = α j + β j x, j = 2, 3,..., J. 5.31) π 1 Täten moniluokkaisten logit mallien tilanteessa todennäköisyydet π j ovat muotoa π j = e α j+β j x 1 + J h=2 eα h+β h x. 5.32) 5.6 Kumulatiiviset logit mallit Jos selitettävä muuttuja Y on järjestysasteikollinen muuttuja, voidaan luokkien J luonnollinen järjestys ottaa mukaan analyysiin mallintamalla kumulatiivisia todennäköisyyksiä logit malleilla. Kumulatiiviset todennäköisyydet määritellään seuraavasti: P Y j x) = π 1 + π π j, j = 1,..., J. 5.33) Yksi mahdollinen tapa mallintaa kumulatiivisia todennäköisyyksiä on käyttää suhteellisten vedonlyöntikertoimien kumulatiivista logit mallia ) P Y j) log = α j + βx, j = 1,..., J ) 1 P Y j) Suhteellisten vedonlyöntikertoimien kumulatiivisessa logit mallissa parametri β on sama jokaisessa J 1 yhtälössä.

Yleistetyn lineaarisen mallin perusteita

Yleistetyn lineaarisen mallin perusteita Yleistetyt lineaariset mallit II Jarkko Isotalo - TILTS18 Kertausta syksy 2009-kevät 2010 Yleistetyn lineaarisen mallin perusteita Kaikissa yleistetyissä lineaarisissa malleissa on seuraavat kolme komponenttia:

Lisätiedot

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

5.7 Uskottavuusfunktioon perustuvia testejä II

5.7 Uskottavuusfunktioon perustuvia testejä II 5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa

Lisätiedot

Mervi Virtanen Taustatekijöiden vaikutus mielipaikkaan liittyvien elpymistuntemusten kokemiseen, kumulatiivinen logistinen regressio

Mervi Virtanen Taustatekijöiden vaikutus mielipaikkaan liittyvien elpymistuntemusten kokemiseen, kumulatiivinen logistinen regressio PRO GRADU -TUTKIELMA Mervi Virtanen Taustatekijöiden vaikutus mielipaikkaan liittyvien elpymistuntemusten kokemiseen, kumulatiivinen logistinen regressio TAMPEREEN YLIOPISTO Informaatiotieteiden yksikkö

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Maximum likelihood-estimointi Alkeet

Maximum likelihood-estimointi Alkeet Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X

Lisätiedot

Load

Load Tampereen yliopisto Tilastollinen mallintaminen Mikko Alivuotila ja Anne Puustelli Lentokoneiden rakennuksessa käytettävien metallinkiinnittimien puristuskestävyys Matematiikan, tilastotieteen ja filosofian

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3 Aiheet: Satunnaisvektorit ja moniulotteiset jakaumat Tilastollinen riippuvuus ja lineaarinen korrelaatio Satunnaisvektorit ja moniulotteiset

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.104 Tilastollisen analyysin perusteet, kevät 007 8. luento: Usean selittäjän lineaarinen regressiomalli Kai Virtanen 1 Usean selittäjän lineaarinen regressiomalli Selitettävän muuttujan havaittujen

Lisätiedot

Uskottavuuden ominaisuuksia

Uskottavuuden ominaisuuksia Luku 9 Uskottavuuden ominaisuuksia 9.1 Tyhjentävyys T yhjentävyys (Fisher 1922) luonnehtii täsmällisesti havaintoihin sisältyvän informaation kvantitatiivisesti. Parametrin θ estimaatti T(x) on tyhjentävä

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B Tilastollinen päättömyys, kevät 7 Harjoitus 6B Heikki Korpela 8. helmikuuta 7 Tehtävä. Monisteen teht. 6... Olkoot Y,..., Y 5 Nµ, σ, ja merkitään S 5 i Y i Y /4. Näytä, että S/σ on saranasuure eli sen

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

9. laskuharjoituskierros, vko 12-13, ratkaisut

9. laskuharjoituskierros, vko 12-13, ratkaisut 9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen

Lisätiedot

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä Sisältö Riippumattomuus Jos P(A B) = P(A)P(B), niin tapahtumat A ja B ovat toisistaan riippumattomia. (Keskustelimme

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat: Mat-.9 Sovellettu todennäköisyyslasku A Mat-.9 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Moniulotteiset jakaumat Diskreetti jakauma, Ehdollinen jakauma, Ehdollinen odotusarvo, Jatkuva

Lisätiedot

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Väliestimointi TKK (c) Ilkka Mellin (2005) 1 Väliestimointi Todennäköisyysjakaumien parametrien estimointi Luottamusväli Normaalijakauman odotusarvon luottamusväli Normaalijakauman

Lisätiedot

η i (θ)t i (x) A(θ) + c(x),

η i (θ)t i (x) A(θ) + c(x), 288 Luku 10. Perusmallit ja niiden sovelluksia muotoa (10.9.1) log f θ (x) = p η i (θ)t i (x) A(θ) + c(x), i=1 missä θ = (θ 1,...,θ p ) ja A(θ), c(x), η i (θ) ja T i (x) ovat tunnettuja funktioita. Lisäksi

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen Tilastollisen analyysin perusteet Luento 5: Sisältö Tilastotieteessä tehdään usein oletuksia havaintojen jakaumasta. Useat tilastolliset menetelmät toimivat tehottomasti tai jopa virheellisesti, jos jakaumaoletukset

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat TKK (c) Ilkka Mellin (2005) 1 Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat Kaksiulotteiset todennäköisyysjakaumat

Lisätiedot

Moniulotteiset satunnaismuuttujat ja jakaumat

Moniulotteiset satunnaismuuttujat ja jakaumat Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat KE (2014) 1 Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat >> Kaksiulotteiset

Lisätiedot

Olkoon R S otosavaruuksien R ja S karteesinen tulo: Satunnaismuuttujien X ja Y järjestetty pari (X, Y) määrittelee kaksiulotteisen satunnaismuuttujan:

Olkoon R S otosavaruuksien R ja S karteesinen tulo: Satunnaismuuttujien X ja Y järjestetty pari (X, Y) määrittelee kaksiulotteisen satunnaismuuttujan: Mat-.6 Sovellettu todennäköisslaskenta B Mat-.6 Sovellettu todennäköisslaskenta B / Ratkaisut Aiheet: Moniulotteiset satunnaismuuttujat ja todennäköissjakaumat Moniulotteisia jakaumia Avainsanat: Diskreetti

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1 Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 15. marraskuuta 2007 Antti Rasila () TodB 15. marraskuuta 2007 1 / 19 1 Tilastollisia testejä (jatkoa) Yhden otoksen χ 2 -testi varianssille Kahden riippumattoman

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Testit laatueroasteikollisille muuttujille

Testit laatueroasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1 Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten

Lisätiedot

Todennäköisyyslaskun kertaus. Heliövaara 1

Todennäköisyyslaskun kertaus. Heliövaara 1 Todennäköisyyslaskun kertaus Heliövaara 1 Satunnaismuuttujat ja todennäköisyysjakaumat Heliövaara 2 Stunnaismuuttujat ja todennäköisyysjakaumat Jos satunnaisilmiötä halutaan mallintaa matemaattisesti,

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 017 Harjoitus 5 Ratkaisuehdotuksia Tehtäväsarja I 1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1 Tilastolliset menetelmät Osa 3: Tilastolliset testit Tilastollinen testaus KE (2014) 1 Tilastolliset testit >> Tilastollinen testaus Tilastolliset hypoteesit Tilastolliset testit ja testisuureet Virheet

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Mallipohjainen klusterointi

Mallipohjainen klusterointi Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio

Lisätiedot

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto Matemaattinen tilastotiede Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto Alkusanat Tämä moniste perustuu vuosina 2002-2004 pitämiini matemaattisen tilastotieteen luentoihin

Lisätiedot

11. laskuharjoituskierros, vko 15, ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut 11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Tilastollinen päättely II, kevät 2017 Harjoitus 2A Tilastollinen päättely II, kevät 07 Harjoitus A Heikki Korpela 3. tammikuuta 07 Tehtävä. (Monisteen tehtävä.3 Olkoot Y,..., Y n Exp(λ. Kirjoita vastaava tilastollisen mallin lauseke (ytf. Muodosta sitten

Lisätiedot

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: 4. Tyhjentyvyys Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä: Voidaanko päätelmät perustaa johonkin tunnuslukuun t = t(y) koko aineiston y sijasta? Mitä

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia. HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia Tehtäväsarja I 1. Jatkoa Harjoitus 8A tehtävään 3. Muodosta odotusarvolle µ approksimatiivinen

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat TKK (c) Ilkka Mellin (2006) 1 Moniulotteiset satunnaismuuttujat ja

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Risto Nikkanen Innovatiivisten työkäytäntöjen vaikutus yrityksen suorituskykyyn

Risto Nikkanen Innovatiivisten työkäytäntöjen vaikutus yrityksen suorituskykyyn PRO GRADU -TUTKIELMA Risto Nikkanen Innovatiivisten työkäytäntöjen vaikutus yrityksen suorituskykyyn TAMPEREEN YLIOPISTO Matematiikan ja tilastotieteen laitos Tilastotiede Toukokuu 2010 Tampereen yliopisto

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

HAVAITUT JA ODOTETUT FREKVENSSIT

HAVAITUT JA ODOTETUT FREKVENSSIT HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Tilastomatematiikka Kevät 2008

Tilastomatematiikka Kevät 2008 Tilastomatematiikka Kevät 2008 Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastomatematiikka p.1/19 4.3 Varianssi Satunnaismuuttuja on neliöintegroituva, jos odotusarvo

Lisätiedot