Jarkko Isotalo. Johdatus yleistettyihin lineaarisiin malleihin

Samankaltaiset tiedostot
Yleistetyn lineaarisen mallin perusteita

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Todennäköisyyden ominaisuuksia

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Sovellettu todennäköisyyslaskenta B

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Yleistetyistä lineaarisista malleista

Estimointi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

5.7 Uskottavuusfunktioon perustuvia testejä II

Mervi Virtanen Taustatekijöiden vaikutus mielipaikkaan liittyvien elpymistuntemusten kokemiseen, kumulatiivinen logistinen regressio

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Korrelaatiokertoinen määrittely 165

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Osa 2: Otokset, otosjakaumat ja estimointi

tilastotieteen kertaus

805306A Johdatus monimuuttujamenetelmiin, 5 op

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Maximum likelihood-estimointi Alkeet

Load

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Tilastollinen aineisto Luottamusväli

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Mat Tilastollisen analyysin perusteet, kevät 2007

805306A Johdatus monimuuttujamenetelmiin, 5 op

Mat Tilastollisen analyysin perusteet, kevät 2007

Uskottavuuden ominaisuuksia

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Sovellettu todennäköisyyslaskenta B

9. laskuharjoituskierros, vko 12-13, ratkaisut

1. Tilastollinen malli??

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Testejä suhdeasteikollisille muuttujille

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

η i (θ)t i (x) A(θ) + c(x),

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Dynaamiset regressiomallit

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Moniulotteiset satunnaismuuttujat ja jakaumat

Olkoon R S otosavaruuksien R ja S karteesinen tulo: Satunnaismuuttujien X ja Y järjestetty pari (X, Y) määrittelee kaksiulotteisen satunnaismuuttujan:

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Testit laatueroasteikollisille muuttujille

Todennäköisyyslaskun kertaus. Heliövaara 1

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Mallipohjainen klusterointi

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

11. laskuharjoituskierros, vko 15, ratkaisut

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

Mat Tilastollisen analyysin perusteet, kevät 2007

Risto Nikkanen Innovatiivisten työkäytäntöjen vaikutus yrityksen suorituskykyyn

Mat Tilastollisen analyysin perusteet, kevät 2007

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

HAVAITUT JA ODOTETUT FREKVENSSIT

3.6 Su-estimaattorien asymptotiikka

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

pitkittäisaineistoissa

Tilastomatematiikka Kevät 2008

Transkriptio:

Jarkko Isotalo Johdatus yleistettyihin lineaarisiin malleihin INFORMAATIOTIETEIDEN YKSIKKÖ TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 8/2012 TAMPERE 2012

TAMPEREEN YLIOPISTO INFORMAATIOTIETEIDEN YKSIKKÖ INFORMAATIOTIETEIDEN YKSIKÖN RAPORTTEJA 8/2012 TAMMIKUU 2012 Jarkko Isotalo Johdatus yleistettyihin lineaarisiin malleihin INFORMAATIOTIETEIDEN YKSIKKÖ 33014 TAMPEREEN YLIOPISTO ISBN 978 951 44 8734 7 ISSN L 1799 8158 ISSN 1799 8158

Esipuhe Tätä luentomonistetta on käytetty oppimateriaalina Tampereen yliopistossa yleistettyjen lineaaristen mallien kursseilla. Lähdemateriaalina on käytetty seuraavia yleistettyjen lineaaristen mallien oppikirjoja. Agresti, A. 2007). An Introduction to Categorial Data Analysis. Second Edition, Wiley. Christensen, R. 1997). Log-Linear Models and Logistic Regression. Springer. Dobson, A. 2002). An Introduction to Generalized Linear Models. Second Edition, Chapman & Hall. Faraway, J.J. 2005). Extending the Linear Model with R. Chapman & Hall. McCullagh, P. & Nelder, J.A. 1983). Generalized Linear Models. Chapman & Hall. Tampere, tammikuu 2012 Jarkko Isotalo i

Sisältö 1 Johdatus tilastolliseen päättelyyn ja jakaumiin 1 1.1 Suurimman uskottavuuden estimaattori................. 1 1.2 Luottamusväliestimaatti, Waldin ja Score testit............. 2 1.3 Uskottavuussuhdetesti........................... 3 1.4 Eksponentiaalinen jakaumaperhe..................... 3 1.5 Normaalijakauma.............................. 4 1.6 Bernoullin jakauma............................. 4 1.7 Binomijakauma............................... 4 1.8 Multinomijakauma............................. 5 1.9 Poissonin jakauma............................. 5 2 Ristiintaulukot 7 2.1 Ristiintaulukoiden merkinnät....................... 7 2.2 Päättelyasetelmat 2 2-ristiintaulukossa................. 8 2.3 Kaksi riippumatonta binomijakaumaa.................. 9 2.4 Vedonlyöntisuhde.............................. 10 2.5 Riippumattomuustestit 2 2-ristiintaulukossa.............. 11 2.6 Riippumattomuustestit I J-ristiintaulukossa.............. 12 2.7 Trenditesti.................................. 13 ii

SISÄLTÖ iii 3 Lineaaristen mallien perusteita 14 3.1 Parametrien estimoinnista......................... 14 3.2 Mallin selitysaste.............................. 16 3.3 Mallin devianssi............................... 16 3.4 Hypoteesin testaus............................. 17 4 Yleistettyjen lineaaristen mallien teoriaa 19 4.1 Mallin rakenne............................... 19 4.2 Hypoteesin testaus yleistetyssä lineaarisessa mallissa.......... 21 4.3 Mallin devianssi............................... 22 4.4 Yleistetty lineaarinen malli binaaridatan tilanteessa........... 22 4.5 Mallintaminen 2 2-ristiintaulukossa................... 24 4.6 Yleistetty lineaarinen malli frekvenssidatan tilanteessa......... 24 4.7 Poissonin log-lineaarinen malli I J-ristiintaulukossa.......... 25 5 Logistinen regressio 26 5.1 Mallin perusteet.............................. 26 5.2 Mallin arvioiminen............................. 28 5.3 Residuaalit logistisessa regressiomallissa................. 29 5.4 Luokitteluasteikolliset selittävät muuttujat................ 30 5.5 Moniluokkaiset logit mallit......................... 31 5.6 Kumulatiiviset logit mallit......................... 31 6 Poissonin log-lineaarinen malli 32 6.1 Log-lineaariset mallit kaksiulotteisissa ristiintaulukoissa........ 32 6.2 Log-lineaarinen malli ja logistinen regressio............... 34 6.3 Log-lineaariset mallit kolmeulotteisissa ristiintaulukoissa........ 35 6.4 Järjestysasteikolliset muuttujat...................... 37

Luku 1 Johdatus tilastolliseen päättelyyn ja jakaumiin 1.1 Suurimman uskottavuuden estimaattori Olkoon f Y y; β) satunnaismuuttuja Y :n tiheysfunktio, mikä riippuu tuntemattomasta parametrista β. Olkoon y 1, y 2,..., y n havaittu satunnaisotos Y :n jakaumasta. Tuntemattoman parametrin β arvoa voidaan estimoida suurimman uskottavuuden menetelmällä. Parametrin β suurimman uskottavuuden estimaatti ˆβ on ratkaisu seuraavaan maksimointiongelmaan: ˆβ = arg max β n f Y y i ; β). 1.1) Usein suurimman uskottavuuden estimaatti ˆβ on helpompi muodostaa ratkaisuna logaritmoidun yhteistiheysfunktion maksimointina: ˆβ = arg max β i=1 n logf Y y i ; β)). 1.2) i=1 Suurimman uskottavuuden menetelmässä yhteistiheysfunktiota kutsutaan uskottavuusfunktioksi Lβ, y) = n f Y y i ; β) 1.3) ja logaritmoitua yhteistiheysfunktiota logaritmoiduksi uskottavuusfunktioksi i=1 lβ, y) = n logf Y y i ; β)), 1.4) i=1 1

LUKU 1. JOHDATUS TILASTOLLISEEN PÄÄTTELYYN JA JAKAUMIIN 2 missä y on satunnaisvektori y 1 y 2 y =.. y n Koska ˆβ on satunnaisotoksen y funktio, se on itsestään satunnaismuuttuja tilanteessa, missä havaittuja arvoja y i kohdellaan satunnaismuuttujina. Tällöin ˆβ:a kutsutaan suurimman uskottavuuden estimaattoriksi. Voidaan osoittaa, että suurimman uskottavuuden estimaattori ˆβ noudattaa asymptoottisesti kun n ) normaalijakaumaa ˆβ N β, 1 Iβ) ) = N β, σ 2ˆββ) ), 1.5) missä Iβ) on parametriin β liittyvä informaatioluku [ lβ, ) ] y) 2 2 ) lβ, y) Iβ) = E = E. 1.6) β β β 1.2 Luottamusväliestimaatti, Waldin ja Score testit Suurimman uskottavuuden estimaattorin ˆβ varianssi Var ˆβ) = σ 2ˆββ) voi riippua tuntemattomasta parametrista β ja siten esimerkiksi keskihajontaa σ ˆββ) = Var ˆβ) ei mahdollisesti voida tarkasti laskea. Estimaattorin ˆβ varianssia ja siten keskihajontaa voidaan estimoida siten, että varianssin tuntemattoman parametrin arvo korvataan suurimman uskottavuuden estimaatin ˆβ arvolla: Var ˆβ) = ˆσ 2ˆβ ˆβ). 1.7) Estimoidun keskihajonnan avulla ˆσ ˆβ ˆβ) avulla voidaan nyt tuntemattomalle parametrille β muodostaa normaalijakaumaan perustuva 1001 α)% asymptoottinen luottamusväliestimaatti ˆβ zα/2ˆσ ˆβ ˆβ), ˆβ + z α/2ˆσ ˆβ ˆβ)), 1.8) missä z α/2 on luku, jolle on voimassa todennäköisyys P Z > z α/2 ) = 1 α/2, missä Z noudattaa standardoitua normaalijakaumaa Z N0, 1). Tarkastellaan seuraavaksi hypoteeseja H 0 : β = β 0, missä β 0 on jokin annettu arvo. Kun H 0 on tosi, otossuure H a : β β 0, 1.9) Z = ˆβ β 0 ˆσ ˆβ ˆβ) 1.10)

LUKU 1. JOHDATUS TILASTOLLISEEN PÄÄTTELYYN JA JAKAUMIIN 3 noudattaa asymptoottisesti standardoitua normaalijakaumaa Z N0, 1). Tämän tyylistä testisuuretta kutsutaan Waldin testiksi, missä suurimman uskottavuuden estimaattorin keskihajontaa σ ˆββ) on estimoitu suurimman uskottavuuden estimaatin avulla. Score testissä testataan edellä olevaa hypoteesia samalla testisuureella kuin Waldin testissä paitsi että keskihajonnan σ ˆββ) estimaatti korvataan keskihajonnalla, mikä olisi H 0 hypoteesin vallitessa voimassa: Z = ˆβ β 0 σ ˆββ 0 ). 1.11) 1.3 Uskottavuussuhdetesti Tarkastellaan edelleen hypoteeseja H 0 : β = β 0, H a : β β 0, 1.12) missä β 0 on jokin annettu arvo. Suurimman uskottavuuden menetelmän mukaisesti uskottavuusfunktio Lβ, y) saa suurimman arvonsa suurimman uskottavuuden estimaatin arvolla L ˆβ, y). Toisaalta uskottavuusfunktion arvo voidaan laskea myös H 0 hypoteesin ollessa voimassa. Tällöin uskottavuusfunktio saa arvon Lβ 0, y). Suhdetta ) Lβ 0, y) = 2 log L ˆβ, y) = 2 lβ 0, y) l ˆβ, ) y) = 2 l ˆβ, ) y) lβ 0, y) 1.13) kutsutaan uskottavuussuhteeksi. Hypoteesin H 0 : β = β 0 vallitessa uskottavuussuhde noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = 1. 1.4 Eksponentiaalinen jakaumaperhe Mikäli satunnaismuuttujan Y jakauma riippuu vain yhdestä tuntemattomasta parametrista β, satunnaismuuttuja Y :n todennäköisyysjakauma kuuluu eksponentiaaliseen jakaumaperheeseen, jos Y :n tiheysfunktio f Y y, β) voidaan kirjoittaa muodossa missä a, b ja Q merkitsevät joitakin funktioita. f Y y; β) = aβ)by)e yqβ), 1.14) Yleisemmin eksponentiaaliseen jakaumaperheeseen kuuluvat jatkuvista jakaumista muun muassa normaalijakauma, gamma jakauma, käänteinen normaalijakauma ja eksponenttijakauma. Diskreeteistä jakaumista eksponentiaaliseen jakaumaperheeseen kuuluvat muun muassa Bernoullin jakauma, binomijakauma, käänteinen binomijakauma, Poissonin jakauma ja multinomijakauma.

LUKU 1. JOHDATUS TILASTOLLISEEN PÄÄTTELYYN JA JAKAUMIIN 4 1.5 Normaalijakauma Satunnaismuuttuja Y noudattaa normaalijakaumaa Y Nµ, σ 2 ), jos Y :n tiheysfunktio on muotoa f Y y) = 1 1 y µ) 2 2πσ 2 e 2 σ 2. 1.15) Normaalijakauma on tilastotieteen eniten käytetty jakauma. Normaalijakaumalla on tärkeä lineaarinen ominaisuus, eli jos Y Nµ, σ 2 ), niin silloin lineaarinen muunnos X = ay + b 1.16) noudattaa normaalijakaumaa X Naµ + b, a 2 σ 2 ). Normaalijakaumaa Z N0, 1) kutsutaan standardoiduksi normaalijakaumaksi. 1.6 Bernoullin jakauma Bernoullin koe on satunnaiskoe, jolla on täsmälleen kaksi toisensa poissulkevaa tulosvaihtoehtoa. Bernoullin kokeen tulosvaihtoehdot voidaan koodata luvuilla 0 ja 1. Satunnaismuuttuja Y noudattaa Bernoullin jakaumaa Y Berπ), kun P Y = 1) = π, P Y = 0) = 1 π, 1.17) missä 0 π 1. Bernoullin jakaumaa noudattavan satunnaismuuttujan Y :n odotusarvo ja varianssi ovat EY ) = π, VarY ) = π1 π). 1.18) 1.7 Binomijakauma Olkoon X 1, X 2..., X n riippumattomia Bernoullin jakaumaa noudattavia satunnaismuuttujia X i Berπ). Tällöin satunnaismuuttuja Y = X 1 + X 2 + + X n noudattaa binomijakaumaa parametrein n ja π. Satunnaismuuttuja Y :n jakaumaa merkitään Y Binn, π) ja pistetodennäköisyysfunktio on muotoa ) n P Y = y) = f Y y, π) = π y 1 π) n y), y = 0, 1, 2,..., n. 1.19) y Binomijakaumaa noudattavan satunnaismuuttuja X:n odotusarvo ja varianssi ovat EY ) = nπ, VarY ) = nπ1 π). 1.20) Jos Y Binn, π), niin silloin X = n Y noudattaa X Binn, 1 π). Tällöin satunnaismuuttujien Y ja X välillä on täydellinen riippuvuus kun Y saa suuren arvon,

LUKU 1. JOHDATUS TILASTOLLISEEN PÄÄTTELYYN JA JAKAUMIIN 5 X saa pienen. Satunnaismuuttujien Y ja X yhteisjakauma noudattaa kaksiulotteista multinomijakaumaa Y, X) Mult n, π, 1 π)). Binomijakauman tilanteessa suurimman uskottavuuden estimaattori π:lle on muotoa ˆπ = Y n. 1.21) Suurimman uskottavuuden estimaattorin ˆπ odotusarvo ja varianssi ovat Eˆπ) = π, Varˆπ) = π1 π). 1.22) n 1.8 Multinomijakauma Multinomijakauma on binomijakauman yleistys. Multinomijakauma liittyy satunnaiskokeisiin, joissa on useampia kuin kaksi toisensa poissulkevaa tulosvaihtoehtoa. Toistettaessa tällaisia moniulotteisia riippumattomia satunnaiskokeita n kappaletta, saatujen tulosten frekvenssijakauma voidaan kuvata multinomijakauman avulla. Tarkastellaan tilannetta, missä satunnaiskokeella on k kappaletta toisensa poissulkevaa tulosvaihtoehtoa. Merkitään tulosvaihtoehtoja luvuilla 1, 2,..., k ja olkoon π i tulosvaihtoehdon i todennäköisyys. Toistetaan k-ulotteista satunnaiskoetta n kappaletta ja merkitään Y i :llä tuloksen i lukumäärää n:n kokeen sarjassa. Tällöin satunnaisvektori Y = Y 1, Y 2,..., Y k ) noudattaa k-ulotteista multinomijakaumaa parametrein n ja π = π 1, π 2,..., π k ), Y Multn, π). Multinomijakauman pistetodennäköisyysfunktio on muotoa ) n f Y y 1, y 2,..., y k ; π) = π y 1 2 y 1 y 2... y πy 2 2 πy k k, 1.23) k missä y 1 + y 2 + + y k = n, π 1 + π 2 + + π k = 1 ja ) n y 1 y 2... y k = n! Multinomijakaumalle on voimassa seuraavat ominaisuudet: y 1! y 2!... y k!. Y i Binn, π i ), EY i ) = nπ i, VarY i ) = nπ i 1 π i ), CovY i, Y j ) = nπ i π j. Suurimman uskottavuuden estimaattorit ovat muotoa ˆπ i = Y i n. 1.24) 1.9 Poissonin jakauma Toisinaan frekvenssidata ei synny ehdolla, että jotain toistokoetta toistetaan tietyn n kertaa. Usein on tilanteita, että jonkin ajan tai tilan aikana vain havainnoidaan jonkin satunnaisilmiön toteutuminen y frekvenssin kerran. Poissonin jakauma sopii hyvin tällaisten frekvenssidatojen mallintamiseen. Satunnaismuuttuja Y noudattaa Poissonin jakaumaa parametrilla λ > 0, jos Y :n pistetodennäköisyysfunktio on muotoa P Y = y) = f Y y) = e λ λ y, y = 0, 1, 2,.... 1.25) y!

LUKU 1. JOHDATUS TILASTOLLISEEN PÄÄTTELYYN JA JAKAUMIIN 6 Jos Y P oiλ), niin silloin EY ) = λ, VarY ) = λ. 1.26)

Luku 2 Ristiintaulukot 2.1 Ristiintaulukoiden merkinnät Olkoon X ja Y satunnaismuuttujia joilla kummallakin on kaksi toisensa poissulkevaa tulosvaihtoehtoa. Jos tulosvaihtoehtoja merkitään 0:lla ja 1:llä, niin satunnaismuuttujien yhteistodennäköisyysjakauma voidaan esittää 2 2-ristiintaulukon avulla: P X = x i, Y = y j ) : y j = 1 0 Yhteensä x i = 1 π 11 π 12 π 1+ 0 π 21 π 22 π 2+ Yhteensä π +1 π +2 1 Ristiintaulukossa rivi- ja sarakesummat π 1+ = π 11 + π 12, π 2+ = π 21 + π 22, π +1 = π 11 + π 21, π +2 = π 12 + π 22, ovat muuttujien X ja Y marginaalijakaumia. Ristiintaulukolla voidaan esittää myös ehdollisten todennäköisyyksien P Y = y j X = x i ) jakauma. Tällöin taulukon rivit tulkitaan riippumattomiksi binomijakaumiksi parametrein π 1 ja π 2 : P Y = y j X = x i ) : y j = 1 0 Yhteensä x i = 1 π 1 1 π 1 1 0 π 2 1 π 2 1 Yhteensä π +1 π +2 1 7

LUKU 2. RISTIINTAULUKOT 8 Vastaavasti jos satunnaismuuttujilla X ja Y on I ja J toisensa poissulkevaa tulosvaihtoehtoa, satunnaismuuttujien X ja Y yhteistodennäköisyysjakauma voidaan esittää I J-ristiintaulukon avulla: P X = x i, Y = y j ) : y j = 1 2... J Yhteensä x i = 1 π 11 π 12... π 1J π 1+ 2 π 21 π 22... π 2J π 2+..... I π I1 π I2... π IJ π I+ Yhteensä π +1 π +2... π +J 1 Ehdollisten todennäköisyyksien P Y = y j X = x i ) jakauma yleisemmässä tilanteessa on muotoa: P Y = y j X = x i ) : y j = 1 2... J Yhteensä x i = 1 π 11 π 12... π 1J 1 2 π 21 π 22... π 2J 1..... I π I1 π I2... π IJ 1 Yhteensä π +1 π +2... π +J 1 Toistettaessa satunnaismuuttujien X ja Y muodostamaa 2-ulotteista satunnaiskoetta n ++ kertaa, voidaan tulosvaihtoehtojen X = x i, Y = y j ) frekvenssijakauma kuvata ristiintaulukolla: F reqx = x i, Y = y j ) : y j = 1 2... J Yhteensä x i = 1 n 11 n 12... n 1J n 1+ 2 n 21 n 22... n 2J n 2+..... I n I1 n I2... n IJ n I+ Yhteensä n +1 n +2... n +J n ++ 2.2 Päättelyasetelmat 2 2-ristiintaulukossa Ristiintaulukoissa havaittujen frekvenssien n ij avulla tehdään päättelyitä tuntemattomista todennäköisyyksistä π ij. Riippuen koeasetelmasta ja päättelyn tavoitteista voidaan erotella seuraavia päättelyasetelmia: Jos X on selittävä muuttuja ja Y selitettävä muuttuja, silloin ollaan yleensä kiinnostuneita ehdollisten todennäköisyyksien P Y = y j X = 1) ja P Y =

LUKU 2. RISTIINTAULUKOT 9 y j X = 0) eroavuuksista. Tällöin 2 2-frekvenssitaulukon rivien oletetaan olevan toteutuneita arvoja riippumattomista binomijakaumista Binn 1+, π 1 ) ja Binn 2+, π 2 ). Mikäli 2 2-frekvenssitaulukossa rivisummat n 1+ ja n 2+ ovat ennalta kiinnitettyjä, taulukon havaittujen frekvenssien tulkitaan myös olevan toteutuneita riippumattomista binomijakaumista Binn 1+, π 1 ) ja Binn 2+, π 2 ). 1 0 Yhteensä 1 π 1 1 π 1 1 0 π 2 1 π 2 1 Yhteensä π +1 π +2 1 1 0 Yhteensä 1 n 11 n 12 n 1+ 0 n 21 n 22 n 2+ Yhteensä n +1 n +2 n ++ Jos kumpikin X ja Y ovat selitettäviä muuttujia, silloin ollaan yleensä kiinnostuneita ovatko muuttujat X ja Y riippumattomia toisistaan, eli onko voimassa P X = x i, Y = y j ) = P X = x i )P Y = y j ). Tällöin 2 2-frekvenssitaulukon havaintojen n ij oletetaan olevan toteutuneita arvoja joko multinomijakaumasta Mult n ++, π 11, π 12, π 21, π 22 )) tai siten niin, että n ij P oiλ ij ). 1 0 Yhteensä 1 π 11 π 12 π 1+ 0 π 21 π 22 π 2+ Yhteensä π +1 π +2 1 1 0 Yhteensä 1 n 11 n 12 n 1+ 0 n 21 n 22 n 2+ Yhteensä n +1 n +2 n ++ 2.3 Kaksi riippumatonta binomijakaumaa Oletetaan, että 2 2-frekvenssitaulukon havainnot n ij ovat toteutuneita arvoja riippumattomista binomijakaumista Binn 1+, π 1 ) ja Binn 2+, π 2 ). Testataan hypoteesia H 0 : P Y = y j X = 1) = P Y = y j X = 0) π 1 = π 2 π 1 π 2 = 0. Testattaessa hypoteesia H 0 : π 1 π 2 = 0, Waldin testisuure Z = ˆπ 1 ˆπ 2 ˆπ1 1 ˆπ 1 )/n 1+ + ˆπ 2 1 ˆπ 2 )/n 2+ 2.1) noudattaa asymptoottisesti standardoitua normaalijakaumaa Z N0, 1).

LUKU 2. RISTIINTAULUKOT 10 Toisinaan erotuksen π 1 π 2 sijaan voi olla järkevä tutkia todennäköisyyksien π 1 ja π 2 suhdetta. Suhteellinen riski δ on suhde ja sen estimaatti on ˆδ = ˆπ 1 /ˆπ 2. δ = π 1 π 2, 2.2) 2.4 Vedonlyöntisuhde Oletetaan edelleen, että 2 2-frekvenssitaulukon havainnot n ij ovat toteutuneita arvoja riippumattomista binomijakaumista Binn 1+, π 1 ) ja Binn 2+, π 2 ). Todennäköisyyksistä π 1 ja π 2 voidaan muodostaa vedonlyöntikertoimet γ 1 ja γ 2 : Vedonlyöntikertoimien γ 1 ja γ 2 suhdetta γ 1 = π 1 1 π 1, γ 2 = π 2 1 π 2. 2.3) θ = θ Y X = γ 1 = π 1/1 π 1 ) γ 2 π 2 /1 π 2 ) 2.4) kutsutaan vedonlyöntisuhteeksi. Kun muuttujat X ja Y ovat riippumattomia, eli π 1 = π 2, vedonlyöntisuhde saa arvon θ = 1. Vedonlyöntisuhteen estimaatti on muotoa ˆθ = ˆθ Y X = ˆπ 1/1 ˆπ 1 ) ˆπ 2 /1 ˆπ 2 ) = n 11n 22 n 12 n 21. 2.5) Vedonlyöntisuhteella on sellainen hyödyllinen ominaisuus, että vedonlyöntisuhteen estimaatin arvo pysyy samana tilanteessa, missä Y :llä selitetään X:n arvoja. Tarkastellaan ehdollisia todennäköisyyksiä P X = x i Y = y j ): P X = x i Y = y j ) : y j = 1 0 Yhteensä x i = 1 π 1 π 2 π 1+ 0 1 π 1 1 π 2 π 2+ Yhteensä 1 1 1 Tällöin vedonlyöntisuhteen estimaatti saa myös arvon ˆθ = ˆθ X Y = ˆπ 1/1 ˆπ 1 ) ˆπ 2 /1 ˆπ 2 ) = n 11n 22 n 12 n 21. 2.6) Täten sama estimaatti ˆθ estimoi vedonlyöntisuhteita θ Y X ja θ X Y. Tämä ominaisuus tekee vedonlyöntisuhteesta erityisen hyödyllisen parametrin tilanteissa, missä muodostettu frekvenssidata kuvaa toteutuneita arvoja todennäköisyysjakauman P X = x i Y = y j ) tapauksessa ja silti varsinainen kiinnostuksen kohde on tutkia ehdollisen jakauman P Y = y j X = x i ) ominaisuuksia.

LUKU 2. RISTIINTAULUKOT 11 Silloin kun molemmat muuttujat X ja Y ovat selitettäviä muuttujia, vedonlyöntisuhde voidaan määritellä suhteena θ = π 11/π 12 π 21 /π 22. 2.7) Estimaattina toimii edelleen ˆθ. Koska estimaatin ˆθ jakauma on hyvin vino, on hyödyllistä perustaa vedonlyöntisuhteen päättely logaritmoituun vedonlyöntisuhteeseen. Kun θ = 1, niin logθ) = 0. Logaritmoitu vedonlyöntisuhteen estimaatti logˆθ) noudattaa asymptoottisesti normaalijakaumaa parametrein E ) logˆθ) = logθ), σ ) 1 logˆθ) = + 1 + 1 + 1. 2.8) n 11 n 12 n 21 n 22 Logaritmoidulle vedonlyöntisuhteelle logθ) saadaan muodostettua 1001 α)% luottamusväli kaavalla logˆθ)π ± z α/2 1 n 11 + 1 n 12 + 1 n 21 + 1 n 22, 2.9) missä z α/2 on luku, jolle voimassa P Z > z α/2 ) = α/2 kun Z N0, 1). Korottamalla eksponenttiin logaritmoidun vedonlyöntisuhteen luottamusvälin raja-arvot, saadaan muodostettua luottamusväli itse vedonlyöntisuhteelle θ. Jos jokin n ij = 0, niin ˆθ on 0 tai. Tällöin voidaan käyttää muunneltua estimaattia θ = n 11 + 0.5)n 22 + 0.5) n 12 + 0.5)n 21 + 0.5) 2.10) estimoimaan vedonlyöntisuhdetta θ. Logaritmoidun estimaatin θ keskihajonta on muotoa ) 1 σ log θ) = n 11 + 0.5 + 1 n 12 + 0.5 + 1 n 21 + 0.5 + 1 n 22 + 0.5. 2.11) 2.5 Riippumattomuustestit 2 2-ristiintaulukossa Oletetaan, että muuttujat X ja Y ovat molemmat selitettäviä muuttujia, ja että 2 2- frekvenssitaulukon havainnot n ij ovat toteutuneita arvoja joko multinomijakaumasta Mult n ++, π 11, π 12, π 21, π 22 )) tai siten niin, että n ij P oiλ ij ). Kun kokonaisfrekvenssisumma n ++ on tiedossa, voidaan jokaiselle ristiintaulukon solulle laskea odotetut frekvenssit µ ij = n ++ π ij. 2.12) En ij ) : y j = 1 0 Yhteensä x i = 1 µ 11 µ 12 µ 1+ 0 µ 21 µ 22 µ 2+ Yhteensä µ +1 µ +2 µ ++

LUKU 2. RISTIINTAULUKOT 12 Tarkastellaan X:n ja Y :n riippumattomuutta. Testataan hypoteesia H 0 : π ij = π i+ π +j kaikille i ja j Hypoteesin H 0 vallitessa odotetut frekvenssit µ ij ovat muotoa µ ij = n ++ π i+ π +j. Koska π i+ ja π +j ovat tuntemattomia, pitää ne estimoida ja siten myös saadaan estimoidut odotetut frekvenssit ˆµ ij = n ++ n i+ n ++ n+j n ++ = n i+n +j n ++. 2.13) H 0 hypoteesin voimassaoloa voidaan nyt testata Pearsonin X 2 -testisuureella X 2 = 2 2 n ij ˆµ ij ) 2 i=1 j=1 ˆµ ij. 2.14) Testisuure X 2 noudattaa H 0 hypoteesin vallitessa asymptoottisesti χ 2 -jakaumaa vapausastein df = 1. Vaihtoehtoisesti H 0 hypoteesin voimassaoloa voidaan testata uskottavuussuhteen avulla. Multinomijakauman tilanteessa uskottavuussuhde on muotoa G 2 = 2 2 i=1 j=1 2 n ij log nij ˆµ ij ). 2.15) Uskottavuussuhde G 2 noudattaa H 0 hypoteesin vallitessa asymptoottisesti myös χ 2 - jakaumaa vapausastein df = 1. 2.6 Riippumattomuustestit I J-ristiintaulukossa Tarkastellaan tilannetta, jossa satunnaismuuttujilla X ja Y on I ja J toisensa poissulkevaa tulosvaihtoehtoa. I J-ristiintaulukon tilanteessa vedonlyöntisuhde θ voidaan määritellä lukuna θ = π ijπ i j. 2.16) π ij π i j Tilanteessa, jossa I J-ristiintaulukko kuvaa ehdollisten todennäköisyyksien P Y = y j X = x i ) jakaumaa, hypoteesi H 0 : π 1j = π 2j = = π Ij kaikille j = 1, 2,..., J on voimassa jos ja vain jos π ij π i j π ij π i j kaikille i, i = 1, 2,..., I ja j, j = 1, 2,..., J. Pearsonin X 2 -testisuuren ja uskottavuussuhteen G 2 avulla voidaan testata yleistä muuttujien X ja Y välistä riippumattomuutta = 1 H 0 : π ij = π i+ π +j kaikille i = 1, 2,..., I, j = 1, 2,..., J.

LUKU 2. RISTIINTAULUKOT 13 Pearsonin X 2 -testisuure ja uskottavuussuhde G 2 ovat I J-ristiintaulukon tilanteessa muotoa I J X 2 n ij ˆµ ij ) 2 I J ) =, G 2 nij = 2 n ij log, 2.17) ˆµ ij i=1 j=1 missä estimoidut odotetut frekvenssit ovat muotoa i=1 j=1 ˆµ ij ˆµ ij = n i+n +j n ++. 2.18) Testisuureet X 2 ja G 2 noudattavat H 0 hypoteesin vallitessa asymptoottisesti χ 2 - jakaumaa vapausastein df = I 1)J 1). Pearsonin X 2 -testisuure ja uskottavuussuhde G 2 testaavat siis onko muuttujien X ja Y välillä riippuvuutta. Standardoitujen soluresiduaalien ˆɛ ij = n ij ˆµ ij ˆµij 1 ˆπ i+ )1 ˆπ +j ) 2.19) avulla voidaan tutkia minkä suuntainen muuttujien X ja Y välinen riippuvuus on. H 0 hypoteesin ollessa voimassa, standardoitu soluresiduaali noudattaa asymptoottisesti standardoitua normaalijakaumaa ˆɛ ij N0, 1). 2.7 Trenditesti Olkoon muuttujat X ja Y järjestysasteikollisia. Tällöin X:n ja Y :n tulosvaihtoehdot i = 1, 2,..., I ja j = 1, 2,..., J voidaan järjestää esimerkiksi nousevaan järjestykseen. Olkoon nyt u 1 u 2 u I muuttujan X tulosvaihtoehdoille i = 1, 2,..., I määriteltyjä lukuarvoja, ja vastaavasti olkoon v 1 v 2 v J muuttujan Y tulosvaihtoehdoille j = 1, 2,..., J määriteltyjä lukuarvoja. Korrelaatiokertoimen r avulla voidaan testata onko muuttujien X ja Y välillä lineaarista riippuvuutta. Korrelaatiokerroin lasketaan kaavalla r = [ I I J i=1 j=1 u i ū)v j v)ˆπ ij i=1 u i ū) 2ˆπ i+ ] [ J j=1 v j v) 2ˆπ +j ], 2.20) missä ˆπ ij = n ij n ++, ˆπ i+ = n i+ n ++ ja ˆπ +j = n +j n ++, sekä ū = I i=1 u iˆπ i+ ja v = J j=1 v iˆπ +j. Merkitään muuttujien X ja Y välistä populaatiokorrelaatiokerrointa ρ:lla. Testataan lineaarista riippumattomuutta, eli hypoteesia Testisuure H 0 : ρ = 0. M 2 = n ++ 1)r 2 2.21) noudattaa H 0 hypoteesin ollessa voimassa asymptoottisesti χ 2 -jakaumaa vapausastein df = 1.

Luku 3 Lineaaristen mallien perusteita 3.1 Parametrien estimoinnista Olkoon y 1, y 2,..., y n satunnaisotos normaalijakaumasta Y i Nµ i, σ 2 ). Lineaarisessa mallissa oletetaan, että odotusarvo µ i riippuu lineaarisesti selittävistä muuttujista µ i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik = x iβ, 3.1) missä β 0 β 1 β =. β k 1 x i1 x i =.. x ik Tuntemattoman parametrivektorin β suurimman uskottavuuden estimaattori saadaan ratkaisemalla logaritmoituun uskottavuusfunktioon liittyvä maksimointiongelma arg max lβ, β σ2 ; y 1, y 2,..., y n ) = arg max β log 2πσ 2 ) n/2) 1 n 2σ 2 i=1 y i x iβ) 2 ) 3.2) Suurimman uskottavuuden estimaattorin ˆβ avulla saadaan laskettua jokaisen havainnon i odotusarvon µ i suurimman uskottavuuden estimaatti: ˆµ i = ˆβ 0 + ˆβ 1 x i1 + ˆβ 2 x i2 + + ˆβ k x ik = x i ˆβ. 3.3) Lineaarisessa mallissa odotusarvon estimaatteja ˆµ i kutsutaan usein sovitearvoiksi ja niistä käytetään merkintää ˆµ i = ŷ i. Odotusarvon estimaattien avulla voidaan laskea jokaiselle havainnolle residuaalit e i = y i ˆµ i. 3.4) 14.

LUKU 3. LINEAARISTEN MALLIEN PERUSTEITA 15 Mallin varianssiin liittyvän tuntemattoman parametrin σ 2 estimaattorina yleisesti käytetään kaavaa e ˆσ 2 2 = i n k + 1). 3.5) Tämä itse asiassa ei ole parametrin σ 2 suurimman uskottavuuden estimaattori, vaan niin sanottu rajoitettu suurimman uskottavuuden estimaattori. Kun merkitään x 1 x 2 x n X =., niin estimaattorin ˆβ kovarianssimatriisi on muotoa Cov ˆβ) = σ 2 X X) 1, 3.6) ja täten yksittäisen estimaattorin varianssi on muotoa Var ˆβ j ) = σ 2 t jj, 3.7) missä t jj on matriisin X X) 1 j:nes diagonaalielementti. Estimaattorin kovarianssimatriisin estimaattori on puolestaan muotoa Ĉov ˆβ) = ˆσ 2 X X) 1, 3.8) ja siten siis Var ˆβ j ) = ˆσ 2 t jj. 3.9) Yksittäiselle parametrille β j saadaan muodostettua 1001 α)% luottamusväliestimaatti välin ˆβ tα/2ˆσ t jj, ˆβ + t α/2ˆσ t jj ) 3.10) avulla, missä t α/2 on luku, jolle on voimassa P t n k+1) > t α/2 ) = α/2, kun t n k+1) noudattaa Studentin t-jakaumaa vapausastein df = n k + 1). Luottamusväliestimaatti annetuilla x :n arvoilla odotusarvolle µ = x β saadaan puolestaan kaavan x ˆβ t α/2ˆσ x X X) 1 x, x ˆβ + t ) α/2ˆσ x X X) 1 x 3.11) avulla. Luottamusväliennuste uudelle havainnolle y saadaan taasen välillä x ˆβ t α/2 ˆσ 2 1 + x X X) 1 x ), x ˆβ ) + t α/2 ˆσ 2 1 + x X X) 1 x ). 3.12)

LUKU 3. LINEAARISTEN MALLIEN PERUSTEITA 16 3.2 Mallin selitysaste Merkitään n SST = y i ȳ) 2, n SSR = ˆµ i ȳ) 2, SSE = i=1 i=1 Tällöin on voimassa SST = SSR + SSE. n y i ˆµ i ) 2. 3.13) i=1 Tarkastellaan nyt malleja M 0 : µ i = β 0, M : µ i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik. Mallin M selitysaste R 2 M) määritellään nyt suhteena R 2 M) = SSRM) SST M) = 1 SSEM) SST M) = 1 SSEM) SSEM 0 ). 3.14) 3.3 Mallin devianssi Tarkastellaan logaritmoitua uskottavuusfunktiota odotusarvojen µ i suhteen. Normaalijakauman tilanteessa logaritmoitu uskottavuusfunktio on muotoa n ) lµ i, σ 2 ; y) = log 2πσ 2 ) n/2) 1 2σ 2 y i µ i ) 2. 3.15) Odotusarvojen µ i estimaateiksi voidaan valitaan havaitut arvot y i. Tällöin odotusarvojen µ i estimaatteja kutsutaan kyllästetyiksi estimaateiksi i=1 ˆµ i,k = y i. 3.16) Kyllästettyjen estimaattien ˆµ i,k arvoilla logaritmoidun uskottavuusfunktion arvo supistuu muotoon lˆµ i,k, σ 2 ; y) = log 2πσ 2 ) n/2). 3.17) Mallin M : µ i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik = x iβ tilanteessa suurimman uskottavuuden estimaattien ˆµ i = x ˆβ i arvoilla logaritmoitu uskottavuusfunktio saa arvon n ) lˆµ i, σ 2 ; y) = log 2πσ 2 ) n/2) 1 2σ 2 y i ˆµ i ) 2. 3.18) i=1

LUKU 3. LINEAARISTEN MALLIEN PERUSTEITA 17 Mallin M devianssi DM) määritellään kyllästettyjen estimaattien ja suurimman uskottavuuden estimaattien arvoilla laskettujen logaritmoitujen uskottavuusfunktion erotuksena DM) = 2 lˆµ i,k, σ 2 ; y) lˆµ i, σ 2 ; y) ) = 2 log 2πσ 2 ) n/2) log n )) 1 = 2 2σ 2 y i ˆµ i ) 2 = i=1 2πσ 2 ) n/2) 1 2σ 2 n i=1 y i ˆµ i ) 2 σ 2 = n ))) y i ˆµ i ) 2 i=1 n i=1 e2 i σ 2. 3.19) Voidaan osoittaa, että devianssi DM) noudattaa χ 2 -jakaumaa vapausastein df = n k +1). Normaalijakauman tapauksessa devianssi DM) riippuu tuntemattomasta parametrista σ 2. Täten devianssin käyttäminen hypoteesin testaamiseen tai mallin sopivuuden mittaamiseen ei ole normaalijakauman tilanteessa suoraan mahdollista. Edellä määritelty devianssi on itse asiassa oikealta termiltään skaalattu devianssi. Normaalijakauman tilanteessa voidaan määritellä myös niin sanottu ei-skaalattu devianssi engl. unscaled deviance) D u M) = σ 2 DM) = n y i ˆµ i ) 2 = i=1 n e 2 i. 3.20) i=1 Ei-skaalattu devianssi D u M) ei kuitenkaan koskaan tarkasti ottaen noudata χ 2 - jakaumaa, joten on parempi käyttää muita otossuureita hypoteesin testaamiseen ja mallin sopivuuden tarkasteluun. 3.4 Hypoteesin testaus Yksittäisiin parametreihin β j liittyviä hypoteeseja voidaan testata t-testillä H 0 : β j = b j, H a : β j b j, 3.21) t = ˆβ j b j ˆσ, 3.22) tjj missä testisuure t noudattaa Studentin t-jakaumaa vapausastein df = n k + 1) kun H 0 hypoteesi on tosi. Ositetaan seuraavaksi selittävät muuttujat ja parametrit kahteen osaan ) ) xi1 β1 x i =, β =. x i2 β 2

LUKU 3. LINEAARISTEN MALLIEN PERUSTEITA 18 Testataan hypoteeseja H 0 : β 2 = b 2, H a : β 2 b 2. 3.23) Testattavat hypoteesit vastaavat mallien muodossa hypoteeseja H 0 : Malli M 1 : µ i = x i1β 1 + x i2b 2 on voimassa, H a : Malli M 2 : µ i = x i1β 1 + x i2β 2 on voimassa. Mallien M 1 ja M 2 devianssit DM 1 ) ja DM 2 ) voidaan laskea ja samoin devianssien erotus Hypoteeseja saadaan testattua F -testin avulla D = DM 1 ) DM 2 ). 3.24) F = D/ dimx 2 ) DM 2 )/n k + 1), 3.25) missä testisuure F noudattaa H 0 hypoteesin ollessa voimassa F -jakaumaa vapausastein df 1 = dimx 2 ), df 2 = n k + 1). Merkintä dimx 2 ) tarkoittaa vektoreiden x i2 pituutta.

Luku 4 Yleistettyjen lineaaristen mallien teoriaa 4.1 Mallin rakenne Kaikissa yleistetyissä lineaarisissa malleissa on seuraavat kolme komponenttia. Satunnaiskomponentti Määrittää mallin selitettävän muuttujan Y ja Y :n jakauman. Systemaattinen komponentti Määrittää mallin selittävät muuttujat x 1, x 2,..., x k joidenka katsotaan vaikuttavan selitettävän muuttujan Y odotusarvon µ arvoon. Linkkifunktio Määrittää sen funktion g ) rakenteen, minkä kautta muuttujan Y odotusarvo µ riippuu lineaarisesti selittävistä muuttujista x 1, x 2,..., x k. Satunnaiskomponentti identifioi yleistetyn lineaarisen mallin selitettävän muuttujan Y ja Y :n jakauman. Olkoon Y 1, Y 2,..., Y n satunnaisotos Y :n jakaumasta, eli oletetaan, että jokainen Y i noudattaa muuttujan Y jakaumaa. Oletetaan myös, että Y i :t ovat toisistaan riippumattomia. Yleistetyissä lineaarisissa malleissa oletetaan, että Y i :n jakauma kuuluu eksponentiaaliseen jakaumaperheeseen, eli että Y i :n tiheysfunktio on muoto fy i ; θ i ) = aθ i )by i )e y iqθ i ), 4.1) kun satunnaismuuttujan Y i jakauma riippuu vain yhdestä tuntemattomasta parametrista θ i. Termiä Qθ i ) kutsutaan luonnolliseksi parametriksi. Useissa tilanteissa satunnaismuuttujalla Y i on kaksi toisensa poissulkevaa tulosvaihtoehtoa. Tällöin satunnaismuuttuja Y i on binaarinen muuttuja ja tulosvaihtoehdot voidaan koodata 0:lla ja 1:llä. Yleisemmin Y i voi olla satunnaismuuttuja, mikä kuvaa binaarisen satunnaismuuttujan 1:s tulosvaihtoehtojen onnistumisten) lukumäärää tilanteessa, missä havainnoidaan binaarisen satunnaismuuttujan toteutunut arvo n kertaa. Kummassakin tilanteessa oletetaan, että Y i :t noudattavat binomijakaumaa. 19

LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA 20 Toisinaan selitettävä muuttuja voi saada positiivisia lukumääräarvoja. Esimerkiksi ristiintaulukoissa solufrekvenssit ovat ei-negatiivisia kokonaislukuja. Kun selitettävän muuttujan Y i tulosvaihtoehdot ovat ei-negatiivisia kokonaislukuja, voidaan olettaa, että Y i :t noudattavat Poissonin jakaumaa. Mikäli selitettävä muuttuja voidaan määritellä suhde- tai intervalliasteikolliseksi muuttujaksi, voidaan olettaa, että Y i :t noudattavat normaalijakaumaa. Yleistetyssä lineaarisessa mallissa mallinnetaan selitettävän muuttujan Y odotusarvosta EY ) = µ riippuvan linkkifunktion gµ) arvoa selittävien muuttujien x 1, x 2,..., x k avulla lineaarisen yhtälön gµ) = η = β 0 + β 1 x 1 + β 2 x 2 + + β k x k 4.2) kautta. Linkkifunktio gµ) yhdistää selittävät muuttujat x 1, x 2,..., x k systemaattisen komponentin) selitettävän muuttujan Y arvoihin satunnaiskomponenttiin). Yksinkertaisin linkkifunktio on identtilinkki gµ) = µ. Tällöin satunnaismuuttujan Y i odotusarvon µ i odotetaan olevan lineaarisesti riippuvainen selittävien muuttujien x 1, x 2,..., x k arvoista µ i = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik 4.3) Tavallisen lineaarisen regressiomallin tilanteessa oletetaan nimenomaan, että normaalisti jakautuneen Y i :n odotusarvo µ i riippuu identtilinkin kautta lineaarisesti selittävistä muuttujista. Toisenlaiset linkkifunktiot mahdollistavat odotusarvon µ olevan epälineaarisesti riippuvainen selittävistä muuttujista x 1, x 2,..., x k. Hyödyllinen linkkifunktio on loglinkki gµ) = logµ) mikä sopii tilanteisiin, missä odotusarvo µ ei voi olla negatiivinen kuten frekvenssidatan tilanteessa. Yleistettyä lineaarista mallia kutsutaan loglineaariseksi malliksi, mikäli linkkifunktio on log-linkki muotoa. Log-lineaarinen malli on muotoa logµ i ) = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik. 4.4) Jos odotusarvo on välillä 0 µ 1, kuten todennäköisyyksien tilanteessa, käyttökelpoinen linkkifunktio on logit-linkki ) µ gµ) = log. 4.5) 1 µ Yleistettyä lineaarista mallia kutsutaan logistiseksi regressiomalliksi, mikäli linkkifunktio on logit-linkki muotoa. Logistinen regressiomalli on muotoa ) µi log = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik. 4.6) 1 µ i Jos satunnaismuuttujan Y i jakauman ainoa tuntematon parametri on sen odotusarvo µ i, ja jos satunnaismuuttuja Y i kuuluu eksponentiaaliseen jakaumaperheeseen, niin

LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA 21 funktio Qµ i ) on satunnaismuuttujan Y i luonnollinen parametri. Linkkifunktiota gµ i ) kutsutaan kanooniseksi linkiksi, mikäli linkkifunktio on muotoa gµ i ) = Qµ i ). 4.7) Käytännössä usein linkkifunktioksi gµ i ) valitaan satunnaismuuttujan Y i kanooninen linkkifunktio Qµ i ). 4.2 Hypoteesin testaus yleistetyssä lineaarisessa mallissa Oletetaan, että selitettävän muuttujan Y jakauma kuuluu eksponentiaaliseen jakaumaperheeseen tuntemattomana parametrina Y :n odotusarvo µ, ja että mallin linkkifunktio gµ) on kanooninen linkkifunktio gµ) = η = Qµ). Oletetaan lisäksi, että kanooniselle linkkifunktiolle on olemassa käänteisfunktio µ = g 1 η), missä η = β 0 + β 1 x 1 + β 2 x 2 + + β k x k. 4.8) Tällöin havaittuun satunnaisotokseen y = y 1, y 2,... y n ) perustuva logaritmoitu uskottavuusfunktio on muotoa n [ lβ, y) = logag 1 ] η i ))) + logby i )) + y i η i, 4.9) i=1 missä β = β 0, β 1,..., β k ). Logaritmoidun uskottavuusfunktion avulla parametreille β voidaan laskea suurimman uskottavuuden estimaatit ˆβ. Yleensä estimaateille ˆβ ei löydy suljetun muodon ratkaisua ja siten estimaattien arvot joudutaan numeerisesti ratkaisemaan käyttämällä esim. Newton-Raphson algoritmia. Yleistetyssä lineaarisessa mallissa suurimman uskottavuuden estimaatit ˆβ noudattavat asymptoottisesti normaalijakaumaa. Esimerkiksi testattaessa hypoteesia Waldin testisuure H 0 : β j = b j, H a : β j b j, 4.10) Z = ˆβ j b j ˆσ ˆβj ˆβ j ) 4.11) noudattaa asymptoottisesti standardoitua normaalijakaumaa H 0 hypoteesin ollessa voimassa. Vastaavasti uskottavuussuhde ) Lb j, y) = 2 log L ˆβ j, y) 4.12) noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = 1 kun H 0 hypoteesi on voimassa.

LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA 22 4.3 Mallin devianssi Merkitään satunnaisotoksen Y 1, Y 2,..., Y n toteutuneita arvoja satunnaisvektorilla y = y 1, y 2,..., y n ) ja satunnaisotoksen odotusarvoja vektorilla µ = µ 1, µ 2,..., µ n ). Uskottavuusfunktio L voidaan kirjoittaa odotusarvovektorin µ funktiona Lµ, y). Jos nyt odotusarvovektorin µ estimaattina käytetään toteutuneita arvoja y, eli ˆµ K = y, saadaan täydelliset sovitearvot tarkasteltavan datan tilanteessa. Estimaatteja ˆµ K = y kutsutaan kyllästetyksi estimaateiksi. Kyllästetyt estimaatit eivät ole käytännössä hyödyllinen, koska ne ei tiivistä informaatiota mitenkään alkuperäisistä toteutuneista havainnoista. Merkitään kyllästettyjen estimaattien tilanteessa uskottavuusfunktiota Lˆµ K, y):llä. Tarkastellaan yleistettyä lineaarista mallia M : gµ i ) = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik, missä parametrit β 0, β 1,..., β k estimoidaan suurimman uskottavuuden menetelmällä. Odotusarvojen estimaatit ˆµ i saadaan mallin M tilanteessa linkkifunktion g käänteisfunktion g 1 avulla. Merkitään mallin M tilanteessa uskottavuusfunktiota Lˆµ, y):llä. Yleistettyjen lineaaristen mallien devianssi määritellään uskottavuussuhteena ) Lˆµ, y) DM) = 2 log = 2 lˆµ Lˆµ K, y) K, y) lˆµ, y)). 4.13) Tarkastellaan seuraavaksi kahta hierarkista mallia M 0 ja M 1 : M 1 : gµ i ) = η i = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip, M 2 : gµ i ) = η i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik, missä p < k. Tällöin mallien M 1 ja M 2 devianssien erotus DM 1 ) DM 2 ) 4.14) noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = k p. Devianssien erotus saa suuria arvoja tilanteessa, jossa malli M 1 sopii aineistoon huonommin verrattuna malliin M 2. Devianssien erotuksella voidaan siis vertailla mallien M 1 ja M 2 sopivuutta dataan. 4.4 Yleistetty lineaarinen malli binaaridatan tilanteessa Oletetaan, että selitettävä muuttuja Y on binaarinen ja noudattaa Bernoullin jakaumaa parametrilla π, Y Berπ), eli P Y = 1) = π ja P Y = 0) = 1 π. Tällöin Y :n odotusarvo µ = π. Ajatellaan, että todennäköisyys π riippuu jostain selittävästä muuttujasta x. Jos π:n ja x:n välinen riippuvuus havainnon i tilanteessa noudattaa lineaarista yhtälöä πx i ) = β 0 + β 1 x i, 4.15)

LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA 23 niin mallia kutsutaan lineaariseksi todennäköisyysmalliksi. Lineaarinen todennäköisyysmalli on yleistetty lineaarinen malli, missä satunnaiskomponentti on binomijakautunut Berπ) = Bin1, π)) ja linkkifunktio gµ i ) on identtilinkki. Lineaarisen todennäköisyysmalli ongelma on se, että sovitemalli saattaa antaa isoilla tai pienillä x:n arvoilla todennäköisyyden sovitearvoiksi ˆπx) arvoja, jotka eivät kuulu välille 0,1). Täten lineaarinen todennäköisyysmalli saattaa olla käyttökelpoinen vain tietyillä x:n arvoilla. Logistinen regressiomalli on erittäin käyttökelpoinen malli kun oletetaan, että Bernoullin jakaumaa noudattavan selitettävän muuttujan Y tulosvaihtoehdon 1 todennäköisyys πx) riippuu epälineaarisesti selittävän muuttujan x arvoista. Logistisessa regressiomallissa π:n ja x:n välinen riippuvuus havainnon i tilanteessa noudattaa yhtälöä πx i ) = eβ 0+β 1 x i 1 + e β 0+β 1 x i. 4.16) Logistisen regressiomallin tilanteessa vedonlyöntikerroin γx i ) on muotoa γx i ) = πx i) 1 πx i ) = eβ 0+β 1 x i, 4.17) ja täten logaritmoitu vedonlyöntikerroin noudattaa lineaarista yhtälöä ) πxi ) logγx i )) = log = logitπx i )) = β 0 + β 1 x i. 4.18) 1 πx i ) Logistinen regressiomalli on yleistetty lineaarinen malli, missä satunnaiskomponentti on binomijakautunut ja linkkifunktio gµ i ) on logit-linkki. Logit-linkki on binomijakauman tilanteessa kanooninen linkkifunktio. Logistista regressiomallia kutsutaan myös logit malliksi. Alla olevassa kuvassa on esitetty miltä π:n ja x:n välinen riippuvuus näyttää logistisen regressiomallin tilanteessa kun parametri β 1 > 0 ja β 1 < 0. π 0.0 0.2 0.4 0.6 0.8 1.0 π 0.0 0.2 0.4 0.6 0.8 1.0 2 0 2 4 6 x 2 0 2 4 6 x

LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA 24 4.5 Mallintaminen 2 2-ristiintaulukossa Tarkastellaan seuraavaa muuttujien X ja Y välistä 2 2-ristiintaulukkoa: y j = 1 0 Yhteensä x i = 1 π 1 1 π 1 1 0 π 2 1 π 2 1 Yhteensä π +1 π +2 1 Oletetaan nyt, että Y noudattaa Bernoullin jakaumaa Y Berπx)), missä todennäköisyys πx) riippuu X:n havaitusta arvosta x. Mikäli todennäköisyys π riippuu havaitusta arvosta x i lineaarisen todennäköisyysmallin mukaan niin silloin πx i ) = β 0 + β 1 x i, 4.19) β 1 = πx i = 1) πx i = 0). 4.20) Mikäli taas logistisessa regressiomalli kuvaa π:n ja x:n välistä riippuvuutta, niin silloin ) ) π1) π0) β 1 = logit[πx i = 1)] logit[πx i = 0)] = log log 1 π1) 1 π0) = log π1)/1 π1) π0)/1 π0) ). 4.21) Logistisen regressiomallin tilanteessa siis parametri β 1 on logaritmoitu vedonlyöntisuhde logθ). 4.6 Yleistetty lineaarinen malli frekvenssidatan tilanteessa Oletetaan, että selitettävä muuttuja Y saa ei-negatiivisia kokonaislukuarvoja ja noudattaa Poissonin jakaumaa parametrilla λ, Y P oiλ). Tällöin Y :n odotusarvo ja varianssi ovat µ = λ ja σ 2 = λ. Poissonin jakaumaa noudattavan selitettävän muuttujan Y odotusarvoa µ voidaan mallintaa yleistetyllä lineaarisella mallilla, missä linkkifunktio on identtilinkki. Tällöin odotusarvon µ ja selittävän muuttujan x välinen riippuvuus havainnon i tilanteessa noudattaa Poissonin lineaarista regressiomallia µ i = β 0 + β 1 x i. 4.22)

LUKU 4. YLEISTETTYJEN LINEAARISTEN MALLIEN TEORIAA 25 Useimmin Poissonin jakauman tilanteessa kuitenkin mallinnetaan logaritmoitua odotusarvoa logµ). Poissonin log-lineaarinen malli on yleistetty lineaarinen malli, missä siis linkkifunktio on log-linkki: logµ i ) = β 0 + β 1 x i. 4.23) Poissonin log-lineaarisen mallin tilanteessa havainnon i odotusarvo µ i riippuu epälineaarisesti selittävästä muuttujasta x i : µ i = e β 0+β 1 x i = e β 0 e 1) β xi. 4.24) Poissonin log-lineaariselle mallille tyypillinen ongelma on se, että datassa selitettävän muuttujan varianssi on suurempi verrattuna mallin antamaan varianssiin. Poissonin jakauman tilanteessa odotusarvon ja varianssin pitäisi olla yhtä suuret. Usein kuitenkin käytännön aineistoissa selitettävän muuttujan varianssi on suurempi kuin mitä Poissonin log-lineaarinen mallin mukaan varianssin pitäisi olla annetulla selittävän muuttujan x i arvolla. Tälläistä ilmiötä kutsutaan ylihajonnaksi. 4.7 Poissonin log-lineaarinen malli I J-ristiintaulukossa Poissonin log-lineaarista mallia voidaan käyttää mallintamaan ristiintaulukon solufrekvenssejä. Olkoon Y ij :t I J-ristiintaulukon solufrekvenssejä, jotka noudattavat Poissonin jakaumaa Y ij P oiµ ij ). Oletetaan, että ristiintaulukon rivi-ja sarakemuuttujat ovat riippumattomia, eli solutodennäköisyyksille on voimassa Tällöin odotetut frekvenssit µ ij ovat muotoa ja siten logaritmoidut odotusarvot muotoa π ij = π i+ π +j. 4.25) µ ij = n ++ π ij = n ++ π i+ π +j, 4.26) logµ ij ) = logn ++ ) + logπ i+ ) + logπ +j ) = α + β i + γ j. 4.27) Eli jos ristiintaulukon rivi-ja sarakemuuttujat ovat riippumattomia, log-lineaarisessa mallissa on rivi-ja sarakemuuttujien päävaikutukset muttei niiden yhdysvaikutuksia.

Luku 5 Logistinen regressio 5.1 Mallin perusteet Logistinen regressiomalli on tärkein binaarisen selitettävän muuttujan malli. Olkoon Y Bernoullin jakaumaa noudattava selitettävä muuttuja ja olkoon X selittävä muuttuja. Merkitään Logistisessa regressiomallissa oletetaan, että πx) = P Y = 1 X = x). 5.1) πx) = eβ 0+β 1 x 1 + e β 0+β 1 x, 5.2) eli, että logaritmoitu vedonlyönti kerroin γx) on lineaarisesti riippuvainen selittävästä muuttujasta X: ) πx) logγx)) = log = logitπx)) = β 0 + β 1 x. 5.3) 1 πx) Jos selittäviä muuttujia on useita X = X 1, X 2,..., X k ) ja πx) = P Y = 1 X = x), 5.4) niin silloin logistinen regressiomalli on muotoa ) πx) gπx)) = log = logitπx)) = β 0 + β 1 x 1 + β 2 x 2 + + β k x k. 5.5) 1 πx) Logistinen regressiomalli on yleistetty lineaarinen malli, missä linkkifunktio g on logitlinkki. Tarkastellaan logistista regressiomallia ) πx) log = logitπx)) = β 0 + β 1 x. 5.6) 1 πx) 26

LUKU 5. LOGISTINEN REGRESSIO 27 Jos β 1 > 0, niin πx) kasvaa kun x kasvaa. Jos β 1 = 0, niin todennäköisyys πx) ei riipu selittävästä muuttujasta ja siten Y on riippumaton X:stä. Tarkastellaan logistisen regressiomallin arvoja X:n arvoilla X = x ja X = x + 1. Tällöin logaritmoitu vedonlyöntisuhde θ x+1 x on muotoa logθ x+1 x ) = log πx+1) 1 πx+1) πx+1) 1 πx+1) = log ) ) πx + 1) πx) log 1 πx + 1) 1 πx) = β 0 + β 1 x + 1) β 0 + β 1 x)) = β 1, 5.7) ja siten θ x+1 x = e β 1 ja ˆθ x+1 x = e ˆβ 1. Tarkastellaan logistisen regressiomallin tilanteessa hypoteesia Tällöin Waldin testisuure H 0 : β 1 = 0. 5.8) Z = ˆβ 1 ˆσ ˆβ 1 ) 5.9) noudattaa asymptoottisesti standardoitua normaalijakaumaa H 0 hypoteesin ollessa voimassa. H 0 hypoteesi voidaan testata myös devianssien avulla. Tarkastellaan malleja M 0 ja M 1 : ) πx) M 0 : log = logitπx)) = β 0, 1 πx) ) πx) M 1 : log = logitπx)) = β 0 + β 1 x. 1 πx) Tällöin mallien M 0 ja M 1 devianssien erotus DM 0 ) DM 1 ) 5.10) noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = 1 kun H 0 hypoteesi on voimassa. Waldin testisuureen avulla voidaan muodostaa parametrille β 1 1001 α)% asymptoottinen luottamusväli käyttäen kaavaa missä P Z > z α/2 ) = α/2 kun Z N0, 1). ˆβ 1 ± z α/2ˆσ ˆβ 1 ), 5.11) Todennäköisyydelle πx) voidaan luoda luottamusestimaatti logistisen regressiomallin kautta. Logit-linkin suurimman uskottavuuden estimaatti on muotoa logitˆπx)) = ˆβ 0 + ˆβ 1 x, 5.12)

LUKU 5. LOGISTINEN REGRESSIO 28 ja estimoidun logit-linkin varianssi on muotoa σ 2 logitˆπx))) = Var logitˆπx))) = Var ˆβ0 + ˆβ ) 1 x = Var ˆβ 0 ) + x 2 Var ˆβ 1 ) + 2x Cov ˆβ 0, ˆβ 1 ). 5.13) Estimoidun logit-linkin estimoitu varianssi ˆσ 2 logitˆπx))) saadaan sitten laskettua korvaamalla varianssin kaavassa tuntemattomat varianssit ja kovarianssit niiden estimaateilla. Estimoidun varianssin avulla voidaan logit-linkille muodostaa 1001 α)% asymptoottinen luottamusväli käyttäen kaavaa ˆβ 0 + ˆβ 1 x ± z α/2ˆσ logitˆπx))). 5.14) Täten todennäköisyydelle πx) voidaan muodostaa luottamusväliestimaatti laskemalla logit-linkin käänteisfunktion arvot logit-linkin luottamusväliestimaatin päätepisteiden arvoilla ˆβ0+ ˆβ1x zα/2ˆσlogitˆπx))) ˆβ e 1 + e ˆβ 0 + ˆβ, e 0 + ˆβ ) 1 x+z α/2ˆσlogitˆπx))) 1 x z α/2ˆσlogitˆπx))) 1 + e ˆβ 0 + ˆβ. 5.15) 1 x+z α/2ˆσlogitˆπx))) 5.2 Mallin arvioiminen Tarkastellaan seuraavaksi kahta hierarkista logistista regressiomallia M 1 ja M 2 : ) πxi ) M 1 : log = logitπx i )) = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip, 1 πx i ) ) πxi ) M 2 : log = logitπx i )) = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik, 1 πx i ) missä p < k. Tällöin mallien M 1 ja M 2 devianssien erotus DM 1 ) DM 2 ) 5.16) noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = k p mikäli mallin M 1 osalta tietyt jakaumaoletukset ovat kunnossa n i x i ) riittävän suuri). Devianssien erotus saa suuria arvoja tilanteessa, jossa malli M 1 sopii aineistoon huonommin verrattuna malliin M 2. Devianssien erotuksella voidaan siis vertailla mallien M 1 ja M 2 sopivuutta dataan. Yksittäisen mallin M 1 riittävyyttä verrattuna kyllästettyyn malliin K voidaan testata devianssilla DM 1 ), mikäli jokaisella x i arvolla n i x i ) 5. Tällöin devianssi DM 1 ) noudattaa asymptoottisesti χ 2 -jakaumaa vapausastein df = N 1 p, missä N 1 on eri x i vektoreiden lukumäärä. Vaihtoehtoinen tapa tarkastella mallien M 1 ja M 2 paremmuutta on laskea malleista Akaikenin informaatio kriteerit AIC: AICM 1 ) = 2[logL M1 ˆβ)) p], 5.17) AICM 2 ) = 2[logL M2 ˆβ)) k]. 5.18)

LUKU 5. LOGISTINEN REGRESSIO 29 Malli, millä on pienempi AIC arvo, on Akaikenin informaatio kriteerin mukaan parempi. Malleista M 1 ja M 2 voidaan laskea myös lineaarisen mallin selitysastetta vastaava Naglekerken arvo: R 2 M 1 ) = 1 edm 1) DM 0 ))/n ++ 1 e DM 0)/n ++, 5.19) R 2 M 2 ) = 1 edm 2) DM 0 ))/n ++ 1 e DM 0)/n ++, 5.20) missä DM 0 ) on devianssi mallista ) πxi ) M 0 : log = logitπx i )) = β 0. 1 πx i ) Naglekerken selitysaste saa arvoja väliltä 0 R 2 1. 5.3 Residuaalit logistisessa regressiomallissa Olkoon ˆπx i ) logistisen regressiomallin antama sovite todennäköisyydelle πx i ) selittävien muuttujien x i arvoilla. Jos x i arvoilla on toistettu Bernoullin koetta n i x i ) kertaa, niin Pearsonin residuaali määritellään suhteena e i = y ix i ) n i x i )ˆπx i ) ni x i )ˆπx i )1 ˆπx i )), 5.21) missä y i x i ) on onnistumisten lukumäärä arvoilla x i. Standardoitu residuaali on puolestaan määritelty suhteena r i = y i x i ) n i x i )ˆπx i ), 5.22) n i x i )ˆπx i )1 ˆπx i ))1 ĥix i )) missä ĥix i ) on selittävien muuttujien arvoista riippuva leverage arvo. Logistisesta regressiomallista voidaan laskea myös devianssiresiduaalit missä q i = 2 d i = q i signy i x i ) n i x i )ˆπx i )), 5.23) ) )) yi x i ) ni x i ) y i x i ) y i x i ) log + n i x i ) y i x i )) log. n i x i )ˆπx i ) n i x i ) n i x i )ˆπx i ) Muodostamalla pisteparvikuvioita residuaaleista ja selittävistä muuttujista tai logitˆπx i )) sovitearvoista, voidaan kuvien avulla yrittää löytää mahdollisia syitä miksei malli mahdollisesti sovi tarpeeksi hyvin dataan. Kun n i x i ) = 1 residuaalien käyttökelpoisuus on kuitenkin hyvin rajallinen.

LUKU 5. LOGISTINEN REGRESSIO 30 5.4 Luokitteluasteikolliset selittävät muuttujat Olkoon Y Bernoullin jakaumaa noudattava selitettävä muuttuja ja olkoon X 1 ja X 2 binaarisia selittäviä muuttujia, jotka siten voivat saada kaksi toisensa poissulkevaa tulosvaihtoehtoa. Tässä tilanteessa satunnaisotoksen Y 1, Y 2,..., Y n tulokset voidaan siten esittää 2 2 2-ristiintaulukon avulla, missä todennäköisyyksillä on voimassa ristiintaulukko y k = 1 0 Yhteensä x i1 = 1 x j2 = 1 π1, 1) 1 π1, 1) 1 0 π1, 0) 1 π1, 0) 1 x i1 = 0 x j2 = 1 π0, 1) 1 π0, 1) 1 0 π0, 0) 1 π0, 0) 1 Yhteensä π ++1 π ++2 1 Mallinnetaan todennäköisyyttä P Y = 1 X 1 = x 1, X 2 = x 2 ) = πx 1, x 2 ) logistisella regressiomallilla logitπx)) = β 0 + β 1 x 1 + β 2 x 2. 5.24) Mallia kutsutaan päävaikutusmalliksi. Muuttujat x 1 ja x 2 ovat indikaattorimuuttujia, jotka voivat saada arvoja 0 tai 1. Jos logistiseen regressiomalliin lisätään muuttujien x 1 ja x 2 yhteisvaikutus, on malli muotoa logitπx)) = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2. 5.25) Yllä olevien mallien avulla voidaan tutkia, että selittävätkö kummatkin muuttujat X 1 ja X 2 selitettävän muuttujan Y arvoja, ja onko muuttujilla X 1 ja X 2 lisäksi vielä yhdysvaikutusta muuttujan Y arvoihin. Mikäli muuttujilla X 1 ja X 2 olisi I ja J eri toisensa poissulkevaa tulosvaihtoehtoa, voidaan päävaikutusmalli kuvata parametrein logitπx)) = β 0 + β x 1 i + β x 2 j, 5.26) missä tuntemattomia parametreja β i on I 1 kappaletta ja parametreja β j J 1 kappaletta. Eli β x 1 i tarkoittaa samaa kuin β x 1 i = β 11 x 11 + β 12 x 12 + + β 1I 1) x 1I 1), 5.27) missä x 11, x 12,..., x 1I 1) ovat kaikki indikaattorimuuttujia saaden arvoja 0 tai 1 riippuen muuttujan X 1 tulosvaihtoehdon toteutumisesta.

LUKU 5. LOGISTINEN REGRESSIO 31 5.5 Moniluokkaiset logit mallit Logistisen regressiomallin tilanteessa olettiin, että selitettävä muuttuja Y on binaarinen Bernoullin jakaumaa Y Berπ) noudattava satunnaismuuttuja, missä logitlinkkifunktio riippuu selittävästä muuttujasta X lineaarisesti ) πx) log = logitπx)) = β 0 + β 1 x. 5.28) 1 πx) Moniluokkaiset logit mallit ovat logistisen regressiomallin yleistyksiä tilanteeseen, missä selitettävällä muuttujalla Y on J toisensa poissulkevaa tulosvaihtoehtoa. Merkitään tulosvaihtoehtojen J todennäköisyyksiä vektorilla π = π 1, π 2,..., π J ). 5.29) Moniluokkaisissa logit malleissa valitaan jokin todennäköisyyksistä π 1, π 2,..., π J vertailukohdaksi, esim. todennäköisyys π 1, ja sen jälkeen mallinnetaan logaritmoituja vedonlyöntikertoimia ) πj log, j = 2, 3,..., J. 5.30) π 1 Moniluokkaisissa logit malleissa logaritmoidut vedonlyöntikertoimet riippuvat sitten lineaarisesti selittävästä muuttujasta X: ) πj log = α j + β j x, j = 2, 3,..., J. 5.31) π 1 Täten moniluokkaisten logit mallien tilanteessa todennäköisyydet π j ovat muotoa π j = e α j+β j x 1 + J h=2 eα h+β h x. 5.32) 5.6 Kumulatiiviset logit mallit Jos selitettävä muuttuja Y on järjestysasteikollinen muuttuja, voidaan luokkien J luonnollinen järjestys ottaa mukaan analyysiin mallintamalla kumulatiivisia todennäköisyyksiä logit malleilla. Kumulatiiviset todennäköisyydet määritellään seuraavasti: P Y j x) = π 1 + π 2 + + π j, j = 1,..., J. 5.33) Yksi mahdollinen tapa mallintaa kumulatiivisia todennäköisyyksiä on käyttää suhteellisten vedonlyöntikertoimien kumulatiivista logit mallia ) P Y j) log = α j + βx, j = 1,..., J 1. 5.34) 1 P Y j) Suhteellisten vedonlyöntikertoimien kumulatiivisessa logit mallissa parametri β on sama jokaisessa J 1 yhtälössä.