χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A

Samankaltaiset tiedostot
χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

Testit laatueroasteikollisille muuttujille

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Sovellettu todennäköisyyslaskenta B

Testejä suhdeasteikollisille muuttujille

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

D ( ) E( ) E( ) 2.917

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Testit järjestysasteikollisille muuttujille

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Mat Sovellettu todennäköisyyslasku. Aiheet: Todennäköisyyslaskennan peruskäsitteet Todennäköisyyslaskennan peruslaskusäännöt Avainsanat:

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Varma tapahtuma, Yhdiste, Yhdistetty tapahtuma, Yhteenlaskusääntö

Sovellettu todennäköisyyslaskenta B

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

10. laskuharjoituskierros, vko 14, ratkaisut

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Ilkka Mellin (2008) 1/5

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

5. laskuharjoituskierros, vko 8, ratkaisut

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

tilastotieteen kertaus

Harjoitus 2: Matlab - Statistical Toolbox

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

4. laskuharjoituskierros, vko 7, ratkaisut

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Normaalijakaumasta johdettuja jakaumia

(x, y) 2. heiton tulos y

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Mat Sovellettu todennäköisyyslasku A

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

Sovellettu todennäköisyyslaskenta B

D ( ) Var( ) ( ) E( ) [E( )]

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen aineisto Luottamusväli

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyden ominaisuuksia

Hypoteesin testaus Alkeet

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

3. laskuharjoituskierros, vko 6, ratkaisut

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Olkoon R S otosavaruuksien R ja S karteesinen tulo: Satunnaismuuttujien X ja Y järjestetty pari (X, Y) määrittelee kaksiulotteisen satunnaismuuttujan:

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Mat Sovellettu todennäköisyyslasku A

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

5.7 Uskottavuusfunktioon perustuvia testejä II

Moniulotteisia todennäköisyysjakaumia

Transkriptio:

Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Estimointi, Havaittu frekvenssi, Heterogeenisuus, Homogeenisuus, Jakaumaoletus, χ 2 -jakauma, χ 2 -homogeenisuustesti, χ 2 -riippumattomuustesti, χ 2 -testi, χ 2 -yhteensopivuustesti, Merkitsevyystaso, Nollahypoteesi, Odotettu frekvenssi, Parametri, p-arvo, Riippumattomuus, Testi, Vapausasteet, Yhteensopivuus 11.1. Kahdelle henkilölle A ja B on kummallekin annettu noppa ja kumpaakin on pyydetty heittämään sitä 120 kertaa. A ja B kertovat saaneensa heittojen tuloksena alla esitetyt silmälukujen jakaumat. (a) (b) Tutki χ 2 -yhteensopivuustestin avulla voidaanko A:n ja B:n heittämiä noppia pitää virheettöminä eli symmetrisinä? Tämä tapahtuu testaamalla nollahypoteesia, että nopanheiton tulos noudattaa diskreettiä tasaista jakaumaa. Suuret χ 2 -testisuureen arvot johtavat nollahypoteesin hylkäämiseen. Tutki χ 2 -yhteensopivuustestin avulla, kuinka todennäköistä on se, että A ja B ovat rehellisiä kertoessaan heittäneensä noppaa? Tämä tapahtuu testaamalla nollahypoteesia, että nopanheiton tulos noudattaa diskreettiä tasaista jakaumaa. Pienet χ 2 -testisuureen arvot viittaavat siihen, että tulokset ovat liian hyviä ollakseen todellisia. Käytä (a)-kohdan testeissä sekä 1 %:n että 5 %:n merkitsevyystasoja ja (b)-kohdan testeissä 1 %:n merkitsevyystasoa. Silmäluku 1 2 3 4 5 6 A:n tulokset 12 16 20 17 22 33 B:n tulokset 19 21 19 21 19 21 Ratkaisu: χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta k 2 ( Oi Ei) χ = E i= 1 O i = havaittu frekvenssi luokassa i E i = odotettu frekvenssi luokassa i i 2 TKK/SAL @ Ilkka Mellin (2004) 1/15

Huomaa, että k k Oi = Ei = n i= 1 i= 1 n on havaintojen kokonaislukumäärä. Odotetut frekvenssit E i määrätään käyttämällä hyväksi nollahypoteesia H 0 : Havainnot noudattavat todennäköisyysjakauma F(x) Nollahypoteesin pätiessä χ 2 -testisuure noudattaa suurissa otoksissa approksimatiivisesti χ 2 - jakaumaa vapausastein f = k 1 m, k on luokkien lukumäärä ja m on odotettujen frekvenssien E i määräämiseksi estimoitavien parametrien lukumäärä. Tehtävän nollahypoteesi on Tällöin H 0 : Pr(Saadaan silmäluku i) = p = 1/6, i = 1, 2, 3, 4, 5, 6 E i = np = 20, i = 1, 2, 3, 4, 5, 6 A:n käyttämälle nopalle χ 2 -testisuureen arvoksi saadaan χ 2 = 13.1 Laskutoimitukset (Microsoft Excel ohjelmistolla): i O i E i (O i - E i ) 2 /E i 1 12 20 3.2 2 16 20 0.8 3 20 20 0 4 17 20 0.45 5 22 20 0.2 6 33 20 8.45 Sum 120 120 13.1 B:n käyttämälle nopalle χ 2 -testisuureen arvoksi saadaan χ 2 = 0.3 Laskutoimitukset (Microsoft Excel ohjelmistolla): i O i E i (O i - E i ) 2 /Ei 1 19 20 0.05 2 21 20 0.05 3 19 20 0.05 4 21 20 0.05 5 19 20 0.05 6 21 20 0.05 Sum 120 120 0.3 TKK/SAL @ Ilkka Mellin (2004) 2/15

Koska k = 6 ja m = 0 (yhtään parametria ei ole estimoitu), vapausasteiden lukumäärä testeissä on f = k 1 m = 6 1 0 = 5 χ 2 -jakauman taulukoiden mukaan 1 %:n merkitsevyystasoa vastaavat kriittiset arvot ovat, kun vapausasteiden luku f = 5: Jakauman oikea häntä: 15.09 Jakauman vasen häntä: 0.554 χ 2 -jakauman taulukoiden mukaan 5 %:n merkitsevyystasoa vastaavat kriittiset arvot ovat, kun vapausasteiden luku f = 5: Jakauman oikea häntä: 11.07 Jakauman vasen häntä: 1.15 (a) A:n noppa ja 1 %:n merkitsevyystaso: χ 2 = 13.1 < 15.09 = 1 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman oikealla hännällä niin nollahypoteesi jää voimaan 1 %:n merkitsevyystasolla A:n nopan tapauksessa. B:n noppa ja 1 %:n merkitsevyystaso: χ 2 = 0.3 < 15.09 = 1 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman oikealla hännällä niin nollahypoteesi jää voimaan 1 %:n merkitsevyystasolla B:n nopan tapauksessa. A:n noppa ja 5 %:n merkitsevyystaso: χ 2 = 13.1 > 11.07 = 5 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman oikealla hännällä niin nollahypoteesi hylätään 5 %:n merkitsevyystasolla A:n nopan tapauksessa. TKK/SAL @ Ilkka Mellin (2004) 3/15

B:n noppa ja 5 %:n merkitsevyystaso: χ 2 = 0.3 < 11.07 = 5 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman oikealla hännällä niin nollahypoteesi jää voimaan 5 %:n merkitsevyystasolla B:n nopan tapauksessa. (b) χ 2 -testisuureen liian pienet arvot viittaavat siihen, että havainnot noudattavat liian hyvin nollahypoteesin kiinnittämää jakaumaa. A:n noppa ja 1 %:n merkitsevyystaso: χ 2 = 13.1 > 0.554 = 1 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman vasemmalla hännällä niin voimme päätellä, että A on todennäköisesti todella heittänyt noppaa. B:n noppa ja 1 %:n merkitsevyystaso: χ 2 = 0.3 < 0.554 = 1 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman vasemmalla hännällä niin, on epäuskottavaa, että B on heittänyt noppaa. B on todennäköisesti keksinyt nopanheiton tulokset, mutta on aliarvioinut satunnaisvaihtelun merkityksen. TKK/SAL @ Ilkka Mellin (2004) 4/15

11.2. Geiger-mittari laskee radoaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja, jonka voidaan olettaa noudattavan Poissonin jakaumaa. Erään aineen kohdalla rekisteröitiin emissioiden lukumäärät 101 samanmittaisella lyhyellä aikavälillä. Alla olevassa taulukossa on annettu emissioiden lukumäärien frekvenssit. Tutki χ 2 -testin avulla onko Poisson-jakaumaoletus sopusoinnussa havaintojen kanssa. Käytä testissä 5 %:n merkitsevyystasoa. Emissioiden lkm 0 1 2 3 4 5 Frekvenssi 40 34 18 5 2 2 Ratkaisu: χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta Huomaa, että k 2 ( Oi Ei) χ = E i= 1 i O i = havaittu frekvenssi luokassa i E i = odotettu frekvenssi luokassa i k k Oi = Ei = n i= 1 i= 1 n on havaintojen kokonaislukumäärä. 2 H 0 : Havainnot noudattavat todennäköisyysjakauma F(x) Nollahypoteesin pätiessä χ 2 -testisuure noudattaa suurissa otoksissa approksimatiivisesti χ 2 - jakaumaa vapausastein f = k 1 m, k on luokkien lukumäärä ja m on odotettujen frekvenssien E i määräämiseksi estimoitavien parametrien lukumäärä. Tehtävän nollahypoteesi on H 0 : Emissioiden lukumäärä noudattaa Poisson-jakaumaa Poisson-jakauman pistetodennäköisyysfunktio on x e λ λ f( x) = Pr( X = x) =, x = 0,1,2, x! TKK/SAL @ Ilkka Mellin (2004) 5/15

Parametrin λ suurimman uskottavuuden estimaattori on havaintojen aritmeettinen keskiarvo: 5 1 1 ioi n i = 0 x = = 103 = 1.0198 101 n = havaintojen kokonaislukumäärä = 101 O i = havaittu frekvenssi luokassa i Siten odotetut frekvenssit ovat E 0 = Pr(X = 0) n = 36.43 E 1 = Pr(X = 1) n = 37.15 E 2 = Pr(X = 2) n = 18.94 E 3 = Pr(X = 3) n = 6.44 E 4 = Pr(X = 4) n = 1.64 E 5 = Pr(X = 5) n = 0.33 Koska luokissa 4 ja 5 odotetut frekvenssit ovat < 5, luokat 4 ja 5 yhdistetään luokkaan 3. Sama tehdään vastaaville havaituille frekvensseille. χ 2 -testisuureen arvoksi saadaan χ 2 = 0.705 Laskutoimitukset (Microsoft Excel ohjelmistolla): i O i E i (O i - E i ) 2 /E i 0 40 36.43 0.350 1 34 37.15 0.267 2 18 18.94 0.047 3 tai yli 9 8.41 0.041 Sum 101 100.93 0.705 Koska k = 4 ja m = 1 (yksi parametri on estimoitu), vapausasteiden lukumäärä on f = k 1 m = 4 1 1 = 2 Siten 5 %:n merkitsevyystasoa vastaava kriittinen arvo on χ 2 -jakauman taulukoiden mukaan 5.99. χ 2 = 0.705 < 5.99 niin nollahypoteesi jää voimaan 5 %:n merkitsevyystasolla. Johtopäätös: Havainnot saattavat noudattaa Poisson-jakaumaa. TKK/SAL @ Ilkka Mellin (2004) 6/15

11.3. Erään tehtaan johto epäili, että työntekijöiden keskuuteen oli levinnyt tapa venyttää viikonlopun viettoa perjantaihin ja maanantaihin ilmoittautumalla sairaaksi. Asiaa tutkittiin neljän viikon ajan rekisteröimällä poissaolojen lukumäärät jokaisena työpäivänä. Keskiarvotiedot ko. ajanjaksolta on annettu alla olevassa taulukossa. (a) (b) Testaa nollahypoteesia, että poissaolojen lukumäärä jakautuu tasaisesti työpäiville. Yhdistä sekä perjantain ja maanantain että tiistain, keskiviikon ja torstain havainnot. Miten (a)-kohdan nollahypoteesia on tällöin modifioitava? Testaa modifioitua nollahypoteesia. Käytä testeissä 5 %:n merkitsevyystasoa. Viikonpäivä ma ti ke to pe Summa Poissaolojen lukumäärä (ka) 49 35 32 39 45 200 Ratkaisu: Käytämme tehtävän 11.1. testisuuretta. (a) Odotetut frekvenssit E j määrätään käyttäen nollahypoteesia H 0 : Poissaolot jakautuvat tasaisesti eri viikonpäiville Nollahypoteesin pätiessä χ 2 -testisuure noudattaa suurissa otoksissa approksimatiivisesti χ 2 -jakaumaa vapausastein f = k 1 m, k on luokkien lukumäärä ja m on odotettujen frekvenssien E i määräämiseksi estimoitavien parametrien lukumäärä. Odotetut frekvenssit: Viikonpäivä ma ti ke to pe Summa Poissaolojen lukumäärä 40 40 40 40 40 200 χ 2 -testisuureen arvoksi saadaan χ 2 = 4.90 TKK/SAL @ Ilkka Mellin (2004) 7/15

Laskutoimitukset (Microsoft Excel ohjelmistolla): Päivä ma ti ke to pe Summa O i 49 35 32 39 45 200 E i 40 40 40 40 40 200 Khi 2 2.025 0.625 1.6 0.025 0.625 4.90 Koska k = 5 ja m = 0 (yhtään parametria ei ole estimoitu), vapausasteiden lukumäärä on f = k 1 m = 5 1 0 = 4 Siten 5 %:n merkitsevyystasoa vastaava kriittinen arvo on χ 2 -jakauman taulukoiden mukaan 9.488. χ 2 = 4.90 < 9.488 niin nollahypoteesi jää voimaan 5 %:n merkitsevyystasolla. Johtopäätös: Poissaolot saattavat jakautua tasaisesti eri viikonpäiville. (b) Yhdistämällä sekä perjantain ja maanantain havainnot sekä tiistain, keskiviikon ja torstain havainnot saadaan seuraava havaittujen frekvenssien taulukko: Viikonpäivä pe-ma ti-ke-to Summa Poissaolojen lukumäärä (ka) 94 106 200 Vastaava yhdistäminen (a)-kohdan odotettujen frekvenssien taulukossa tuottaa taulukon Viikonpäivä pe-ma ti-ke-to Summa Poissaolojen lukumäärä 80 120 200 χ 2 -testisuureen arvoksi saadaan χ 2 = 4.08 TKK/SAL @ Ilkka Mellin (2004) 8/15

Laskutoimitukset (Microsoft Excel ohjelmistolla): Päivä pe-ma ti-ke-to Summa O i 94 106 200 E i 80 120 200 Khi 2 2.45 1.63 4.08 Koska k = 2 ja m = 0 (yhtään parametria ei ole estimoitu), vapausasteiden lukumäärä on f = k 1 m = 2 1 0 = 1 Siten 5 %:n merkitsevyystasoa vastaava kriittinen arvo on χ 2 -jakauman taulukoiden mukaan 3.841. χ 2 = 4.08 > 3.841 niin nollahypoteesi voidaan hylätä 5 %:n merkitsevyystasolla. Johtopäätös: Poissaolojen jakautumisessa voidaan havaita viikonloppuefekti. Opetus: Köytetty luokitus vaikuttaa χ 2 -yhteensopivuustestin tulokseen. 11.4. Erään rokotuskokeen tulokset on esitetty alla. eri (a) (b) Testaa nollahypoteesia, että rokotettujen ja rokottamattomien sairastuvuudessa ei ole eroa käyttäen suhteellisten osuuksien vertailuun tarkoitettua testiä. Sovella rokotuskokeen tuloksiin χ 2 -testiä, kun nollahypoteesi olettaa, että sairastuvuus ei riipu rokotuksesta. Käytä molemmissa testeissä 5 %:n merkitsevyystasoa. Vertaa (a)- ja (b)-kohtien testien tuloksia toisiinsa. Voivatko (a)- ja (b)-kohtien testit johtaa tulokseen? Sairastuminen Rokotus Sairastui S Ei sairastunut ei-s Rokotettiin R 9 42 Ei rokotettu ei-r 17 28 TKK/SAL @ Ilkka Mellin (2004) 9/15

Ratkaisu: (a) Nollahypoteesina on H 0 : p 1 = p 2 p 1 = todennäköisyys sairastua, jos on rokotettu p 2 = todennäköisyys sairastua, jos ei ole rokotettu Suhteellisten osuuksien vertailuun käytetään testisuuretta (ks. 10. harjoitukset) z = npˆ pˆ = n pˆ pˆ 1 2 1 1 pˆ(1 pˆ) + n1 n2 + npˆ + n 1 1 2 2 1 2 Nollahypoteesin pätiessä testisuure z on jakautunut suurissa otoksissa approksimatiivisesti kuten standardoitu normaalijakauma N(0,1). Tehtävän tapauksessa: ˆp 1 = 9/(9 + 42) = 0.18 n 1 = 9 + 42 = 51 ˆp 2 = 17/(17 + 28) = 0.38 n 2 = 17 + 28 = 45 ˆp = 0.27 z = 2.21 Olkoon vaihtoehtoinen hypoteesi 1-suuntainen: H 1 : Sairastuvuus on rokotettujen joukossa pienempää Tällöin 5 %:n merkitsevyystasoa vastaavaksi kriittiseksi arvoksi saadaan normaalijakauman taulukosta Koska 1.65 z = 2.21 < 1.65 niin nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi hyväksytään. Johtopäätös: Sairastuvuus on rokotettujen joukossa pienempää kuin rokottamattomien joukossa. TKK/SAL @ Ilkka Mellin (2004) 10/15

(b) Käytetään testisuuretta 2 χ r c ( O ) 2 ij Eij = E i= 1 j= 1 ij odotetut frekvenssit E ij määrätään käyttäen nollahypoteesia H 0 : Sairastumistodennäköisyys ei riipu rokotuksesta Nollahypoteesin pätiessä χ 2 -testisuure on jakautunut suurissa otoksissa approksimatiivisesti χ 2 -jakauman mukaan vapausastein (r 1)(c 1), r = frekvenssitaulun rivien lukumäärä c = frekvenssitaulun sarakkeiden lukumäärä Odotetut frekvenssit E ij saadaan kaavasta E ij = R i C j /n R i = i. rivisumma C j = j. sarakesumma n = kokonaissumma Tehtävän tapauksessa χ 2 -testisuureen arvoksi saadaan χ 2 = 4.91 Laskutoimitukset (Microsoft Excel ohjelmalla): O ij S ei-s Sum R 9 42 51 ei-r 17 28 45 Sum 26 70 96 E ij S ei-s Sum Tark R 13.8125 37.1875 51 51 ei-r 12.1875 32.8125 45 45 Sum 26 70 96 Tark 26 70 Khi 2 S ei-s Sum R 1.676753 0.622794 2.299548 ei-r 1.900321 0.705833 2.606154 Sum 3.577074 1.328627 4.905701 Vapausasteiden lukumäärä on tässä f = (r 1)(c 1) = (2 1)(2 1) =1 TKK/SAL @ Ilkka Mellin (2004) 11/15

Siten 5 %:n merkitsevyystasoa vastaavaksi kriittiseksi arvoksi saadaan χ 2 -jakauman taulukosta 3.84 Koska testisuureen arvo χ 2 = 4.91 > 3.84 niin nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi hyväksytään. Johtopäätös: Sairastumistodennäköisyys riippuu rokotuksesta. Huomautus: (a)-kohdan z-testisuureen arvon neliö on täsmälleen sama kuin (b)-kohdan χ 2 - testisuureen arvo. Tämä ei ole sattumaa, vaan perustuu χ 2 -testisuureen ja χ 2 --jakauman ominaisuuksiin 2 2-frekvenssitaulun tapauksessa. On hyvä muistaa, että z-testin ja χ 2 -testin ekvivalenssia 2 2-frekvenssitaulun tapauksessa ei voi yleistää. 11.5. Kahdelle henkilölle A ja B on kummallekin annettu noppa ja kumpaakin on pyydetty heittämään sitä 120 kertaa. A ja B kertovat saaneensa heittojen tuloksena alla esitetyt silmälukujen jakaumat. Tutki χ 2 -testin avulla, onko mahdollista, että A ja B ovat käyttäneet samaa noppaa. Tämä tapahtuu χ 2 -homogeenisuustestiä käyttämällä. Käytä testissä 5 %:n merkitsevyystasoa. Silmäluku 1 2 3 4 5 6 A:n tulokset 16 18 19 22 19 26 B:n tulokset 12 16 20 17 22 33 Ratkaisu: Tehtävän ratkaisussa käytetään tehtävän 11.4. kohdan (b) χ 2 -testisuuretta, odotetut frekvenssit E ij määrätään tällä kertaa käyttäen nollahypoteesia H 0 : A- ja B-frekvenssit ovat peräisin samasta todennäköisyysjakaumasta Nollahypoteesin pätiessä χ 2 -testisuure on jakautunut suurissa otoksissa approksimatiivisesti χ 2 -jakauman mukaan vapausastein (r 1)(c 1), r = frekvenssitaulun rivien lukumäärä c = frekvenssitaulun sarakkeiden lukumäärä TKK/SAL @ Ilkka Mellin (2004) 12/15

Odotetut frekvenssit saadaan kaavasta E ij = n i C j /n n i = i. rivisumma C j = j. sarakesumma n = kokonaissumma Tehtävän tapauksessa χ 2 -testisuureen arvoksi saadaan χ 2 = 2.41 Laskutoimitukset (Microsoft Excel -ohjelmalla): O ij 1 2 3 4 5 6 Sum A 16 18 19 22 19 26 120 B 12 16 20 17 22 33 120 Sum 28 34 39 39 41 59 240 E ij 1 2 3 4 5 6 Sum A 14 17 19.5 19.5 20.5 29.5 120 B 14 17 19.5 19.5 20.5 29.5 120 Sum 28 34 39 39 41 59 240 Khi 2 1 2 3 4 5 6 Sum A 0.285714 0.058824 0.012821 0.320513 0.109756 0.415254 1.202881 B 0.285714 0.058824 0.012821 0.320513 0.109756 0.415254 1.202881 Sum 0.571429 0.117647 0.025641 0.641026 0.219512 0.830508 2.405763 Vapausteiden lukumäärä on tässä f = (r 1)(c 1) = (2 1)(6 1) = 5 Siten 5 %:n merkitsevyystasoa vastaava kriittiseksi arvoksi saadaan χ 2 -jakauman taulukosta 11.07 Koska testisuureen arvo χ 2 = 2.41 < 11.07 niin nollahypoteesi jää voimaan. Johtopäätös: A:n ja B:n tulokset voivat olla peräisin samasta nopasta. TKK/SAL @ Ilkka Mellin (2004) 13/15

11.6. Alla oleva taulukko koskee USA:n äänioikeutettujen joukosta poimittua pientä otosta. Otoksesta on määrätty äänioikeutettujen puoluekanta ja suhtautuminen käsiaseiden rajoituksiin. Ovatko puoluekanta ja suhtautuminen aserajoituksiin toisistaan riippumattomia? Käytä χ 2 -riippumattomuustestissä 0.5 %:n merkitsevyystasoa. Suhtautuminen aserajoituksiin Puoluekanta Puoltaa Ei kantaa Vastustaa Demokraatti 110 26 64 Republikaani 90 14 116 Riippumaton 55 10 35 Ratkaisu: Käytetään tehtävän 11.4. kohdan (b) testisuuretta. Odotetut frekvenssit E ij määrätään käyttäen nollahypoteesia H 0 : Suhtautuminen aserajoituksiin ei riipu puoluekannasta Nollahypoteesin pätiessä χ 2 -testisuure on jakautunut suurissa otoksissa approksimatiivisesti χ 2 -jakauman mukaan vapausastein (r 1)(c 1), r = frekvenssitaulun rivien lukumäärä c = frekvenssitaulun sarakkeiden lukumäärä Odotetut frekvenssit saadaan kaavasta E ij = R i C j /n R i = i. rivisumma Havaitut frekvenssit: C j = j. sarakesumma n = kokonaissumma O ij Puoltaa Ei kantaa Vastustaa Yhteensä Dem 110 26 64 200 Rep 90 14 116 220 Riip 55 10 35 100 Yhteensä 255 50 215 520 TKK/SAL @ Ilkka Mellin (2004) 14/15

Odotetut frekvenssit: E ij Puoltaa Ei kantaa Vastustaa Yhteensä Dem 98.1 19.2 82.7 200 Rep 107.9 21.1 91.0 220 Riip 49.0 9.6 41.4 100 Yhteensä 255 50 215 520 χ 2 -testisuureen arvoksi saadaan χ 2 = 22.05 Laskutoimitukset (Microsoft Excel -ohjelmalla): O ij Puoltaa Ei kantaa Vastustaa Yhteensä Dem 110 26 64 200 Rep 90 14 116 220 Riip 55 10 35 100 Summa 255 50 215 520 E ij Puoltaa Ei kantaa Vastustaa Yhteensä Dem 98.1 19.2 82.7 200 Rep 107.9 21.2 91.0 220 Riip 49.0 9.6 41.3 100 Summa 255 50 215 520 Khi 2 Puoltaa Ei kantaa Vastustaa Yhteensä Dem 1.45 2.38 4.23 8.06 Rep 2.96 2.42 6.89 12.28 Riip 0.72 0.02 0.97 1.71 Summa 5.14 4.82 12.09 22.05 Vapausteiden lukumäärä on tässä f = (r 1)(c 1) = (3 1)(3 1) = 4 Siten 0.5 %:n merkitsevyystasoa vastaava kriittiseksi arvoksi saadaan χ 2 -jakauman taulukosta 14.86 Koska testisuureen arvo χ 2 = 22.05 > 14.86 niin nollahypoteesi hylätään merkitsevyystasolla 0.005. Johtopäätös: Puoluekanta ja suhtautuminen aserajoituksiin riippuvat toisistaan. TKK/SAL @ Ilkka Mellin (2004) 15/15