Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus, Jakaumaoletus, χ 2 -homogeenisuustesti, χ 2 - riippumattomuustesti, χ 2 -testi, χ 2 -yhteensopivuustesti, Merkitsevyystaso, Nollahypoteesi, Odotettu frekvenssi, Parametri, p-arvo, Riippumattomuus, Testi, Vapausasteet, Yhteensopivuus 1. Kahdelle henkilölle A ja B on kummallekin annettu noppa ja kumpaakin on pyydetty heittämään sitä 120 kertaa. A ja B kertovat saaneensa heittojen tuloksena alla esitetyt silmälukujen jakaumat. (a) Tutki avulla voidaanko A:n ja B:n heittämiä noppia pitää virheettöminä eli symmetrisinä? Tämä tapahtuu testaamalla nollahypoteesia, että nopanheiton tulos noudattaa diskreettiä tasaista jakaumaa. Suuret χ 2 -testisuureen arvot johtavat nollahypoteesin hylkäämiseen. (b) Tutki χ 2 -testin avulla, kuinka todennäköistä on se, että A ja B ovat rehellisiä kertoessaan heittäneensä noppaa? Tämä tapahtuu testaamalla nollahypoteesia, että nopanheiton tulos noudattaa diskreettiä tasaista jakaumaa. Pienet χ 2 -testisuureen arvot.viittaavat siihen, että tulokset ovat liian hyviä ollakseen todellisia. Käytä (a)-kohdan testeissä sekä 1 %:n että 5 %:n merkitsevyystasoja ja (b)-kohdan testeissä 1 %:n merkitsevyystasoa. Silmäluku 1 2 3 4 5 6 A:n tulokset 12 16 20 17 22 33 B:n tulokset 19 21 19 21 19 21 Ratkaisu: Testauksessa käytetään χ 2 -testisuuretta k 2 ( Oi Ei) χ = E i= 1 O i = havaittu frekvenssi luokassa i E i = odotettu frekvenssi luokassa i i 2 TKK/SAL @ Ilkka Mellin (2004) 1/13
Huomaa, että k k O = E = n i i= 1 i= 1 i n on havaintojen kokonaislukumäärä. Odotetut frekvenssit E i määrätään käyttämällä hyväksi nollahypoteesia H 0 : Havainnot ovat peräisin todennäköisyysjakaumasta F(x) Nollahypoteesin pätiessä χ 2 -testisuure noudattaa suurissa otoksissa approksimatiivisesti χ 2 - jakaumaa vapausastein f = k 1 m, k on luokkien lukumäärä ja m on odotettujen frekvenssien E i määräämiseksi estimoitavien parametrien lukumäärä. Tehtävässä: Nollahypoteesi on H 0 : Pr(Saadaan silmäluku i) = p = 1/6, i = 1, 2, 3, 4, 5, 6 Tällöin E i = np = 20, i = 1, 2, 3, 4, 5, 6 A:n käyttämälle nopalle χ 2 -testisuureen arvoksi saadaan χ 2 = 13.1 Laskutoimitukset (Microsoft Excel ohjelmistolla): i Oi Ei (Oi-Ei)^2/Ei 1 12 20 3.2 2 16 20 0.8 3 20 20 0 4 17 20 0.45 5 22 20 0.2 6 33 20 8.45 Sum 120 120 13.1 B:n käyttämälle nopalle χ 2 -testisuureen arvoksi saadaan χ 2 = 0.3 Laskutoimitukset (Microsoft Excel ohjelmistolla): i Oi Ei (Oi-Ei)^2/Ei 1 19 20 0.05 2 21 20 0.05 3 19 20 0.05 4 21 20 0.05 5 19 20 0.05 6 21 20 0.05 Sum 120 120 0.3 TKK/SAL @ Ilkka Mellin (2004) 2/13
Koska k = 6 ja m = 0 (yhtään parametria ei ole estimoitu), vapausasteiden lukumäärä on kummallekin testisuureen arvolle f = k 1 m = 6 1 0 = 5 1 %:n merkitsevyystasoa vastaavat kriittiset arvot ovat χ 2 -jakauman taulukoiden mukaan, kun vapausasteiden luku f = 5: Jakauman oikea häntä: 15.09 Jakauman vasen häntä: 0.554 5 %:n merkitsevyystasoa vastaavat kriittiset arvot ovat χ 2 -jakauman taulukoiden mukaan, kun vapausasteiden luku f = 5: Jakauman oikea häntä: 11.07 Jakauman vasen häntä: 1.15 (a) käyttämän A:n noppa: Koska χ 2 -testisuureen arvo χ 2 = 13.1 < 15.09 = 1 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman oikealla hännällä Nollahypoteesi jätetään voimaan 1%:n merkitsevyystasolla. B:n noppa: Koska χ 2 -testisuureen arvo χ 2 = 0.3 < 15.09 = 1 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman oikealla hännällä Nollahypoteesi jätetään voimaan 1%:n merkitsevyystasolla. Sen sijaan 5 %:n merkitsevyystasoa käytettässä nollahypoteesi hylätään A:n nopan tapauksessa, koska tällöin χ 2 -testisuureen arvo χ 2 = 13.1 > 11.07 = 5 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman oikealla hännällä TKK/SAL @ Ilkka Mellin (2004) 3/13
B:n käyttämän nopan tapauksessa nollahypoteesi jää voimaan, koska tällöin χ 2 - testisuureen arvo χ 2 = 0.3 < 11.07 = 5 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman oikealla hännällä (b) χ 2 -testisuureen liian pienet arvot viittaavat siihen, että havainnot noudattavat liian hyvin nollahypoteesin kiinnittämää jakaumaa. A:n noppa: Koska χ 2 -testisuureen arvo χ 2 = 13.1 > 0.554 = 1 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman vasemmalla hännällä A on todennäköisesti todella heittänyt noppaa. B:n noppa: Koska χ 2 -testisuureen arvo χ 2 = 0.3 < 0.554 = 1 %:n merkitsevyystasoa vastaava kriittinen arvo χ 2 jakauman vasemmalla hännällä On epäuskottavaa, että B on heittänyt noppaa. B on todennäköisesti keksinyt nopanheiton tulokset, mutta on aliarvioinut satunnaisvaihtelun merkityksen. 2. Geiger-mittari laskee radoaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja, jonka voidaan olettaa noudattavan Poissonin jakaumaa. Erään aineen kohdalla rekisteröitiin emissioiden lukumäärät 101 samanmittaisella lyhyellä aikavälillä. Alla olevassa taulukossa on annettu emissioiden lukumäärien frekvenssit. Tutki χ 2 -testin avulla onko Poisson-jakaumaoletus sopusoinnussa havaintojen kanssa. Käytä testissä 5 %:n merkitsevyystasoa. Emissioiden lkm 0 1 2 3 4 5 Frekvenssi 40 34 18 5 2 2 TKK/SAL @ Ilkka Mellin (2004) 4/13
Ratkaisu: Testauksessa käytetään χ 2 -testisuuretta k 2 ( Oi Ei) χ = E i= 1 O i = havaittu frekvenssi luokassa i E i = odotettu frekvenssi luokassa i i 2 Huomaa, että k k O = E = n i i= 1 i= 1 i n on havaintojen kokonaislukumäärä. Odotetut frekvenssit E i määrätään käyttämällä hyväksi nollahypoteesia H 0 : Havainnot ovat peräisin Poisson-jakaumasta Nollahypoteesin pätiessä χ 2 -testisuure noudattaa suurissa otoksissa approksimatiivisesti χ 2 - jakaumaa vapausastein f = k 1 m, k on luokkien lukumäärä ja m on odotettujen frekvenssien E i määräämiseksi estimoitavien parametrien lukumäärä. Tehtävässä: Nollahypoteesi on H 0 : Emissioiden lukumäärä noudattaa Poisson-jakaumaa Poisson-jakauman pistetodennäköisyysfunktio on x e λ λ f( x) = Pr( X = x) =, x = 0,1,2, x! Parametrin λ suurimman uskottavuuden estimaattori on havaintojen aritmeettinen keskiarvo: 5 1 1 ioi 103 1.0198 n i = 0 101 x = = = n = havaintojen kokonaislukumäärä = 101 O i = havaittu frekvenssi luokassa i TKK/SAL @ Ilkka Mellin (2004) 5/13
Siten odotetut frekvenssit ovat E 0 = Pr(X = 0) n = 36.43 E 1 = Pr(X = 1) n = 37.15 E 2 = Pr(X = 2) n = 18.94 E 3 = Pr(X = 3)) n = 6.44 E 4 = Pr(X = 4) n = 1.64 E 5 = Pr(X = 5) n = 0.33 Koska luokissa i = 4 ja 5 odotetut frekvenssit ovat < 5, yhdistetään ne luokkaan i = 3. Sama tehdään tietysti vastaaville havaituille frekvensseille. χ 2 -testisuureen arvoksi saadaan χ 2 = 0.705 Laskutoimitukset (Microsoft Excel ohjelmistolla): i Oi Ei (Oi-Ei)^2/Ei 0 40 36.43 0.350 1 34 37.15 0.267 2 18 18.94 0.047 3 tai yli 9 8.41 0.041 Sum 101 100.93 0.705 Koska k = 4 ja m = 1 (yksi parametri on estimoitu), vapausasteiden lukumäärä on kummallekin testisuureen arvolle f = k 1 m = 4 1 1 = 2 5 %:n merkitsevyystasoa vastaava kriittinen arvo on χ 2 -jakauman taulukoiden mukaan 5.99. Koska χ 2 -testisuureen arvo χ 2 = 0.705 < 5.99 nollahypoteesi jää voimaan 5 %:n merkitsevyystasolla. Johtopäätös: Havainnot saattavat noudattaa Poisson-jakaumaa. TKK/SAL @ Ilkka Mellin (2004) 6/13
3. Erään rokotuskokeen tulokset on esitetty alla. (a) Testaa nollahypoteesia, että rokotettujen ja rokottamattomien sairastuvuudessa ei ole eroa käyttäen suhteellisten osuuksien vertailuun tarkoitettua testiä. (b) Sovella rokotuskokeen tuloksiin χ 2 -testiä, kun nollahypoteesi olettaa, että sairastuvuus ei riipu rokotuksesta. Käytä testeissä 5 %:n merkitsevyystasoa. Vertaa (a)- ja (b)-kohtien testien tuloksia toisiinsa. Voivatko (a)- ja (b)-kohtien testit johtaa eri tulokseen? Sairastuminen Rokotus Sairastui Ei sairastunut Rokotettiin 9 42 Ei rokotettu 17 28 Ratkaisu: (a) Nollahypoteesina on H 0 : p 1 = p 2 p 1 = todennäköisyys sairastua, jos on rokotettu p 2 = todennäköisyys sairastua, jos ei ole rokotettu Suhteellisten osuuksien vertailun käytetään testisuuretta (ks. 10. harjoitukset) z = npˆ pˆ = n pˆ1 pˆ2 1 1 pˆ(1 pˆ) + n1 n2 + npˆ + n 1 1 2 2 1 2 Tehtävässä: ˆp 1 = 9/(9 + 42) = 0.18 n 1 = 9 + 42 = 51 ˆp 2 = 17/(17 + 28) = 0.38 n 2 = 17 + 28 = 45 ˆp = 0.27 z = 2.21. Nollahypoteesin pätiessä testisuure z on jakautunut suurissa otoksissa approksimatiivisesti kuten standardoitu normaalijakauma N(0,1). TKK/SAL @ Ilkka Mellin (2004) 7/13
Olkoon vaihtoehtoinen hypoteesi 1-suuntainen: H 1 : Sairastuvuus on rokotettujen joukossa pienempää Tällöin 5 %:n merkitsevyystasoa vastaava kriittiseksi rajaksi saadaan normaalijakauman taulukosta 1.65 Koska z = 2.21 < 1.65 nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi hyväksytään. Johtopäätös: Sairastuvuus on rokotettujen joukossa pienempää kuin rokottamattomien joukossa. (b) Käytetään testisuuretta 2 χ r c ( O ) 2 ij Eij = E i= 1 j= 1 ij odotetut frekvenssit E ij määrätään käyttäen nollahypoteesia H 0 : Sairastumistodennäköisyys ei riipu rokotuksesta. Nollahypoteesin pätiessä χ 2 -testisuure on jakautunut suurissa otoksissa approksimatiivisesti χ 2 -jakauman mukaan vapausastein (r 1)(c 1), r = frekvenssitaulun rivien lukumäärä c = frekvenssitaulun sarakkeiden lukumäärä Odotetut frekvenssit E ij lasketaan siis kaavalla E ij = R i C j /n, R i = i. rivisumma C j = j. sarakesumma n = kokonaissumma Tehtävässä: χ 2 = 4.91 TKK/SAL @ Ilkka Mellin (2004) 8/13
Laskutoimitukset (Microsoft Excel ohjelmalla): Oij S ei-s Sum R 9 42 51 ei-r 17 28 45 Sum 26 70 96 Eij S ei-s Sum Tark R 13.8125 37.1875 51 51 ei-r 12.1875 32.8125 45 45 Sum 26 70 96 Tark 26 70 Khi^2 S ei-s Sum R 1.676753 0.622794 2.299548 ei-r 1.900321 0.705833 2.606154 Sum 3.577074 1.328627 4.905701 Vapausasteiden lukumäärä on nyt f = (r 1)(c 1) = (2 1)(2 1) =1 Siten 5 %:n merkitsevyystasoa vastaava kriittiseksi rajaksi saadaan χ 2 -jakauman taulukosta 3.84 Koska testisuureen arvo χ 2 = 4.91 > 3.84 nollahypoteesi hylätään ja vaihtoehtoinen hypoteesi hyväksytään. Johtopäätös: Sairastumistodennäköisyys riippuu rokotuksesta. Huomautus: (a)-kohdan z-testisuureen arvon neliö on täsmälleen sama kuin (b)-kohdan χ 2 -testisuureen arvo. Tämä ei ole sattumaa, vaan perustuu χ 2 -testisuureen ja -jakauman ominaisuuksiin 2 2- frekvenssitaulun tapauksessa. TKK/SAL @ Ilkka Mellin (2004) 9/13
4. Kahdelle henkilölle A ja B on kummallekin annettu noppa ja kumpaakin on pyydetty heittämään sitä 120 kertaa. A ja B kertovat saaneensa heittojen tuloksena alla esitetyt silmälukujen jakaumat. Tutki χ 2 -testin avulla, onko mahdollista, että A ja B ovat käyttäneet samaa noppaa. Tämä tapahtuu χ 2 -homogeenisuustestiä käyttämällä. Käytä testissä 5 %:n merkitsevyystasoa. Silmäluku 1 2 3 4 5 6 A:n tulokset 16 18 19 22 19 26 B:n tulokset 12 16 20 17 22 33 Ratkaisu: Käytetään tehtävän 3 kohdan (b) χ 2 -testisuuretta, odotetut frekvenssit E ij määrätään tällä kertaa käyttäen nollahypoteesia H 0 : A- ja B-frekvenssit ovat peräisin samasta todennäköisyysjakaumasta. Nollahypoteesin pätiessä χ 2 -testisuure on jakautunut suurissa otoksissa approksimatiivisesti χ 2 -jakauman mukaan vapausastein (r 1)(c 1), r = frekvenssitaulun rivien lukumäärä c = frekvenssitaulun sarakkeiden lukumäärä Odotetut frekvenssit saadaan kaavasta E ij = n i C j /n n i = i. rivisumma C j = j. sarakesumma n = kokonaissumma Tehtävässä: χ 2 -testisuureen arvoksi saadaan χ 2 = 2.41 TKK/SAL @ Ilkka Mellin (2004) 10/13
Laskutoimitukset (Microsoft Excel -ohjelmalla): Oij 1 2 3 4 5 6 Sum A 16 18 19 22 19 26 120 B 12 16 20 17 22 33 120 Sum 28 34 39 39 41 59 240 Eij 1 2 3 4 5 6 Sum A 14 17 19.5 19.5 20.5 29.5 120 B 14 17 19.5 19.5 20.5 29.5 120 Sum 28 34 39 39 41 59 240 Khi^2 1 2 3 4 5 6 Sum A 0.285714 0.058824 0.012821 0.320513 0.109756 0.415254 1.202881 B 0.285714 0.058824 0.012821 0.320513 0.109756 0.415254 1.202881 Sum 0.571429 0.117647 0.025641 0.641026 0.219512 0.830508 2.405763 Vapausteiden lukumäärä on f = (r 1)(c 1) = (2 1)(6 1) = 5 Siten 5 %:n merkitsevyystasoa vastaava kriittiseksi arvoksi saadaan χ 2 -jakauman taulukosta 11.07 Koska testisuureen arvo χ 2 = 2.41 < 11.07 nollahypoteesi jää voimaan. Johtopäätös: A:n ja B:n tulokset voivat olla peräisin samasta nopasta. 5. Alla oleva taulukko koskee USA:n äänioikeutettujen joukosta poimittua pientä otosta. Otoksesta on määrätty äänioikeutettujen puoluekanta ja suhtautuminen käsiaseiden rajoituksiin. Ovatko puoluekanta ja suhtautuminen aserajoituksiin toisistaan riippumattomia? Käytä χ 2 -riippumattomuustestissä 0.5 %:n merkitsevyystasoa. Suhtautuminen aserajoituksiin Puoluekanta Puoltaa Ei kantaa Vastustaa Demokraatti 110 26 64 Republikaani 90 14 116 Riippumaton 55 10 35 TKK/SAL @ Ilkka Mellin (2004) 11/13
Ratkaisu: Käytetään tehtävän 3 kohdan (b) testisuuretta. Odotetut frekvenssit E ij määrätään käyttäen nollahypoteesia H 0 : Suhtautuminen aserajoituksiin ei riipu puoluekannasta. Nollahypoteesin pätiessä χ 2 -testisuure on jakautunut suurissa otoksissa approksimatiivisesti χ 2 -jakauman mukaan vapausastein (r 1)(c 1), r = frekvenssitaulun rivien lukumäärä c = frekvenssitaulun sarakkeiden lukumäärä Odotetut frekvenssit saadaan kaavasta E ij = R i C j /n R i = i. rivisumma C j = j. sarakesumma n = kokonaissumma Havaitut frekvenssit: O ij Puoltaa Ei kantaa Vastustaa Yhteensä Dem 110 26 64 200 Rep 90 14 116 220 Riip 55 10 35 100 Yhteensä 255 50 215 520 Odotetut frekvenssit: E ij Puoltaa Ei kantaa Vastustaa Yhteensä Dem 98.1 19.2 82.7 200 Rep 107.9 21.1 91.0 220 Riip 49.0 9.6 41.4 100 Yhteensä 255 50 215 520 TKK/SAL @ Ilkka Mellin (2004) 12/13
χ 2 -testisuureen arvoksi saadaan χ 2 = 22.05 Vapausteiden lukumäärä on f = (r 1)(c 1) = (3 1)(3 1) = 4. Siten 0.5 %:n merkitsevyystasoa vastaava kriittiseksi rajaksi saadaan χ 2 -jakauman taulukosta 14.86 Koska testisuureen arvo χ 2 = 22.05 > 14.86 nollahypoteesi hylätään merkitsevyystasolla 0.005. Johtopäätös: Puoluekanta ja suhtautuminen aserajoituksiin riippuvat toisistaan. TKK/SAL @ Ilkka Mellin (2004) 13/13