Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2007) 1
Testit laatueroasteikollisille muuttujille >> Laatueroasteikollisten muuttujien testit Testi suhteelliselle osuudelle Suhteellisten osuuksien vertailutesti TKK (c) Ilkka Mellin (2007) 2
Laatueroasteikollisten muuttujien testit Testit laatueroasteikollisille muuttujille Tarkastelemme seuraavia testejä laatueroasteikollisille muuttujille: Testi suhteelliselle osuudelle Suhteellisten osuuksien vertailutesti On syytä huomata, että testejä saa ja on usein myös järkevää käyttää järjestys-, välimatka-ja suhdeasteikollisille muuttujille. Mitta-asteikot: ks. lukua Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2007) 3
Laatueroasteikollisten muuttujien testit Testit laatueroasteikollisille muuttujille: Huomautuksia Testit ovat parametrisia testejä, joissa testauksen kohteena on Bernoulli-jakauman odotusarvoparametri. Testi suhteelliselle osuudelle on yhden otoksen testi. Suhteellisten osuuksien vertailutesti on kahden otoksen testi. TKK (c) Ilkka Mellin (2007) 4
Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit >> Testi suhteelliselle osuudelle Suhteellisten osuuksien vertailutesti TKK (c) Ilkka Mellin (2007) 5
Testi suhteelliselle osuudelle Testausasetelma 1/3 Olkoon A perusjoukon S tapahtuma ja olkoot Pr(A) = p Pr(A c ) = 1 p = q Määritellään satunnaismuuttuja X: 1, jos A sattuu X = 0, jos A ei satu Tällöin X ~ Bernoulli(p) ja Pr( X = 1) = p Pr( X = 0) = 1 p = q TKK (c) Ilkka Mellin (2007) 6
Testi suhteelliselle osuudelle Testausasetelma 2/3 Oletetaan, että tapahtuma A on muotoa A = Perusjoukon alkiolla on ominaisuus P Tällöin p = Pr(A) on todennäköisyys poimia perusjoukosta S satunnaisesti alkio, jolla on ominaisuus P. Jos perusjoukko S on äärellinen, niin todennäköisyys p kuvaa niiden perusjoukon S alkioiden suhteellista osuutta, joilla on ominaisuus P. TKK (c) Ilkka Mellin (2007) 7
Testi suhteelliselle osuudelle Testausasetelma 3/3 Olkoon X 1, X 2,, X n yksinkertainen satunnaisotos perusjoukosta S, joka noudattaa Bernoulli-jakaumaa Bernoulli(p) Asetetaan Bernoulli-jakauman parametrille p nollahypoteesi H 0 : p = p0 Testausongelma: Ovatko havainnot sopusoinnussa nollahypoteesin H 0 kanssa? Ratkaisuna on testi suhteelliselle osuudelle. TKK (c) Ilkka Mellin (2007) 8
Testi suhteelliselle osuudelle Hypoteesit Yleinen hypoteesi H : (1) Havainnot Xi ~ Bernoulli( p), i = 1,2,, n, jossa p = Pr(A), A S (2) Havainnot X 1, X 2,, X n ovat riippumattomia Nollahypoteesi H 0 : H 0 : p = p0 Vaihtoehtoinen hypoteesi H 1 : H: 1 p> p0 1-suuntaiset vaihtoehtoiset hypoteesit H: 1 p< p0 H : p p 2-suuntainen vaihtoehtoinen hypoteesi 1 0 TKK (c) Ilkka Mellin (2007) 9
Testi suhteelliselle osuudelle Parametrien estimointi Olkoon f tapahtuman A frekvenssi siinä n-kertaisessa toistokokeessa, jota riippumattomien havaintojen poimiminen Bernoulli-jakaumasta merkitsee. Tällöin tapahtuman A suhteellinen frekvenssi eli osuus pˆ = f / n on harhaton estimaattori Bernoulli-jakauman parametrille E(X i ) = p, i = 1, 2,, n Huomaa, että frekvenssi f noudattaa binomijakaumaa parametrein n ja p: n f = Xi ~Bin( n, p) i= 1 TKK (c) Ilkka Mellin (2007) 10
Testi suhteelliselle osuudelle Testisuure ja sen jakauma Määritellään testisuure pˆ p0 z = p0(1 p0) / n Jos nollahypoteesi H 0 : p = p0 pätee, niin testisuure z noudattaa suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa: z a N(0,1) Approksimaatio on tavallisesti riittävän hyvä, jos npˆ 10 ja n(1 pˆ) 10 TKK (c) Ilkka Mellin (2007) 11
Testi suhteelliselle osuudelle Testisuureen jakauma nollahypoteesin H 0 pätiessä: Perustelu Oletetaan, että testin yleinen hypoteesi H ja nollahypoteesi H 0 pätevät: X 1, X 2,, X n X Bernoulli( p ), i = 1,2,, n i 0 Tällöin (ks. monisteen Todennäköisyyslaskenta lukua Stokastiikan konvergenssikäsitteet ja raja-arvolauseet sekä lukuja Otokset ja otosjakaumat ja Väliestimointi): n 1 f p0(1 p0) pˆ = Xi = a N p0, n i= 1 n n jolloin pˆ p0 z = a N(0,1) p (1 p ) / n 0 0 TKK (c) Ilkka Mellin (2007) 12
Testi suhteelliselle osuudelle Testi suhteelliselle osuudelle: Testisuure z mittaa tilastollista etäisyyttä Testisuure pˆ p0 z = p (1 p ) / n 0 0 mittaa parametrin p estimaatin ˆp ja nollahypoteesin H 0 : p = p0kiinnittämän parametrin p arvon p 0 tilastollista etäisyyttä. Mittayksikkönä on erotuksen ˆp p 0 standardipoikkeaman p(1 p) n estimaattori, joka on määrätty olettaen, että nollahypoteesi H 0 pätee. TKK (c) Ilkka Mellin (2007) 13
Testi suhteelliselle osuudelle Testi Testisuureen pˆ p0 z = p (1 p ) / n 0 0 normaaliarvo = 0, koska nollahypoteesin H 0 pätiessä E(z) = 0 Siten itseisarvoltaan suuret testisuureen z arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos testin p-arvo on kyllin pieni. Hylkäysalueen valinta ja p-arvon määrääminen: ks. lukua Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 14
Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle osuudelle >> Suhteellisten osuuksien vertailutesti TKK (c) Ilkka Mellin (2007) 15
Suhteellisten osuuksien vertailutesti Testausasetelma 1/4 Olkoon A perusjoukon S k, k = 1, 2 tapahtuma ja olkoot Pr(A) = p k Pr(A c ) = 1 p k = q k Määritellään satunnaismuuttujat X k, k = 1, 2 : 1, jos A tapahtuu perusjoukossa Sk X k = 0, jos A ei tapahdu perusjoukossa S Tällöin X k ~ Bernoulli(p k ), k = 1, 2 ja Pr( Xk = 1) = pk Pr( X = 0) = 1 p = q k k k k TKK (c) Ilkka Mellin (2007) 16
Suhteellisten osuuksien vertailutesti Testausasetelma 2/4 Oletetaan, että tapahtuma A on muotoa A = Perusjoukon alkiolla on ominaisuus P Tällöin p k = Pr(A) on todennäköisyys poimia perusjoukosta S k, k = 1, 2 satunnaisesti alkio, jolla on ominaisuus P. Jos perusjoukko S k, k = 1, 2 on äärellinen, niin todennäköisyys p k kuvaa niiden perusjoukon S k alkioiden suhteellista osuutta, joilla on ominaisuus P. TKK (c) Ilkka Mellin (2007) 17
Suhteellisten osuuksien vertailutesti Testausasetelma 3/4 Olkoon X11, X21,, Xn 11 yksinkertainen satunnaisotos perusjoukosta S 1, joka noudattaa Bernoulli-jakaumaa Bernoulli(p 1 ) Olkoon X12, X22,, Xn 2 2 yksinkertainen satunnaisotos perusjoukosta S 2, joka noudattaa Bernoulli-jakaumaa Bernoulli(p 2 ) Olkoot otokset lisäksi toisistaan riippumattomia. TKK (c) Ilkka Mellin (2007) 18
Suhteellisten osuuksien vertailutesti Testausasetelma 4/4 Asetetaan Bernoulli-jakaumien parametreille p 1 ja p 2 nollahypoteesi H 0 : p1 = p2 = p Testausongelma: Ovatko havainnot sopusoinnussa hypoteesin H 0 kanssa? Ratkaisuna on suhteellisten osuuksien vertailutesti. TKK (c) Ilkka Mellin (2007) 19
Suhteellisten osuuksien vertailutesti Yleinen hypoteesi Yleinen hypoteesi H : (1) Havainnot Xi1 Bernoulli( p1), i= 1,2,, n1, jossa p 1 = Pr(A), A S 1 (2) Havainnot X j 2 Bernoulli( p2), j = 1,2,, n2, jossa p 2 = Pr(A), A S 2 (3) Havainnot X i1 ja X j2 ovat riippumattomia kaikille i ja j Huomautus: Oletus (3) sisältää kolme riippumattomuusoletusta: Havainnot ovat riippumattomia otoksien 1 ja 2 sisällä. Havainnot ovat riippumattomia otoksien 1 ja 2 välillä. TKK (c) Ilkka Mellin (2007) 20
Suhteellisten osuuksien vertailutesti Nollahypoteesi ja vaihtoehtoiset hypoteesit Nollahypoteesi H 0 : H 0 : p1 = p2 = p Vaihtoehtoinen hypoteesi H 1 : H: 1 p1 > p2 1-suuntaiset vaihtoehtoiset hypoteesit H: 1 p1 < p2 H : p p 2-suuntainen vaihtoehtoinen hypoteesi 1 1 2 TKK (c) Ilkka Mellin (2007) 21
Suhteellisten osuuksien vertailutesti Parametrien estimointi Olkoon f k tapahtuman A frekvenssi siinä n k -kertaisessa toistokokeessa, jota riippumattomien havaintojen poimiminen Bernoulli-jakaumasta k merkitsee, k = 1, 2. Tällöin tapahtuman A suhteellinen frekvenssi eli osuus pˆ k = fk / nk, k = 1,2 on harhaton estimaattori Bernoulli-jakauman parametrille p k = E(X ik ), i = 1, 2,, n k, k = 1, 2 Huomaa, että frekvenssi f k noudattaa binomijakaumaa parametrein n k ja p k : n k f = X ~Bin( n, p ), k = 1,2 k ik k k i= 1 TKK (c) Ilkka Mellin (2007) 22
Suhteellisten osuuksien vertailutesti Yhdistetty otos Jos nollahypoteesi H 0 : p1 = p2 = p pätee, voidaan otokset yhdistää ja parametrin p harhaton estimaattori on tapahtuman A suhteellinen frekvenssi yhdistetyssä otoksessa: np 1ˆ1+ np 2 ˆ2 f1+ f2 pˆ = = n + n n + n 1 2 1 2 Jos nollahypoteesi H 0 pätee, niin p(1 p) p(1 p) Var( pˆ1 pˆ2) = + n n 1 2 1 1 = p(1 p) + n n 1 2 TKK (c) Ilkka Mellin (2007) 23
Suhteellisten osuuksien vertailutesti Testisuure ja sen jakauma Määritellään testisuure pˆ1 pˆ2 z = 1 1 pˆ(1 pˆ) + n1 n 2 Jos nollahypoteesi H 0 : p1 = p2 = p pätee, niin testisuure z noudattaa suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa: z a N(0,1) Approksimaatio on tavallisesti riittävän hyvä, jos npˆ 5, n(1 pˆ ) 5, npˆ 5, n(1 pˆ ) 5 1 1 1 1 2 2 2 2 TKK (c) Ilkka Mellin (2007) 24
Suhteellisten osuuksien vertailutesti Testisuureen jakauma nollahypoteesin H 0 pätiessä: Perustelu 1/3 Oletetaan, että testin yleinen hypoteesi H ja nollahypoteesi H 0 pätevät: X, X,, X, X, X,, X 11 21 n 1 12 22 n 2 1 2 Xi1 Bernoulli( p), i = 1,2,, n1 X Bernoulli( p), j = 1,2,, n j 2 2 Tällöin (ks. monisteen Todennäköisyyslaskenta lukua Stokastiikan konvergenssikäsitteet ja raja-arvolauseet sekä lukuja Otokset ja otosjakaumat ja Väliestimointi): n1 1 f 1 p(1 p) pˆ 1 = Xi 1 = a N p, n1 i= 1 n1 n1 n2 1 f 2 p(1 p) pˆ 2 = X j2 = a N p, n2 j= 1 n2 n2 TKK (c) Ilkka Mellin (2007) 25
Suhteellisten osuuksien vertailutesti Testisuureen jakauma nollahypoteesin H 0 pätiessä: Perustelu 2/3 Koska pˆ1 pˆ2, niin pˆ1 pˆ2 Y = a N(0,1) 1 1 p(1 p) + n1 n 2 Koska todennäköisyys p on tuntematon, satunnaismuuttujan Y lauseke on testisuureena epäoperationaalinen. TKK (c) Ilkka Mellin (2007) 26
Suhteellisten osuuksien vertailutesti Testisuureen jakauma nollahypoteesin H 0 pätiessä: Perustelu 3/3 Jos satunnaismuuttujan Y lausekkeessa todennäköisyys p korvataan otossuureella np 1ˆ1+ np 2 ˆ2 f1+ f2 pˆ = = n + n n + n 1 2 1 2 saadaan testisuure pˆ1 pˆ2 z = 1 1 pˆ(1 pˆ) + n1 n 2 joka nollahypoteesin H 0 pätiessä noudattaa suurissa otoksissa standardoitua normaalijakaumaa N(0,1): z a N(0,1) Todistus sivuutetaan. TKK (c) Ilkka Mellin (2007) 27
Suhteellisten osuuksien vertailutesti Testisuure z mittaa tilastollista etäisyyttä Testisuure pˆ1 pˆ2 z = 1 1 pˆ(1 pˆ) + n1 n 2 mittaa mittaa tapahtuman A otoksista 1 ja 2 määrättyjen suhteellisten frekvenssien tilastollista etäisyyttä. Mittayksikkönä on erotuksen pˆ pˆ standardipoikkeaman 1 2 1 1 p(1 p) + n1 n 2 estimaattori, joka on määrätty olettaen, että nollahypoteesi H 0 pätee. TKK (c) Ilkka Mellin (2007) 28
Suhteellisten osuuksien vertailutesti Testi 1/2 Testisuureen pˆ1 pˆ2 z = 1 1 pˆ(1 pˆ) + n1 n 2 normaaliarvo = 0, koska nollahypoteesin H 0 pätiessä E(z) = 0 Siten itseisarvoltaan suuret testisuureen z arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos testin p-arvo on kyllin pieni. TKK (c) Ilkka Mellin (2007) 29
Suhteellisten osuuksien vertailutesti Testi 2/2 Hylkäysalueen valinta ja p-arvon määrääminen: ks. lukua Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 30