Tilastollisen analyysin perusteet Luento 4:
Sisältö
Testiä suhteelliselle voidaan käyttää esimerkiksi tilanteessa, jossa tarkastellaan viallisten tuotteiden osuutta tuotantoprosessissa. Tilanne palautuu Bernoulli-jakautuneiden muuttujien tarkasteluun.
Olkoot x 1, x 2,..., x n satunnaismuuttujan x havaitut arvot. Oletetaan, että havaintopisteet ovat riippumattomia ja tulevat Bernoulli jakaumasta, jonka parametri on p. (Tällöin siis P(x i = 1) = p, P(x i = 0) = 1 p, E[x] = p ja varianssi E[(x E[x]) 2 ] = p(1 p).) Nollahypoteesi Bernoulli jakauman parametrille H 0 : p = p 0. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : p > p 0 (yksisuuntainen), H 1 : p < p 0 (yksisuuntainen) tai H 1 : p p 0 (kaksisuuntainen).
Muodostetaan testisuure C = n i=1 x i Jos nollahypoteesi pätee, niin testisuure noudattaa binomijakaumaa parametrein n ja p = p 0. Testisuureen normaaliarvo on np 0, ja sen varianssi on np 0 (1 p 0 ). Suuret ja pienet testisuureen arvot (verrattuna normaaliarvoon np 0 ) viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.
Binomijakauma Binomijakaumasta juttua Wikipediassa.
, p arvot Testisuureen C jakauma on taulukoitu ja monet tietokoneohjelmat laskevat testin p arvoja. testin p arvot määritetään seuraavilla kaavoilla, joissa c on testisuureen C havaittu arvo: Jos vaihtoehtoinen hypoteesi H 1 : p > p 0, niin testin p arvo on p = P(C c). Jos vaihtoehtoinen hypoteesi H 1 : p < p 0, niin testin p arvo on p = P(C c). Jos vaihtoehtoinen hypoteesi H 1 : p p 0, niin testin p arvo on p = 2 min{p(c c), P(C c)}. Edellä P(C c) ja P(C c) lasketaan nollahypoteesin vallitessa.
Asymptoottinen testi suhteelliselle Kun otoskoko on suuri, testisuure Z = ˆp p 0 p0 (1 p 0 )/n, missä ˆp on parametrin p harhaton estimaatti ˆp = 1 n n i=1 x i, noudattaa nollahypoteesin vallitessa likimain standardinormaalijakaumaa. Aproksimaatio on tavallisesti riittävän hyvä, jos nˆp > 10 ja n(1 ˆp) > 10. Pienissä otoksissa nojataan testisuureen C tarkkaan jakaumaan.
Numeerinen esimerkki testille suhteellisista osuuksista Panun pahanmakuisten prinsessakeksien suuri myyntivaltti on, että osa keksipaketin kekseistä on tarkoituksella tehty eri reseptillä taatakseen kauhean maun näihin muutamiin demonikekseihin. Keksipaketissa lukee, että pahanmakuisia demonikeksejä on 10 % kekseistä. Väitteen testaamiseksi valittiin satunnaisesti 150 prinsessakeksiä tutkimukseen ja näistä 21 oli pahanmakuisia. Voidaanko 5% merkitsevyystasolla sanoa, että paketti valehtelee?
Numeerinen esimerkki testille suhteellisista osuuksista Tässä suhteellisten osuuksien testissä nollahypoteesi on p = 0.1 ja vaihtoehtoinen hypoteesi p 0.1. Koska otoskoko on suuri, 150 0.1 = 15 > 5 ja 150 0.9 = 135 > 5, voidaan käyttää normaaliapproximaatiota. Estimoitu todennäköisyys ˆp = 1 n n i=1 x i = 21 150 ja testisuure 21 ˆp p 0 Z = p0 (1 p 0 )/n = 150 0.1 = 1.632... 0.1 0.9/150 Standardoidun normaalijakauman taulukosta p-arvoksi saadaan 2 (1 0.9484) = 0.1032 > 0.05, joten nollahypoteesi jätetään voimaan.
Suhteellisten osuuksien vertailutesti Suhteellisten osuuksien vertailutestissä verrataan kahden riippumattoman Bernoulli jakautuneen otoksen parametrejä.
Suhteellisten osuuksien vertailutesti, oletukset Olkoot x 1, x 2,..., x n satunnaismuuttujan x havaitut arvot ja olkoot y 1, y 2,..., y m satunnaismuuttujan y havaitut arvot. Oletetaan, että havaintopisteet x 1, x 2,..., x n ovat riippumattomia, samoin jakautuneita, ja tulevat Bernoulli jakaumasta, jonka parametri on p x ja oletetaan, että havaintopisteet y 1, y 2,..., y m ovat riippumattomia, samoin jakautuneita, ja tulevat Bernoulli jakaumasta, jonka parametri on p y. Oletetaan vielä, että x i ja y j ovat riippumattomia kaikilla i, j. Nollahypoteesi H 0 : p x = p y. Mahdolliset vaihtoehtoiset hypoteesit: H 1 : p x > p y (yksisuuntainen), H 1 : p x < p y (yksisuuntainen) tai H 1 : p x p y (kaksisuuntainen).
Suhteellisten osuuksien vertailutesti, p arvo Lasketaan estimaatit suhteellisille osuuksille ˆp x = 1 n n i=1 x i, ˆp y = 1 n m i=1 y i, ja ˆp = Muodostetaan testisuure n ˆpx +m ˆpy n+m. ˆp x ˆp y Z = ˆp(1 ˆp) ( 1 n + ). 1 m Jos nollahypoteesi pätee, niin testisuure noudattaa suurissa otoksissa likimain standardinormaalijakaumaa. Approksimaatio on tavallisesti riittävän hyvä, jos n ˆp x > 5, n(1 ˆp x ) > 5, m ˆp y > 5 ja m(1 ˆp y ) > 5. Itseisarvoltaan suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.
Esimerkki Jääkiekon seuraaminen kurssin naisopiskelijat vs. miesopiskelijat.
tilastollisista testeistä ja tietokilpailu
J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. J. Crawshaw, J. Chambers: A Concise Course in Advanced Level Statistics, Nelson Thornes Ltd 2013. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. Pertti Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. Ilkka Mellin: Tilastolliset menetelmät, http://math.aalto.fi/opetus/sovtoda/materiaali.html.