Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007

Mat-2.204 Tilastollisen analyysin perusteet, kevät 2007 3. luento: Pari sanaa vielä hypoteesien formuloinneista Kai Virtanen

Hypoteesien muodoista Luennolla nro. 2 muotoiltiin nollahypoteesi - H 0 : θ = θ 0 ei ole eroa ja vaihtoehtoiset hypoteesit - H : θ θ 0, H : θ > θ 0 tai H : θ < θ 0 Usein käytetään myös pareja - H 0 : θ <θ on enintään ja H 0 : θ > θ 0 - H 0 : θ >θ on vähintään ja H 0 : θ < θ 0 p-arvo määrätään vaihtoehtoisen hypoteesin mukaan! Tilastollinen testaus vs. luottamusväli: Käytetään kaksisuuntaista vaihtoehtoista hypoteesia θ θ 0 ja merkitsevyystasoa α Muodostetaan tuntemattomalle parametrille luottamusväli luottamustasolla α H 0 ok θ 0 kuuluu em. luottamusväliin Kai Virtanen 2

Mat-2.204 Tilastollisen analyysin perusteet, kevät 2007 3. luento: Testit järjestysasteikollisille muuttujille Kai Virtanen 3

Testit järjestysasteikollisille muuttujille Järjestysasteikko esim. kouluarvosanat, aineen kovuus Merkkitesti & Wilcoxonin rankitesti yksi otos, mediaanin vertaaminen vakioon kaksi toisistaan riippuvaa otosta, mediaanien vertaaminen vrt. yhden otoksen t-testi ja t-testi parivertailuille Mannin ja Whitneyn testi = Wilcoxonin rankisummatesti kaksi toisistaan riippumatonta otosta, mediaanien vertaaminen vrt. kahden otoksen t-testi A ja B Testit ovat ei-parametrisia eli jakaumista riippumattomia testien yleiset hypoteesit eivät tarkkaan määrittele perusjoukon jakaumaa Testejä saa käyttää myös välimatka- ja suhdeasteikollisille muuttujille! Kai Virtanen 4

Merkkitestin testausasetelma ja testisuure Vastaa yhden otoksen t-testiä Ei oletuksia perusjoukon jakauman tyypistä!!!!!!!! Nollahypoteesi mediaanille Me Määritellään erotukset D i = X i Me 0, i =, 2,, n, missä n n on nollasta poikkeavien erotusten lukumäärä Jos nollahypoteesi H 0 pätee, positiivisten ja negatiivisten erotusten on jakauduttava suunnilleen tasan Binomijakautuneet (Bin(n,q), q=/2) testisuureet: S = negatiivisten erotusten lukumäärä S + = positiivisten erotusten lukumäärä Jos nollahypoteesi H 0 pätee, H : Me 0 0 E( S ) = E( S ) = nq= n Me + 2 2 2 + = = = 4 D ( S ) D ( S ) nq( q) n = Kai Virtanen 5

Eksakti testi Testisuureiden S ja S + jakaumat on taulukoitu ja monet tietokoneohjelmat laskevat testin p-arvoja Merkkitestin p-arvot määrätään seuraavilla kaavoilla, joissa s (s + ) on testisuureen S (S + ) havaittu arvo: (i) Vaihtoehtoinen hypoteesi H : Me > Me 0 Testin p-arvo: p = Pr(S + > s + ) (ii) Vaihtoehtoinen hypoteesi H : Me < Me 0 Testin p-arvo: p = Pr(S > s ) (iii) Vaihtoehtoinen hypoteesi: H : Me Me 0 Testin p-arvo: p = 2 min{pr(s + > s + ), Pr(S > s )} Kai Virtanen 6

z= Asymptoottinen testi E( S ) * * Testisuure jossa S * = S tai S + * D( S ) Nollahypoteesi H 0 ok => testisuure noudattaa suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa N(0, ) Testisuureen normaaliarvo = 0 S Approksimaatio on tavallisesti riittävän hyvä, jos n > 20 Pienissä otoksissa nojataan testisuureen S * tarkkaan jakaumaan Kai Virtanen 7

Merkkitestin soveltaminen parivertailuasetelmiin Vastaa t-testiä parivertailuille Havainnot muodostuvat toisistaan riippumattomista mittauspareista (X i, Y i ), i =, 2,, n Oletetaan, että X- ja Y-mittausten jakaumat ovat muuten samat, mutta niiden mediaaneilla saattaa olla eri arvot Määritellään havaintojen X i ja Y i erotukset D i = X i Y i, i =, 2,, n, missä n n on nollasta poikkeavien erotusten lukumäärä Määritellään testisuureet S ja S + erotuksille D i kuten edellä Olkoon Me D erotusten mediaani Tällöin nollahypoteesin H : Me = 0 testaamiseen voidaan soveltaa merkkitestiä 0 D Kai Virtanen 8

Wilcoxonin rankitestin testausasetelma ja testisuure Vastaa yhden otoksen t-testiä Ei oletuksia perusjoukon jakauman tyypistä!!!!!!!! Nollahypoteesi mediaanille Me Olkoon D i = X i Me 0, i =, 2,, n ja n n nollasta poikkeavien erotusten lukumäärä Olkoot 2 itseisarvot järjestettyinä suuruusjärjestykseen pienimmästä suurimpaan R(Z i ) = itseisarvon Z i järjestysnumero eli ranki, i =, 2,, n Testisuure on negatiivistien rankien summa + Testisuure on positiivisten rankien summa Z, Z, K, Zn W W = D< 0 i = D > 0 i R( Z ) i R( Z ) i H : Me = Me 0 0 Kai Virtanen 9

Eksakti testi Testisuureiden W ja W + jakaumat on taulukoitu ja monet tietokoneohjelmat laskevat testin p-arvoja Wilcoxonin rankitestin p-arvot määrätään seuraavilla kaavoilla, joissa w ja w + ovat testisuureiden W ja W + havaitut arvot: (i) Vaihtoehtoinen hypoteesi H : Me > Me 0 Testin p-arvo: p = Pr(W + > w + ) (ii) Vaihtoehtoinen hypoteesi H : Me < Me 0 Testin p-arvo: p = Pr(W > w ) (iii) Vaihtoehtoinen hypoteesi H : Me Me 0 Testin p-arvo: p = 2 min{pr(w + > w + ), Pr(W > w )} Kai Virtanen 0

Asymptoottinen testi Jos nollahypoteesi H 0 pätee, niin + 2 2 E( W ) = E( W ) = n( n+ ) D ( W ) = D ( W + ) = n( n+ )(2n+ ) Määritellään testisuure jossa W * = W tai W + Nollahypoteesi H 0 ok => testisuure noudattaa suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa N(0, ) Testisuureen normaaliarvo = 0 4 z = * * * D( W ) Approksimaatio on tavallisesti riittävän hyvä, jos n > 20 W E( W ) Pienissä otoksissa nojataan testisuureen W * tarkkaan jakaumaan 24 Kai Virtanen

Wilcoxonin rankitestin soveltaminen parivertailuasetelmiin Vastaa t-testiä parivertailuille Havainnot toisistaan riippumattomista mittauspareista (X i, Y i ), i =, 2,, n Määritellään havaintojen X i ja Y i erotukset D i = X i Y i, i =, 2,, n ja n n nollasta poikkeavien erotusten lukumäärä Testisuureet W ja W + erotuksille D i kuten edellä Olkoon Me D erotusten mediaani Nollahypoteesin H : Me = 0 0 D testaamiseen voidaan soveltaa Wilcoxonin rankitestiä Kai Virtanen 2

Wilcoxonin rankitesti vs. merkkitesti Wilcoxonin rankitesti ja merkkitesti soveltuu saman tyyppisiin ongelmiin: yksi otos, mediaanin vertaaminen vakioon kaksi toisistaan riippuvaa otosta, mediaanien vertaaminen Yhden otoksen t-testin ei-parametrisiä vastineita Ei oletuksia perusjoukon jakauman tyypistä Testisuureiden arvot eivät riipu havaintoarvoista, vaan ainoastaan niiden keskinäisestä järjestyksestä Wilcoxonin rankitesti käyttää merkkitestiä enemmän informaatiota havaintojen järjestyksestä Jos mahdollista, niin minä käyttäisin ) kumpaakin ja 2) uskoisin enemmin Wilcoxonia, jos tulokset erilaiset, mutta miettisin, että mistä eroavaisuus johtuu... Kai Virtanen 3

Mannin ja Whitneyn testi Vastaa kahden riippumattoman otoksen t-testejä Ei oletuksia perusjoukkojen jakaumien muodoista!!!!!!!!! Kaksi toisistaan riippumatonta satunnaisotosta X, X 2,, X n K 2 Y, Y, K, Ym Oletetaan, että satunnaismuuttujat X ja Y noudattavat muuten samaa jakaumaa, mutta niiden mediaanit saattavat erota toisistaan Nollahypoteesi: satunnaismuuttujilla X ja Y on sama mediaani Kai Virtanen 4

Mannin ja Whitneyn testin hypoteesi Yleinen hypoteesi H : () Havainnot (2) Havainnot (3) Jakaumat F X ja F Y ovat muuten samat, mutta niiden mediaanit saattavat erota toisistaan (4) Havainnot X i ja Y j ovat riippumattomia kaikille i ja j Nollahypoteesi H 0 : H 0 : F X = F Y Vaihtoehtoinen hypoteesi H : H : F X F Y X F, i=, 2, K, n i X Y ~ F, j =, 2, K, m j ~ Y Kai Virtanen 5

Mannin ja Whitneyn innovaatio Yhdistetään X- ja Y-havainnot yhdeksi otokseksi Järjestetään yhdistetyn otoksen havainnot suuruusjärjestykseen pienimmästä suurimpaan Tarkastellaan miten X- ja Y-havainnot seuraavat yhdistetyssä otoksessa toisiaan Kaikki X-havainnot (Y-havainnot) edeltävät kaikkia Y-havaintoja (X-havaintoja) => nollahypoteesi tuskin pätee Satunnaismuuttujat X ja Y noudattavat samaa jakaumaa => X- ja Y-havaintojen on sekoituttava sopivasti toisiinsa Mannin ja Whitneyn testisuure mittaa sekoittumista Kai Virtanen 6

Mannin ja Whitneyn testisuure R(X i ) = havainnon X i järjestysnumero eli ranki yhdistetyssä otoksessa Testisuure (voitais kirjoittaa myös Y-muuttujalle, homma etenis samallalailla!) U = nm+ 2 n( n+ ) R( X i ) Testisuureen U arvo ei riipu X- ja Y-havaintoarvojen suuruudesta, vaan ainoastaan niiden keskinäisestä järjestyksestä Aina pätee 0 U nm ja erityisesti U = 0, jos X i > Y j kaikille i ja j U = nm, jos X i < Y j kaikille i ja j Jos nollahypoteesi H 0 pätee, i= E( U ) = E( U ) = nm 2 2 2 2 2 2 n D ( U ) = D ( U ) = nm( n+ m+ ) Kai Virtanen 7

Mannin ja Whitneyn Standardoitu testisuure Jos nollahypoteesi H 0 pätee, niin standardoitu satunnaisuuttuja noudattaa suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa N(0,) Testisuureen normaaliarvo = 0 z = U E( U ) D( U ) Itseisarvoltaan suuret testisuureenarvot => nollahypoteesi ei päde Nollahypoteesi H 0 hylätään, jos testin p-arvo on... Approksimaatio on hyvä, jos n > 0 ja m > 0 Pienissä otoksissa nojataan testisuureen U tarkkaan jakaumaan Kai Virtanen 8

Wilcoxonin rankisummatesti ja testisuure Vastaa kahden riippumattoman otoksen t-testejä Ei oletuksia perusjoukkojen jakaumien muodoista!!!!!!!!! Perustuu Mannin ja Whitneyn testisuureessa esiintyviin havaintojen rankisummiin Hypoteesit kuten Mannin ja Whitneyn testissä R(X i ) = havainnon X i järjestysnumero eli ranki yhdistetyssä otoksessa (voitais laskea myös Y-muuttujalle, homma etenis samallalailla!) Testisuure T n = i= R( X ) i Kai Virtanen 9

Standardoitu testisuure ja jakauma Jos nollahypoteesi H 0 pätee, E( T ) = n( n+ m+ ) 2 E( T ) = m( n+ m+ ) 2 2 D ( T ) = D ( T ) = nm( n+ m+ ) 2 2 2 2 H 0 ok => standardoitu satunnaismuuttuja noudattaa suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa Testisuureen normaaliarvo = 0 Itseisarvoltaan suuret testisuureen arvot / pieni p-arvo => nollahypoteesi ei päde => mediaanit erisuuria Approksimaatio ok, jos n > 0 ja m > 0 Pienissä otoksissa nojataan testisuureen T tarkkaan jakaumaan z = T E( T ) D( T ) Kai Virtanen 20

Mannin ja Whitneyn testi vs. Wilcoxonin rankisummatesti Kahden riippumattoman otoksen t-testin ei-parametrisiä vastineita Ei oletuksia perusjoukkojen jakaumasta Testisuureiden arvo ei riipu muuttujien X ja Y arvoista, vaan ainoastaan niiden keskinäisestä järjestyksesta Testit ovat varteenotettavia vaihtoehtoja kahden riippumattoman otoksen t-testille, jos otoskoot eivät ole kovin isoja ja perusjoukot eivät ole normaalijakautuneita Testit ovat ekvivalenttejä toistensa kanssa, eli ne antavat aina saman lopputuloksen! Kai Virtanen 2

Mat-2.204 Tilastollisen analyysin perusteet, kevät 2007 3. luento: Testit laatueroasteikollisille muuttujille Kai Virtanen 22

Testit laatueroasteikollisille muuttujille Laatueroaisteikko sukupuoli, asuinpaikka, väri, viallisuus Testi suhteelliselle osuudelle yhden otoksen testi suhteellisen osuudeen vertaaminen vakioon Suhteellisten osuuksien vertailutesti kahden otoksen testi suhteellisten osuuksien vertaaminen Parametrisia testejä Testauksen kohteena on Bernoulli-jakauman odotusarvoparametri Testejä saa käyttää myös järjestys-, välimatka- ja suhdeasteikollisille muuttujille Kai Virtanen 23

Bernoulli-jakauma Olkoon tapahtuma A = Perusjoukon alkiolla on ominaisuus P esim. valmistetaan kapistuksia, A= kapistus on viallinen Olkoon p = Pr(A) todennäköisyys poimia perusjoukosta S satunnaisesti alkio, jolla on ominaisuus P Jos perusjoukko S on äärellinen, todennäköisyys p kuvaa niiden perusjoukon S alkioiden suhteellista osuutta, joilla on ominaisuus P esim. 00p% valmistettavista kapistuksista on viallisia Olkoon A perusjoukon S tapahtuma ja olkoot Pr(A) = p ja Pr(A c ) = p = q Määritellään satunnaismuuttuja X:, jos A sattuu Pr( X = ) = p X = 0, jos A ei satu Pr( X = 0) = p = q Tällöin X ~ Bernoulli(p), E(X)=p ja Var(X)=pq Kai Virtanen 24

Testi suhteelliselle osuudelle, hypoteesit Verrataan suhteellista osuutta p vakioon Yleinen hypoteesi H : () Havainnot, jossa p = Pr(A), A S (2) Havainnot X, X 2,, X n ovat riippumattomia Nollahypoteesi H 0 : H : 0 0 Vaihtoehtoinen hypoteesi H : H : p = p 0 H : 0 H : p p p > p < p p 0 X ~ Bernoulli( p), i=, 2, K, n i -suuntaiset vaihtoehtoiset hypoteesit 2-suuntainen vaihtoehtoinen hypoteesi Kai Virtanen 25

Testisuure ja jakauma Bernoulli-jakauman parametrin eli suhteellisen osuuden E(X i ) = p, i =, 2,, n harhaton estimaattori on Määritellään testisuure H : Jos nollahypoteesi 0 0 pätee, niin testisuure noudattaa suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa Testisuureen normaaliarvo = 0 Itseisarvoltaan suuret testisuureen arvot / pieni p-arvo => nollahypoteesissä ei ole päätä eikä häntää Approksimaatio on riittävän hyvä, jos npˆ 0 ja n( pˆ ) 0 z p = = pˆ p 0 p ( p ) / n p 0 0 pˆ = f / n Kai Virtanen 26

Suhteellisten osuuksien vertailutestin hypoteesit Verrataan kahdesta riippumattomasta otoksesta laskettuja suhteellisia osuuksia Yleinen hypoteesi H : () Havainnot X i ~ Bernoulli( p), i=, 2, K, n, jossa p = Pr(A), A S (2) Havainnot ~, jossa p 2 = Pr(A), A S 2 (3) Havainnot X i ja X j2 ovat riippumattomia kaikille i ja j Nollahypoteesi H 0 : Vaihtoehtoinen hypoteesi H : H : p > p2 -suuntaiset vaihtoehtoiset hypoteesit H : p < p2 H : p p2 2-suuntainen vaihtoehtoinen hypoteesi X Bernoulli( p ), j =, 2, K, n j 2 2 2 H : p = p = p 0 2 Kai Virtanen 27

Testisuure ja jakauma Estimaattorit suhteellisille osuuksille Jos nollahypoteesi 0 2 pätee, voidaan otokset yhdistää ja parametrin p harhaton estimaattori on suhteellinen frekvenssi yhdistetyssä otoksessa: Määritellään testisuure: z Jos nollahypoteesi pätee, niin testisuure noudattaa suurissa otoksissa approksimatiivisesti standardoitua normaalijakaumaa Testisuureen normaaliarvo = 0 = Itseisarvoltaan suuret testisuureen arvot / pieni p-arvo => nollahypoteesilla voidaan heittää vesilintua! Approksimaatio on riittävän hyvä, jos pˆ k = fk / nk, k =,2 H : p = p = p pˆ pˆ 2 pˆ ( pˆ ) + n n 2 n pˆ 5, n ( pˆ ) 5, n pˆ 5, n ( pˆ ) 5 2 2 2 2 pˆ n pˆ + n pˆ f + f = = n + n n + n 2 2 2 2 2 Kai Virtanen 28