Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen annettuun jakaumaan χ -homogeenisuustesti monta otosta ovatko otokset peräisin samasta jakaumasta? χ -riippumattomuustesti yksi otos, havaintoyksikköjä kuvataan kahdella satunnaismuuttujalla (tekijällä) kahden satunnaismuuttujan riippumattomuuden testaaminen owmanin ja Shentonin testi normaalisuudelle yksi otos onko otos peräisin normaalijakaumasta Wilkin ja Shapiron testi normaalisuudelle yksi otos onko otos peräisin normaalijakaumasta Kai Virtanen χ -yhteensopivuustesti, hypoteesit Onko satunnaismuuttujasta X poimittu satunnaisotos sopusoinnussa X:n oletetun jakauman kanssa? Havainnot noudattavat todennäköisyysjakaumaa, jonka parametrit eivät välttämättä ole tunnettuja; esim: tuote: muotovika, värivika, molemmat viat, virheetön insinöörin väitös: tuotteita syntyy suhteissa :::9 vastaavat todennäköisyydet: /4, /4, /4, 9/4 Havainnot eivät noudata nollahypoteesin määrittelemää todennäköisyysjakaumaa insinöörin väitös on palturia!!! χ -yhteensopivuustesti, havaitut luokkafrekvenssit Luokitellaan havainnot (n kpl) luokkiin, joiden lukumäärä m kpl Luokkien määrääminen: Diskreetin satunnaismuuttujan mahdolliset arvot valitaan satunnaisesti 00 tuotetta luokat, m=4: muotovika (muv), värivika (väv), molemmat viat (mov), virheetön (vir) Diskretoidaan jatkuvan satunnaismuuttujan arvojoukko äärellisiin osaväleihin O k, k =,,,m on luokan k havaittu frekvenssi/lukumäärä, muv 40kpl, väv 44kpl, mov 6 kpl, vir 90kpl m k= O k = n Kai Virtanen 3 Kai Virtanen 4
χ -yhteensopivuustesti, odotetut luokkafrekvenssit Olkoon P k todennäköisyys, että satunnaismuuttuja X saa arvon luokasta k, kun nollahypoteesi pätee P k :n jakauman konstruointi: nollahypoteesi määrää täysin jakauman tuote-esimerkki nollahypoteesi määrää jakauman tyypin, mutta parametrit ovat tuntemattomia => parametrit estimoitava havainnoista Luokkaan k kuuluvien havaintojen odotettu frekvenssi E m k Ek = npk, k =,, K, m Ek = n tuote-esimerkki: k= E =00*/4, E =00*/4, E 3 =00*/4, E 4 =00*9/4 χ -yhteensopivuustesti, testisuure ja p-arvo IDIS: havaittujen frekvenssien O k ja odotettujen frekvenssien E k jakaumat muistuttavat toisiaan => havainnot tukevat nollahypoteesia! Määritellään χ -testisuure: χ tuote-esimerkki:χ = 34.08 m = k= ( Ok Ek ) E H 0 ok => testisuure suurissa otoksissa approksimatiivisesti χ -jakautunu vapausastein f = m p, p on estimoitujen parametrien lukumäärä Suuri testisuureen arvo => nollahypoteesi roskikseen p-arvo = oikeanpuoleinen häntä = P(χ > testisuureen arvo) tuote-esimerkki: f=4--0=3 ja P(χ > 34,08)=0.0000 => pöljän insinöörin väittämä ei pidä paikkaansa alkuunkaan! k Kai Virtanen 5 Kai Virtanen 6 Esimerkki χ -yhteensopivuustestistä, jatkuva satunnaismuuttuja Noudattaako suomalaisten kuukausipalkka normaalijakaumaa? rvotaan läjä suomalaisia ja kirjataan kuukausipalkat muistiin Nollahypoteesi: Havainnot noudattavat normaalijakaumaa, jonka odotusarvo- ja varianssiparametrit tuntemattomia ) Estimoidaan tuntemattomat parametrit havainnoista ) Diskretoidaan jatkuva palkkamuuttuja esim. 00 väleihin 3) Lasketaan havaitut luokkafrekvenssit, i.e., lasketaan kuhunkin osaväliin=luokkaan sijoittuvien palkkahavaintojen lukumäärä 4) Määrätään luokkiin liittyvät todennäköisyydet normaalijakaumasta, esim.... P(900<X<000), P(000<X<00), jne... 5) Lasketaan odotetut luokkafrekvenssit, i.e., luokkatodennäköyys X havaintojen lukumäärä 6) Lasketaan testisuureen arvo, määrätään p-arvo ja tehdään johtopäätös χ -homogeenisuustesti, hypoteesit Monta havaintoaineistoa, ovatko aineistot peräisin samasta jakaumasta? Homogeenisuuden testaaminen Yleinen hypoteesi H : Perusjoukko on jaettu r ryhmään, joista on poimittu toisistaan riippumattomat satunnaisotokset Otokset i =,,, r on poimittu samasta todennäköisyysjakaumasta Otokset i =,,, r on poimittu eri todennäköisyysjakaumista Kai Virtanen 7 Kai Virtanen 8
χ -homogeenisuustesti, havaitut frekvenssit r ryhmää/otosta, otoskoot n i Luokitellaan havainnot luokkiin, lukumäärä c kpl, luokkien koot C j O ij ryhmän i luokkaan j kuuluvien havaintojen havaittu frekvenssi/lukumäärä Luokat Ryhmät c Summa O O O c n O O O c n r O r O r O rc n r Summa C C C c n Luokkien koko Ryhmien koko Havaintoja yhteensä Kai Virtanen 9 χ -homogeenisuustesti, odotetut frekvenssit Jos nollahypoteesi pätee, jokaisen ryhmän i kohdalla luokan j todennäköisyys on sama p j p j :n estimaatti p j = luokan j havaintojen kokonaismäärä / havaintojen kokonaismäärä = C j /n Odotettu frekvenssi ryhmässä i ja luokassa j on E ij = n i p j =C j n i /n c Summa O O Oc n O O Oc n r Or Or Orc nr Summa C C Cc n c Summa E E E c n E E Ec n r Er Er Erc nr Summa C C Cc n Kai Virtanen 0 χ -homogeenisuustesti, testisuure ja p-arvo IDIS: Havaittujen frekvenssien O ij ja odotettujen frekvenssien E ij jakaumat muistuttavat toisiaan => havainnot sopusoinnussa nollahypoteesin kanssa χ -testisuure H 0 ok => testisuure suurissa otoksissa approksimatiivisesti χ -jakautunu vapausastein f = (r )(c ) Suuri testisuureen arvo => nollahypoteesi roskikseen, i.e., havainnot peräisin eri jakaumista p-arvo = oikean puoleinen häntä = P(χ > testisuureen arvo) χ ( O E ) r c ij ij = i= j= j Kai Virtanen Esimerkki χ -homogeenisuustestistä Kylän kunnaninsinööri on tehnyt uuden tiesuunnitelman 0 mieheltä ja 0 naiselta kysyttiin mielipidettä insinöörin visiosta Myönteisesti suhtautuvia miehiä 69 ja naisia 5 Kielteisesti suhtautuvia miehiä 0 ja naisia 44 kantaa, miehiä 9 ja naisia 3 Onko miesten ja naisten jakaumissa (mielipiteissä) eroa? Havaitut frekvenssit Odotetut frekvenssit Miehet Naiset Yht. Kyllä 69 5 94 0 44 46 kantaa 9 3 60 Yht. 0 0 600 Miehet Naiset Testisuureen arvo = 3.8, f=(-)(3-), P(χ > 3.8)=0.000 => Miesten ja naisten mielipiteissä on eroa!!!!! Kai Virtanen Yht. Kyllä 47 47 94 3 3 46 kantaa 60 Yht. 0 0 600 3
χ -riippumattomuustesti, hypoteesit Kahden satunnaismuuttujan (tekijän/faktorin) välinen stokastinen riippumattomuus: Tieto toisen muuttujan saamasta arvosta ei vaikuta toiseen muuttajaan liittyviin todennäköisyyksiin Yleinen hypoteesi H : Perusjoukosta on poimittu yksinkertainen satunnaisotos ja havaintoyksiköt voidaan luokitella ristiin kahden tekijän ja suhteen Tekijät ja ovat riippumattomia Tekijät ja eivät ole riippumattomia Kai Virtanen 3 χ -riippumattomuustesti: havaitut frekvenssit Poimitaan perusjoukosta yksinkertainen satunnaisotos, n kpl Luokitellaan havaintoyksiköt tekijän suhteen luokkiin (r kpl) ja tekijän suhteen luokkiin (c kpl) R i tekijän luokkaan i kuuluvien havaintojen frekvenssi/lukumäärä C j tekijän luokkaan j kuuluvien havaintojen frekvenssi O ij tekijän luokkaan i ja tekijän luokkaan j kuuluvien havaintojen havaittu frekvenssi/lukumäärä Tekijän luokat i c Summa O O O c R O O O c R r O r O r O rc R r Summa C C C c n Tekijän luokat j Kai Virtanen 4 χ -riippumattomuustesti, odotetut frekvenssit Nollahypoteesi Tekijät ja ovat riippumattomia pätee => Odotettujen frekvenssien estimaattien arvot ovat tismalleen samat kuin homogeenisuuden testaamisessa!!!! Odotettu frekvenssi tekijän luokkassa i ja tekijän luokassa j on E ij = C j R i /n c Summa O O Oc R O O Oc R r O r O r O rc R r Summa C C Cc n c Summa E E Ec R E E Ec R r Er Er Erc Rr Summa C C Cc n χ -riippumattomuustesti, testisuure ja p-arvo IDIS: Havaittujen frekvenssien O ij ja odotettujen frekvenssien E ij jakaumat muistuttavat toisiaan => havainnot ovat sopusoinnussa nollahypoteesin tekijät ja ovat riippumattomia kanssa χ -testisuure χ ( O E ) r c ij ij = i= j= j H 0 ok => testisuure suurissa otoksissa approksimatiivisesti χ -jakautunu vapausastein f = (r )(c ) Suuri testisuureen arvo => nollahypoteesi roskikseen, i.e., tekijät ja eivät ole riippumattomia p-arvo = oikeanpuoleinen häntä = P(χ > testisuureen arvo) Kai Virtanen 5 Kai Virtanen 6 4
Esimerkki χ -riippumattomuustestistä Ovatko avioliitossa elävien miehen ja naisen äänestyskäyttäytymiset riippumattomia? 0 avioparia; ehdokas, ehdokas tai joku muu () Yhdeksän luokkaa,,..., Mies Havaitut frekvenssit YHT Nainen 5 0 0 45 7 5 0 4 8 5 0 33 Yht. 50 40 0 YHT 8.75 5.00 Nainen 4.00 Testisuureen arvo =.46, f=(3-)(3-), P(χ >.46)=0.0003 => viopuolisot valitsevat ehdokkaan yhteistuumin Mies Odotetut frekvenssit.5 45 0.50 7.50 4 8.5 3.75.00 33 Yht. 50 40 0 χ -riippumattomuustesti ja χ -homogeenisuustesti χ -riippumattomuustesti ja χ -homogeenisuustesti muistuttavat toisiaan Frekvenssitaulukosta ei voi nähdä kummasta testausasetelmasta on kyse χ -riippumattomuustesti ja χ -homogeenisuustesti tehdään teknisesti samalla tavalla: Odotetut frekvenssit määrätään samalla kaavalla Testisuureet lasketaan samalla kaavalla Testisuureet noudattavat nollahypoteesin pätiessä approksimatiivisesti samaa jakaumaa Testien testausasetelmat ovat kuitenkin täysin erilaiset!!!!! Kai Virtanen 7 Kai Virtanen 8 Riippumattomuustesti vs. homogeenisuustesti Riippumattomuustestin testausasetelma: (i) Tarkastellaan kahden tekijän ja riippuvuutta, kun havainnot luokitellaan tekijöiden suhteen ristiin (ii) Havaintoaineisto muodostuu yhdestä satunnaisotoksesta (iii) Vain havaintojen kokonaislukumäärä n on kiinteä, kun taas sattuma määrää miten havainnot jakautuvat luokkiin tekijöiden ja ristiluokituksen suhteen Homogeenisuustestin testausasetelma: (i) Perusjoukko koostuu r ryhmästä ja testissä tarkastellaan perusjoukon alkioiden jakautumista luokkiin eri ryhmissä yhden ominaisuuden suhteen (ii) Havaintoaineisto muodostuu toisistaan riippumattomista ryhmäkohtaisista satunnaisotoksista (iii) Sekä ryhmäkohtaiset otoskoot n i että havaintojen kokonaislukumäärä n ovat kiinteitä, kun taas sattuma määrää miten havainnot jakautuvat luokkiin ryhmien sisällä Kai Virtanen 9 Normaalisuusoletuksen tutkiminen Normaalijakaumalla on keskeinen asema tilastotieteessä Esim. t-testeissä oletetaan, että havainnot noudattavat normaalijakaumaa Erilaisia menetelmiä havaintojen normaalisuuden tutkimiseen χ -yhteensopivuustesti ok Erityisesti normaalisuuden testaamiseen: owmanin ja Shentonin testi Rankit Plot -kuvio sekä Wilkin ja Shapiron testi Kai Virtanen 0 5
owmanin ja Shentonin testi, hypoteesit Yleinen hypoteesi H : Havainnot X, X,, X n on poimittu yksinkertaisella satunnaisotannalla perusjoukosta Havainnot X, X,, X n noudattavat normaalijakaumaa Havainnot X, X,, X n eivät noudata normaalijakaumaa Kai Virtanen owmanin ja Shentonin testi, testisuure ja p-arvo owmanin ja Shentonin testin testisuure on vinouden ja huipukkuuden funktio χ -testisuure n n χ = c + c 6 4 missä c on vinous, c huipukkuus ja n otoskoko Normaalijakaumalle c =0 ja c =0 huipukkuus Testisuure saa suuria arvoja, jos havaintojen vinous ja/tai huipukkuus poikkeavat paljon normaalijakauman vinoudesta ja/tai huipukkuudesta Suuret testisuureen arvo => H 0 ei päde H 0 ok => testisuure χ noudattaa suurissa otoksissa approksimatiivisesti χ -jakaumaa vapausastein f = p-arvo = oikeanpuoleinen häntä = P(χ > testisuureen arvo) Kai Virtanen Normaalisuuden testaaminen, Rankit Plot -kuvio Olkoot Z, Z,, Z n havainnot X, X,, X n suuruusjärjestyksessä pienimmästä suurimpaan E(Y i ) havainnon Y i odotusarvo; Y i suuruusjärjestyksessä i. havainto normaalijakaumasta N(0,) poimitusta n kpleen satunnaisotoksesta Piirretään käppyrä (E(Y i ), Z i ), i =,,, n Havainnot X i peräisin normaalijakaumasta => pisteet (E(Y i ), Z i ) asettuvat (satunnaisvaihtelua lukuun ottamatta) suoralle Poikkeamat suorasta viittaavat epänormaalisuuteen Kuviosta voidaan tunnistaa: Havaintoarvojen jakauman vinous Havaintoarvojen jakauman huipukkuus Poikkeavat havainnot Wilkin ja Shapiron testi Wilkin ja Shapiron testisuure on Rankit Plot -kuvion pisteistä (E(Y i ), Z i ), i =,,, n lasketun otoskorrelaatiokertoimen neliö Pienet testisuureen arvot viittaavat siihen, että normaalisuusoletus ei päde Suuret testisuureen arvot ovat sopusoinnussa normaalisuusoletuksen kanssa Kompuutteri laskee p-arvon Kai Virtanen 3 Kai Virtanen 4 6