Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Samankaltaiset tiedostot
Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Väliestimointi (jatkoa) Heliövaara 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Harjoitus 7: NCSS - Tilastollinen analyysi

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A

Testit järjestysasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Testejä suhdeasteikollisille muuttujille

11. laskuharjoituskierros, vko 15, ratkaisut

Testit laatueroasteikollisille muuttujille

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Mat Tilastollisen analyysin perusteet, kevät 2007

2. TILASTOLLINEN TESTAAMINEN...

Mat Sovellettu todennäköisyyslasku A

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastollinen aineisto Luottamusväli

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Hypoteesin testaus Alkeet

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

HAVAITUT JA ODOTETUT FREKVENSSIT

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

tilastotieteen kertaus

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Sovellettu todennäköisyyslaskenta B

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

10. laskuharjoituskierros, vko 14, ratkaisut

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

6. laskuharjoitusten vastaukset (viikot 10 11)

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Identifiointiprosessi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

031021P Tilastomatematiikka (5 op) viikko 5

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Sovellettu todennäköisyyslaskenta B

Osa 2: Otokset, otosjakaumat ja estimointi

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyden ominaisuuksia

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Kertymäfunktio. TKK (c) Ilkka Mellin (2007) 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Havaintoaineiston trimmauksen vaikutus otoskeskiarvoon

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Transkriptio:

Tilastollisen analyysin perusteet Luento 5:

Sisältö

Tilastotieteessä tehdään usein oletuksia havaintojen jakaumasta. Useat tilastolliset menetelmät toimivat tehottomasti tai jopa virheellisesti, jos jakaumaoletukset eivät päde. Tämän vuoksi jakaumaoletusten paikkansapitävyyttä on syytä testata erikseen.

Normaalijakaumalla on keskeinen asema tilastotieteessä. Havaintojen normaalisuuden testaamisen on kehitetty useita erilaisia menetelmiä. Tarkastelemme niistä muutamia lähemmin.

Olkoot x 1, x 2,..., x n satunnaismuuttujan x havaitut arvot. Oletetaan, että havaintopisteet x 1, x 2,..., x n ovat riippumattomia ja samoin jakautuneita. Nollahypoteesi H 0 : Satunnaismuuttuja x on normaalijakautunut. Vaihtoehtoinen hypoteesi H 1 : Satunnaismuuttuja x ei ole normaalijakautunut.

Bowmanin ja Shentonin testi Bowmanin ja Shentonin testin testisuure on vinouden ja huipukkuuden funktio BS = n( v 2 6 + k 2 24 ), missä v on ensimmäisellä luennolla esitetty otosvinouskerroin ja k on ensimmäisellä luennolla esitetty otoshuipukkuuskerroin. Normaalijakauman vinouskerroin ja huipukkuuskerroin ovat molemmat 0. Testisuure saa suuria arvoja, jos havaintojen vinous ja/tai huipukkuus poikkeavat paljon normaalijakauman vinoudesta ja/tai huipukkuudesta.

Bowmanin ja Shentonin testi Kun n on suuri, niin nollahypoteesin vallitessa testisuure BS noudattaa likimain χ 2 (2) jakaumaa. Testisuureen normaaliarvo on 2, koska nollahypoteesin pätiessä E[BS] = 2. Suuret testisuureen arvot (verrattuna normaaliarvoon) viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

Bowmanin ja Shentonin testi Bowmanin ja Shentonin testi sopii suurille otoksille. Testin modifoitu versio, Jarque-Bera -testi, toimii paremmin myös pienillä otoksilla. Enemmän Jarque-Bera -testistä esim. Wikipediasta.

Järjestysluku-kuvaaja Olkoot z 1, z 2,..., z n havainnot x 1, x 2,..., x n suuruusjärjestyksessä pienimmästä suurimpaan, ja olkoon E(y i ) havainnon y i odotusarvo, kun y i on suuruusjärjestyksessä i. havainto normaalijakaumasta N(0, 1) poimitusta n kappaleen satunnaisotoksesta. Piirretään kuvaaja (E(y i ), z i ), i = 1, 2,..., n. Jos havainnot x i ovat peräisin normaalijakaumasta, niin pisteet (E(y i ), z i ) asettuvat (satunnaisvaihtelua lukuun ottamatta) suoralle. Poikkeamat suorasta viittaavat normaalijakaumasta poikkeamiseen. Kuviosta voidaan tunnistaa mm. havaintoarvojen jakauman vinous ja poikkeavat havainnot

Wilkin ja Shapiron testi Wilkin ja Shapiron testisuure on järjestysluku-kuvaajan pisteistä (E(Yi), Zi), i = 1, 2,..., n lasketun Pearsonin otoskorrelaatiokertoimen neliö. Pienet testisuureen arvot viittaavat siihen, että normaalisuusoletus ei päde. Suuret testisuureen arvot ovat sopusoinnussa normaalisuusoletuksen kanssa. Tietokone laskee testin p-arvon. Nollahypoteesi hylätään, jos p-arvo on riittävän pieni. Myös tämä testi vaatii toimiakseen riittävän suuren otoskoon.

Numeerinen esimerkki normaaliuden testaamisesta Eräässä aikaisemmassa esimerkissä vertailtiin Kallen superkeksien ja Panun pahanmakuisten prinsessakeksien hintaa ja tehtiin symmetriaoletus hintojen erotukselle. Tutkitaan hintojen erotuksen normaaliutta. Otos erotuksista: Erotus -0.24-0.23-0.13-0.06 0.01 0.03 0.04 0.19 0.019 0.27 Taulukko: Kallen ja Panun keksipakettien hintojen erotukset.

Bowmanin ja Shentoinin testi: Testisuuretta varten on laskettava ensin vinous ja huipukkuusluvut v ja k. Otoskeskihajonta s 0.163 ja otoskeskiarvo x = 0.0101 v = m 1 n 3 s 3 = n i=1 (x i x) 3 s 3 = = ( 1 10 k = m 1 4 s 4 3 = ( n 1 10 10 i=1 (x i ( 0.0101)) 3 0.163 3 0.126. n i=1 (x i x) 4 s 4 ) 3 10 i=1 (x i ( 0.0101)) 4 0.163 4 ) 3 1.814 3 = 1.186. Testisuureen arvoksi saadaan BS = n( v 2 6 + k 2 24 ) = 10(0.1262 6 + ( 1.186)2 ) 0.613. 24 Nollahypoteesin vallitessa testisuure noudattaa suurilla otoskoilla χ 2 (2)-jakaumaa. Kriittisiksi arvoiksi 5% merkitsevyys tasolla saadaan 0.051 ja 7.378. Koska 0.051 < 0.613 < 7.378, näyttöä ei-normaaliudesta ei löytynyt.

Järjestysluku-kuvaaja: Kuva: Järjestysluku-kuvaaja hintojen erotuksista.

Shapiron ja Wilkin testi: Laskettu R:n valmiilla shapiro.test-funktiolla. Shapiro-Wilk normality test data: erot W = 0.9468, p-value = 0.6309 p-arvo on suuri, joten näyttöä ei-normaaliudesta ei löytynyt.

Voidaanko tuloksiin luottaa? Täyttyvätkö kaikki testien vaatimukset? Mikä olikaan tyypin 2 virhe?

Multinomijakauma Multinomijakauma liittyy satunnaiskokeisiin, joissa on useampia kuin kaksi toistensa poissulkevaa tulosvaihtoehtoa. Toistettaessa tällaisia moniulotteisia riippumattomia satunnaiskokeita n kappaletta, saatujen tulosten frekvenssijakauma voidaan kuvata multinomijakauman avulla. Tarkastellaan tilannetta, missä satunnaiskokeella on k kappaletta toistensa poissulkevaa tulosvaihtoehtoa.

Multinomijakauma Satunnaismuuttujat x 1, x 2,..., x k noudattavat multinomijakaumaa parametrein n, p 1, p 2,..., p k, jos pistetodennäköisyysfunktio p(x 1,..., x k ) = n! x 1!x 2! x k! px 1 1 px 2 2 px k k, missä ja k x i = n i=1 k p i = 1. i=1

Multinomijakauma Oletetaan, että x 1, x 2,..., x k noudattavat multinomijakaumaa parametrein n, p 1, p 2,..., p k. Tällöin, kun n on suuri, niin k (x i np i ) 2 i=1 np i noudattaa likimain χ 2 (k 1) jakaumaa.

χ 2 -yhteensopivuustesti Yhteensopivuustestissä tutkitaan onko satunnaismuuttujan x jakauma yhtäpitävä jonkin oletetun jakauman kanssa. Nollahypoteesi H 0 : Satunnaismuuttuja x noudattaa jakaumaa F x (jolla saattaa tai saattaa olla olematta tuntemattomia parametreja.) Vaihtoehtoinen hypoteesi H 1 : Satunnaismuuttuja x ei noudata jakaumaa F x.

χ 2 -yhteensopivuustesti Olkoot x 1, x 2,..., x n satunnaismuuttujan x havaitut arvot. Oletetaan, että havaintopisteet x 1, x 2,..., x n ovat riippumattomia ja samoin jakautuneita. Luokitellaan havainnot (n kpl) erillisiin luokkiin, joiden lukumäärä on k kpl. Määritetään frekvenssit O i, i {1, 2,..., k}, missä O i on luokan i havaittu frekvenssi/lukumäärä. Huomaa, että nyt k i=1 O i = n. Olkoon p i todennäköisyys sille, että nollahypoteesin vallitessa satunnaismuuttuja x kuuluu luokkaan i. Määritetään luokkaan i kuuluvien havaintojen odotettu frekvenssi E i = np i. Huomaa, että k i=1 p i = 1. Nyt, nollahypoteesin vallitessa, satunnaismuuttujat O 1, O 2,..., O k noudattavat multinomijakaumaa parametrein n, p 1, p 2,..., p k.

χ 2 -yhteensopivuustesti Muodostetaan testisuure χ 2 y = k i=1 (O i E i ) 2 E i. Kun n on suuri, niin nollahypoteesin vallitessa testisuure χ 2 y noudattaa likimain χ 2 (k 1 e) jakaumaa, missä e on jakauman estimoitujen parametrien lukumäärä. Testisuureen normaaliarvo on k 1 e, koska nollahypoteesin pätiessä E[χ 2 y] = k 1 e. Suuret ja pienet testisuureen arvot (verrattuna normaaliarvoon) viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

χ 2 -yhteensopivuustesti Huom: Jos testisuureen arvo on suuri, otosfrekvenssit poikkeavat odotetuista huomattavan paljon, joten on selvää, että nollahypoteesi tulee hylätä. Jos taas testisuureen arvo on hyvin pieni, niin tällöin otosfrekvenssit poikkeavat odotetuista erikoisen vähän. Kyseessä on ns. overfitting ongelma. Yleisesti overfitting ongelma voi esiintyä esim. silloin jos mallin varianssi oletetaan liian suureksi.

Yhteensopivuustesti, Esimerkki 1 Tarkastellan keramiikkatehtaassa valmistettujen jättimukien laatua. Nollahypoteesina on se, että tuotteessa on muotovika todennäköisyydellä 2/14, värivika todennäköisyydellä 2/14, molemmat viat todennäköisyydellä 1/14 ja tuote on virheetön todennäköisyydellä 9/14. Valitaan satunnaisesti 200 tuotetta. Näistä muotoviallisia on 40 kpl, väriviallisia 44 kpl, molemmat viat omaavia 26 kpl ja virheettömiä 90 kpl. Nyt O 1 = 40, O 2 = 44, O 3 = 26, O 4 = 90, E 1 = 200 2/14, E 2 = 200 2/14, E 3 = 200 1/14, E 4 = 200 9/14, ja χ 2 y = 4 (O i E i ) 2 = 34.08. E i i=1 Nollahypoteesin vallitessa testi noudattaa likimain χ 2 (4 1) = χ 2 (3) jakaumaa. Koska P(χ 2 (3) 34.08) < 0.00001, niin nollahypoteesi hylätään.

Yhteensopivuustesti, Esimerkki 2 Testataan noudattaako suomalaisten kuukausipalkka normaalijakaumaa. Arvotaan n kpl suomalaisia ja kirjataan kuukausipalkat muistiin. Nollahypoteesi on se, että havainnot noudattavat normaalijakaumaa, jonka odotusarvo ja varianssi ovat tuntemattomia. Estimoidaan tuntemattomat parametrit havainnoista. Diskretoidaan jatkuva palkkamuuttuja esim. 100 euron väleihin. Lasketaan havaitut luokkafrekvenssit. Toisin sanoen lasketaan kuhunkin osaväliin=luokkaan sijoittuvien palkkahavaintojen lukumäärä. Määritetään luokkiin liittyvät todennäköisyydet normaalijakaumasta, esim...., P(1900 < X < 2000), P(2000 < X < 2100),... Lasketaan odotetut luokkafrekvenssit. Lasketaan testisuureen arvo. Nollahypoteesin vallitessa testi noudattaa likimain χ 2 (k 1 2) = χ 2 (k 3) jakaumaa, missä k on osavälien eli luokkien lukumäärä. Tarkastellaan testistä saadun lukuarvon todennököisyyttä ja tehdään johtopäätös.

χ 2 -homogeenisuustesti Homogeenisuustestissä tarkastelun kohteena on monta (r kpl) havaintoaineistoa. Nollahypoteesi H 0 : Havaintoaineistot tulevat samasta jakaumasta F x. Vaihtoehtoinen hypoteesi H 1 : Havaintoaineistot eivät tule samasta jakaumasta.

χ 2 -homogeenisuustesti Tarkastellaan usean havaintoaineiston, r kpl, satunnaismuuttujien arvoja. Oletetaan, että jokaisen joukon havaintopisteet ovat riippumattomia ja joukon sisällä samoin jakautuneita. Oletetaan, että aineistossa i, i {1,..., r} on n i havaintoa. Luokitellaan havainnot luokkiin, lukumäärä c kpl, luokkien koot C j Määritetään frekvenssit O ij, i {1, 2,..., r}, j {1, 2,..., c}, missä O ij ryhmän i luokkaan j kuuluvien havaintojen havaittu frekvenssi (eli lukumäärä).

Homogeenisuustesti, havaitut frekvenssit Muodostetaan havaituista frekvensseistä taulukko. 1 2 c summa 1 O 11 O 12 O 1c n 1 2 O 21 O 22 O 2c n 2 r O r1 O r2 O rc n r summa C 1 C 2 C c n

χ 2 -homogeenisuustesti Olkoon p j = C j /n. (Jos nollahypoteesi pätee, jokaisen ryhmän i kohdalla luokan j todennäköisyys on sama p j.) Määritetään ryhmässä i luokkaan j kuuluvien havaintojen odotettu frekvenssi E ij = n i p j.

Homogeenisuustesti, odotetut frekvenssit Muodostetaan odotetuista frekvensseistä taulukko. 1 2 c summa 1 E 11 E 12 E 1c n 1 2 E 21 E 22 E 2c n 2 r E r1 E r2 E rc n r summa C 1 C 2 C c n

χ 2 -homogeenisuustesti Muodostetaan testisuure χ 2 h = r c i=1 j=1 (O ij E ij ) 2 E ij. Kun n on suuri, niin nollahypoteesin vallitessa testisuure χ 2 h noudattaa likimain χ2 ((r 1)(c 1)) jakaumaa. Testisuureen normaaliarvo on (r 1)(c 1), koska nollahypoteesin pätiessä E[χ 2 h ] = (r 1)(c 1). Suuret testisuureen arvot (verrattuna normaaliarvoon) viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

Homogeenisuustesti, Esimerkki Kylän kunnaninsinööri on tehnyt uuden tiesuunnitelman. Kyläläisiltä kysyttiin mielipidettä insinöörin visiosta. 250 miestä ja 300 naista valittiin satunnaisesti vastaamaan kyselyyn. Myönteisesti suhtautuvia miehiä oli 169 ja myönteisesti suhtautuvia naisia oli 125. Kielteisesti suhtautuvia miehiä oli 52 ja kielteisesti suhtautuvia naisia 144. Miehistä 29 ja naisista 31 ei ottanut kantaa.

Esimerkki, havaitut frekvenssit myönt kielt ei kantaa yht miehet 169 52 29 250 naiset 125 144 31 300 yht. 294 196 60 550

Esimerkki, odotetut frekvenssit myönt kielt ei kantaa yht miehet 133.6 89.1 27.3 250 naiset 160.4 106.9 32.7 300 yht. 294 196 60 550

Homogeenisuustesti, Esimerkki Testisuureen arvo χ 2 h = r c (O ij E ij ) 2 E ij i=1 j=1 = (169 133.6) 2 /133.6+(52 89.1) 2 /89.1+(29 27.3) 2 /27.3 +(125 160.4) 2 /160.4+(144 106.9) 2 /106.9+(31 32.7) 2 /32.7 = 45.7105. Nollahypoteesin vallitessa testi noudattaa likimain χ 2 (2 1)(3 1) = χ 2 (2) jakaumaa. Koska P(χ 2 (2) 45.7105) < 0.00001, niin todetaan että naisten ja miesten mielipiteet tiesuunnitelmasta eroavat toisistaan.

χ 2 -riippumattomuustesti Riippumattomuustestissä tarkastellaan kahden satunnaismuuttujan (tekijän/faktorin) välistä stokastista riippumattomuutta. Nollahypoteesi H 0 : Muuttujat ovat riippumattomia. Vaihtoehtoinen hypoteesi H 1 : Muuttujat eivät ole riippumattomia.

χ 2 -riippumattomuustesti Tarkastellaan yksinkertaista satunnaisotosta, otoskoko n. Luokitellaan havaintoyksiköt tekijän A suhteen luokkiin, r kpl, ja tekijän B suhteen luokkiin, c kpl. Olkoon R i tekijän A luokkaan i kuuluvien havaintojen frekvenssi/lukumäärä, olkoon C j tekijän B luokkaan j kuuluvien havaintojen frekvenssi ja olkoon O ij tekijän A luokkaan i ja tekijän B luokkaan j kuuluvien havaintojen havaittu frekvenssi.

Riippumattomuustesti, havaitut frekvenssit 1 2 c summa 1 O 11 O 12 O 1c R 1 2 O 21 O 22 O 2c R 2 r O r1 O r2 O rc R r summa C 1 C 2 C c n

χ 2 -riippumattomuustesti Olkoon P j = C j /n. (Jos nollahypoteesi pätee, jokaisen tekijän A luokan i kohdalla tekijän B luokan j todennäköisyys on sama P j.) Määritetään tekijän A luokkaan i ja tekijän B luokkaan j kuuluvien havaintojen odotettu frekvenssi E ij = R i P j.

Riippumattomuustesti, odotetut frekvenssit 1 2 c summa 1 E 11 E 12 E 1c R 1 2 E 21 E 22 E 2c R 2 r E r1 E r2 E rc R r summa C 1 C 2 C c n

χ 2 -riippumattomuustesti Muodostetaan testisuure χ 2 r = r c i=1 j=1 (O ij E ij ) 2 E ij. Kun n on suuri, niin nollahypoteesin vallitessa testisuure χ 2 r noudattaa likimain χ 2 ((r 1)(c 1)) jakaumaa. Testisuureen normaaliarvo on (r 1)(c 1), koska nollahypoteesin pätiessä E[χ 2 h ] = (r 1)(c 1). Suuret testisuureen arvot (verrattuna normaaliarvoon) viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

Riippumattomuustesti, Esimerkki Tarkastellaan avioliitossa elävien miehen ja naisen äänestyskäyttäytymisien riippumattomuutta. Otoksessa on 120 avioparia ja luokat ehdokas K. Närhi, ehdokas P. Hömötiainen ja MUU (jokin muu ehdokas). Yhteensä luokkia on siis yhdeksän luokkaa NN, NH, NMUU, HN, HH, HMUU, MUUN, MUUH ja MUUMUU.

Esimerkki, havaitut frekvenssit N, mies H, mies MUU, mies yht N, nainen 15 7 8 30 H, nainen 20 25 5 50 MUU, nainen 10 10 20 40 yht. 45 42 33 120

Esimerkki, odotetut frekvenssit N, mies H, mies MUU, mies yht N, nainen 11.25 10.50 8.25 30 H, nainen 18.75 17.50 13.75 50 MUU, nainen 15.00 14.00 11.00 40 yht. 45 42 33 120

Riippumattomuustesti, Esimerkki Testisuureen arvo χ 2 r = r c (O ij E ij ) 2 = 21.46. E ij i=1 j=1 Nollahypoteesin vallitessa testi noudattaa likimain χ 2 (3 1)(3 1) = χ 2 (4) jakaumaa. Koska P(χ 2 (4) 21.46) = 0.000257, niin todetaan että miesten ja naisten välisissä avioliitoissa puolisoiden äänestyskäyttäytyminen ei ole riippumatonta.

Homogeenisuustesti ja riippumattomuustesti χ 2 -riippumattomuustesti ja χ 2 -homogeenisuustesti muistuttavat toisiaan. Testisuureet ja testisuureiden vapausasteet lasketaan samalla tavalla. Testien testausasetelmat ovat kuitenkin täysin erilaiset.

J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. Pertti Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. Ilkka Mellin: Tilastolliset menetelmät, http://math.aalto.fi/opetus/sovtoda/materiaali.html.