1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Samankaltaiset tiedostot
Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

11. laskuharjoituskierros, vko 15, ratkaisut

Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Väliestimointi (jatkoa) Heliövaara 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Testit järjestysasteikollisille muuttujille

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Testejä suhdeasteikollisille muuttujille

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Sovellettu todennäköisyyslaskenta B

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Testit laatueroasteikollisille muuttujille

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

KAHDEN RYHMÄN VERTAILU

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

tilastotieteen kertaus

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

RISTIINTAULUKOINTI JA Χ 2 -TESTI

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Estimointi. Vilkkumaa / Kuusinen 1

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2007) 1

Todennäköisyysjakaumia

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Sovellettu todennäköisyyslaskenta B

Osa 2: Otokset, otosjakaumat ja estimointi

TUTKIMUSOPAS. SPSS-opas

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Identifiointiprosessi

7. laskuharjoituskierros, vko 10, ratkaisut

10. laskuharjoituskierros, vko 14, ratkaisut

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus todennäköisyyslaskentaan Jakaumien tunnusluvut. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Sovellettu todennäköisyyslaskenta B

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Tilastollinen aineisto Luottamusväli

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Tilastolliset menetelmät: Tilastolliset testit

Tilastollisten aineistojen kuvaaminen

HAVAITUT JA ODOTETUT FREKVENSSIT

2. TILASTOLLINEN TESTAAMINEN...

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

MTTTP5, luento Luottamusväli, määritelmä

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Mat Sovellettu todennäköisyyslasku A

pisteet Frekvenssi frekvenssi Yhteensä

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Transkriptio:

Mat-2.2104 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Yhteensopivuuden ja homogeenisuden testaaminen Bowmanin ja Shentonin testi, Hypoteesi, 2 -homogeenisuustesti, 2 -yhteensopivuustesti, Päätössääntö, Nollahypoteesi, Normaalisuuden testaaminen, p-arvo, Rankit Plot, Testi, Testisuure, Testisuureen normaaliarvo, Vaihtoehtoinen hypoteesi, Wilkin ja Shapiron testi, Yhteensopivuustestit, Yleinen hypoteesi 1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi (a) (b) (c) Ratkaisu: (a) Generoi STATISTIX-ohjelman pseudosatunnaislukuja tuottavilla aliohjelmilla tiedostoon RANDOM1 seuraavat muuttujat (50 havaintoa): NORMA NORMB NORMC TAS N(0,1) N(0,1) N(0,1) Uniform(0,1) Muodosta STATISTIX-ohjelman transformaatiokomennoilla tiedostoon RANDOM1 seuraavat muuttujat: KHI = NORMA^2 + NORMB^2 + NORMC^2 2 (3) IKHI = 20 - KHI EXP = Ln(1 - TAS)/(-0.2) Exp(0.2) Tutki muuttujien NORMA, TAS, KHI, IKHI, EXP normaalisuutta: Piirrä histogrammit Määrää aritmeettiset keskiarvot, mediaanit, vinoudet, huipukkuudet Testaa normaalisuutta Bowmanin ja Shentonin testillä Piirrä Rankit Plot kuviot ja testaa normaalisuutta Wilkin ja Shapiron testillä (taulukot: STATISTIX-ohjelman HELP) Satunnaislukujen generointi Generoidaan tiedostoon RANDOM1 satunnaislukuja jakaumasta N(0,1) muuttujiksi NORMA, NORMB, NORMC: Data > Transformations Transformation Expression NORMA / NORMB / NORMC = NRandom (0,1) TKK Systeemianalyysin laboratorio (2009) 1/23

Generoidaan tiedostoon RANDOM1 satunnaislukuja jakaumasta Uniform(0,1) muuttujaksi TAS: Data > Transformations Transformation Expression TAS = Random (b) Transformaatiot Generoidaan tiedostoon RANDOM1 satunnaislukuja jakaumasta 2 (3) muuttujaksi KHI käyttämällä hyväksi 2 (3)-jakauman määritelmää: Olkoon Tällöin X, X, X N(0,1) 1 2 3 X, X, X 1 2 3 X X X 2 2 2 2 1 2 3 (3) Data > Transformations Transformation Expression KHI = NORMA^2 + NORMB^2 + NORMC^2 Muodostetaan muuttuja IKHI = 20 - KHI: Data > Transformations Transformation Expression IKHI = 20 - KHI Generoidaan tiedostoon RANDOM1 satunnaislukuja jakaumasta Exp(0.2) muuttujaksi EXP, käyttämällä hyväksi seuraavaa todennäköisyyslaskennan yleistä tulosta: Olkoon F mielivaltaisen todennäköisyysjakauman kertymäfunktio. Tällöin pätee seuraava tulos: Jos U ~ Uniform(0,1) niin satunnaismuuttuja Z = F 1 (U) noudattaa todennäköisyysjakaumaa, jonka kertymäfunktio on F. TKK Systeemianalyysin laboratorio (2009) 2/23

Frequency Mat-2.2104 Tilastollisen analyysin perusteet Koska eksponenttijakauman kertymäfunktio on F( x) 1exp( x) niin satunnaismuuttuja log e(1 U) Z Exp( ) Data > Transformations Transformation Expression EXP = Ln(1 - TAS)/(-0.2) (c) Normaalisuuden tutkiminen: Histogrammit Statistics > Summary Statistics > Histogram Histogram Variables = NORMA / KHI / IKHI / TAS / EXP Low, High, Step = valitaan muuttujan arvojen mukaan sopivasti Histogram Variables = NORMA Low, High, Step = -2.4, +2.4, 0.4 Histogram 12 8 4 0-2.4-2.0-1.6-1.2-0.8-0.4 0.0 0.4 0.8 1.2 1.6 2.0 2.4 NORMA Muuttujan NORMA jakauma on (käytännössä) yksihuippuinen ja melko symmetrinen. TKK Systeemianalyysin laboratorio (2009) 3/23

Frequency Frequency Mat-2.2104 Tilastollisen analyysin perusteet Histogram Variables = KHI Low, High, Step = 0, 10, 1 Histogram 12 8 4 0 0 1 2 3 4 5 6 7 8 9 10 Muuttujan KHI jakauma on vino oikealle. KHI Histo gram Variables = IKHI Low, High, Step = 10, 20, 1 Histogram 12 8 4 0 10 11 12 13 14 15 16 17 18 19 20 IKHI Muuttujan IKHI jakauma on vino vasemmalle. TKK Systeemianalyysin laboratorio (2009) 4/23

Frequency Frequency Mat-2.2104 Tilastollisen analyysin perusteet Histogram Variables = TAS Low, High, Step = 0, 1, 0.1 Histogram 8 6 4 2 0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 TAS Muuttujan TAS jakauma on melko tasainen. Histogram Variables = EXP Low, High, Step = 0, 22, 2 Histogram 15 10 5 0 0 2 4 6 8 10 12 14 16 18 20 22 Muuttujan EXP jakauma on vino oikealle. EXP TKK Systeemianalyysin laboratorio (2009) 5/23

Tunnusluvut Statistics > Summary Statistics > Descriptive Statistics Descriptive Variables = NORMA, KHI, IKHI, TAS, EXP DESCRIPTIVE STATISTICS VARIABLE N MEAN MEDIAN SKEW KURTOSIS NORMA 50 0.0447 6.601E-03 0.0774-0.3961 KHI 50 2.7475 2.2517 1.1034 0.4898 IKHI 50 17.253 17.748-1.1034 0.4898 TAS 50 0.4988 0.5410-0.1506-1.1189 EXP 50 4.5655 3.8957 1.8018 4.8085 Muuttuja NORMA: Aritmeettinen keskiarvo (= MEAN) Mediaani (= Median) 0 Jakauma on symmetrinen pisteen 0 suhteen Vinous (= SKEW) 0 Huipukkuus (= KURTOSIS) 0 Tunnusluvut ovat sopusoinnussa generointiprosessin kanssa: NORMA ~ N(0,1) Muuttuja KHI: Aritmeettinen keskiarvo (= MEAN) = 2.7 > 2.3 = Mediaani (= MEDIAN) Jakauma on vino oikealle Vinous (= SKEW) > 0 Huipukkuus (= KURTOSIS) > 0 Tunnusluvut ovat sopusoinnussa generointiprosessin kanssa: KHI ~ 2 (3) Muuttuja IKHI: Aritmeettinen keskiarvo (= MEAN) = 17.3 < 17.7 = Mediaani (= MEDIAN) Jakauma on vino vasemmalle Vinous (= SKEW) < 0 Huipukkuus (= KURTOSIS) > 0 Tunnusluvut ovat sopusoinnussa generointiprosessin kanssa: IKHI = 20 KHI TKK Systeemianalyysin laboratorio (2009) 6/23

Muuttuja TAS: Aritmeettinen keskiarvo (= MEAN) Mediaani (= MEDIAN) 0.5 Jakauma on symmetrinen pisteen 0.5 suhteen Vinous (= SKEW) 0 Huipukkuus (= KURTOSIS) < 0 Tunnusluvut ovat sopusoinnussa generointiprosessin kanssa: TAS ~ Uniform(0,1) Muuttuja EXP: Aritmeettinen keskiarvo (= MEAN) = 4.6 > 3.9 = Mediaani (= MEDIAN) Jakauma on vino oikealle Vinous (= SKEW) > 0 Huipukkuus (= KURTOSIS) > 0 Tunnusluvut ovat sopusoinnussa generointiprosessin kanssa: EXP ~ Exp(5) Muuttujan IKHI vinous on muuttujan KHI vinouden vastaluku. Miksi? Muuttujien KHI ja IKHI huipukkuudet ovat yhtä suuria. Miksi? Bowmanin ja Shentonin testit Bowmanin ja Shentonin testisuure n n 6 24 2 2 2 Skew Kurt 2 a (2) jos nollahypoteesi H 0 normaalisuudesta pätee. STATISTIX ei sisällä Bowmanin ja Shentonin testiä, mutta se voidaan helposti tehdä määräämällä ensin tutkittavan muuttujan vinous ja huipukkuus STATISTIX-ohjelmalla ja laskemalla testisuureen arvo esim. jollakin taulukkolaskinohjelmalla tai laskimella. Bowmanin ja Shentonin testien tulokset: VARIABLE N SKEW KURT B-S p-arvo NORMA 50 0.0774-0.3961 0.3768 0.8283 KHI 50 1.1034 0.4898 10.6456 0.0049 IKHI 50-1.1034 0.4898 10.6456 0.0049 TAS 50-0.1506-1.1189 2.7972 0.2469 EXP 50 1.8018 4.8085 75.2241 0.0000 TKK Systeemianalyysin laboratorio (2009) 7/23

Ordered Data Mat-2.2104 Tilastollisen analyysin perusteet B-S-testisuureen arvot muuttujille KHI ja IKHI ovat yhtä suuria. Miksi? Bowmanin ja Shentonin testin mukaan nollahypoteeseja muuttujien NORMA ja TAS normaalisuudesta ei voida hylätä 5 %:n merkitsevyystasolla, kun taas nollahypoteesit muuttujien KHI, IKHI ja EXP normaalisuudesta voidaan hylätä. Yo. taulukon p-arvot on saatu seuraavalla tavalla: Statistics > Probability Functions Function = Chi-square (x,df) X = B-S testisuureen arvo DF = 2 Rankit plot -kuviot Statistics > Randomness/Normality Tests > Normal Probability Plot Plot Variable = NORMA / KHI / IKHI / TAS / EXP Plot Variable = NORMA 2.1 Wilk-Shapiro / Rankit Plot of NORMA 1.3 0.5-0.3-1.1-1.9-3 -2-1 0 1 2 3 Rankits Approximate Wilk-Shapiro 0.9827 50 cases Muuttujan NORMA jakauma näyttää melko normaaliselta (kuten pitääkin). TKK Systeemianalyysin laboratorio (2009) 8/23

Ordered Data Ordered Data Mat-2.2104 Tilastollisen analyysin perusteet Plot Variable = KHI Wilk-Shapiro / Rankit Plot of KHI 10 8 6 4 2 0-3 -2-1 0 1 2 3 Rankits Approximate Wilk-Shapiro 0.8902 50 cases Muuttujan KHI jakauma on vino oikealle. Plot Variable = IKHI 20 Wilk-Shapiro / Rankit Plot of IKHI 18 16 14 12 10-3 -2-1 0 1 2 3 Rankits Approximate Wilk-Shapiro 0.8902 50 cases Muuttujan IKHI jakauma on vino vasemmalle. TKK Systeemianalyysin laboratorio (2009) 9/23

Ordered Data Ordered Data Mat-2.2104 Tilastollisen analyysin perusteet Plot Variable = TAS Wilk-Shapiro / Rankit Plot of TAS 1.0 0.8 0.6 0.4 0.2 0.0-3 -2-1 0 1 2 3 Rankits Approximate Wilk-Shapiro 0.9688 50 cases Muuttujan TAS jakauma on ohuthäntäisempi kuin muuttujan NORMA jakauma. Plot Variable = EXP 24 Wilk-Shapiro / Rankit Plot of EXP 16 8 0-3 -2-1 0 1 2 3 Rankits Approximate Wilk-Shapiro 0.8423 50 cases Muuttujan EXP jakauma on vino oikealle. TKK Systeemianalyysin laboratorio (2009) 10/23

Wilkin ja Shapiron testit Wilkin ja Shapiron testien tulokset: VARIABLE N W-S Päätös NORMA 50 0.9827 H 0 jää voimaan KHI 50 0.8902 H 0 hylätään IKHI 50 0.8902 H 0 hylätään TAS 50 0.9688 H 0 jää voimaan EXP 50 0.8423 H 0 hylätään Olkoon havaintojen lukumäärä 50. Tällöin kriittiset rajat 1 %:n ja 5 %:n merkitsevyystasoille ovat seuraavat: Merkitsevyystaso 1% 5% Kriittinen raja 0.930 0.947 Jos Wilkin ja Shapiron testisuureen arvo alittaa kriittisen rajan, on nollahypoteesi hylättävä. Wilkin ja Shapiron testin mukaan nollahypoteeseja muuttujien NORMA ja TAS normaalisuudesta ei voida hylätä 1 %:n merkitsevyystasolla, kun taas nollahypoteesit muuttujien KHI, IKHI ja EXP normaalisuudesta voidaan hylätä. Yo. taulukon p-arvojen määrääminen: ks. edellä. W-S-testisuureen arvot muuttujille KHI ja IKHI ovat yhtä suuria. Miksi? 2. Ulkopuoliset havainnot ja Rankit Plot (a) (b) (c) Generoi STATISTIX-ohjelman satunnaislukuja tuottavalla aliohjelmalla tiedostoon RANDOM2 seuraava muuttuja (50 havaintoa): NORM: N(0,1) Muodosta tiedostoon RANDOM2 muuttujasta NORM muuttujat VARA ja VARB seuraavalla tavalla: VARA: anna muuttujan NORM havainnon nro 50 arvoksi 5 VARB: anna muuttujan NORM havainnon nro 50 arvoksi +5 Tutki muuttujien VARA ja VARB jakaumia: Piirrä histogrammit Määrää aritmeettiset keskiarvot, mediaanit, vinoudet, huipukkuudet Piirrä Rankit Plot -kuviot ja testaa normaalisuutta Wilkin ja Shapiron testillä (taulukot: STATISTIX-ohjelman HELP) TKK Systeemianalyysin laboratorio (2009) 11/23

Ratkaisu: (a) Satunnaislukujen generointi Generoidaan tiedostoon RANDOM2 satunnaislukuja jakaumasta N(0,1) muuttujaksi NORM: Data > Transformations Transformation Expression NORM = NRandom (0,1) (b) Transformaatiot Kopioidaan tiedostoon RANDOM2 muuttuja NORM muuttujiksi VARA ja VARB: Data > Transformations Transformation Expression VARA / VARB = NORM Muutetaan havaintoarvo nro 50 muuttujassa VARA luvuksi 5. Muutetaan havaintoarvo nro 50 muuttujassa VARB luvuksi +5. (c) Jakauman tutkiminen: Histogrammit Statistics > Summary Statistics > Histogram Histogram Variables = NORM / VARA / VARB Low, High, Step = valitaan muuttujan arvojen mukaan sopivasti TKK Systeemianalyysin laboratorio (2009) 12/23

Frequency Frequency Mat-2.2104 Tilastollisen analyysin perusteet Histogram Variables = NORM Low, High, Step = -5.2, +5.2, 0.4 Histogram 15 10 5 0-5.2-4.4-3.6-2.8-2.0-1.2-0.4 0.4 1.2 2.0 2.8 3.6 4.4 5.2 NORM Muuttuja NORM voisi olla normaalinen (ks. Wilkin ja Shapiron testiä alla). Histogram Variables = VARA Low, High, Step = -5.2, +5.2, 0.4 Histogram 15 10 5 0-5.2-4.4-3.6-2.8-2.0-1.2-0.4 0.4 1.2 2.0 2.8 3.6 4.4 5.2 VARA Ulkopuolinen havainto 5 näkyy selvästi. TKK Systeemianalyysin laboratorio (2009) 13/23

Frequency Mat-2.2104 Tilastollisen analyysin perusteet Histogram Variables = VARB Low, High, Step = -5.2, +5.2, 0.4 Histogram 15 10 5 0-5.2-4.4-3.6-2.8-2.0-1.2-0.4 0.4 1.2 2.0 2.8 3.6 4.4 5.2 VARB Ulkopuolinen havainto +5 näkyy selvästi. Tunnusluvut Statistics > Summary Statistics > Desriptive Statistics Descriptive Variables = VARA, VARB DESCRIPTIVE STATISTICS VARIABLE N MEAN MEDIAN SKEW KURTOSIS NORM 50 0.0268 0.0642-0.0190-0.2946 VARA 50-0.0717 0.0642-1.0862 3.1703 VARB 50 0.1283 0.0677 1.0288 3.0455 Tarkastellaan miten ulkopuolinen havainto vaikuttaa tunnuslukuihin: Aritmeettiset keskiarvot (= MEAN): Ulkopuolinen havainto vetää aritmeettista keskiarvoa puoleensa. Mediaanit (= MEDIAN): Ulkopuolinen havainto ei vaikuta olennaisesti mediaanin arvoon. Tässä näkyy se, että mediaani on tunnuslukuna robustimpi kuin aritmeettinen keskiarvo. TKK Systeemianalyysin laboratorio (2009) 14/23

Ordered Data Mat-2.2104 Tilastollisen analyysin perusteet Vinoudet (= SKEW): Ulkopuolinen havainto muuttaa muuttujan NORM melko symmetrisen jakauman vinoksi: VARA on vino vasemmalle. VARB on vino oikealle. Huipukkuudet (= KURTOSIS): Ulkopuolinen havainto saa tässä tapauksessa huipukkuuden arvon kasvamaan. Rankit Plot -kuviot Statistics > Randomness/Normality Tests > Normal Probability Plot Plot Variable = NORM / VARA / VARB Plot Variable = NORM 3 Wilk-Shapiro / Rankit Plot of NORM 1-1 -3-3 -2-1 0 1 2 3 Rankits Approximate Wilk-Shapiro 0.9831 50 cases Muuttujan NORM jakauma näyttää melko normaaliselta (kuten pitääkin). TKK Systeemianalyysin laboratorio (2009) 15/23

Ordered Data Ordered Data Mat-2.2104 Tilastollisen analyysin perusteet Plot Variable = VARA Wilk-Shapiro / Rankit Plot of VARA 3 1-1 -3-5 -3-2 -1 0 1 2 3 Rankits Approximate Wilk-Shapiro 0.9169 50 cases Muuttujan VARA jakauma näyttää melko normaaliselta, kun ulkopuolista havaintoa ei oteta huomioon. Plot Variable = VARB 5 Wilk-Shapiro / Rankit Plot of VARB 3 1-1 -3-3 -2-1 0 1 2 3 Rankits Approximate Wilk-Shapiro 0.9228 50 cases Muuttujan VARB jakauma näyttää melko normaaliselta, kun ulkopuolista havaintoa ei oteta huomioon. TKK Systeemianalyysin laboratorio (2009) 16/23

Wilkin ja Shapiron testit Wilkin ja Shapiron testien tulokset: VARIABLE N W-S Päätös NORM 50 0.9831 H 0 jää voimaan VARA 50 0.9169 H 0 hylätään VARB 50 0.9228 H 0 hylätään Olkoon havaintojen lukumäärä 50. Tällöin kriittiset rajat 1 %:n ja 5 %:n merkitsevyystasoille ovat seuraavat: Merkitsevyystaso 1% 5% Kriittinen raja 0.930 0.947 Jos Wilkin ja Shapiron testisuureen arvo alittaa kriittisen rajan, on nollahypoteesi hylättävä. Wilkin ja Shapiron testin mukaan nollahypoteesia muuttujan NORM normaalisuudesta ei voida hylätä 1 %:n merkitsevyystasolla, kun taas nollahypoteesit muuttujien VARA ja VARB normaalisuudesta voidaan hylätä. Yo. taulukon p-arvojen määrääminen: ks. Tehtävä 1. Huomaa, miten ulkopuolinen havainto on pienentänyt Wilkin ja Shapiron testisuureen arvoa. 3. 2 -yhteensopivuustesti Oletetaan, että henkilö ilmoittaa heittäneensä noppaa 120 kertaa ja saaneensa seuraavan silmälukujen frekvenssien jakauman: Silmäluku 1 2 3 4 5 6 Frekvenssi 12 16 20 17 22 33 Testaa 2 -yhteensopivuustestillä oletusta, että noppa on virheetön: (a) (b) Laske 2 -testisuureen arvo käyttäen STATISTIX-ohjelman transformaatioita. Laske 2 -testisuureen arvo käyttäen STATISTIX-ohjelman Association Tests -valikon Multinomial Test -vaihtoehtoa ja testaa nollahypoteesia, että noppa on ollut virheetön 5 %:n merkitsevyystasoa käyttäen. TKK Systeemianalyysin laboratorio (2009) 17/23

Ratkaisu: (a) 2 -testisuureen arvon laskeminen transformaatioilla Muodostetaan tiedosto NOPPA1: Muuttuja O = havaitut frekvenssit Muuttuja E = odotetut frekvenssit Määrätään odotetut frekvenssit E käyttäen nollahypoteesina oletusta: H 0 : Pr(Silmäluku i) = p i = 1/6, i = 1, 2, 3, 4, 5, 6 jolloin E i = np i = n/6 = 120/6 = 20, i = 1, 2, 3, 4, 5, 6 Tiedosto NOPPA1: O E 1 12 20 2 16 20 3 20 20 4 17 20 5 22 20 6 33 20 2 -testisuure: ( O E ) m 2 2 k k 2 a k1 Ek ( f ) jossa vapausasteiden lukumäärä f = m 1 p ja m = luokkien lukumäärä p = odotettujen frekvenssien määräämiseksi estimoitujen parametrien lukumäärä Muodostetaan muuttuja KHI: KHI = (O E) 2 /E Data > Transformations Transformation Expression Variable = (O E)^2/E TKK Systeemianalyysin laboratorio (2009) 18/23

Tiedosto NOPPA1 transformaation jälkeen: O E KHI 1 12 20 3.20 2 16 20 0.80 3 20 20 0.00 4 17 20 0.45 5 22 20 0.20 6 33 20 8.45 2 -testisuureen arvo saadaan laskemalla yhteen sarakkeen KHI luvut, jolloin tulokseksi saadaan 2 = 13.1 (b) 2 -yhteensopivuustesti Statistics > Association Tests > Multinomial Test Hypothesized Proportions Variable = E Observed Frequencies Variable = O MULTINOMIAL TEST HYPOTHESIZED PROPORTIONS VARIABLE: E OBSERVED FREQUENCIES VARIABLE: O HYPOTHESIZED OBSERVED EXPECTED CHI-SQUARE CATEGORY PROPORTION FREQUENCY FREQUENCY CONTRIBUTION 1 0.16667 12 20.00 3.20 2 0.16667 16 20.00 0.80 3 0.16667 20 20.00 0.00 4 0.16667 17 20.00 0.45 5 0.16667 22 20.00 0.20 6 0.16667 33 20.00 8.45 OVERALL CHI-SQUARE 13.10 P-VALUE 0.0225 DEGREES OF FREEDOM 5 2 -testisuureen arvo = 13.10 ja sitä vastaava p-arvo = 0.0225, kun vapausasteita on 5. Siten nollahypoteesi nopan virheettömyydestä voidaan hylätä 5 %:n merkitsevyystasolla. Huomaa, että testisuureen arvoksi saatiin sama kuin (a)-kohdassa kuten pitikin. TKK Systeemianalyysin laboratorio (2009) 19/23

4. 2 -homogeenisuustesti Vaaleja edeltäneessä kyselyssä tarkasteltiin neljän puolueen A, B, C ja D kannatusta kolmella alueella. Kysely toteutettiin poimimalla toisistaan riippumattomat yksinkertaiset satunnaisotokset ko. alueiden äänestäjien joukosta. Tulokset on annettu alla olevassa taulukossa. Testaa 2 -homogeenisuustestillä nollahypoteesia, että kannatuksen jakaumat ovat eri alueilla samat. Puolue Alue A B C D Otoskoko 1 52 34 80 34 200 2 33 15 78 24 150 3 66 54 141 39 300 (a) (b) Ratkaisu: Käytä aineistoa taulukkomuodossa. Käytä aineistoa kategorisessa muodossa. Olkoon nollahypoteesina H 0 : Puoluekannatus jakautuu eri aleilla samalla tavalla. Havaitut frekvenssit: O ij = havaittu frekvenssi ryhmässä (otoksessa) i ja luokassa j, i = 1, 2,, r, j = 1, 2,, c Odotetut frekvenssit: jossa E n i C ij j nc i n c j1 r i1 Huomaa, että O j ij O ij n i = otoskoko ryhmässä i C j = luokkafrekvenssi yhdistetyssä otoksessa TKK Systeemianalyysin laboratorio (2009) 20/23

Nollahypoteesin H 0 pätiessä testisuure ( O E ) r c 2 2 ij ij 2 a i1 j1 Eij ( f ) jossa f = (r 1)(c 1) (a) Aineisto taulukkomuodossa A B C D 1 52 34 80 34 2 33 15 78 24 3 66 54 141 39 2 -homogeenisuustesti Statistics > Association Tests > Chi-Square Test Model Specification = Table Table Variables = A, B, C, D CHI-SQUARE TEST FOR HETEROGENEITY OR INDEPENDENCE VARIABLE CASE A B C D +-----------+-----------+-----------+-----------+ 1 OBSERVED 52 34 80 34 200 EXPECTED 46.46 31.69 92.00 29.85 CELL CHI-SQ 0.66 0.17 1.57 0.58 +-----------+-----------+-----------+-----------+ 2 OBSERVED 33 15 78 24 150 EXPECTED 34.85 23.77 69.00 22.38 CELL CHI-SQ 0.10 3.24 1.17 0.12 +-----------+-----------+-----------+-----------+ 3 OBSERVED 66 54 141 39 300 EXPECTED 69.69 47.54 138.00 44.77 CELL CHI-SQ 0.20 0.88 0.07 0.74 +-----------+-----------+-----------+-----------+ 151 103 299 97 650 OVERALL CHI-SQUARE 9.48 P-VALUE 0.1484 DEGREES OF FREEDOM 6 CASES INCLUDED 12 MISSING CASES 0 TKK Systeemianalyysin laboratorio (2009) 21/23

2 -testisuureen arvo = 9.48 ja sitä vastaava p-arvo = 0.1484, kun vapausasteita on 6. Siten nollahypoteesi siitä, että puoluekannatuksen jakauma on eri alueilla sama, jää voimaan. (b) Aineisto kategorisessa muodossa COUNT ROW COLUMN 1 52 1 1 2 34 1 2 3 80 1 3 4 34 1 4 5 33 2 1 6 15 2 2 7 78 2 3 8 24 2 4 9 66 3 1 10 54 3 2 11 141 3 3 12 39 3 4 2 -homogeenisuustesti Statistics > Association Tests > Chi-Square Test Model Specification = Categorical Count Variable = Count Row Variable = Row Column Variable = Column TKK Systeemianalyysin laboratorio (2009) 22/23

CHI-SQUARE TEST FOR HETEROGENEITY OR INDEPENDENCE FOR COUNT = ROW COLUMN COLUMN ROW 1 2 3 4 +-----------+-----------+-----------+-----------+ 1 OBSERVED 52 34 80 34 200 EXPECTED 46.46 31.69 92.00 29.85 CELL CHI-SQ 0.66 0.17 1.57 0.58 +-----------+-----------+-----------+-----------+ 2 OBSERVED 33 15 78 24 150 EXPECTED 34.85 23.77 69.00 22.38 CELL CHI-SQ 0.10 3.24 1.17 0.12 +-----------+-----------+-----------+-----------+ 3 OBSERVED 66 54 141 39 300 EXPECTED 69.69 47.54 138.00 44.77 CELL CHI-SQ 0.20 0.88 0.07 0.74 +-----------+-----------+-----------+-----------+ 151 103 299 97 650 OVERALL CHI-SQUARE 9.48 P-VALUE 0.1484 DEGREES OF FREEDOM 6 CASES INCLUDED 12 MISSING CASES 0 2 -testisuureen arvo = 9.48 ja sitä vastaava p-arvo = 0.1484, kun vapausasteita on 6. Siten nollahypoteesi siitä, että puoluekannatuksen jakauma on eri alueilla sama, jää voimaan. Kommentti: Huomaa, että (a)- ja (b)-kohdissa on saatu täsmälleen sama tulos (kuten pitääkin); vain otsikkotiedot ovat tulostuksissa erilaiset. TKK Systeemianalyysin laboratorio (2009) 23/23