Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

Samankaltaiset tiedostot
Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Testit järjestysasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Testit laatueroasteikollisille muuttujille

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Johdatus tilastotieteeseen Testit järjestysasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Väliestimointi (jatkoa) Heliövaara 1

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Testejä suhdeasteikollisille muuttujille

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MTTTP5, luento Luottamusväli, määritelmä

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

10. laskuharjoituskierros, vko 14, ratkaisut

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

pisteet Frekvenssi frekvenssi Yhteensä

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Mat Sovellettu todennäköisyyslasku A

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Sovellettu todennäköisyyslaskenta B

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille: Esitiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Harjoittele tulkintoja

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Perusnäkymä yksisuuntaiseen ANOVAaan

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Teema 9: Tilastollinen merkitsevyystestaus

Sovellettu todennäköisyyslaskenta B

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Estimointi. Otantajakauma

2. TILASTOLLINEN TESTAAMINEN...

11. laskuharjoituskierros, vko 15, ratkaisut

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

KAHDEN RYHMÄN VERTAILU

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mat Tilastollisen analyysin perusteet, kevät 2007

Otoskoon arviointi. Tero Vahlberg

Sisällysluettelo SISÄLLYSLUETTELO...6 LYHYT SANASTO VASTA-ALKAJILLE JOHDATUS PARAMETRITTOMIIN MENETELMIIN...9

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 2) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

dx=5&uilang=fi&lang=fi&lvv=2014

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

tilastotieteen kertaus

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Kandidaatintutkielman aineistonhankinta ja analyysi

SPSS-perusteet. Sisältö

Frequencies. Frequency Table

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

6. laskuharjoitusten vastaukset (viikot 10 11)

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

2. Keskiarvojen vartailua

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Transkriptio:

Mat-2.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit järjestysasteikollisille muuttujille Testit laatueroasteikollisille muuttujille Hypoteesi, Mannin ja Whitneyn testi (Wilcoxonin rankisummatesti), Merkkitesti, Nollahypoteesi, Parivertailuasetelma, p-arvo, Päätössääntö, Riippumattomien otosten testit, Suhteellisten osuuksien vertailutesti, Testi, Testi suhteelliselle osuudelle (Binomitesti), Testisuure, Testisuureen normaaliarvo, Testit järjestysasteikollisille muuttujille, Testit laatueroasteikollisille muuttujille, Vaihtoehtoinen hypoteesi, Wilcoxonin rankitesti, Yleinen hypoteesi. Mannin ja Whitneyn testi STATISTIX-tiedostossa MORT (2. harjoitukset, tehtävä ) on esitetty 9 amerikkalaisen pankin käyttämät korot asuntolainoille (muuttuja KORKO; yksikkö = %). Lainat on ryhmitelty kahteen ryhmään sen mukaan onko korko ollut kiinteä vai vaihtuva (muuttuja LAINATYYP; 0 = kiinteä korko, = vaihtuva korko). Testaa Mannin ja Whitneyn testillä (Wilcoxonin rankisummatestillä) nollahypoteesia, että mediaanikorko on kummallekin lainatyypille sama. Käytä vaihtoehtoisena hypoteesina oletusta: Ratkaisu: Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista. Ennen pitemmälle meneviä tilastollisia analyysejä kuten tilastollisia testejä on aina ensin syytä tutustua tutkimuksen kohteena olevaan aineistoon. Määräämme siksi aineistosta ensin tavanomaiset otostunnusluvut ja luokitellut frekvenssijakaumat (määritelmät: ks.. harjoitukset). TKK Ilkka Mellin (2005) /23

Tunnusluvut Statistics > Summary Statistics > Descriptive Statistics Descriptive Variables = KORKO Grouping Variable = LAINATYYP DESCRIPTIVE STATISTICS FOR LAINATYYP = 0 KORKO N 3 MEAN 7.373 SD 0.3907 SE MEAN 0.084 MINIMUM 6.7500 ST QUARTI 7.0000 MEDIAN 7.2500 3RD QUARTI 7.5000 MAXIMUM 8.0000 DESCRIPTIVE STATISTICS FOR LAINATYYP = KORKO N 6 MEAN 4.967 SD 0.6455 SE MEAN 0.2635 MINIMUM 4.2500 ST QUARTI 4.4375 MEDIAN 4.7500 3RD QUARTI 5.4375 MAXIMUM 6.0000 Kiinteäkorkoisten lainojen (LAINATYYP = 0) mediaanikorko on selvästi korkeampi kuin vaihtuvakorkoisten lainojen (LAINATYYP = ) mediaanikorko. TKK Ilkka Mellin (2005) 2/23

Frekvenssijakaumat Data > Omit Cases LAINATYYP = i ; i = 0, Statistics > Summary Statistic > Frequency Distribution Frequency Variables = KORKO Bin Size Low = 4 High = 8 Step = 0.5 LAINATYYP = 0 FREQUENCY DISTRIBUTION OF KORKO CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 4.0 4.5 0 0.0 0 0.0 4.5 5.0 0 0.0 0 0.0 5.0 5.5 0 0.0 0 0.0 5.5 6.0 0 0.0 0 0.0 6.0 6.5 0 0.0 0 0.0 6.5 7.0 3 23. 3 23. 7.0 7.5 5 38.5 8 6.5 7.5 8.0 5 38.5 3 00.0 TOTAL 3 00.0 LAINATYYP = FREQUENCY DISTRIBUTION OF KORKO CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 4.0 4.5 6.7 6.7 4.5 5.0 2 33.3 3 50.0 5.0 5.5 2 33.3 5 83.3 5.5 6.0 0 0.0 5 83.3 6.0 6.5 6.7 6 00.0 6.5 7.0 0 0.0 6 00.0 7.0 7.5 0 0.0 6 00.0 7.5 8.0 0 0.0 6 00.0 TOTAL 6 00.0 Frekvenssijakaumista näkyy, että kiinteäkorkoisten lainojen (LAINATYYP = 0) korot ovat korkeampia kuin vaihtuvakorkoisten lainojen (LAINATYYP = ) korot. TKK Ilkka Mellin (2005) 3/23

Mannin ja Whitneyn testi eli Wilcoxonin rankisummatesti Nollahypoteesi: H 0 : Me(0) = Me() Vaihtoehtoinen hypoteesi: H : Me(0) > Me() Statistics > One, Two, Multi-Sample Tests > Rank Sum Test Model Specification = Categorical Dependent Variable = KORKO Categorical Variable = LAINATYYP RANK SUM TWO-SAMPLE (MANN-WHITNEY) TEST FOR KORKO BY LAINATYYP SAMPLE LAINATYYP RANK SUM SIZE U STAT MEAN RANK ---------- --------- ------ --------- --------- 0 69.00 3 78.000 3.0 2.000 6 0.0000 3.5 TOTAL 90.00 9 EXACT PROBABILITY OF A RESULT AS or MORE EXTREME THAN THE OBSERVED RANKS (ONE-TAILED P-VALUE) 0.0000 NORMAL APPROXIMATION WITH CONTINUITY CORRECTION 3.377 TWO-TAILED P-VALUE FOR NORMAL APPROXIMATION 0.0007 TOTAL NUMBER OF VALUES THAT WERE TIED 3 MAXIMUM DIFFERENCE ALLOWED BETWEEN TIES 0.0000 CASES INCLUDED 9 MISSING CASES Mannin ja Whitneyn testin testisuureen U arvoa vastaava eksakti p-arvo -suuntaiselle vaihtoehtoiselle hypoteesille = 0.0000 (neljällä desimaalilla). Normaaliapproksimaatioon perustuvan testisuureen z itseisarvo = 3.377. Sitä vastaava p-arvo 2-suuntaiselle vaihtoehtoiselle hypoteesille = 0.0007 ja p-arvo -suuntaiselle vaihtoehtoiselle hypoteesille = 0.0007/2 = 0.00035. Nollahypoteesi H 0 voidaan hylätä kaikilla tavanomaisilla merkitsevyystasoilla. TKK Ilkka Mellin (2005) 4/23

Tulostuksessa (merkinnät kuten luentokalvoilla): LAINATYYP = 0 X LAINATYYP = Y Havaintojen lukumäärät: n = 3 m = 6 Testisuureet: T = n R( X i ) = 69 U = nm + 2 n( n + ) T = 0 i= T 2 = m R( Yj ) = 2 U 2 = nm + 2 m( m + ) T2 = 78 j= jossa R(X i ) (R(Y i )) on havainnon X i (Y i ) järjestysnumero eli ranki yhdistetyssä otoksessa, jossa havainnot on asetettu suuruusjärjestykseen pienimmästä suurimpaan. Huomaa: U + U 2 = nm = 78 Normaaliapproksimaatiot saadaan kaavoista joissa ja U E( U ) z = = z 2 D( U) z U E( U ) = = z 2 2 2 D( U 2) E( U ) = E( U ) = nm 2 2 D( U ) = D( U ) = nm( n+ m+ ) 2 2 2 2 STATISTIX käyttää z-testisuureita laskettaessa jatkuvuuskorjausta. TKK Ilkka Mellin (2005) 5/23

2. Merkkitesti ja Wilcoxonin rankitesti STATISTIX-tiedostossa PalkkaMF (2. harjoitukset, tehtävä 2) on esitetty 0 amerikkalaismiehen (= MALE) ja 0 amerikkalaisnaisen (= FEMALE) vuosipalkat (yksikkö = $). Havainnot muodostuvat sovitetuista pareista, joissa jokaista miestä vastaa samanlaisen taustan (iän, ammatin, koulutustason, työpaikan jne.) omaava nainen. (a) (b) Testaa merkkitestillä ja Wilcoxonin rankitestillä nollahypoteesia, että miesten ja naisten mediaanipalkat eivät eroa tosistaan. Käytä vaihtoehtoisena hypoteesina oletusta: Naisten ja miesten palkat eroavat toisistaan. Tee merkkitesti ja Wilcoxonin rankitesti myös vastinparien palkkojen erotuksille ja vertaa tuloksia kohdan (a) tuloksiin. Ratkaisu: Ennen pitemmälle meneviä tilastollisia analyysejä kuten tilastollisia testejä on aina ensin syytä tutustua tutkimuksen kohteena olevaan aineistoon. Määräämme siksi aineistosta ensin tavanomaiset otostunnusluvut ja luokitellut frekvenssijakaumat. Tunnusluvut Statistics > Summary Statistics > Descriptive Statistics Descriptive Variables = FEMALE, MALE DESCRIPTIVE STATISTICS FEMALE MALE N 8 8 MEAN 44838 46438 SD 285.2 2680. MINIMUM 4300 4700 ST QUARTI 42375 44400 MEDIAN 44750 47250 3RD QUARTI 4775 48550 MAXIMUM 49300 49300 Miesten mediaanipalkka on selvästi suurempi kuin naisten mediaanipalkka. TKK Ilkka Mellin (2005) 6/23

Frekvenssijakaumat Statistics > Summary Statistic > Frequency Distribution Frequency Variables = FEMALE, MALE Bin Size Low = 40000 High = 50000 Step = 2000 FREQUENCY DISTRIBUTION OF FEMALE CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 40000 42000 2.5 2.5 42000 44000 3 37.5 4 50.0 44000 46000 2.5 5 62.5 46000 48000 2 25.0 7 87.5 48000 50000 2.5 8 00.0 TOTAL 8 00.0 FREQUENCY DISTRIBUTION OF MALE CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 40000 42000 2.5 2.5 42000 44000 0 0.0 2.5 44000 46000 2 25.0 3 37.5 46000 48000 2.5 4 50.0 48000 50000 4 50.0 8 00.0 TOTAL 8 00.0 Useiden naisten palkat sijoittuvat alempiin palkkaluokkiin kuin miesten palkat. TKK Ilkka Mellin (2005) 7/23

(a) Merkkitesti ja Wilcoxonin rankitesti Nollahypoteesi: H 0 : Me(FEMALE) = Me(MALE) Vaihtoehtoinen hypoteesi: H : Me(FEMALE) Me(MALE) Merkkitesti Statistics > One, Two, Multi-Sample Tests > Sign Test Sample Variables = FEMALE, MALE SIGN TEST FOR FEMALE - MALE NUMBER OF NEGATIVE DIFFERENCES 6 NUMBER OF POSITIVE DIFFERENCES 2 NUMBER OF ZERO DIFFERENCES (IGNORED) 0 PROBABILITY OF A RESULT AS OR MORE EXTREME THAN OBSERVED 0.445 A VALUE IS COUNTED AS A ZERO IF ITS ABSOLUTE VALUE IS LESS THAN 0.0000 CASES INCLUDED 8 MISSING CASES 0 Merkkitestin testisuureen S arvoa vastaava eksakti p-arvo -suuntaselle testille = 0.445 ja 2-suuntaiselle vaihtoehtoiselle hypoteesille = 2 0.445 = 0.2890. Nollahypoteesia H 0 ei voida hylätä merkitsevyystasolla 0.05. Tulostuksessa (merkinnät kuten luentokalvoilla): FEMALE X Havaintojen lukumäärä: Testisuureet: n = 8 MALE Y S = 6 S + = 2 jossa S (S + ) on negatiivisten (positiivisten) erotusten lukumäärä. Huomaa: D i = X i Y i S + S + = n = 8 Testisuure S on nollahypoteesin H 0 pätiessä binomijakautunut parametrein n ja ½ : S Bin( n, ) 2 TKK Ilkka Mellin (2005) 8/23

Testi suhteelliselle osuudelle Merkkitesti voidaan ymmärtää testiksi suhteelliselle osuudelle. Siten testi voidaan tehdä ekvivalentisti testaamalla Bernoulli-jakauman parametria p koskevaa nollahypoteesia H 0 : p = ½ kun vaihtoehtoisena hypoteesina on H 0 : p ½ Lisätietoja testistä: ks. tehtävää 4. Statistics > One, Two, Multi-Sample Tests > Proportion Test Model Specification = One Sample Test Sample Size = 8 Number of Successes = 6 Null Hypothesis = 0.5 Alternate Hypothesis = Not Equal ONE-SAMPLE PROPORTION TEST SAMPLE SIZE 8 SUCCESSES 6 PROPORTION 0.75000 NULL HYPOTHESIS: P = 0.5 ALTERNATIVE HYP: P <> 0.5 DIFFERENCE 0.25000 STANDARD ERROR 0.5309 Z (UNCORRECTED).4 P 0.573 Z (CORRECTED).06 P 0.2888 95% CONFIDENCE INTERVAL UNCORRECTED (0.44994,.05006) CORRECTED (0.38744,.256) Testisuureen z arvoa.06 vastaava p-arvo (CORRECTED) 2-suuntaiselle vaihtoehtoiselle hypoteesille = 0.2888, mikä on sopusoinnussa merkkitestin tuloksen kanssa. TKK Ilkka Mellin (2005) 9/23

Wilcoxonin rankitesti Statistics > One, Two, Multi-Sample Tests > Wilcoxon Signed Rank Test Sample Variables = FEMALE, MALE WILCOXON SIGNED RANK TEST FOR FEMALE - MALE SUM OF NEGATIVE RANKS -32.000 SUM OF POSITIVE RANKS 4.0000 EXACT PROBABILITY OF A RESULT AS OR MORE EXTREME THAN THE OBSERVED RANKS ( TAILED P-VALUE) 0.0273 NORMAL APPROXIMATION WITH CONTINUITY CORRECTION.890 TWO TAILED P-VALUE for NORMAL APPROXIMATION 0.0587 TOTAL NUMBER OF VALUES THAT WERE TIED 0 NUMBER OF ZERO DIFFERENCES DROPPED 0 MAX. DIFF. ALLOWED BETWEEN TIES 0.0000 CASES INCLUDED 8 MISSING CASES 0 Wilcoxonin rankitestin testisuureen arvoa vastaava eksakti p-arvo -suuntaiselle vaihtoehtoiselle hypoteesille = 0.0273. Normaaliapproksimaatioon perustuvan testisuureen z itseisarvo =.890. Sitä vastaava p-arvo 2-suuntaiselle vaihtoehtoiselle hypoteesille = 0.0587 ja p-arvo -suuntaiselle vaihtoehtoiselle hypoteesille = 0.0587/2 = 0.0293, mikä on lähellä eksaktia p-arvoa. Nollahypoteesia ei voida hylätä merkitsevyystasolla 0.05, jos vaihtoehtoinen hypoteesi on 2-suuntainen. Nollahypoteesia voidaan hylätä merkitsevyystasolla 0.05, jos vaihtoehtoinen hypoteesi on -suuntainen. Huomaa, että Wilcoxonin rankitesti on terävämpi kuin merkkitesti, koska se käyttää informaation havaintojen järjestyksestä tarkemmin hyväkseen. TKK Ilkka Mellin (2005) 0/23

Tulostuksessa (merkinnät kuten luentokalvoilla): FEMALE X MALE Y Testisuureet: W W + = R( Z ) = 32 Di < 0 = R( Z ) = 4 Di > 0 i i jossa R(Z i ) on suuruusjärjestykseen pienimmästä suurimpaan asetettujen itseisarvojen D i = X i Y i järjestysnumero eli ranki. Havaintojen lukumäärä: n = 8 Huomaa: + W + W = ( ) 3 2 n n + = 6 Normaaliapproksimaatiot saadaan kaavoista joissa ja + + W E( W ) z = = z D( W ) + 2 z W E( W ) = = z D( W ) 2 + E( W ) = E( W ) = n( n+ ) 4 D( W ) = D( W ) = n( n+ )(2n+ ) 2 + 2 24 STATISTIX käyttää z-testisuureiden lausekkeita laskettaessa jatkuvuuskorjausta. TKK Ilkka Mellin (2005) /23

(b) Merkkitesti ja Wilcoxonin rankitesti erotuksille Transformaatiot Muodostetaan tiedostoon PalkkaMF ensin muuttuja EROTUS: Data > Transformations EROTUS = FEMALE MALE Muodostetaan tiedostoon PalkkaMF toiseksi muuttuja ME, jonka arvoiksi annetaan nollahypoteesin mukainen mediaanin arvo 0. Tiedosto PalkkaMF muutosten jälkeen: PAIR MALE FEMALE EROTUS ME 46200 42600-3600 0 2 44700 43600-00 0 3 48400 49300 900 0 4 4700 42300 600 0 5 48600 46200-2400 0 6 49300 45900-3400 0 7 48300 47500-800 0 8 44300 4300-3000 0 Nollahypoteesi: H 0 : Me(EROTUS) = 0 Vaihtoehtoinen hypoteesi: H : Me(EROTUS) 0 TKK Ilkka Mellin (2005) 2/23

Merkkitesti Statistics > One, Two, Multi-Sample Tests > Sign Test Sample Variables = EROTUS, ME SIGN TEST FOR EROTUS - ME NUMBER OF NEGATIVE DIFFERENCES 6 NUMBER OF POSITIVE DIFFERENCES 2 NUMBER OF ZERO DIFFERENCES (IGNORED) 0 PROBABILITY OF A RESULT AS OR MORE EXTREME THAN OBSERVED 0.445 A VALUE IS COUNTED AS A ZERO IF ITS ABSOLUTE VALUE IS LESS THAN 0.0000 CASES INCLUDED 8 MISSING CASES 0 Wilcoxonin rankitesti Statistics > One, Two, Multi-Sample Tests > Wilcoxon Signed Rank Test Sample Variables = EROTUS, ME WILCOXON SIGNED RANK TEST FOR EROTUS - ME SUM OF NEGATIVE RANKS -32.000 SUM OF POSITIVE RANKS 4.0000 EXACT PROBABILITY OF A RESULT AS OR MORE EXTREME THAN THE OBSERVED RANKS ( TAILED P-VALUE) 0.0273 NORMAL APPROXIMATION WITH CONTINUITY CORRECTION.890 TWO TAILED P-VALUE for NORMAL APPROXIMATION 0.0587 TOTAL NUMBER OF VALUES THAT WERE TIED 0 NUMBER OF ZERO DIFFERENCES DROPPED 0 MAX. DIFF. ALLOWED BETWEEN TIES 0.0000 CASES INCLUDED 8 MISSING CASES 0 Tulokset kummastakin testistä ovat samat kuin (a)-kohdassa! TKK Ilkka Mellin (2005) 3/23

3. Mannin ja Whitneyn testi STATISTIX-tiedostossa JONOT on esitetty 2 satunnaisesti valitun asiakkaan jonotusajat kahdessa palvelujonossa (muuttujat JONOA, JONOB; yksikkö = s). (a) (b) Ratkaisu: Testaa Mannin ja Whitneyn testillä (Wilcoxonin rankisummatestillä) nollahypoteesia, että mediaaniodotusaika on kummassakin jonossa sama. Käytä vaihtoehtoisena hypoteesina oletusta: Mediaaniodotusajat eroavat toisistaan. Vertaa otoksia toisiinsa kahden riippumattoman otoksen t-testillä (ks. 2. luentoviikon harjoitukset). Ennen pitemmälle meneviä tilastollisia analyysejä kuten tilastollisia testejä on aina ensin syytä tutustua tutkimuksen kohteena olevaan aineistoon. Määräämme siksi aineistosta ensin tavanomaiset otostunnusluvut ja luokitellut frekvenssijakaumat. Tunnusluvut Statistics > Summary Statistics > Descriptive Statistics Descriptive Variables = JONOA, JONOB DESCRIPTIVE STATISTICS JONOA JONOB N 2 9 MEAN 7.7000 9.667 SD.3205.853 SE MEAN 0.382 0.395 MINIMUM 5.7000 7.7000 ST QUARTI 6.4250 8.0000 MEDIAN 7.7000 9.2000 3RD QUARTI 8.6500 0.050 MAXIMUM 0.00.300 Muuttujan JONOA mediaaniodotusaika on selvästi pitempi kuin muuttujan JONOB mediaaniodotusaika. TKK Ilkka Mellin (2005) 4/23

Frekvenssijakaumat Statistics > Summary Statistic > Frequency Distribution Frequency Variables = JONOA, JONB Bin Size Low = 5 High = 2 Step = FREQUENCY DISTRIBUTION OF JONOA CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 5 6 8.3 8.3 6 7 3 25.0 4 33.3 7 8 3 25.0 7 58.3 8 9 3 25.0 0 83.3 9 0 8.3 9.7 0 8.3 2 00.0 2 0 0.0 2 00.0 TOTAL 2 00.0 FREQUENCY DISTRIBUTION OF JONOB CUMULATIVE LOW HIGH FREQ PERCENT FREQ PERCENT 5 6 0 0.0 0 0.0 6 7 0 0.0 0 0.0 7 8 2 22.2 2 22.2 8 9 2 22.2 4 44.4 9 0 3 33.3 7 77.8 0. 8 88.9 2. 9 00.0 TOTAL 9 00.0 Frekvenssijakaumista näkyy, että jonossa A (JONOA) odotusajat ovat usein lyhyempiä kuin jonossa B (JONOB). TKK Ilkka Mellin (2005) 5/23

(a) Mannin ja Whitneyn testi (Wilcoxonin rankisummatesti) Nollahypoteesi: H 0 : Me(A) = Me(B) Vaihtoehtoinen hypoteesi: H : Me(A) Me(B) Statistics > One, Two, Multi-Sample Tests > Rank Sum Test Model Specification = Table Table Variables = JONOA, JONOB RANK SUM TWO-SAMPLE (MANN-WHITNEY) TEST FOR JONOA VS JONOB SAMPLE VARIABLE RANK SUM SIZE U STAT MEAN RANK --------- --------- ------ --------- --------- JONOA 99.000 2 2.000 8.3 JONOB 32.00 9 87.000 4.7 TOTAL 23.00 2 NORMAL APPROXIMATION WITH CONTINUITY CORRECTION 2.30 TWO-TAILED P-VALUE FOR NORMAL APPROXIMATION 0.0209 TOTAL NUMBER OF VALUES THAT WERE TIED 0 MAXIMUM DIFFERENCE ALLOWED BETWEEN TIES 0.0000 CASES INCLUDED 2 MISSING CASES 3 Normaaliapproksimaatioon perustuvan testisuureen z itseisarvo = 2.30. Sitä vastaava p-arvo 2-suuntaiselle vaihtoehtoiselle hypoteesille = 0.0209 ja p-arvo -suuntaiselle vaihtoehtoiselle hypoteesille = 0.0209/2 = 0.005. Nollahypoteesi H 0 voidaan hylätä 5 %:n merkitsevyystasolla. TKK Ilkka Mellin (2005) 6/23

Tulostuksessa (merkinnät kuten luentokalvoilla): JONOA X JONOB Y Havaintojen lukumäärät: n = 2 m = 9 Testisuureet: T = n R( X i ) = 99 U = nm + 2 n( n + ) T = 2 i= T 2 = m R( Yj ) = 32 U 2 = nm + 2 m( m + ) T2 = 87 j= jossa R(X i ) (R(Y i )) on havainnon X i (Y i ) järjestysnumero eli ranki yhdistetyssä otoksessa, jossa havainnot on asetettu suuruusjärjestykseen pienimmästä suurimpaan. Huomaa: U + U 2 = nm = 08 Normaaliapproksimaatiot saadaan kaavoista joissa ja U E( U ) z = = z 2 D( U) z U E( U ) = = z 2 2 2 D( U 2) E( U ) = E( U ) = nm 2 2 D( U ) = D( U ) = nm( n+ m+ ) 2 2 2 2 STATISTIX käyttää z-testisuureita laskettaessa jatkuvuuskorjausta. TKK Ilkka Mellin (2005) 7/23

(b) Kahden riippumattoman otoksen t-testi Lisätietoja kahden riippumattoman otoksen t-testistä: ks. 2. harjoitukset. Nollahypoteesi: H 0 : µ A = µ B Vaihtoehtoinen hypoteesi: H : µ A µ B Statistics > One, Two, Multi-Sample Tests > Two Sample T Test Model Specification = Table Table Variables = JONOA, JONOB Null Hypothesis = 0 Alternate Hypothesis = Not Equal TWO-SAMPLE T TESTS FOR JONOA VS JONOB SAMPLE VARIABLE MEAN SIZE S.D. S.E. --------- --------- ------ --------- --------- JONOA 7.7000 2.3205 0.382 JONOB 9.667 9.853 0.395 DIFFERENCE -.4667 NULL HYPOTHESIS: DIFFERENCE = 0 ALTERNATIVE HYP: DIFFERENCE <> 0 ASSUMPTION T DF P 95% CI FOR DIFFERENCE ----------------- ------ ------ ------ --------------------- EQUAL VARIANCES -2.63 9 0.065 (-2.6345, -0.2988) UNEQUAL VARIANCES -2.67 8.3 0.054 (-2.688, -0.346) F NUM DF DEN DF P TESTS FOR EQUALITY ------- ------ ------ ------ OF VARIANCES.24 8 0.3886 CASES INCLUDED 2 MISSING CASES 3 Koska perusjoukkojen varianssien yhtäsuuruutta koskeva nollahypoteesi voidaan hyväksyä, voidaan t-testisuureena käyttää versiota EQUAL VARIANCES. Testisuureen arvo = 2.63. Sitä vastaava p-arvo 2-suuntaiselle vaihtoehtoiselle hypoteesille = 0.065. Nollahypoteesi H 0 voidaan hylätä 5 %:n merkitsevyystasolla. TKK Ilkka Mellin (2005) 8/23

4. Testi suhteelliselle osuudelle Erään tuotteen valmistaja ilmoittaa, että 3 % tuotteista on viallisia. Ostaja poimii satunnaisesti joukon tuotteita tarkastettavaksi ja toteaa, että otoksessa viallisia on 6 %. Testaa suhteellisen osuuden testillä nollahypoteesia, että viallisia on kaikkien tuotteiden joukossa 3 %. Ratkaisu: Käytä vaihtoehtoisena hypoteesina oletusta: (a) Otoskoko = 50. (b) Otoskoko = 250. Viallisia on enemmän kuin 3 %. Testi suhteelliselle osuudelle Oletetaan, että havainnot X, X 2,, X n muodostavat yksinkertaisen satunnaisotoksen Bernoulli-jakaumasta Ber(p). Olkoon kiinnostuksen kohteena olevan tapahtuman A suhteellinen frekvenssi otoksessa Tällöin pˆ = f / n f Bin( np, ) Olkoon nollahypoteesina H 0 : p = p 0 Määritellään testisuure z = pˆ p 0 p ( p ) / n 0 0 Jos nollahypoteesi H 0 pätee, niin z a N(0,) Itseisarvoltaan suuret testisuureen z arvot johtavat nollahypoteesin H 0 hylkäämiseen. Tässä nollahypoteesina on H 0 : p = 0.03 TKK Ilkka Mellin (2005) 9/23

(a) n = 50 Statistics > One, Two, Multi-Sample Tests > Proportion Test Model Specification = One Sample Test Sample Size = 50 Number of Successes = 3 Null Hypothesis = 0.03 Alternate Hypothesis = Greater Than ONE-SAMPLE PROPORTION TEST SAMPLE SIZE 50 SUCCESSES 3 PROPORTION 0.06000 NULL HYPOTHESIS: P = 0.03 ALTERNATIVE HYP: P > 0.03 DIFFERENCE 0.03000 STANDARD ERROR 0.03359 Z (UNCORRECTED).24 P 0.068 Z (CORRECTED) 0.83 P 0.2035 95% CONFIDENCE INTERVAL UNCORRECTED (-0.00583, 0.2583) CORRECTED (-0.0583, 0.3583) Testisuureen z arvo = 0.83 ja sitä vastaava p-arvo = 0.2035. Nollahypoteesia ei voida hylätä millään tavanomaisella merkitsevyystasolla. TKK Ilkka Mellin (2005) 20/23

(b) n = 250 Statistics > One, Two, Multi-Sample Tests > Proportion Test Model Specification = One Sample Test Sample Size = 250 Number of Successes = 5 Null Hypothesis = 0.03 Alternate Hypothesis = Greater Than ONE-SAMPLE PROPORTION TEST SAMPLE SIZE 250 SUCCESSES 5 PROPORTION 0.06000 NULL HYPOTHESIS: P = 0.03 ALTERNATIVE HYP: P > 0.03 DIFFERENCE 0.03000 STANDARD ERROR 0.0502 Z (UNCORRECTED) 2.78 P 0.0027 Z (CORRECTED) 2.60 P 0.0047 95% CONFIDENCE INTERVAL UNCORRECTED (0.03056, 0.08944) CORRECTED (0.02856, 0.0944) Testisuureen z arvo = 2.60 ja sitä vastaava p-arvo = 0.0047. Nollahypoteesi voidaan hylätä merkitsevyystasolla 0.0. Huomautus: Viallisten suhteellinen osuus on (a) ja (b) kohdan otoksissa sama 6 %. Nollahypoteesi hylätään (b)-kohdassa toisin kuin (a)-kohdassa, koska suurempi otos sisältää enemmän informaatiota nollahypoteesia vastaan. Tämä näkyy myös testisuureen lausekkeesta; ks. luentokalvoja. TKK Ilkka Mellin (2005) 2/23

5. Suhteellisten osuuksien vertailutesti Ennen eduskuntavaaleja tehdään toistuvasti kyselytutkimuksia, joissa ihmisiltä kysytään mitä puoluetta he kannattavat. Ratkaisu: Kyselyssä otoskoko oli 000 ja puolueen A kannattajia oli 200. Kyselyssä 2 otoskoko oli 20 ja puolueen A kannattajia oli 200. Voidaanko kyselyiden perusteella päätellä, että puolueen A kannatus on laskenut? Suhteellisten osuuksien vertailutesti Oletetaan, että havainnot X, X,, Xn 2 muodostavat yksinkertaisen satunnaisotoksen Bernoulli-jakaumasta Ber(p ) ja havainnot X, X,, Xn 2 22 2 2 yksinkertaisen satunnaisotoksen Bernoulli-jakaumasta Ber(p 2 ). Olkoon kiinnostuksen kohteena olevan tapahtuman A suhteellinen frekvenssi otoksessa ja otoksessa 2 Tällöin ja pˆ = f/ n pˆ 2 = f2/ n2 f n p Bin(, ) f2 n2 p 2 Bin(, ) Olkoon nollahypoteesina H 0 : p = p 2 Määritellään testisuure jossa z = f pˆ = n pˆ pˆ 2 pˆ( pˆ) + n n2 + f + n 2 2 Jos nollahypoteesi H 0 pätee, niin z a N(0,) Itseisarvoltaan suuret testisuureen z arvot johtavat nollahypoteesin H 0 hylkäämiseen. TKK Ilkka Mellin (2005) 22/23

Statistics > One, Two, Multi-Sample Tests > Proportion Test Model Specification = Two Sample Test Sample Size = 000 Number of Successes = 200 Sample 2 Size = 20 Number of Successes = 200 Alternate Hypothesis = Greater Than TWO-SAMPLE PROPORTION TEST SAMPLE SAMPLE 2 SAMPLE SIZE 000 20 SUCCESSES 200 200 PROPORTION 0.20000 0.7857 NULL HYPOTHESIS: P = P2 ALTERNATIVE HYP: P > P2 DIFFERENCE 0.0243 SE (DIFF) 0.0702 Z (UNCORRECTED).26 P 0.040 Z (CORRECTED).20 P 0.44 95% CONFIDENCE INTERVAL OF DIFFERENCE LOWER LIMIT -0.093 UPPER LIMIT 0.05479 Testisuureen z arvo =.20 ja sitä vastaava p-arvo = 0.44. Nollahypoteesia ei voida hylätä 5 %:n merkitsevyystasolla. Kommentti: Kyselyiden mukaan puolueen A kannattajien lukumäärä oli laskenut peräkkäisissä otoksissa 20 %:sta 7.9 %:iin. Näinkään suuri kannatuksen lasku ei kuitenkaan ollut tilastollisesti merkitsevä, vaikka otosten koot olivat jopa 000 ja 20. TKK Ilkka Mellin (2005) 23/23