Mat-.04 Tilastollisen analyysin perusteet Mat-.04 Tilastollisen analyysin perusteet / Ratkaisut Aiheet: Avainsanat: Testit suhdeasteikollisille muuttujille Hypoteesi, Kahden riippumattoman otoksen t-testit, Nollahypoteesi, p-arvo, Päätössääntö, Testi, Testisuure, Testisuureen normaaliarvo, Testit suhdeasteikollisille muuttujille, t-testi, t-testi parivertailuille, Vaihtoehtoinen hypoteesi, Varianssien vertailutesti, Yhden otoksen t-testi, Yleinen hypoteesi. Kahden riippumattoman otoksen t-testi STATISTIX-tiedostossa MORT on esitetty 9 amerikkalaispankin käyttämät korot (muuttuja KORKO; yksikkö = %) asuntolainoille. Lainat voidaan ryhmitellä kahteen ryhmään sen mukaan onko korko ollut kiinteä vai vaihtuva (muuttuja LAINATYYP; 0 = kiinteä korko, = vaihtuva korko). (a) (b) Ratkaisu: (a) Määrää kummallekin lainatyypille: aritmeettinen keskiarvo, keskihajonta, minimi, maksimi, 95 %:n luottamusväli keskimääräiselle korolle, Box ja Whisker -kuvio Tee tulostusten perusteella johtopäätöksiä lainatyyppien koroista. Testaa kahden riippumattoman otoksen t-testillä nollahypoteesia, että keskimääräinen korko on kummallekin lainatyypille sama. Käytä vaihtoehtoisena hypoteesina oletusta: Keskimääräinen lainakorko on kiinteäkorkoiselle lainalle korkeampi. Vaihtoehtoinen hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista. Muotoile myös kaikki testiin liittyvät hypoteesit. Käytätkö varianssien yhtäsuuruusoletukseen vai erisuuruusoletukseen perustuvaa t-testiä? Perustele! Tunnusluvut, luottamusvälit, Box ja Whisker -kuvio Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks.. harjoitukset. Tunnusluvut ja luottamusväli Statistics > Summary Statistics > escriptive Statistics escriptive Variables = KORKO Grouping Variable = LAINATYYP C. I. Percent Coverage = 95 TKK Systeemianalyysin laboratorio (009) /
Mat-.04 Tilastollisen analyysin perusteet ESCRIPTIVE STATISTICS FOR LAINATYYP = 0 KORKO N 3 LO 95% CI 7.08 MEAN 7.373 UP 95% CI 7.5534 S 0.3907 MINIMUM 6.7500 MAXIMUM 8.0000 ESCRIPTIVE STATISTICS FOR LAINATYYP = KORKO N 6 LO 95% CI 4.393 MEAN 4.967 UP 95% CI 5.594 S 0.6455 MINIMUM 4.500 MAXIMUM 6.0000 Tunnuslukujen ja luottamusvälien perusteella näyttää ilmeiseltä, että kiinteäkorkoisten lainojen korot (LAINATYYP = 0) ovat keskimäärin korkeampia. Box ja Whisker -kuvio Statistics > Summary Statistics > Box and Whisker Plots Model Specification = Categorical ependent Variable = KORKO Grouping Variable = LAINATYYP Box ja Whisker -kuvio muodostuu laatikosta ja viiksistä (ks. tarkemmin. harjoitusten tehtävän ratkaisua): Alakvartiili Q määrää laatikon alareunan paikan. Yläkvartiili Q 3 määrää laatikon yläreunan paikan. Puolet havaintoarvoista on laatikon sisällä. Mediaanin Q = Me paikka merkitään poikkiviivalla laatikon sisään. Viiksien kärjet kertovat normaalien havaintojen minimin ja maksimin paikat. Poikkeuksellisten havaintojen paikat merkitään tähdillä tai ympyröillä viiksien jatkeille. TKK Systeemianalyysin laboratorio (009) /
KORKO Mat-.04 Tilastollisen analyysin perusteet Box and Whisker Plot 8. 7.3 6.5 5.7 4.9 4. 0 LAINATYYP 9 cases missing cases Kuvion perusteella on ilmeistä, että kiinteäkorkoisten lainojen korot (LAINATYYP = 0) ovat keskimäärin korkeampia. (b) Kahden riippumattoman otoksen t-testi Koska havaintoja eri lainatyyppejä käyttävistä pankeista voidaan pitää riippumattomina otoksina, sovelletaan kahden riippumattoman otoksen t-testiä. LAINATYYP = 0 X i = kiinteäkorkoisen lainan korko pankissa i LAINATYYP = X j = vaihtuvakorkoisen lainan korko pankissa j H 0 : = Vaihtoehtoinen hypoteesi: H : > TKK Systeemianalyysin laboratorio (009) 3/3
Mat-.04 Tilastollisen analyysin perusteet STATISTIX tulostaa yhdellä kertaa tulokset 3:sta testistä: Kahden riippumattoman otoksen t-testi, kun ryhmäkohtaiset varianssit saavat erota toisistaan (ks. Testi ratkaisujen lopussa). Kahden riippumattoman otoksen t-testi, kun ryhmäkohtaiset varianssit ovat yhtä suuret (ks. Testi ratkaisujen lopussa). Varianssien vertailutesti (ks. Testi 4 ratkaisujen lopussa). Statististics > One, Two, Multi-Sample Tests > Two-Sample T Test Model Specification = Categorical ependent Variable = KORKO Categorical Variable = LAINATYYP Null Hypothesis = 0 Alternate Hypothesis = Greater Than TWO-SAMPLE T TESTS FOR KORKO BY LAINATYYP SAMPLE LAINATYYP MEAN SIZE S.. S.E. ---------- ---------- ------ --------- --------- 0 7.373 3 0.3907 0.084 4.967 6 0.6455 0.635 IFFERENCE.4006 NULL HYPOTHESIS: IFFERENCE = 0 ALTERNATIVE HYP: IFFERENCE > 0 ASSUMPTION T F P 95% CI FOR IFFERENCE ----------------- ------ ------ ------ --------------------- EQUAL VARIANCES 0.4 7 0.0000 (.9009,.9004) UNEQUAL VARIANCES 8.43 6.8 0.0000 (.79, 3.0794) F NUM F EN F P TESTS FOR EQUALITY ------- ------ ------ ------ OF VARIANCES.73 5 0.075 CASES INCLUE 9 MISSING CASES Varianssien yhtäsuuruutta testaavan F-testisuureen arvo =.73 ja vastaava p-arvo = 0.075. Siten nollahypoteesi varianssien yhtäsuuruudesta voidaan hyväksyä 5 %:n merkitsevyystasolla. Siten kahden riippumattoman otoksen t-testeistä voidaan valita yhtä suuriin variansseihin perustuva versio. Vastaava testisuureen arvo = 0.4. Sitä vastaava p-arvo on neljällä desimaalilla = 0.0000. Siten nollahypoteesi H 0 voidaan hylätä kaikilla tavanomaisilla merkitsevyystasoilla: Kiinteäkorkoisten lainojen keskimääräiset korot ovat korkeampia kuin vaihtuvakorkoisten lainojen korot. TKK Systeemianalyysin laboratorio (009) 4/4
Mat-.04 Tilastollisen analyysin perusteet. t-testi parivertailuille STATISTIX-tiedostossa PalkkaMF on esitetty 0 amerikkalaismiehen (= MALE) ja 0 amerikkalaisnaisen (= FEMALE) vuosipalkat (yksikkö = $). Havainnot muodostuvat sovitetuista pareista, joissa jokaista miestä vastaa samanlaisen taustan (iän, ammatin, koulutustason, työpaikan jne.) omaava nainen. (a) (b) (c) (d) Ratkaisu: (a) Määrää naisten ja miesten palkoille: aritmeettinen keskiarvo, keskihajonta, minimi, maksimi, 95 %:n luottamusväli keskimääräiselle korolle, Box ja Whisker -kuvio Tee tulostusten perusteella johtopäätöksiä palkkaeroista. Testaa t-testillä parivertailuille nollahypoteesia, että miesten ja naisten palkat eivät eroa tosistaan. Käytä vaihtoehtoisena hypoteesina oletusta: Naisten ja miesten palkat eroavat toisistaan. Testaa riippumattomien otosten t-testillä nollahypoteesia, että miesten ja naisten palkat eivät eroa tosistaan. Vertaa (b)- ja (c)-kohdan tuloksia toisiinsa. Kumpi menettely on oikea? Tunnusluvut, luottamusvälit, Box ja Whisker -kuvio Tunnusluvut ja luottamusväli Statistics > Summary Statistics > escriptive Statistics escriptive Variables = FEMALE, MALE C. I. Percent Coverage = 95 ESCRIPTIVE STATISTICS FEMALE MALE N 8 8 LO 95% CI 4484 4497 MEAN 44838 46438 UP 95% CI 479 48678 S 85. 680. MINIMUM 4300 4700 MAXIMUM 49300 49300 Tunnuslukujen ja luottamusvälien perusteella näyttää siltä, että naisten palkat saattavat olla keskimäärin pienempiä kuin miesten palkat. TKK Systeemianalyysin laboratorio (009) 5/5
Mat-.04 Tilastollisen analyysin perusteet Box ja Whisker -kuvio Statistics > Summary Statistics > Box and Whisker Plots Model Specification = Table Table Variables = FEMALE, MALE Ks. kuvion selitystä tehtävässä. 000 Box and Whisker Plot 000 000 000 FEMALE MALE 6 cases Kuvion mukaan naisten palkat näyttävät yleensä olevan pienempiä kuin miesten palkat. (b) t-testi parivertailuille t-testi parivertailuille: ks. Testi 3 ratkaisujen lopussa. FEMALE X i = naisen palkka parissa i MALE X i = miehen palkka parissa i i = X i X i TKK Systeemianalyysin laboratorio (009) 6/6
Mat-.04 Tilastollisen analyysin perusteet H: 0 0 Vaihtoehtoinen hypoteesi: H: 0 Statististics > One, Two, Multi-Sample Tests > Paired T Test Sample Variables = FEMALE, MALE Null Hypothesis = 0 Alternate Hypothesis = Not Equal PAIRE T TEST FOR FEMALE - MALE NULL HYPOTHESIS: IFFERENCE = 0 ALTERNATIVE HYP: IFFERENCE <> 0 MEAN -600.0 ST ERROR 64. LO 95% CI -3076.0 UP 95% CI -3.97 T -.56 F 7 P 0.0374 CASES INCLUE 8 MISSING CASES 0 t-testisuureen arvo =.56 ja vastaava p-arvo = 0.0347. Nollahypoteesi H 0 voidaan hylätä 5 %:n merkitsevyystasolla: Naisten ja miesten palkat eroavat toisistaan. (c) Kahden riippumattoman otoksen t-testi FEMALE X i = naisen palkka parissa i MALE H: 0 Vaihtoehtoiset hypoteesit: H: X i = miehen palkka parissa i TKK Systeemianalyysin laboratorio (009) 7/7
Mat-.04 Tilastollisen analyysin perusteet STATISTIX tulostaa yhdellä kertaa tulokset 3:sta testistä: Kahden riippumattoman otoksen t-testi, kun ryhmäkohtaiset varianssit saavat erota toisistaan (ks. Testi ratkaisujen lopussa). Kahden riippumattoman otoksen t-testi, kun ryhmäkohtaiset varianssit ovat yhtä suuret (ks. Testi ratkaisujen lopussa). Varianssien vertailutesti (ks. Testi 4 ratkaisujen lopussa). Statististics > One, Two, Multi-Sample Tests > Two-Sample T Test Model Specification = Table Table Variables = FEMALE, MALE Null Hypothesis = 0 Alternate Hypothesis = Not Equal TWO-SAMPLE T TESTS FOR FEMALE VS MALE SAMPLE VARIABLE MEAN SIZE S.. S.E. --------- --------- ------ --------- --------- FEMALE 44838 8 85. 995.34 MALE 46438 8 680. 947.54 IFFERENCE -600.0 NULL HYPOTHESIS: IFFERENCE = 0 ALTERNATIVE HYP: IFFERENCE <> 0 ASSUMPTION T F P 95% CI FOR IFFERENCE ----------------- ------ ------ ------ --------------------- EQUAL VARIANCES -.6 4 0.638 (-4547.4, 347.4) UNEQUAL VARIANCES -.6 4.0 0.638 (-4548., 348.) F NUM F EN F P TESTS FOR EQUALITY ------- ------ ------ ------ OF VARIANCES.0 7 7 0.4500 CASES INCLUE 6 MISSING CASES 0 Varianssien yhtäsuuruutta testaavan F-testisuureen arvo =.0 ja vastaava p-arvo = 0.4500. Siten nollahypoteesi varianssien yhtäsuuruudesta voidaan hyväksyä kaikilla tavanomaisilla merkitsevyystasoilla. Siten kahden riippumattoman otoksen t-testeistä voidaan valita yhtä suuriin variansseihin perustuva versio. Vastaava testisuureen arvo =.6. Sitä vastaava p-arvo = 0.638. Siten nollahypoteesi H 0 jätetään voimaan: Naisten ja miesten palkat eivät eroa toisistaan. TKK Systeemianalyysin laboratorio (009) 8/8
Mat-.04 Tilastollisen analyysin perusteet (d) Kohtien (b) ja (c) testien vertailu (b)- ja (c)-kohtien testit antavat ristiriitaiset tulokset. (c)-kohdan testiä ei saa kuitenkaan käyttää, koska havainnot muodostuvat sovitetuista pareista, mikä johtaa muuttujien riippuvuuteen; muuttujien MALE ja FEMALE korrelaatio on 0.7946 (varmista tämä lla). Opetus: Väärän tilastollisen menetelmän perusteella ei voi tehdä luotettavia johtopäätöksiä! 3. t-testi parivertailuille STATISTIX-tiedostossa VERENP on tulokset samoille potilaille tehdyistä verenpaineen mittauksista (ns. yläpaine) ennen (muuttuja ENNEN) ja jälkeen (muuttuja JALKEEN) verenpainetta alentavan lääkkeen antamisen. (a) (b) (c) Ratkaisu: (a) Testaa t-testillä parivertailuille nollahypoteesia, että lääkkeen antamisella ei ole vaikututusta verenpaineeseen, kun vaihtoehtoisena hypoteesina on, että lääke alentaa verenpainetta. Muodosta verenpaineiden erotukset ja tee niille tavallinen t-testi, jossa nollahypoteesina on, että erotusten odotusarvo = 0. Vertaa kohtien (a) ja (b) tuloksia toisiinsa. t-testi parivertailuille t-testi parivertailuille: ks. Testi 3 ratkaisujen lopussa. ENNEN X i = potilaan i verenpaine ennen lääkkeen antamista JALKEEN X i = potilaan i verenpaine lääkkeen antamisen jälkeen i = X i X i H: 0 0 Vaihtoehtoinen hypoteesi: H: 0 Statististics > One, Two, Multi-Sample Tests > Paired T Test Sample Variables = ENNEN, JALKEEN Null Hypothesis = 0 Alternate Hypothesis = Greater Than TKK Systeemianalyysin laboratorio (009) 9/9
Mat-.04 Tilastollisen analyysin perusteet PAIRE T TEST FOR ENNEN - JALKEEN NULL HYPOTHESIS: IFFERENCE = 0 ALTERNATIVE HYP: IFFERENCE > 0 MEAN 4.5000 ST ERROR.439 LO 95% CI.0967 UP 95% CI 7.9033 T 3.3 F 7 P 0.0083 CASES INCLUE 8 MISSING CASES 0 t-testisuureen arvo = 3.3 ja vastaava p-arvo = 0.0083. Siten nollahypoteesi H 0 voidaan hylätä % merkitsevyystasolla: Lääke alentaa verenpainetta. (b) Yhden otoksen t-testi Lisätään tiedostoon VERENP muuttuja = ENNEN JALKEEN ata > Transformations Transformation Expression = ENNEN JALKEEN Yhden otoksen t-testi: ks. Luentokalvot. ENNEN X i = potilaan i verenpaine ennen lääkkeen antamista JALKEEN X i = potilaan i verenpaine lääkkeen antamisen jälkeen i = X i X i H: 0 0 Vaihtoehtoinen hypoteesi: H: 0 TKK Systeemianalyysin laboratorio (009) 0/0
Mat-.04 Tilastollisen analyysin perusteet Statististics > One, Two, Multi-Sample Tests > One-Sample T Test Sample Variables = Null Hypothesis = 0 Alternate Hypothesis = Greater Than ONE-SAMPLE T TEST FOR NULL HYPOTHESIS: MU = 0 ALTERNATIVE HYP: MU > 0 MEAN 4.5000 ST ERROR.439 LO 95% CI.0967 UP 95% CI 7.9033 T 3.3 F 7 P 0.0083 CASES INCLUE 8 MISSING CASES 0 t-testisuureen arvo = 3.3 ja vastaava p-arvo on 0.0083. Siten nollahypoteesi voidaan hylätä %:n merkitsevyystasolla: Verenpaineiden erotusten keskimääräinen arvo on positiivinen. (c) Parivertailutestin ja yhden otoksen t-testin vertailu (a)- ja (b)-kohdat antavat saman tuloksen kuten pitääkin! TKK Systeemianalyysin laboratorio (009) /
Mat-.04 Tilastollisen analyysin perusteet 4. Kahden riippumattoman otoksen t-testi STATISTIX-tiedostossa COMPRon tiedot betonin puristuslujuutta koskevista testeistä. Muuttuja CONCR sisältää testitulokset betonierästä, jotka on tehty valmistusmenetelmällä ja muuttuja CONCR sisältää testitulokset 30 betonierästä, jotka on tehty valmistusmenetelmällä. Puristuslujuuden yksikkönä on kg/cm. Testaa kahden riippumattoman otosten t-testillä nollahypoteesia, että keskimääräiset puristuslujuudet eivät eroa toisistaan, kun vaihtoehtoisena hypoteesina on, että ne eroavat. Ratkaisu: Kahden riippumattoman otoksen t-testi Koska havaintoja eri menetelmillä tehdystä betonista voidaan pitää riippumattomina otoksina, sovelletaan kahden riippumattoman otoksen t-testiä. CONCR X i = testitulos menetelmän betonierästä i CONCR X j = testitulos menetelmän betonierästä j H 0 : = Vaihtoehtoinen hypoteesi: H : STATISTIX tulostaa yhdellä kertaa tulokset 3:sta testistä: Kahden riippumattoman otoksen t-testi, kun ryhmäkohtaiset varianssit saavat erota toisistaan (ks. Testi ratkaisujen lopussa). Kahden riippumattoman otoksen t-testi, kun ryhmäkohtaiset varianssit ovat yhtä suuret (ks. Testi ratkaisujen lopussa). Varianssien vertailutesti (ks. Testi 4 ratkaisujen lopussa). Statististics > One, Two, Multi-Sample Tests > Two-Sample T Test Model Specification = Table Table Variables = CONCR, CONCR Null Hypothesis = 0 Alternate Hypothesis = Not Equal TKK Systeemianalyysin laboratorio (009) /
Mat-.04 Tilastollisen analyysin perusteet TWO-SAMPLE T TESTS FOR CONCR VS CONCR SAMPLE VARIABLE MEAN SIZE S.. S.E. --------- --------- ------ --------- --------- CONCR 309.4 7.9804.745 CONCR 95.5 30 7.3470.344 IFFERENCE 4.083 NULL HYPOTHESIS: IFFERENCE = 0 ALTERNATIVE HYP: IFFERENCE <> 0 ASSUMPTION T F P 95% CI FOR IFFERENCE ----------------- ------ ------ ------ --------------------- EQUAL VARIANCES 6.50 49 0.0000 (9.7309, 8.435) UNEQUAL VARIANCES 6.4 40.9 0.0000 (9.6434, 8.53) F NUM F EN F P TESTS FOR EQUALITY ------- ------ ------ ------ OF VARIANCES.8 0 9 0.3353 CASES INCLUE 5 MISSING CASES 9 Varianssien yhtäsuuruutta testaavan F-testisuureen arvo =.8 ja vastaava p-arvo = 0.3353 Nollahypoteesi varianssien yhtäsuuruudesta voidaan hyväksyä 5 %:n merkitsevyystasolla. Siten kahden riippumattoman otoksen t-testeistä voidaan valita yhtäsuuriin variansseihin perustuva versio. Vastaava testisuureen arvo = 6.50. Sitä vastaava p-arvo on neljällä desimaalilla = 0.0000. Nollahypoteesi H 0 voidaan hylätä kaikilla tavanomaisilla merkitsevyystasoilla: Valmistusmenetelmät eroavat toisistaan ja menetelmä tuottaa puristus-lujuudeltaan parempaa betonia. TKK Systeemianalyysin laboratorio (009) 3/3
Mat-.04 Tilastollisen analyysin perusteet Liitteet Testi : Yleinen hypoteesi H : Riippumattomien otosten t-testi, kun ryhmäkohtaiset varianssit saavat erota toisistaan X i = muuttujan havaittu arvo havainnossa i X j = muuttujan havaittu arvo havainnossa j () Havainnot () Havainnot ix ~N(, ), i,,, n jx ~N(, ), j,,, n (3) Havainnot X i ja X j ovat riippumattomia kaikille i ja j H: 0 Vaihtoehtoiset hypoteesit: H: H: H: Testisuure ja sen approksimatiivinen jakauma nollahypoteesin pätiessä: jossa XX t s s n n t() a s s nn s n n n n s Testisuureen approksimatiivisena jakaumana nollahypoteesin pätiessä käytetään usein myös standardoitua normaalijakaumaa: XX t N(0,) a s s nn Tämä approksimaatio on kuitenkin heikompi kuin edellä mainittu t-jakaumaan perustuva approksimaatio. TKK Systeemianalyysin laboratorio (009) 4/4
Mat-.04 Tilastollisen analyysin perusteet Testi : Yleinen hypoteesi H : Riippumattomien otosten t-testi, kun ryhmäkohtaiset varianssit ovat yhtä suuret X i = muuttujan havaittu arvo havainnossa i X j = muuttujan havaittu arvo havainnossa j () Havainnot () Havainnot ix ~N(, ), i,,, n jx ~N(, ), j,,, n (3) Havainnot X i ja X j ovat riippumattomia kaikille i ja j H: 0 Vaihtoehtoiset hypoteesit: H: H: H: Testisuure ja sen jakauma nollahypoteesin pätiessä: jossa XX t tnn ( ) sp nn ( n ) s ( n) s P nn s TKK Systeemianalyysin laboratorio (009) 5/5
Mat-.04 Tilastollisen analyysin perusteet Testi 3: t-testi parivertailuille X i = muuttujan havaittu arvo havainnossa i X i = muuttujan havaittu arvo havainnossa i i = X i X i Yleinen hypoteesi H : () Havainnot i n i~n(, ),,,, () Havainnot i ovat riippumattomia kaikille i H: 0 0 Vaihtoehtoiset hypoteesit: H : 0 H : 0 H : 0 Testisuure ja sen jakauma nollahypoteesin pätiessä: t tn () s n / TKK Systeemianalyysin laboratorio (009) 6/6
Mat-.04 Tilastollisen analyysin perusteet Testi 4: Varianssien vertailutesti X i = muuttujan havaittu arvo havainnossa i X j = muuttujan havaittu arvo havainnossa j Yleinen hypoteesi H : () Havainnot () Havainnot ix ~N(, ), i,,, n jx ~N(, ), j,,, n (3) Havainnot X i ja X j ovat riippumattomia kaikille i ja j H: 0 Vaihtoehtoiset hypoteesit: H: H: H: Testisuure ja sen jakauma nollahypoteesin pätiessä: s F Fn (, n ) s TKK Systeemianalyysin laboratorio (009) 7/7