Ka6710000 TILASTOLLISEN ANALYYSIN PERUSTEET 2. VÄLIKOE 9.5.2007 / Anssi Tarkiainen Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Tehtävä 1. a) Gallupissa haastateltiin 700 satunnaisesti valittua suomalaista naista, ja 61 % vastanneista piti Matti Vanhasta viehättävänä. Mikä on tutkimuksen virhemarginaali? (max 2p) b) Idols-laulukilpailun esikarsinnoista (koelaulupaikoista Turku ja Tampere) poimittiin satunnaisesti 200 kisailijan otos. Otoksessa 55 tamperelaisen laulun äänenvoimakkuudeksi mitattiin keskimäärin 87 desibeliä (keskihajonta 9 db) ja 145 turkulaisen vastaavasti 89 db (keskihajonta 10 db). Voidaanko tästä päätellä, että turkulaiset laulavat keskimäärin kovempaa, jos oletetaan äänenvoimakkuus normaalijakautuneeksi. Tee johtopäätös 5% riskitasolla (max 8p) Tehtävä 2. Pankkien henkilöasiakkaista on tehty 300 henkilön otos, josta on käytettävissä seuraavat tiedot: - sukupuoli (1=nainen, 2=mies) - ikä (vuosina, noudattaa normaalijakaumaa) - kuinka kauan ollut saman pankin asiakas (kuukausina, ei noudata normaalijakaumaa) - lainatyyppi (0=ei mitään lainaa, 1=vain opintolainaa, 2=vain asuntolainaa, 3=vain kulutusluottoa, 4=useita lainatyyppejä) - kotitalouden vuositulot (euroa, ei noudata normaalijakaumaa) - rahasto- ym. sijoitusten yhteismäärä (euroa, ei noudata normaalijakaumaa) - säästötilitalletusten yhteismäärä (euroa, ei noudata normaalijakaumaa) - pääasiallinen asiointitapa (1=henkilökohtaisesti, 2=internetpalvelu, 3=muu) Jos tehtävänäsi olisi tutkia seuraavia asioita, niin mitä testiä käyttäisit? Mainitse muuttujien mitta-asteikkotasot ja testaustilanne sekä oletushypoteesi. (Joka kohdassa yksi piste testin nimestä ja yksi mittaustasoista sekä yksi testaustilanteen kuvauksesta/hypoteeseista.) a) käyttävätkö nuoremmat asiakkaat enemmän Internetpalvelua kuin vanhemmat? (max 3p) b) vaikuttavatko kotitalouden vuositulot sijoitusten määrään? (max 3p) c) onko asiakkuuden kestolla yhteyttä lainatyyppiin? (max 3p) d) ovatko naisasiakkaat nuorempia kuin miesasiakkaat? (max 3p) e) onko asiakkailla keskimäärin enemmän rahasto- ym. sijoituksia kuin säästötilitalletuksia? (max 3p)
Tehtävä 3. Eräässä iltapäivälehdessä raportoitiin seuraavanlainen tutkimustulos: Miehet, jotka ajavat partansa säännöllisesti elävät vanhemmiksi kuin miehet, joiden on ollut epäsäännöllistä. Tee alla olevan kontingenssitaulukon perusteella laskelmat, joista ilmenee, että a) em. tutkimustulos on tilastollisesti merkitsevä, mutta b) riippuvuus on näennäinen. Käytä 5% riskitasoa. (max 10 p) Tehtävä 4. Alla olevassa SAS-tulosteessa on analysoitu eri maita kolmen muuttujan avulla: pääasiallinen uskonto (religion), naisten keskimääräinen elinikä (lifeexpf) ja miesten keskimääräinen elinikä (lifeexpm). Tarkastele SAS-tulostetta ja arvioi pitävätkö seuraavat väittämät paikkansa. Vastausvaihtoehdot: kyllä, ei, ei voi päätellä tulosteesta (max 10p) a) eliniän (sekä miesten että naisten) varianssit katolisissa ja muslimimaissa poikkeavat toisistaan merkitsevästi kun riskitasona on 5% b) kun testataan miesten keskimääräisen eliniän eroa katolisten maiden ja muslimimaiden välillä, luetaan testin tulokset keskimmäisen taulukon riviltä, jossa lukee pooled c) keskimmäisessä taulukossa testataan muuttujan keskiarvojen yhtä suuruutta kahden ryhmän välillä d) miesten eliniän keskiarvojen ero (katolisten ja muslimimaiden välillä) on tilastollisesti merkitsevä 5% riskitasolla e) naisten eliniän keskiarvojen ero (katolisten ja muslimimaiden välillä) on tilastollisesti merkitsevä 5% riskitasolla f) kun testataan naisten keskimääräisen eliniän eroa katolisten maiden ja muslimimaiden välillä, luetaan testin tulokset keskimmäisen taulukon riviltä, jossa lukee pooled g) alimmassa taulukossa testataan varianssien yhtä suuruutta kahden ryhmän välillä h) naisten keskimääräisen eliniän keskikeskihajonnan luottamusväli muslimimaissa on 62.3 69.4 i) naisten keskimääräisen eliniän keskiarvon luottamusväli muslimimaissa on 62.3 69.4 j) t-testin testisuureena käytetään palkkojen keskiarvojen erotusta
Tehtävä 5. Selosta lyhyesti mitä seuraavat termit tarkoittavat? (1p jokaisesta) a) luottamusväli b) keskivirhe c) ei-parametrinen testi d) riskitaso e) Studentoitu testisuure
Ratkaisut: Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu. Tehtävä 1. c) Gallupissa haastateltiin 700 satunnaisesti valittua suomalaista naista, ja 61 % vastanneista piti Matti Vanhasta viehättävänä. Mikä on tutkimuksen virhemarginaali? (max 2p) z 1 2 0,61(1 0,61) 700 z 1 2 *0,018 jos käytetään 5% riskitasoa niin 1,96*0,018 = 0,036133 z 1 2 d) Idols-laulukilpailun esikarsinnoista (koelaulupaikoista Turku ja Tampere) poimittiin satunnaisesti 200 kisailijan otos. Otoksessa 55 tamperelaisen laulun äänenvoimakkuudeksi mitattiin keskimäärin 87 desibeliä (keskihajonta 9 db) ja 145 turkulaisen vastaavasti 89 db (keskihajonta 10 db). Voidaanko tästä päätellä, että turkulaiset laulavat keskimäärin kovempaa, jos oletetaan äänenvoimakkuus normaalijakautuneeksi. Tee johtopäätös 5% riskitasolla (max 8p) 1,96 n keskiarvo keskihajonta keskiarvon keskivirhe Luottamusvälin alaraja Luottamusvälin yläraja Turku 145 89 10 0,830454799 87,37230859 90,62769141 Tampe re 55 87 9 1,213559752 84,62142289 89,37857711 luottamusvälit menevät päällekkäin, joten ei voi päätellä että turkulaiset laulaisivat kovempaa Tehtävä 2. Pankkien henkilöasiakkaista on tehty 300 henkilön otos, josta on käytettävissä seuraavat tiedot: - sukupuoli (1=nainen, 2=mies) - ikä (vuosina, noudattaa normaalijakaumaa) - kuinka kauan ollut saman pankin asiakas (kuukausina, ei noudata normaalijakaumaa) - lainatyyppi (0=ei mitään lainaa, 1=vain opintolainaa, 2=vain asuntolainaa, 3=vain kulutusluottoa, 4=useita lainatyyppejä) - kotitalouden vuositulot (euroa, ei noudata normaalijakaumaa)
- rahasto- ym. sijoitusten yhteismäärä (euroa, ei noudata normaalijakaumaa) - säästötilitalletusten yhteismäärä (euroa, ei noudata normaalijakaumaa) - pääasiallinen asiointitapa (1=henkilökohtaisesti, 2=internetpalvelu, 3=muu) Jos tehtävänäsi olisi tutkia seuraavia asioita, niin mitä testiä käyttäisit? Mainitse muuttujien mitta-asteikkotasot ja testaustilanne sekä oletushypoteesi. (Joka kohdassa yksi piste testin nimestä ja yksi mittaustasoista sekä yksi testaustilanteen kuvauksesta/hypoteeseista.) f) käyttävätkö nuoremmat asiakkaat enemmän Internetpalvelua kuin vanhemmat? (max 3p) suhde/nom. T-testi tai Anova g) vaikuttavatko kotitalouden vuositulot sijoitusten määrään? (max 3p) suhde/suhde (ei norm.) H0:ei korrelaatiota. Spearmannin rho h) onko asiakkuuden kestolla yhteyttä lainatyyppiin? (max 3p) suhde(ei norm.)/nom. Kruskall-Wallis i) ovatko naisasiakkaat nuorempia kuin miesasiakkaat? (max 3p) suhde/nom. independent samples t-test. j) onko asiakkailla keskimäärin enemmän rahasto- ym. sijoituksia kuin säästötilitalletuksia? (max 3p) Jakaumien samanlaisuus. Suhde/suhde sign testi Tehtävä 3. Eräässä iltapäivälehdessä raportoitiin seuraavanlainen tutkimustulos: Miehet, jotka ajavat partansa säännöllisesti elävät vanhemmiksi kuin miehet, joiden on ollut epäsäännöllistä. Tee alla olevan kontingenssitaulukon perusteella laskelmat, joista ilmenee, että a) em. tutkimustulos on tilastollisesti merkitsevä, mutta b) riippuvuus on näennäinen. Käytä 5% riskitasoa. (max 10 p) Epäsäännöllinen Poikamiehet Avio- /avoliitossa olleet Poikamiehet Avio- /avoliitossa olleet Alle 55-8 6 22 4 vuotiaaksi 56-75- vuotiaaksi 8 45 32 15 Yli 75-vuotiaaksi 4 39 6 11 a) Parranajon säännöllisyys vaikuttaa ikään havaitut frekvenssit Epäsäännöl linen odotetut frekvenssit Epäsäännöl linen Alle 55 v. 22,04082 17,95918 Alle 55 v. 14 26 56-75 51 47 56-75 54 44 yli 75 43 15 yli 75 31,95918 26,04082 Yht 108 88 Testisuure: 15,4
Kriittinen raja: 5.991 H0 Hylätään b) Ensin poikamiehet havaitut frekvenssit Epäsäännöllin en odotetut frekvenssit Epäsäännölli nen Alle 55 7,105263 22,89474 Alle 55 v. 8 22 56-75 6 32 56-75 9 29 yli 75 4 4 yli 75 1,894737 6,105263 Testisuure: 4,5 Kriittinen raja: 5.991 H0 jää voimaan Sitten aviossa olevat havaitut frekvenssit Testisuure: 1,44 Kriittinen raja: 5.991 H0 jää voimaan Epäsäännölline n Epäsäännölline n odotetut frekvenssit Alle 55 v. 7,5 2,5 6 4 45 15 56-75 45 15 39 11 yli 75 37,5 12,5 Tehtävä 4. Alla olevassa SAS-tulosteessa on analysoitu eri maita kolmen muuttujan avulla: pääasiallinen uskonto (religion), naisten keskimääräinen elinikä (lifeexpf) ja miesten keskimääräinen elinikä (lifeexpm). Tarkastele SAS-tulostetta ja arvioi pitävätkö seuraavat väittämät paikkansa. Vastausvaihtoehdot: kyllä, ei, ei voi päätellä tulosteesta (max 10p) k) eliniän (sekä miesten että naisten) varianssit katolisissa ja muslimimaissa poikkeavat toisistaan merkitsevästi kun riskitasona on 5% E l) kun testataan miesten keskimääräisen eliniän eroa katolisten maiden ja muslimimaiden välillä, luetaan testin tulokset keskimmäisen taulukon riviltä, jossa lukee pooled T m) keskimmäisessä taulukossa testataan muuttujan keskiarvojen yhtä suuruutta kahden ryhmän välillä T n) miesten eliniän keskiarvojen ero (katolisten ja muslimimaiden välillä) on tilastollisesti merkitsevä 5% riskitasolla E o) naisten eliniän keskiarvojen ero (katolisten ja muslimimaiden välillä) on tilastollisesti merkitsevä 5% riskitasolla T
p) kun testataan naisten keskimääräisen eliniän eroa katolisten maiden ja muslimimaiden välillä, luetaan testin tulokset keskimmäisen taulukon riviltä, jossa lukee pooled T q) alimmassa taulukossa testataan varianssien yhtä suuruutta kahden ryhmän välillä T r) naisten keskimääräisen eliniän keskikeskihajonnan luottamusväli muslimimaissa on 62.3 69.4 E s) naisten keskimääräisen eliniän keskiarvon luottamusväli muslimimaissa on 62.3 69.4 T t) t-testin testisuureena käytetään palkkojen keskiarvojen erotusta E/EVP Tehtävä 5. Selosta lyhyesti mitä seuraavat termit tarkoittavat? (1p jokaisesta) f) luottamusväli otoksen avulla estimoitu väli, jolla todellisen populaation parametrin uskotaan sijaitsevan g) keskivirhe
otoksesta lasketun tunnusluvun (otossuureen) hajonta, kuvaa otossuureeseen liittyvää epävarmuutta h) ei-parametrinen testi testi, jossa ei ole jakaumaoletuksia ja joka sopii käytettäväksi nominaali- ja ordinaaliasteikolla mitatuille muuttujille i) riskitaso hylkäysvirheen todennäköisyys j) Studentoitu testisuure testi suure, joka on muunnettu sellaiseen muotoon että sitä voidaan verrata Studentin t-jakaumaan