VAASAN YLIOPISTO/KESÄYLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia A KURSSIKYSELYAINEISTO: 1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka ( /kk) Lasten lkm Vatanen Antti 36 varastomies 1 900 2 Virtanen Anneli 33 johtaja 3 200 1 Virtanen Anssi 43 myyntipäällikkö 2 900 3 Voutilainen Anna 29 sihteeri 1 700 0 a) Luettele tilastoon kuuluvat tilastoyksiköt ja muuttujat. b) Mitkä muuttujat ovat kvalitatiivisia? Mitkä muuttujat ovat kvantitatiivisia? c) Mitä merkitsee aineiston käsittelyn kannalta se, että havaintomatriisissa kaksi saraketta vaihtaa paikkaa keskenään? d) Entä, jos kaksi vaakariviä vaihtaa paikkaa keskenään? e) Mitä merkitsee aineiston käsittelyn kannalta se, jos puuttuvan tiedon merkkinä on luku 0? f) Entä, jos puuttuvan tiedon paikalle ei laiteta mitään? 2. Mitkä ovat kurssikyselyaineiston muuttujien tilastolliset mitta-asteikot? Mitkä muuttujat ovat jatkuvia? Mitkä muuttujat ovat diskreettejä eli epäjatkuvia? Perustele vastauksesi.
3. Eräällä kurssilla opetus tapahtui toiselle ryhmälle perinteisenä luento-opetuksena ja toiselle ryhmälle verkko-opetuksena. Osallistujille tehtiin osaamista mittaava testi sekä ennen että jälkeen kurssin. Näiden testien pistemäärien erotukset (jälkeen ennen) olivat: Naiset: verkko-opetus 20.3 23.5 4.7 21.9 15.6 20.3 26.6-9.4 4.7 luento-opetus 6.2 15.6 25.0 4.7 28.1 17.2 14.1 23.4 Miehet: verkko-opetus 12.5 7.8 21.9-3.1 3.1 45.4 9.4 luento-opetus 28.1-6.2 14.1 18.8 1.5 15.6 26.7 23.3 33.2 Mikä on tilastoyksikkö? Montako tilastoyksikköä on? Mitkä ovat muuttujat? Montako muuttujaa on? Miten tilastoyksikkö- ja muuttujamäärä näkyy havaintomatriisissa? Hahmottele aineiston avulla havaintomatriisi. Mitä aineistosta avulla voidaan tutkia? 4. Esitä kurssikyselyaineiston Ydinvoima-muuttujan frekvenssijakauma taulukkona. Esitä taulukossa myös suhteelliset ja prosentuaaliset frekvenssit absoluuttisten frekvenssien lisäksi. 5. Tarkastellaan kurssikyselyaineistosta Pituus-muuttujaa. a) Määritä aineistosta pituuden vaihteluväli ja pituuden vaihteluvälin pituus. b) Mikä olisi pituuden luokitteluun sopiva luokkien lukumäärä? c) Jos pituus luokitellaan viiteen tasaväliseen luokkaan, mikä on pienin mahdollinen luokkavälin pituus? d) Luokittele pituusarvot viiteen tasaväliseen luokkaan siten, että luokkavälin pituus on 10 cm ja ensimmäisen luokan alaraja on 155 cm. e) Määritä pituusluokkien frekvenssit, prosentuaaliset frekvenssit, summafrekvenssit ja prosentuaaliset summafrekvenssit. 6. Tarkastellaan tehtävän 3 aineistoa. Luokittele testipisteiden erotuksien arvot järkevästi luokkiin ja esitä testipisteiden erotuksen jakauma frekvenssijakaumataulukkona. 7. Piirrä tehtävän 5 perusteella Pituus-muuttujasta a) frekvenssihistogrammi b) frekvenssimonikulmio c) prosentuaalinen summakäyrä. 8. Muodosta kurssikyselyaineistosta Ikä-muuttujan runko-lehti -kuvio. 9. Laske tehtävän 1 aineistosta sekä lasten lukumäärän että iän keskiarvo ja keskihajonta. 10. Laske ja/tai määritä kurssikyselyaineiston pituuden keskiarvo, moodi, mediaani, keskihajonta, variaatiokerroin, vaihteluväli ja kvartiiliväli käyttäen alkuperäisiä havaintoja (ei siis tehtävän 5 frekvenssijakaumaa) (avuksi: x i = 3380 ja x i 2 = 605262). Kuvaile em. tunnuslukujen avulla pituuden jakaumaa. Muodosta myös laatikko-viikset kuvio. 11. Tämän vuoden kesäkurssilaisten iän keskiarvo on 32.63 vuotta ja keskihajonta on 10.084 vuotta. a) Onko kesäopiskelijoiden pituuden vaihtelu suhteellisesti pienempää kuin iän vaihtelu?
b) Eräs kurssin opiskelija on iältään 38 vuotta ja pituudeltaan 165 cm. Kumman muuttujan osalta hän muistuttaa suhteellisesti enemmän keskiarvo-opiskelijaa (keskiarvo-opiskelija olkoon sellainen opiskelija, jonka pituus ja ikä vastaavat ko. muuttujien keskiarvoja). 12. Laske/määritä Ydinvoima -muuttujan mediaani, alakvartiili, yläkvartiili, suurin arvo ja pienin arvo erikseen miehille ja naisille. 13. Laske seuraavasta frekvenssijakaumasta hinnan keskiarvo, varianssi ja mediaani. Mieti myös (laskea ei tarvitse), mitä muita keskilukuja ja hajontalukuja voisit hinnasta esittää. Hinta lukumäärä 40 49 5 50 59 3 60 69 11 70 79 15 80 89 13 14. Seuraavassa taulukossa on tilastoanalyysituloksia Kuntafakta-aineistosta, jossa tilastoyksikköinä ovat Suomen kunnat v. 2003. (HUOM. Tulostuksessa desimaalimerkkinä on pilkku, ja esim. merkintä,65189 tarkoittaa lukua 0,65189.) a) Millä keskiluvulla olisi järkevä kuvata muuttujan Verotettavat tulot /asukas keskikohtaa? b) Millä muuttujalla on pienin suhteellinen vaihtelu? c) Minkä muuttujan jakauma on selvästi huipukkaampi kuin normaalijakauma? d) Minkä muuttujan jakauma on selvästi oikealle loiveneva? e) Minkä muuttujan jakauma muistuttaa eniten normaalijakaumaa? f) Vaasassa ko. muuttujien arvot olivat tuolloin 15.3, 19.00 ja 12469. Minkä muuttujan osalta Vaasa eroaa suhteellisesti ottaen vähiten keskimääräisestä Suomen kunnasta?
15. Tee sellainen tilastokuvio kurssikyselyaineiston Ydinvoima-muuttujasta, jonka avulla voit vertailla mies- ja naisopiskelijoiden mielipiteitä. 16. Muodosta kurssikyselyaineistosta ristiintaulukko muuttujista Sukup ja Työ (vaikka tilastoyksikkömäärä onkin näin vähäinen). Tutki muuttujien välistä riippuvuutta kontingenssikertoimen avulla. 17. Tutkimuslaitos tutki 75 erilaisen taloustavaran hinta-laatu-suhdetta. Tavarat luokiteltiin hinnan mukaan kolmeen ryhmään ja laadun perusteella kahteen ryhmään. Saatiin ristiintaulukko Laatu Hinta Huono Hyvä Yhteensä Edullinen 15 7 22 Keskihintainen 10 14 24 Kallis 5 24 29 Yhteensä 30 45 75 Tutki muuttujien välistä riippuvuutta kontingenssikertoimen avulla. Tulkitse tuloksesi. 18. Laske tehtävän 1. aineistosta iän ja lasten lukumäärän välinen Pearsonin korrelaatiokerroin. 19. Laske kurssikyselyaineistosta Spearmanin järjestyskorrelaatio muuttujista Ikä ja Matem vain naisten joukossa. Tulkitse tulos. 20. Sähkölämmitteisen loma-asunnon sähkön kulutusta ja ulkoilman lämpötilaa seurattiin viikon ajan. Piirrä aineistosta pisteparvi ja laske tunnusluku, jolla mitataan lineaarisen riippuvuuden voimakkuutta. Ulkoilman lämpötila (ºC) 5 8 12 10-1 3 7 Sähkön kulutus (kwh) 32 28 24 19 30 26 20 21. Yritys haluaa testata työnhakijansa soveltuvuustestillä. Tarjolla on kaksi eri testiä, joita kumpaakin halutaan kokeilla. Seitsemän työnhakijaa testattiin ja saatiin tulokset: testi 1 14 6 17 17 2 8 10 testi 2 162 65 81 159 90 44 123 Tutki sopivan tilastollisen tunnusluvun avulla, onko työnhakijoiden järjestyksillä yhteyttä eri testeissä. Mitä tulos tarkoittaa? 22. Suuren kauppaketjun johto suunnittelee laajentamista uusia myymälöitä avaamalla. Tätä varten se tarvitsee arvion myymälän pinta-alan (1000 m 2 ) ja myynnin (milj. ) välisestä yhteydestä. Yhdentoista jo toimivan myymälän satunnaisotos tuotti seuraavan aineiston asian selvittämiseksi.
Pinta-ala 1.7 1.6 2.8 5.6 1.3 2.2 1.3 1.1 3.2 1.5 5.2 Myynti 3.7 3.9 6.7 9.5 3.4 5.6 3.7 2.7 5.5 2.9 10.7 a) Esitä aineisto tilastokuviona siten. että siitä selviää myynnin riippuvuus pinta-alasta. Kuvaa riippuvuus sanallisesti. b) Sovita aineistoon lineaarinen regressiomalli, jossa pinta-ala on selittävä muuttuja ja tulkitse malli. (Voit käyttää hyväksesi seuraavia tunnuslukuja: pinta-alan keskiarvo on 2.5 ja keskihajonta 1.58, myynnin keskiarvo on 5.3 ja keskihajonta 2.69, sekä pinta-alan ja myynnin välinen kovarianssi 4.085.) 23. Kurssikyselyaineistossa miesten joukossa kengännumeron ja pituuden välinen (Pearsonin) korrelaatiokerroin on arvoltaan 0.826. Miesten joukossa pituuden keskiarvo on 189.5 cm ja keskihajonta on 10.058 cm. Vastaavat luvut kengännumerolle ovat 44.80 ja 2.821. a) Muodosta lineaarinen regressiomalli, jossa miesten kengännumeron vaihtelua selitetään pituudella. b) Laske mallin selitysaste. c) Jos olet mies, niin arvioi mallin avulla, minkä kokoinen kenkä pitäisi jalassasi olla.