VAASAN YLIOPISTO/AVOIN YLIOPISTO TILASTOTIETEEN PERUSTEET Harjoituksia 1 KURSSIKYSELYAINEISTO: 1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet Nimi Ikä v. Asema Palkka ( /kk) Lasten lkm Vatanen Antti 36 varastomies 1 900 2 Virtanen Anneli 33 johtaja 3 200 1 Virtanen Anssi 43 myyntipäällikkö 2 900 3 Voutilainen Anna 29 sihteeri 1 700 0 a) Luettele tilastoon kuuluvat tilastoyksiköt ja muuttujat. b) Mitkä muuttujat ovat kvalitatiivisia? Mitkä muuttujat ovat kvantitatiivisia? c) Miten muutat taulukkoa, kun haluat esittää sen tilastollisena havaintomatriisina? d) Mitä merkitsee aineiston käsittelyn kannalta se, että havaintomatriisissa kaksi saraketta vaihtaa paikkaa keskenään? e) Entä, jos kaksi vaakariviä vaihtaa paikkaa keskenään? f) Mitä merkitsee aineiston käsittelyn kannalta se, jos puuttuvan tiedon merkkinä on luku 0? g) Entä, jos puuttuvan tiedon paikalle ei laiteta mitään?
2. Markkinatutkimuksessa aiotaan mitata seuraavia ominaisuuksia: 1 vastaajan siviilisääty 2 vastaajan kotitalouden kuukausitulot 3 vastaajan koulutus 4 vastaajan asuinseutu 5 vastaajan mielipide tietystä myynnissä olevasta tuotteesta. Millaisina tilastollisina muuttujina voidaan ominaisuudet esittää: mitä tilastollista mitta-asteikkoa voidaan käyttää, ja millaisia arvoja muuttujat voivat saada? 3. Muodosta kurssikyselyaineiston Ydinvoima-muuttujan frekvenssijakauma taulukkona ja sopivana tilastokuviona. Millä tilastollisella mitta-asteikolla ko. muuttujan arvot on mitattu? 4. Tarkastellaan kurssikyselyaineistosta Pituus-muuttujaa. a) Määritä pituuden vaihteluväli ja vaihteluvälin pituus. b) Mikä olisi pituuden luokitteluun sopiva luokkien lukumäärä? c) Jos aineisto luokitellaan viiteen tasaväliseen luokkaan, mikä on pienin mahdollinen luokkavälin pituus? d) Luokittele havainnot viiteen tasaväliseen luokkaan niin, että ensimmäisen luokan pyöristetty alaraja on pienin muuttuja-arvo ja luokkavälin pituutena on 8 cm. e) Määritä luokkien frekvenssit, prosentuaaliset frekvenssit, summafrekvenssit ja prosentuaaliset summafrekvenssit. 5. Piirrä tehtävän 4 perusteella pituudesta a) frekvenssihistogrammi b) frekvenssimonikulmio c) prosentuaalinen summakäyrä. 6. Muodosta kurssikyselyaineiston Ikä-muuttujan runko-lehti kuvio. 7. Arvioi tehtävän 5 jonkin kuvion perusteella pituuden a) mediaani b) alakvartiili c) yläkvartiili. 8. Määritä kurssikyselyaineiston Tuuli- ja vesivoima -muuttujan mediaani, alakvartiili, yläkvartiili, suurin arvo ja pienin arvo erikseen naisille ja miehille. 9. Laske tehtävän 1 aineistosta sekä iän että lasten lukumäärän keskiarvo ja keskihajonta. Mikä on iän moodiarvo, entäs mediaaniarvo? Mikä on iän vaihteluväli, entäs vaihteluvälin pituus? 10. Laske (tai määritä muuten) kurssikyselyaineistosta Ikä-muuttujan keskiarvo, moodi, mediaani, keskihajonta, vaihteluväli ja kvartiiliväli (avuksi: x i = 880 ja x i 2 = 26878) ja kuvaile em. tunnuslukujen avulla pituuden jakauman muotoa. Muodosta myös laatikko-viikset -kuvio. 11. Laske (tai määritä muuten) kurssikyselyaineiston Pituus-muuttujasta em. tehtävässä mainitut tilastolliset tunnusluvut käyttäen tehtävässä 4 muodostettua luokiteltua frekvenssijakaumaa. Onko iällä vai pituudella suhteellisesti pienempi vaihtelu?
12. Oletetaanpa, että kurssilla on sekä rouva että herra XX. Rouvan ikä on 30 vuotta ja herran pituus on 180 cm. Kumpi on suhteellisesti ottaen lähempänä ko. ominaisuuksien keskiarvoa? 13. Seuraavassa on tilastotietoja Kuntafakta-aineistosta, jossa tilastoyksikköinä ovat Suomen kunnat v. 2003. (HUOM. Tulostuksessa desimaalimerkkinä on pilkku, ja esim. merkintä,65189 tarkoittaa lukua 0,65189.) a) Millä keskiluvulla olisi järkevä kuvata muuttujan Verotettavat tulot /asukas jakauman keskikohtaa? Miksi? b) Millä muuttujalla on pienin suhteellinen vaihtelu? c) Minkä muuttujan jakauma on huipukas? d) Minkä muuttujan jakauma on oikealle loiveneva? e) Minkä muuttujan jakauma muistuttaa eniten normaalijakaumaa? f) Vaasassa ko. muuttujien arvot olivat tuolloin 15.3, 19.00 ja 12469. Minkä muuttujan osalta Vaasa eroaa suhteellisesti ottaen vähiten keskimääräisestä Suomen kunnasta? 14. Laske seuraavasta frekvenssijakaumasta hinnan keskiarvo, varianssi ja mediaani. Mieti myös, mitä muita hajontalukuja voisit muuttujasta esittää (- laskea ei niitä nyt kuitenkaan tarvitse). Hinta lukumäärä 40 49 5 50 59 3 60 69 11 70 79 15 80 89 13
15. Muodosta kurssikyselyaineistosta ristiintaulukko muuttujista Sukupuoli ja Ansiotyö. Tutki muuttujien välistä riippuvuutta kontingenssikertoimen avulla. 16. Muodosta kurssikyselyaineistosta ristiintaulukko muuttujista Varsinainen ja Ydinvoima. Tutki muuttujien välistä riippuvuutta sopivalla riippuvuustunnusluvulla. Tulkitse tuloksesi. 17. Laske tehtävän 1. aineistosta iän ja lasten lukumäärän välisen Pearsonin korrelaatiokertoimen arvo. 18. Sähkölämmitteisen loma-asunnon sähkön kulutusta ja ulkoilman lämpötilaa seurattiin viikon ajan. Piirrä seuraavasta aineistosta pisteparvi ja laske lineaarinen korrelaatiokerroin. Ulkoilman lämpötila (ºC) 5 8 12 10-1 3 7 Sähkön kulutus (kwh) 32 28 24 19 30 26 20 (Vastaus: r = -0.583) 19. Yritys haluaa testata työnhakijansa soveltuvuustestillä. Tarjolla on kaksi eri testiä, joita kumpaakin kokeillaan. Seitsemän työnhakijaa testattiin ja saatiin tulokset: työnhakija A B C D E F G testi 1 14 6 17 17 2 8 10 testi 2 162 65 81 159 90 44 123 Tutki sopivan tilastollisen tunnusluvun avulla, onko työnhakijoiden järjestyksillä yhteyttä eri testeissä. Mitä tulos tarkoittaa käytännössä? 20. Laske kurssikyselyaineiston naisten osajoukosta Spearmanin järjestyskorrelaatio muuttujista Ydinvoima ja Tuuli- ja vesivoima ja tulkitse tulos. 21. Tutki sopivalla tilastollisella tunnusluvulla, onko seuraavan aineiston haikaranpesien ja kylän lasten määrien välillä lineaarista riippuvuutta. kylä 1 2 3 4 5 6 lasten määrä 50 10 40 20 30 20 pesien määrä 3 0 3 1 2 2
22. Yritys seurasi tuotteidensa myyntiä vuoden kuuden ensimmäisen viikon aikana sekä koko vuoden aikana. Saatiin seuraavat myyntilukemat (1000 $) 10 markkina-alueen otoksessa: Markkina- Myynti kuuden Myynti koko alue viikon aikana vuoden aikana 1 13 150 2 15 180 3 20 220 4 17 200 5 19 180 6 12 130 7 16 170 8 18 170 9 19 240 10 14 130 Piirrä pisteparvi ja arvioi summittaisesti, miten regressiosuora kulkee kuviossa. Muodosta laskemalla lineaarinen regressiomalli, jossa vuoden myyntiä selitetään kuuden ensimmäisen viikon myynnillä. Tulkitse tulokset. Laske ja tulkitse mallin selitysaste. Mikä on ennuste vuoden myynnille, kun erään alueen kuuden ensimmäisen viikon myynti oli 19 tuhatta dollaria? (Avuksi: kun x = kuuden viikon myynti ja y = vuoden myynti, ovat x i 163, xi 2 2725, y i 1770, yi 2 324900 ja x i y i 29590) 23. Tarkastellaan kurssikyselyaineiston miesten osajoukkoa. Nyt kengännumeron ja pituuden välinen korrelaatiokerroin on arvoltaan 0.801. Pituuden keskiarvo on 183.53 ja keskihajonta on 5.796. Vastaavat luvut kengännumerolle ovat 43.26 ja 1.567. Hyödynnä em. tilastollisia tunnuslukuja ja muodosta lineaarinen regressiomalli, jossa kengännumeron vaihtelua selitetään pituudella. Laske mallin selitysaste.