Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Koko: px
Aloita esitys sivulta:

Download "Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä."

Transkriptio

1 Tilastollinen tietojenkäsittely / SPSS Harjoitus 3 Tällä harjoituskerralla tarkastellaan harjoituksissa 2 tehtyjä SPSS-havaintoaineistoja KUNNAT, kyselya ja kyselyb. Jos epäilet, että aineistosi eivät ole aivan kunnossa, voit kopioida jonkinlaiset versiot U-palvelimen hakemiston STAT2100SPSS kansiosta Aineistoja harjoituksiin 3. Aineistoihin tutustutaan mm. erilaisten kuvioiden avulla. Joitakin kuvioita on tarkoitus muokata muokkaus- eli Chart Editor -ikkunassa, jonne pääset näpäyttämällä kuvaa kahdesti. Tarkastellaan ensin aineistoa KUNNAT. Koska kyseessä on kokonaistutkimusaineisto, riittää, että tutkit kuvioita ja tunnuslukujen arvoja ja teet niiden perusteella päätelmiä. Tilastollisen päättelyn menetelmiä ei ole siis tarpeen käyttää. Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä. 23. Muodostetaan frekvenssihistogrammikuvio ja muokataan kuviota: Muodosta frekvenssihistogrammi (Graphs - -Histogram) muuttujasta veroaste. Sitten muokkaa kuvaa niin, että pylväitä on vähemmän kuin mitä SPSS automaattisesti tekee: avaa kuvanmuokkaus ja kaksoisnäpäytä pylväitä ja avautuvassa Properties-ikkunassa valitse välilehti Binning ja valitse X Axis -kohdasta Custom ja valitse joko pylväiden määrä (Number of intervals) ja kirjoita sopiva pylväsmäärä ruutuun tai luokkavälin pituus (Interval width) ja kirjoita sopiva luokkavälin pituus ruutuun. Voit kokeilla muita muokkauksia. Sulje lopuksi kuvanmuokkausikkuna. 24. Kuvaillaan yksittäisen määrällisen muuttujan jakaumaa tilastollisten tunnuslukujen ja kuvioiden avulla: Tarkastele muuttujasta veroaste jakaumaa tilastollisten tunnuslukujen ja kuvioiden avulla (Analyze-Descriptive Statistics-Explore, valitse veroaste kohtaan Dependent List ja valitse Statistics-lisävalinnoista vielä Percentiles oletusvalinnan lisäksi.) Tutki tuloksista vinouden (=skewness) avulla, onko jakauma symmetrinen. Millä keskiluvulla kannattaa nyt kuvata jakauman keskikohtaa? Kuvaile vielä muuttuja-arvojen hajaantumista. TIETOISKUJA: 1) Jakaumaa voidaan pitää symmetrisenä silloin, kun vinous jaettuna keskivirheellään (=standard error for skewness) on itseisarvoltaan pienempi kuin 2. Jakauma on negatiivisesti vino eli vasemmalle loiveneva, jos vinous jaettuna keskivirheellään on pienempi kuin -2 Jakauma on positiivisesti vino eli oikealle loiveneva, jos vinous jaettuna keskivirheellään on suurempi kuin 2. 2) Jakaumaa voidaan pitää mesokurtisena (eli huipukkuudeltaan normaalijakauman kaltaisena silloin, kun huipukkuus (=kurtosis) jaettuna keskivirheellään (=standard error for kurtosis) on itseisarvoltaan pienempi kuin 2. Jakauma on leptokurtinen eli normaalijakaumaa huipukkaampi, jos huipukkuus jaettuna keskivirheellään on suurempi kuin 2 Jakauma on platykurtinen eli normaalijakaumaa laakeampi, jos huipukkuus jaettuna keskivirheellään on pienempi kuin -2.

2 3) Jos määrällisen muuttujan jakauma on symmetrinen, voidaan jakauman keskikohtaa kuvata esim. aritmeettisella keskiarvolla (=mean). Jos jakauma ei ole symmetrinen, kannattaa yksittäisenä keskilukuna käyttää mediaania (=median). Keskiluvun valintaan toki vaikuttaa sekin, mitä menetelmiä aikoo jatkossa käyttää muuttujaa analysoitaessa. 4) Määrällisen muuttujan arvojen absoluuttista hajaantumista kuvaa keskihajonta (=standard deviation), joka kertoo, kuinka kaukana havainnot ovat keskimäärin keskiarvosta. Hajaantumisen voimakkuutta kannattaa yrittää ymmärtää kvartiilien (=quartiles) avulla (esim. kvartiilivälin pituuden IQR (= yläkvartiili - alakvartiili) suhde vaihteluvälin pituuteen (Range)). 5) Usein määrällisen muuttujan raportoinnissa esitetään pienin arvo, suurin arvo, mediaani, keskiarvo ja keskihajonta. Alakvartiilin ja yläkvartiilin käyttö on jakauman kuvaamisessa jo melko yleistä. Vinoutta ja huipukkuutta raportoidaan lähinnä silloin, kun tiedetään, että näiden tunnuslukujen avulla jakauman muotoa yritetään hahmottaa jonkin tilastollisen päättelyn menetelmän käyttöä varten. 25. Muodostetaan laadullisen muuttujan eri ryhmille laatikko-viikset kuvio määrällisestä muuttujasta, jotta ryhmiä voidaan vertailla. Halutaan saada vastaus kysymykseen: Onko määrällisen muuttujan jakauma samanlainen eri ryhmissä? eli Onko muuttujien välillä riippuvuutta?. Muodosta laatikko-viikset-kuvio (Graphs - - Boxplot) muuttujista veroaste (pystyakselille tai Variable-ruutuun) ja laani (vaaka-akselille tai Category-ruutuun) siten, että voit vertailla veroprosentin jakaumaa eri lääneissä. Vertaile ja kuvaile sanallisesti läänien eroja/samanlaisuuksia veroprosentin suhteen. 26. Esitä muuttujan kuntamuoto jakauma sopivalla kuviolla. 27. Muodosta aineistoon naiset- ja asukkaat -muuttujien ja matemaattisen lausekkeen avulla muuttuja naistenlkm, joka kuvaa kunkin kunnan naisten lukumäärää. Pyöristä muuttuja-arvot kokonaisluvuksi. (HUOM! Pelkkä Decimals-määrittelyn muutoshan ei pyöristä muuttujaarvoja, vaan tarvitset RND-funktiota!) Talleta muutos aineistoosi. 28. Muodosta muuttujasta naistenlkm frekvenssihistogrammi ja tulkitse tulos. 29. Muodostetaan pisteparvikuvio kahdesta määrällisestä muuttujasta. Halutaan saada vastaus kysymykseen: Onko kahdella määrällisellä muuttujalla riippuvuutta? ja jos on, niin Minkä luonteista riippuvuus on? Muodosta pisteparvikuvio (Graphs Scatter/Dot Simple Scatter) muuttujista tulotaso (pystyakselille) ja koulutus (vaaka-akselille). Mitä voit havaita kuvion perusteella riippuvuuden luonteesta?

3 30. Lasketaan lineaarisen korrelaatiokertoimen arvo, koska pisteparvikuviosta havaittiin positiivinen lineaarinen riippuvuus. Halutaan saada vastaus kysymykseen: Kuinka voimakasta ja minkä suuntaista lineaarinen riippuvuus on? Määritä muuttujista tulotaso ja koulutus välinen lineaarinen (eli Pearsonin eli tulomomentti-) korrelaatiokerroin (Analyze-Correlate-Bivariate) ja tulkitse tulos. (Pearsonin korrelaatio sopii vain määrällisille muuttujille ja se mittaa lineaarisen riippuvuuden voimakkuutta eli sitä, kuinka pitkulainen on muuttujien välinen pisteparvi. Mitä lähempänä korrelaation on lukua -1 tai 1, sitä voimakkaampaa on muuttujien välinen lineaarinen riippuvuus. Korrelaatiokertoimen arvo 0 kuvaa lineaarista riippumattomuutta.) 31. Muodostetaan laadullisen muuttujan eri ryhmille pylväskuvio kuvaamaan määrällisestä muuttujasta laskettua tilastollista tunnuslukua, jotta ryhmiä voidaan vertailla. Muodosta sellainen pylväskuvio (Graphs - - Bar), josta näkee kunkin läänin kuntien kokonaispinta-alan. Valitse pintaala pystyakselille tai Other Statistic: variable-ruutuun ja vaihda Statistic-kohtaan tunnusluvuksi Sum ja valitse laani vaaka-akselille tai categoryruutuun. Kuvaile tulos sanallisesti. Sitten tarkastellaan aineistoa kyselya. Todetaan ensin, että pituus, paino, kengännumero, vaaksa ovat määrällisiä muuttujia (Measure: scale). Tarkista ennen seuraavia tehtäviä, että aineistosi on OK, eli esimerkiksi kengän numerot on esitetty yhdenmukaisesti. Nyt oletetaan, että tämän aineiston (ja myös kyselyb-aineistossa) opiskelijat ovat otos kaikista Vaasan yliopiston opiskelijoista. Kyseessä on siis otantatutkimus, joten tilastolliset merkitsevyystarkastelut ja testit voidaan ottaa käyttöön tarpeen tullen eli silloin, kun halutaan otoksen avulla tehdä päätelmiä populaation tilanteesta. Tällä harjoituskerralla teemme vielä aineiston kuvailua, mutta tilastollista päättelyä tullaan harrastamaan 4. ja 5. harjoituksissa. 32. Muodosta pituuden frekvenssihistogrammi niin, että kuviossa on mukana myös normaalijakaumakäyrä (Display/Show normal curve). Muodosta histogrammikuviot myös painosta, kengännumerosta ja vaaksasta. Muokkaa histogrammikuvioita tarvittaessa niin, että pylväitä on 8-9 kpl. Muodosta myös laatikko-viikset-kuvio jokaisesta em. muuttujasta. Määritä muuttujista myös seuraavat tilastolliset tunnusluvut: keskiarvo, mediaani, pienin arvo, suurin arvo, keskihajonta, alakvartiili, yläkvartiili, vinous ja huipukkuus sekä vinouden ja huipukkuuden keskivirheet. Täydennä seuraavat kohdat tutkimalla sekä kuvioita ja taulukoiden tunnuslukuja. Pituuden jakauma on symmetrinen/oikealle loiveneva/vasemmalle loiveneva. Jakauma on yksihuippuinen/monihuippuinen. Jos jakauma on yksihuippuinen: jakauma on laakeampi (eli platykurtinen)/huipukkaampi (eli leptokurtinen)/samalla tavalla huipukas (eli mesokurtinen) kuin normaalijakauma. Poikkeavia tilastoyksiköitä ei ole/on.

4 Painon jakauma on symmetrinen/oikealle loiveneva/vasemmalle loiveneva. Jakauma on yksihuippuinen/monihuippuinen. Jos jakauma on yksihuippuinen: jakauma on laakeampi/huipukkaampi/samalla tavalla huipukas kuin normaalijakauma. Poikkeavia tilastoyksiköitä ei ole/on. Kengännumeron jakauma on symmetrinen/oikealle loiveneva/vasemmalle loiveneva. Jakauma on yksihuippuinen/monihuippuinen. Jos jakauma on yksihuippuinen: jakauma on laakeampi/huipukkaampi/samalla tavalla huipukas kuin normaalijakauma. Poikkeavia tilastoyksiköitä ei ole/on. Vaaksan jakauma on symmetrinen/oikealle loiveneva/vasemmalle loiveneva. Jakauma on yksihuippuinen/monihuippuinen. Jos jakauma on yksihuippuinen: jakauma on laakeampi/huipukkaampi/samalla tavalla huipukas kuin normaalijakauma. Poikkeavia tilastoyksiköitä ei ole/on. 33. Muodosta pisteparvikuvio pituuden (vaaka-akselille) ja painon välille. Muuttujien välillä on/ei ole lineaarista riippuvuutta. Jos lineaarista riippuvuutta on, onko se positiivista vai negatiivista? Jos lineaarista riippuvuutta ei ole, niin onko muuttujien välillä minkäänlaista riippuvuutta? Näkyykö kuvassa poikkeavia tilastoyksiköitä? Määritä myös muuttujien välinen Pearsonin korrelaatio. 34. Lisätään pisteparvikuvioon regressiosuora, joka kuvastaa parhaiten kahden määrällisen muuttujan lineaarista riippuvuutta: Muokkaa edellä muodostamaasi pisteparvikuviota niin, että sijoitat kuvioon regressiosuoran. (Kuvanmuokkauksessa työkalu Add Fit Line at Total.). Kuvaile regressiosuoraa sanallisesti.

5 35. Muodosta uusi pisteparvikuvio pituuden ja painon välille, mutta erota kuviosta sopivalla tavalla miehet ja naiset (Chart Builder: Scatter/Dot: Grouped Scatter tai Legacy Dialogs: Scatter/Dot: Simple Scatter). Kun saat kuvan tulosikkunaan, muokkaa kuviota niin, että sijoitat kuvioon kummallekin ryhmälle oman regressiosuoran (kuvanmuokkauksessa Add Fit Line at Subgroups. ) Lisäksi muokkaa kuviota siten, että saat ryhmät erotettua erilaisten merkkien avulla (kuvanmuokkauksessa Properties-ikkunan Marker-välilehti). 36. Muodosta kaikista määrällisistä muuttujista (ei kuitenkaan vuosi) kahden muuttujan väliset pisteparvikuviot matriisikuviona. Onko muuttujien välillä lineaarista riippuvuutta? Jos lineaarista riippuvuutta on, onko se positiivista vai negatiivista? Jos lineaarista riippuvuutta ei ole, niin onko muuttujien välillä minkäänlaista riippuvuutta? Näkyykö kuvissa poikkeavia tilastoyksiköitä? Määritä myös muuttujien väliset Pearsonin korrelaatiokertoimet ja kuvaile tulokset: Korrelaatio Kuvailu pituus paino pituus kenka pituus - vaaksa paino kenka paino vaaksa kenka - vaaksa 37. Pituuden ja kotipaikan välistä pisteparvikuviota ei kannata tehdä. Miksi? Millä tavalla voit esittää pituuden ja kotipaikan yhteisjakauman? Kokeile kaikkia seuraavia vaihtoehtoja. Kokeilu 1: Jatkuvan muuttujan arvojen luokittelu uudeksi muuttujaksi: Muodosta aineistoon (joko Transform Recode Into Different Variables: käytä pituusarvojen esittämisessä sopivaa Range-valintaa tai Transform Visual Binning) uusi muuttuja: pituusluokka, johon luokittelet pituuden seuraavasti: pituus pituusluokka korkeintaan tai yli 5

6 Tehdään pylväsryhmäkuvio, kun halutaan saada vastaus kysymykseen: Onko kahdella laadullisella tai luokitellulla muuttujalla riippuvuutta? ja jos on, Minkä luonteista riippuvuus on? Muodosta myös uuden muuttujan arvoihin selitykset. Talleta muutokset aineistoon kyselya. Muodosta pylväsryhmäkuvio (Graphs Bar Clustered), missä esität pituusluokkien frekvenssit eri kotipaikkaryhmissä. (Tämä kuvio sopii havainnollistamaan ristiintaulukointia ja voit selvittää, onko pituuden frekvenssijakauma erilainen eri kotipaikoilla.) Kokeilu 2: Tehdään määrällisestä muuttujasta luottamusvälikuvio eri ryhmille, kun halutaan saada vastaus kysymykseen: Onko määrällisen muuttujan keskiarvot samanlaiset eri ryhmillä? Muodosta luottamusvälikuvio (Graphs (Error) Bar Simple), jolla esität alkuperäisen pituus-muuttujan keskiarvon ja keskiarvon luottamusvälin kotipaikkaryhmittäin. (Tällä kuvallahan hahmottuu hyvin varianssianalyysin tilanne, jolla vertaillaan ryhmien keskiarvoja.) Kuvaile sanallisesti tuloksiasi. Kokeilu 3: Muodosta laatikko-viikset-kuvio pituudesta jokaiselle kotipaikkaryhmälle. (Tällä kuvalla taas voidaan havainnollistaa yksisuuntaisen varianssianalyysin epäparametrista versiota, ns. Kruskal-Wallis -testiä.) Kuvaile sanallisesti tuloksiasi. Lopuksi siirrytään aineistoon kyselyb. Nyt muuttujat ovat pääasiassa laadullisia siten, että mielipide- ja asennemuuttujat ovat järjestysasteikollista mittaustasoa. 38. Esitä koulutus-muuttujan prosentuaalinen frekvenssijakauma piirakkakuviona (Graphs Pie). Muokkaa kuviota niin, että lisäät kuvioon sektoreiden kokoa osoittavat prosenttiluvut Show Data Labels työkalulla. Nyt siis kuvailet koulutus-muuttujan jakaumaa. 39. Tehdään osajoukon valinta ja muutakin: Valitse osajoukoksi ne opiskelijat, jotka olivat kurssilla vuonna 1985 tai vuonna 1993 tai vuonna 2009 (Data Select cases ja käytä IF-ehtoa). Muodosta pylväs(ryhmä)kuvio(i)ta, joiden avulla voit vertailla vuosien 1985, 1993 ja 2009 opiskelijoiden eroja mielipidekysymyksissä. Nyt siis tutkit, riippuuko mielipide vuodesta eli ovatko eri vuosien mielipidejakaumat olleet erilaisia ( on riippuvuutta ) vai samankaltaisia ( ei ole riippuvuutta ). 40. Tehdään ryhmiinjako ja muutakin: Jaa aineisto ryhmiin (Data - Split File) kyselyvuoden perusteella. Muodosta jokaiselle kuudelle kyselyvuodelle oma kuvio siten, että voit vertailla miehiä ja naisia feministiliike-muuttujan suhteen. Nyt siis tutkit, NIIN MITÄ?