MONISTE 2 Kirjoittanut Elina Katainen TILASTOLLISTEN MUUTTUJIEN TYYPIT 1 Mitta-asteikot Tilastolliset muuttujat voidaan jakaa kahteen päätyyppiin: kategorisiin ja numeerisiin muuttujiin. Tämän lisäksi muuttujat voidaan tyypitellä sen perusteella, kuinka kehittyneellä mitta-asteikolla muuttujien arvot on mitattu. Muuttujan mitta-asteikolla on ratkaiseva merkitys siihen, millaisia tilastollisia menetelmiä voidaan kyseisestä muuttujasta tehtyihin havaintoihin soveltaa. Mitta-asteikosta riippuu, millaisilla matemaattisilla laskutoimituksilla on mielekäs tulkinta, kun ajatellaan alkuperäistä tilastoyksiköiden kuvaamaa ominaisuutta. Seuraava kaavio kuvaa muuttujien luokittelua: Kategoriset muuttujat jakavat tilastoyksiköt toisensa poissulkeviin luokkiin. Ne kuvaavat yksiköiden laadullisia ominaisuuksia. Tällaisia muuttujia ovat esim. ihmisten siviilisääty, ammatti, sosiaalinen asema, suhtautuminen tiettyyn väitteeseen tai kaupungin sijaintilääni, kalleuspaikka, elinkeinorakenne, jne. Kategoristen muuttujien arvot ovat joitakin luokkia. Jos ei voida löytää mitään empiirisesti mielekästä sääntöä, jolla kategorisen muuttujan arvot voidaan laittaa järjestykseen (esim. paremmuus-, suuruus-, kauneus-, kovuusjärjestykseen), muuttuja on laatuero- eli nominaaliasteikollinen. Jos taas tällainen sääntö on olemassa ja se on empiirisesti mielekäs, muuttuja on järjestys- eli ordinaaliasteikollinen. Esim. kyselyssä voi olla vaihtoehtoina täysin samaa mieltä, jokseenkin samaa mieltä, jokseenkin eri mieltä ja täysin eri mieltä. Näissä voidaan ajatella olevat järjestys sen mukaan, kuinka voimakkaasti henkilö on samaa mieltä väitteestä. Kategoriset muuttujat on tapana koodata numeroin, etenkin jos aineistoa käsitellään tietokoneella. Näillä koodinumeroilla ei kuitenkaan ole lukujen tulkintaa siinä mielessä, että edes peruslaskutoimitukset niillä eivät olisi mielekkäitä (poikkeuksena ovat kaksi-arvoiset eli dikotomiset muuttujat). Tämä on kategoristen ja numeeristen muuttujien keskeisin ero. Tilastolliset ohjelmat eivät kuitenkaan erota numeroita ja numeroita, joten niillä voi kyllä laskea erilaisia tunnuslukuja kategorisistakin muuttujista. Se ei kuitenkaan oikeuta luvattomien tunnuslukujen käyttämiseen tai esittämiseen.
Numeeriset muuttujat ovat sellaisia, että niiden arvot ovat jo havaintoja tehtäessä luonnostaan reaalilukuja. Numeerisen muuttujan arvo on joko lukumäärä tai mittauksen tulos. Jos muuttujan arvo nolla vastaa tarkasteltavan ominaisuuden absoluuttista nollapistettä eli tilannetta, jossa ominaisuus häviää, muuttuja on suhdeasteikollinen. Jos arvolla nolla tätä tulkintaa ei ole, muuttuja on välimatka- eli intervalliasteikollinen. Esim. paino kilogrammoina on tyypillinen suhdeasteikollinen muuttuja. Kun paino on 0 kg, ominaisuus häviää. Jos toinen esine painaa 10 kg ja toinen 20 kg, painojen suhde on 20/10=2. Tällä suhteella on nyt empiirisesti mielekäs tulkinta. Tällaista tulkintaa ei ole intervalliasteikollisella muuttujalla. Lämpötila Celsius-asteina on yksi esimerkki välimatka-asteikollisesta muuttujasta. Kun lämpötila on 0 astetta, ei ominaisuus häviä. Jos toisen esineen lämpötila on 10 astetta ja toisen 20 astetta, ei niiden lämpötilojen suhteella ole sellaista mielekästä tulkintaa, että toinen esine olisi kaksi kertaa niin lämmin kuin toinen. Välimatka-asteikolla ja suhdeasteikolla on sellainen yhteinen piirre, että mittayksikkö ei ole kiinnitetty. Jos numeerisen muuttujan arvolla nolla on suhdeasteikollisen muuttujan nolla-arvon tulkinta ja lisäksi mittaus voi tapahtua vain tiettyä mittaasteikkoa käyttäen, muuttujan asteikko on absoluuttinen. Tavallisin absoluuttisella asteikolla mitattava muuttuja on lukumäärä. Ajatus muuttujan mitta-asteikosta on usein käytännössä tulkintakysymys. Mittaasteikon valista on kuitenkin tärkeää, koska se on yhteys empiirisen reaalimaailman ja matemaattisen manipuloinnin välillä. Mitta-asteikko määrää millaisilla matemaattisilla toimenpiteillä on järkevä perustelu ja tulkinta. Tekijä, vaste Tilastolliset muuttujat voidaan jakaa myös sen perusteella, millainen asema muuttujalla on havaintosuunnitelmassa eli miten muuttujan arvot tilastoyksiköillä ja arvojen jakauma koko aineistoa kerättäessä määräytyy. Koska tilastollisessa tarkastelussa mielenkiinnon kohteena ovat usein jakaumat, tämä jako on tulkinnallisesti tärkeä. Tämä jako on täysin riippumaton mitta-asteikon mukaan tapahtuvasta jaottelusta. Seuraava kaavio kuvaa tätä jaottelua:
Tekijät (factors, controlled variables) ovat muuttujia, joiden arvoihin aineistossa ei sisälly satunnaisuutta, jota taas sisältyy vasteiksi (responses, random variables) luokiteltaviin muuttujiin. Tekijän arvot ovat tutkijan kiinnittämiä ja arvojen jakauma on tutkijan tiedossa jo ennen varsinaista havaintojen tekoa. Arvojoukko ja jakaumamääräytyvät havaintosuunnitelman perusteella. Käsittelytekijän (treatment factor) ja lohkotekijän (block factor) ero on siinä, määrääkö tutkija kunkin yksittäisen tilastoyksikön kohdalla muuttujan arvon vai ei. Vasteet ovat muuttujia, joiden arvoista ja jakaumasta tutkijalla ei ole tietoa, ennen kuin hän on ne havaintoja tehdessään kirjannut. Koska erilaiset tilastolliset kysymykset liittyvät aina jakaumiin, ne koskevat aina joitakin vasteiden jakaumia eivätkä koskaan tekijöiden jakaumia. KUVAILEVA TILASTOTIEDE Tässä osassa tarkastellaan lähemmin kuvailevan eli deskriptiivisen tilastotieteen menetelmiä. Näiden menetelmien olennainen yhteinen piirre on, että niiden avulla luonnehditaan tarkasteltavana olevan havaintoaineiston piirteitä. Menetelmiä voidaan käyttää millaisiin aineistoihin hyvänsä, koska tarkoituksena ei ole suorittaa muodollista aineiston ulkopuolelle tapahtuvaa päättelyä. Koska tämän osan kysymyksenasettelut toistuvat tietyssä mielessä tilastollisen päättelyn menetelmien esittelyn yhteydessä otosaineistojen tilanteessa, voidaan jo tässä vaiheessa ajatella aineistojen olevan otoksia, mitä ne useimmiten käytännössä ovat. 1 Frekvenssijakauma ja sen graafiset havainnollistukset Jakauman käsite on keskeinen puhuttaessa tilastollisista menetelmistä ja niiden soveltamisesta. Tilastolliset menetelmät ylipäätään kohdistuvat joidenkin jakaumien erilaisten piirteiden tarkastelemiseen. Tarkasteluissa tärkeä asema on frekvenssijakauman (frequency distribution) käsitteellä. Frekvenssijakauman käsitteellä tarkoitetaan muuttujan erisuurien arvojen esiintymisten lukumääriä (frekvenssejä) tarkasteltavana olevassa tilastoyksiköiden joukossa. Tilastollisen muuttujan frekvenssijakauma esitetään taulukkona, jossa on muuttujan erisuuret arvot ja niihin liittyvät frekvenssit. Kategoriset muuttujat Esimerkki 1 Taulukossa on esitetty maanosien frekvenssijakauma eli kuinka monta aineistossa olevaa maata kuuluu kuhunkin maanosaan. Tässä aineistossa tilastoyksikkö on siis yksi maa.
Laatueroasteikollisen muuttujan tapauksessa luokkien esitysjärjestyksellä taulukossa ei ole merkitystä, mutta järjestysasteikollisen muuttujan luokat on syytä kirjoittaa asiaan kuuluvaan järjestykseen. Usein on hyvä esittää taulukossa myös suhteelliset frekvenssit f i /n (suhteellinen frekvenssijakauma) ja/tai prosentuaaliset frekvenssit 100f i /n (prosentuaalinen frekvenssijakauma).jompaa kumpaa näistä on tarpeen käyttää erityisesti silloin, kun vertaillaan kahteen tai useampaan eri havaintoaineistoon perustuvia saman muuttujan jakaumia, ja eri havaintoaineistoissa havaintojen lukumäärät ovat erisuuret. Esimerkki 2 Taulukoissa on esitetty ammattiryhmien frekvenssit, suhteelliset frekvenssit ja prosentuaaliset frekvenssit miehille ja naisille eli kuinka monta miestä tai naista tässä aineistossa kuuluu kuhunkin ammattiryhmään. Tässä aineistossa tilastoyksikkö on siis yksi henkilö. Kategoristen muuttujien frekvenssijakauma voidaan esittää graafisesti hyvin monella eri tavalla. Tässä tarkastellaan vain muutamaa tavallisinta tapaa., jotka ovat yksinkertaisia ja selkeitä. Kun jatkossa puhutaan frekvenssijakauman graafisesta esittämisestä, sen voidaan yhtä hyvin ymmärtää tilanteesta riippuen suhteellisen tai prosentuaalisen frekvenssijakauman esittämistä. Tämä tarkoittaa piirrosta laadittaessa vain esityksen skaalausta. Tavallisimmin kategorisen muuttujan frekvenssijakaumaa havainnollistetaan pylväsdiagrammilla. Siinä tarkasteltavan muuttujan jokaisen luokan frekvenssiä vastaa pylväs, joka on piirretty joko pysty- tai vaakasuoraan. Pylvään korkeus tai pituus kuvaa luokan frekvenssiä. Pylväiden tulee olla yhtä leveitä, koska visuaalinen vaikutelma syntyy pylväiden pinta-alojen välityksellä. Koska halutaan korostaa muuttujan kategorisuutta, pylväät on hyvä piirtää irti toisistaan (hyvä sääntö on, että pylväiden väli on puolet pylvään leveydestä). Kuvion luettavuutta voidaan parantaa esittämällä pylväiden päällä tai vieressä vastaavat frekvenssit tai esittämällä kuvio koordinaatistossa, etenkin jos pylväitä on paljon tai ne ovat hyvin saman pituisia. Aineistoja vertaillessa pylväikköjä voidaan piirtää rinnakkain tai "seläkkäin" ja käyttää värejä tai varjostusta aineistojen erottamiseksi.
Esimerkki 3 Alla olevissa kuvioissa on piirretty kahdella eri tavalla esimerkin 2 prosentuaaliset frekvenssijakaumat pylväsdiagrammilla. Useampia aineistoja vertailtaessa on piirrettävä yksi pylväs vastaamaan kutakin aineistoa. Pylväiden tulee olla yhtä leveitä ja jos aineistot ovat eri kokoisia, on käytettävä suhteellisia tai prosentuaalisia frekvenssejä. Samaa periaatetta voidaan soveltaa myös muihin kuvioihin kuin pylväisiin. Erittäin yleinen ja havainnollinen on ns. piirakkakuvio (ympyrädiagrammi, sektoridiagrammi), jossa frekvenssit on esitetty ympyrän sektoreina ja sektorien pintaalat suhtautuvat toisiinsa kuten esitettävänä olevat frekvenssit. Aineistojen vertailussa on käytettävä samansäteisiä ympyröitä ja suhteellisia tai prosentuaalisia frekvenssejä Piirakkakuviota ei suositella käytettäväksi mikäli luokkia on enemmän kuin kuusi.
Esimerkki 4 Alla olevissa kuvioissa on esimerkin 2 prosentuaaliset frekvenssijakaumat esitettynä ositettujen pylväiden ja piirakkakuvioiden avulla. (Korjaus 23.5.14/RL)