MAB5: Tilastotieteen lähtökohdat 2.4 Muuttujien luokittelemisesta Eräs tapa luokitella muuttujat on seuraava jako kahteen muuttujatyyppiin: kvantitatiivinen muuttuja eli muuttuja, jonka arvo esitetään reaaliluvun avulla. Esimerkkinä kuukausipalkka. Sana kvantitatiivinen viittaa määrään tai määrää esittävään. kvalitatiivinen muuttuja eli muuttuja, jonka arvo on jokin koodiarvo tai jotain, mikä ei edes näytä luvulta. Tällaisia muuttujia ovat esimerkiksi puhelinnumero ja väri. Sana kvalitatiivinen viittaa laatuun tai laadullisuuteen. Toinen tapa luokitella muuttujat on käyttää perusteena mitta-asteikkoa. Tämä luokittelu ratkaisee muun muassa sen, mitkä tunnusluvut tiedoista on järkevää laskea ja joskus mitkä niistä ylipäätään voidaan laskea. Ehkä vähän yllättäen aina ei ole itsestään selvää, mihin mitta-asteikkoon muuttuja kuuluu! On tilanteita, missä esimerkiksi syntymäajalta ei tarvitse vaatia enempää kuin kvalitatiivisia ominaisuuksia. Kuitenkin syntymäaika on lähtökohtaisesti vähintään välimatka-asteikon muuttuja. Välimatka-asteikon muuttujan esittelen seuraavassa. Huomaa seuraavan luettelon ominaisuus: asteikot ovat mielekkäitten laskuoperaatioiden lukumäärän mukaisessa kasvavassa järjestyksessä. Toisin sanoen luettelossa ensimmäisenä olevaan asteikkoon kuuluvilla muuttujien arvoilla laatuero- eli nominaaliasteikkoon kuuluvilla ei voida laskea oikeastaan mitään muuta kuin lukumääriä eli frekvenssejä sekä jonkin asteikon alkioitten suhteellisia osuuksia lukumäärän perusteella verrattuna muitten muuttujien osuuksiin. Laatuero- eli nominaaliasteikko Laatuerojen perusteella muuttujat voidaan jakaa luokkiin eli erottaa toisistaan niin, että kukin muuttujan arvo kuuluu tarkalleen yhteen joukkoon eli luokkaan. Esimerkkeinä muuttujan sukupuoli arvo on joko mies tai nainen ja henkilö kuuluu siis vastaavasti tarkalleen toiseen näistä kahdesta luokasta. Vastaavasti muuttujan ammatti perusteella ihmiset jakautuvat eri luokkiin: laitoksen työntekijät kuuluvat esimerkiksi luokkiin suunnittelijat, pääsuunnittelijat, testaajat, myyntiedustajat ja niin edelleen. Laatuero- eli nominaaliasteikon muuttujat voidaan siis luokitella, mutta niitä ei voi järjestää suuruusjärjestykseen. Järjestys- eli ordinaaliasteikko Kaikki laatueroasteikon operaatiot ovat sallittuja. Niitten lisäksi järjestys- eli ordinaaliasteikon muuttujan arvot voidaan asettaa yksikäsitteiseen järjestykseen kuten suuruusjärjestykseen, paremmuusjärjestykseen, aakkosjärjestykseen ja niin edelleen. Muuttujan arvojen käyttäminen laskutoimitusten argumentteina ei ole mielekästä. Esimerkkeinä muuttujan Olen ahkera lukija arvot Olen täysin samaa mieltä, Olen suunnilleen samaa mieltä, En osaa sanoa, Olen jonkin verran eri mieltä ja Olen täysin eri mieltä voidaan laittaa toivottuusjärjestykseen, mutta esimerkiksi erotuksen laskeminen niitten välillä ei ole mielekästä.
Välimatka- eli intervalliasteikko Kaikki järjestysasteikon operaatiot ovat sallittuja. Niitten lisäksi peruslaskutoimituksista yhteen- ja vähennyslasku ovat mielekkäitä. Toisaalta arvojen suhde tai keskenään kertominen eivät ole mielekkäitä operaatioita. Nollakohta on myös mahdollista sopia. Tällaisia muuttujia ovat aika, lämpötila ja kalenteri. Suhdelukuasteikko Kaikki välimatka-asteikon operaatiot ovat sallittuja. Niitten lisäksi muuttujien suhde on mielekäs käsite. Nollakohtaa ei voida sopia, vaan se on mukana määritelmän mukaan. Huomaa, että sijainti suhteessa johonkin vertailutasoon onkin vain välimatka-asteikon muuttuja. Ajatellaan vaikka sellaista tilannetta, että Albert ja Isaac ovat porealtaassa. Albertin päälaki yltää 35 sentin ja Isaacin päälaki 18 sentin korkeudelle veden pinnan yläpuolelle. Voidaanko tästä vetää sellainen johtopäätös, että Albert on lähes kaksi kertaa niin pitkä kuin Isaac? No, ei varmaankaan. Tosin paatunut propagandisti saattaa kyllä vetää sellaisenkin johtopäätöksen... Lue tilastoja tarkoin ja taidolla! Koska jokainen asteikko täyttää omansa lisäksi myös edellisen asteikon ehdot, niin mitta-asteikoille saadaan relaatio: { laatueroasteikon muuttujat} { järjestysasteikon muuttujat} { välimatka - asteikon muuttujat} { suhdelukasteikon muuttujat} Huomaa tässä aito sisältyminen! Tämä sisältyminen on sama asia kuin se, että jokainen laatueroasteikon muuttuja on myös järjestysasteikon muuttuja ja että jokainen järjestysasteikon muuttuja on myös välimatka-asteikon muuttuja ja niin edelleen suhdelukuasteikon muuttujaan saakka, mutta ei toisinpäin. Välimatka-asteikon muuttujat ja suhdelukuasteikon muuttujat voidaan luokitella myös sen mukaan, onko muuttuja jatkuva vai ei. Vaikka lämpötilalla on absoluuttinen nollapiste, lämpötila voi saada käytännössä mitä tahansa arvoja tämän nollapisteen yläpuolella. Tällaista muuttujaa sanotaan jatkuvaksi muuttujaksi. Oppilaitosten kurssinarvosanat ovat usein numeroita, jotka voivat saada vain kokonaislukuarvoja. Tällainen muuttuja on epäjatkuva eli diskreetti muuttuja. Se, että esimerkiksi arvosanat annetaan kokonaislukuina, ei tietenkään estä tavallisen keskiarvon tai muittenkaan tilastollisten tunnuslukujen laskemista. Vaikka nämä tunnusluvut eivät yleensä ole kokonaislukuja, se ei haittaa. Ne ovat silti keskenään vertailukelpoiset. Esimerkki 1 Suunnitellaan tilastollista tutkimusta suomalaisista moottoripyöräilijöistä. Tutkimuksemme perusjoukko eli populaatio on siis ensi katsomalta kaikki suomalaiset moottoripyörän omistajat. Kerätään haluttu tieto lähettämällä kyselylomake rekisteröidyn moottoripyörän omistajille sekä moottoripyöräkerhojen jäsenille edellyttäen, että saamme osoitetiedot käyttöömme. Tietojenkeruumenetelmämme on siis kysely.
Jos lähettäisimme lomakkeen vain niille, jotka rekisteritietojen mukaan omistavat moottoripyörän, tutkimuksen ulkopuolelle jäisivät sellaiset motoristit, jotka ajavat joko lainatulla tai vuokratulla pyörällä. Mistä tiedämme, kuinka suurta osaa he edustavat kaikista moottoripyöräilijöistä? Vaikka otamme mukaan myös moottoripyöräkerhojen jäsenet, emme silti tiedä, kuinka lähelle sadan prosentin peittoa pääsemme. Koko populaation saaminen mukaan kyselyyn ei ole mahdollista senkään vuoksi, että tämä joukko muuttuu koko ajan. Populaatiomme on siis kangastus, joka katoaa jonnekin, kun hamuat otetta siitä, ja kokonaisaineistosta emme voi edes haaveilla! Pitäisikö sitten? Voimmeko olettaa, että saamme haltuumme niin suuren osan koko perusjoukosta, että ei haittaa, vaikka katsomme, että saaliinamme oleva lopullinen havaintoaineistomme on koko populaatio? Tämän ajatuksen oikeutusta heikentää kaiken muun lisäksi vielä sekin, että läheskään jokainen kyselyn saaja ei palauta kyselyä ollenkaan ja osa palauttaa sen vajaasti tai jopa väärin täytettynä. Käytännössä joudumme laskemaan eräät tunnusluvut niin, että otamme huomioon, että meillä on vain otos. Muuten vaateisimme tuloksillemme oikeutusta, joka ei niille kuulu. Ja oikeastaan meillä on vain näyte Tilanne siis pakottaa meidät tyytymään otokseen. Mitä lopulta joudumme olettamaan on, että saamamme vastaukset edustavat kaikkien Suomen motoristien mielipiteitä sellaisella tarkkuudella, että ne ovat käyttökelpoiset. Muuten koko työssä ei ole mieltä. Havaintoyksikkömme on nyt moottoripyöräilijä. Mitä kysymme eli mitkä ovat tilastolliset muuttujamme? Ennen kuin voimme vastata tähän, meidän on päätettävä, mitä haluamme tutkimuksellamme selvittää. Jos olemme saaneet edellä kuvatut osoitetiedot, tiedämme moottoripyöräilijöiden lukumäärän melko tarkkaan ainakin, jos olemme karsineet listoiltamme mahdolliset päällekkäisyydet: joku tai jotkut voivat esiintyä listoillamme kahteen tai ehkä useampaankin kertaan. Tarkastellaan väitettä ikäryhmässä 30 -vuotiaista 65 vuotiaisiin on moottoripyöräilijän käytössä olevan moottoripyörän kuutiotilavuus sitä suurempi mitä vanhempi moottoripyöräilijä on. Jos haluamme selvittää, onko tämä väite tosi, tarvitsemme tiedon ainakin vastaajan iästä ja hänen pyöränsä kuutiotilavuudesta. Kysymme siis Mikä on ikäsi kokonaisina vuosina ja Minkä kokoisella moottoripyörällä ajat? Kerro moottorin koko kuutiosenteissä. Tilastolliset muuttujamme ovat siis Ikä ja Kuutiotilavuus. Molemmat ovat suhdelukuasteikon muuttujia. Miksi kysymme Minkä kokoisella moottoripyörällä ajat? Kerro moottorin koko kuutiosenteissä? Miksei yksinkertaisesti Minkä kokoinen pyöräsi on? Siksi, että kysymysten täytyy olla sellaisia, että me tiedämme varmasti, mihin vastaaja vastaa. Tässä tapauksessa emme halua tietää, millaisen pyörän vastaaja omistaa, vaan millaisella hän ajaa. Toisaalta muotoilemme kysymyksen yllä olevan kaltaiseksi myös, jotta vastauksen yksikkö olisi vertailukelpoinen muitten vastausten kanssa ilman yksikönmuunnoksia. Olisi rankkaa käydä joka ikinen vastaus läpi ja muuntaa mahdolliset litrat tai kuutiotuumat kuutiosenteiksi. Yksikön ongelma olisi pyörän koon tapauksessa kierrettävissä antamalla vastaajalle joukko kokoluokkia, joista valita. Esimerkki 2 Moottoripyöräilijöitä kuvaavan tutkimuksemme alku osoittautui lupaavaksi. Vastauksia saimme mukavasti ja niitten laatukin oli ihan hyvä. Ainoastaan eräs tunnettu tähtitieteilijä ilmoitti pyöränsä 53 moottorin koon kuutioparsekeissa ( 3, 2335 10 pc 3 ). Tästä innostuneina päätämme jatkaa asiassa eteenpäin ja kysellä lisää. Eri asia on, vastaavatko moottoripyöräilijät vielä yhtä ahkerasti. Haluamme tietää vielä, miten autoilijat suhtautuvat moottoripyörään liikenteessä, elääkö moottoripyöräilijä tyypillisesti avioliitossa tai avioliiton kaltaisessa suhteessa vai yksin ja vielä senkin, millaisissa lämpötiloissa hän suostuu ajamaan. Vastaus kysymykseen Elätkö avioliitossa
tai avioliiton kaltaisessa suhteessa eli tilastomuuttujan On aviossa arvo on joko kyllä tai ei. Se on siis laatueroluokan muuttuja. Toinen laatueroluokan muuttuja voisi olla vaikkapa pyörän tyyppi: katu, kevyt, matka, enduro, super, custom, chopper Autoilijoitten suhtautumista moottoripyöriin voimme kysyä pyytämällä vastaajaa valitsemaan eri vaihtoehdoista. Esimerkiksi Valitse vaihtoehto, joka lähinnä vastaa kokemuksiasi. Merkitse rasti asianomaiseen ruutuun: Autoilijat suhtautuvat moottoripyörään liikenteessä kurjasti. Täysin samaa mieltä Samaa mieltä varauksin En ole huomannut mitään erityistä Jonkin verran eri mieltä Täysin eri mieltä Täten Autoilijat suhtautuvat moottoripyörään kurjasti on järjestysasteikon muuttuja. Sellaisten vastausvaihtoehtojen tarjoaminen, jotka kaikki ymmärtävät samalla tavalla, voi olla vaikeaa. Muuttuja Kuinka kylmässä ajat on välimatka-asteikon muuttuja.
Harjoituksia Ulkolämpömittari näytti eilen 10 C ja tänään 20 C. Onko tänään kaksi kertaa niin kylmä kuin eilen? Miksi tai miksi ei? Minkä luokkien muuttujia ovat paino, kengännumero, kuukausipalkka, polkupyörän väri ja kaupan myyjän ammattitaito? Määrittele seuraaville arvosanoille järjestys eli tee niistä välimatka-asteikon muuttujia. Kaikki aakkoset Kirjaimet L, E, M, C, B, A ja i. Millaisia asioita kysyisit asiakastyytyväisyyskyselyssä? Esitä kolme tai neljä mahdollisuutta. Mieti, miten muotoilet kysymyksesi. Minkä luokkien muuttujia ne ovat? Juniorikerho kokoontuu. Tarkoituksesi on selvittää kerhosta seuraavat seikat: jäsenen ikä, sukupuoli, suosikkibändi, lempiväri, kuukausirahan suuruus, jäsenen kerhossa käymisen aktiivisuus, mielipide jäsenmaksun suuruudesta, kunkin jäsenen sitoutuminen kerhon arvoihin, jäsenen käytännön henkilökohtainen asenne ilmastonlämpenemiseen eli mitä itse teet sekä vielä kerhon jäsenmäärä. Kuinka kattavaan tietoon voit korkeintaan pyrkiä? Minkä otantamenetelmän valitset? Miten keräät tiedot? Mitkä kysymykset ainakin esität? Miten keräisit tiedot seuraavia tutkimuksia varten? Oman työpaikkasi henkilökunnan palkat. Jos et ole palkkatyössä, kuvittele jokin työpaikka. Jonkin sinulle ennestään tuntemattoman yrityksen tai laitoksen henkilökunnan palkat. Viikon jokaisen keskipäivän keskilämpötila vuoden ajalta. Ovatko naulatehtaan kahden tuuman naulat todella keskimäärin kaksi tuumaa pitkät? Varmaa on, että joka ikinen naula ei ole tasan kaksi tuumaa pitkä. Tarvitset satunnaisen, tuhannen puhelinnumeron haltijan otoksen sähköisestä puhelinluettelosta. Kumpi kahdesta limonadista on jossakin valitsemassasi yhdessä ostoskeskuksessa kävijöiden mielestä raikkaamman makuinen. Onko tämä sama kysymys kuin kummasta hän tykkää enemmän?