Ohje tutkimustiedon tulkintaan Tilastotyöryhmä 27.3.2003 Sisällysluettelo 1 Johdanto 1 2 Tutkimustiedon tulkinta 1 3 Tutkimuksen tuoteseloste 3 4 Keskeisiä tilastokäsitteitä 4
1. JOHDANTO 2. TUTKIMUSTIEDON TULKINTA FiComin aloitteesta muodostettiin syksyllä 2000 ICT-alaa koskevan tilastollisen tutkimustiedon tuottajista ja käyttäjistä koostuva ns. tilastotyöryhmä, jonka tehtävänä on parantaa alaa koskevan tiedon saatavuutta ja laatua. Ryhmässä on mukana järjestöjen, virastojen ja muutamien yritysten edustajia. Liitteessä 1 on lueteltu tilastoryhmässä mukana olleet. Työryhmä on todennut, että rekisteri- ja otospohjaista tilastollista tietoa on melko runsaasti saatavilla, mutta sen hyödyntämistä häiritsee yhteisen viitekehyksen puute ja metodinen kirjavuus. Työryhmä on laatinut käsillä olevan ohjeen, jonka tavoitteena on helpottaa tutkimusten vertailtavuutta ja tulkintaa. Ohje toimii lyhyenä, helposti luettavana muistilistana asioista, joihin tutkimustietoa tuotettaessa ja hyödynnettäessä on syytä kiinnittää huomiota. Ohje sisältää: käytännöllisiä ohjeita tilastollisen tutkimustiedon tulkitsijalle mallin tutkimusraporttiin liitettäväksi tuoteselosteeksi keskeisten tilastoteknisten käsitteiden kuvauksia. Tutkimustiedosta syntyy käyttäjälle arvoa yleistettävyyden kautta. Esimerkiksi otoksen keskiarvo on kiinnostava ainoastaan, jos voidaan perustellusti olettaa, että se on lähellä tutkimuksen koko kohdejoukon (perusjoukon) keskiarvoa. Tiedon käyttäjältä puuttuu usein aikaa tai asiantuntemusta esittää ja pohtia kriittisiä kysymyksiä. Silloin tulkinta jää pinnalliseksi ja nojautuu ilmeisimpään: esimerkiksi vierekkäin asetettujen, kahden peräkkäisen vuoden tunnuslukujen tulkitaan automaattisesti kuvaavan todellista muutosta ajassa kysymättä, ovatko luvut yleensä vertailukelpoisia. Vertailukelpoisuuden välttämättömiä (mutta ei riittäviä) edellytyksiä ovat, että luvut perustuvat joko täydelliseen rekisteriaineistoon tai eri vuosina samalla tavoin määritellystä perusjoukosta poimittuihin, riittävän suuriin satunnaisotoksiin. Seuraavassa pyritään antamaan joitain vinkkejä tukemaan tilastollisen tutkimuksen tulkintaa. Onko kysymyksessä kattavaan rekisteritietoon perustuva tulos vai otostutkimus. Jälkimmäisessä tapauksessa kriittisiä kysymyksiä ovat otoskoon riittävyys (esim. 10 vastaajaa ei riitä edustamaan koko aikuisväestöä) ja vastanneiden määrä. Luotettavaan päättelyyn vaadittava vastanneiden määrä riippuu mm. perusjoukon ja otoksen koosta sekä siitä, kuinka yksityiskohtaisella tasolla eriteltyjä tietoja halutaan. Vielä noin 40 50 % vastanneiden osuutta voidaan usein pitää riittävänä, etenkin suurehkojen perusjoukkojen ja otoksien kohdalla, esimerkiksi jos on poimittu 5000 henkilön satunnaisotos 100 000 henkilön joukosta. On kuitenkin syytä pohtia voiko vastaamatta jättäminen olla jollain tavalla systemaattista siten, että esimerkiksi tietyiltä alueilta tai tietyistä ikäryhmistä saadaan suhteellisesti vä- 1
hemmän vastauksia. Jos vastauskato on tuntuva, on aiheellista testata valikoitumista vertailemalla vastanneiden tietoja siihen, mitä on tiedossa koko otoksesta. Tulosten yleistettävyys, ts. mihin kohdejoukkoon (kuten yritykset, työntekijät, kotitaloudet, 15 74 vuotiaat, koko väestö, internetin käyttäjät) ja kuinka luotettavasti tulokset ovat yleistettävissä. Mittaako tutkimuksessa käytetty mittari todella sitä mitä sen oletetaan mittaavan? Onko keskiarvo riittävä tunnusluku vai piilottaako se vain sen, että on erilaisia erityisryhmiä (esimerkiksi keskiarvo mediaani pari paljastaa vinon jakauman). Mikä muu kuin ilmeinen tekijä voisi selittää havaitun eron tai muun ilmiön? Jos kysely on suunnattu yrityksille: Miten vastaaja on valittu yrityksen sisältä? Erityisesti suurissa yrityksissä saattaa olla välttämätöntä kerätä tietoa eri tulosyksiköiden edustajilta. Miten vastausprosentti on laskettu? Vastanneiden yrityksien lukumäärä suhteessa koko otoksen yrityksien lukumäärään saattaa olla riittämätön, jopa harhaanjohtava tieto. Tutkittavasta asiasta riippuen paremman kuvan antaa esimerkiksi vastanneiden yritysten yhteenlasketun liikevaihdon tai henkilöstön määrän suhde otokseen. Vastaako perusjoukko todellisuutta? Esimerkiksi lähtötiedot on saatettu poimia puutteellisesta rekisteriaineistosta. Kaavioissa on kiinnitettävä huomiota pylväiden tms. havainnollistajien visuaalisten suhteiden lisäksi myös niiden kuvaamiin lukuarvoihin. Pelkkä visuaalinen havainto saattaa tuottaa väärän tulkinnan. Prosenttilukujen rinnalla on katsottava myös suuruusluokkia, koska esimerkiksi muutosta kuvaavat prosentit saattavat antaa väärän kuvan tilanteessa, jossa itse luvut ovat pieniä. 2
3. TUTKIMUKSEN TUOTESELOSTE Täytä soveltuvin osin: Tutkimuksen tietosisältö ja käyttötarkoitus Olennaiset käsitteet ja käytetyt luokitukset Tutkimuskohde (esim. 18 30-vuotiaat suomalaiset) Kuvausajankohta (esim. huhti-elokuu 2002) Tutkimuksen tekijä ja rahoittaja Tutkimuksen vastaajat ja miten heidät on valittu (yritys- ja yhteisötutkimuksessa) Tutkimusasetelma (kokonaistutkimus/otantatutkimus) Otantatutkimuksessa: otantamenetelmä, otoskoko, otoksen edustavuus ja mahdollinen painotusmenetelmä Tiedonkeruutapa (esim. kirjekysely) Vastausprosentti Epävarmuustekijät eli mahdolliset virhelähteet (esim. osoitetiedot eivät ole täysin ajan tasalla) Ennakkotieto/lopullinen tieto Arvio tulosten yleistettävyydestä ja luotettavuudesta (esim. yleistettävyys kohdeikäluokkaan vs. muut ikäluokat) Vertailtavuus muihin aineistoihin (esim. virallinen tilasto) Tutkimuksen julkaisukanavat (esim. www-osoite) Lisätietojen antaja Lähde: Laatua tilastoissa, Tilastokeskus 2002 3
4. KESKEISIÄ TILASTOKÄSITTEITÄ Tässä esitetyt tilastokäsitteet ja niihin liittyvät määritelmät pohjautuvat pääosin Tilastokeskuksen Verkkokoulupalveluun. Verkkokoulun sivuilta on löydettävissä lisää tilastokäsitteiden ym. käsitteiden määritelmiä. Verkkokoulu sijaitsee osoitteessa: http://www.stat.fi/tk/tp/verkkokoulu/ktk /index.html Huomattakoon, että tässä on esitetty vain käsitteiden lyhyet, yksinkertaistetut selitykset, joista käy ilmi käsitteen keskeinen sisältö. ************************************* Aikasarja Tietyn muuttujan eri ajanhetkinä saamien arvojen muodostama havaintosarja. Fraktiilit Fraktiilit ovat muuttujan jakauman kohtia, joiden alapuolelle jää tietty osa havainnoista. Mediaani on jakauman keskimmäinen havaintoarvo, kun havainnot on järjestetty suuruusjärjestykseen. Jos havaintoja on parillinen määrä, on valittava kaksi keskimmäistä arvoa, joista otetaan keskiarvo. Alakvartiili on havaintoarvo, jota pienempiä arvoja on aineistossa 25 %. Yläkvartiili on havaintoarvo, jota pienempiä arvoja on aineistossa 75 %. Desiilien avulla jakauma jaetaan kymmeneen yhtä paljon tapauksia (esim. henkilöitä tai kotitalouksia) sisältävään "viipaleeseen". Esim. 1. desiilipisteen alapuolelle jää 10 % havainnoista ("alhaalta päin lukien"). Harha Harhalla tarkoitetaan otantatutkimuksessa systemaattisesti esiintyvää virhettä. Harhaa voi syntyä tutkimuksen eri vaiheissa, kuten esimerkiksi kehikon valinnassa ja lomakkeiden kysymyksissä. Indeksisarja Lukusarja, joka ilmoittaa eri ajankohtiin liittyvät havainnot prosenttiosuuksina jonkin perusvuoden arvosta. Eri vuosia (ajankohtia) vastaavat havaintoarvot muutetaan vertailukelpoisiksi ennen ineksin laskentaa. Indeksit kuvaavat siis ilmiöiden kehitystä. Kato Kadolla viitataan havaintoaineiston puutteelisuuteen otantatutkimuksissa. Kadolla tarkoitetaan joko kokonaisten otosyksiköiden (henkilöiden tai kotitalouksien) puuttumista tutkimusaineistosta tai puuttuvia tietoja, "reikiä" joidenkin havaintoyksiköiden tiedoissa. Edellinen voi johtua kohdehenkilöiden kieltäytymisestä tai tavoittamatta jäämisestä (ulkoinen kato), kun taas jälkimmäinen johtuu vastausten puuttumisesta lomakkeelta tiedon puutteen tai vastaushaluttomuuden vuoksi (sisäinen kato). Kausivaihtelu Kausivaihtelu kuvaa lähinnä vuodenaikojen vaihtelusta johtuvaa vuosittain toistuvaa säännöllistä vaihtelua aikasarjassa. Kausitasoituksella tarkoitetaan kausivaihtelun estimoimista ja sen vaikutuksen poistamista aikasarjasta. Kausitasoitus tuo näkyviin sarjan trendin, jonka ympärillä saattaa esiintyä lisäksi epäsäännöllistä satunnaista vaihtelua. 4
Kehikko (ks. kohta peittävyys) Keskihajonta Keskihajonta on tärkein ja käytetyin hajonnan mitta. Keskihajonta kuvaa havaintoarvojen keskimääräistä etäisyyttä keskiarvosta. Pieni keskihajonta osoittaa havaintoarvojen sijoittuvan lähelle keskiarvoa. Korrelaatio Korrelaatio on kahden muuttujan välisen tilastollisen riippuvuuden mitta. Otanta Otanta viittaa otosyksiköiden poimimiseen tutkimusta varten käyttäen hyväksi jotain otantatekniikkaa, jolla varmistetaan poiminnan satunnaisuus. Tavallisimpia tekniikoita ovat yksinkertainen satunnaisotanta, ositettu otanta ja ryväsotanta. Otos Yksinkertainen satunnaisotanta on otannan perusmenetelmä. Se antaa koko perusjoukon jokaiselle yksikölle saman mahdollisuuden tulla valituksi otokseen. Muissa otantamenetelmissä otos poimitaan eri periaattein ositetusta perusjoukosta. Tutkimuksen kohteiden valinnassa on tärkeää noudattaa jotain hyväksyttyä satunnaisuuteen perustuvaa otantamenetelmää, koska vain silloin voidaan otostietojen perusteella tehdä tieteellisesti päteviä johtopäätöksiä perusjoukon ominaisuuksista. Otos on jollain satunnaismenetelmällä suuremmasta perusjoukosta valittu yksilöiden joukko. Seitsemän lottonumeroa ja kolme lisänumeroa käsittävä otos valitaan 39 numeron perusjoukosta sekoittamalla pallot perusteellisesti ennen niiden poimintaa erilleen. Peittävyys Perusjoukosta täytyy olla käytettävissä kehikko eli luettelo yksilöistä, joita koskevia tietoja halutaan otantatutkimuksella kerätä. Alipeitolla tarkoitetaan sitä, että käytettävissä olevasta kehikosta puuttuu osa perusjoukon eli tutkimuksen kohdejoukon yksilöistä. Esim. henkilöt, joilla ei ole puhelinta, puuttuvat puhelinhaastattelun kehikosta. Usein kehikossa voi sen lisäksi olla ylipeittoa eli siihen kuulumattomia tapauksia, kuten kuolleita ja laitoksiin siirtyneitä tai ulkomaille muuttaneita. Puhelinhaastattelu on yleinen tapa kerätä tietoja, koska noin 90 % kansalaisista voidaan tavoittaa puhelimitse. Tämä merkitsee sitä, että aineistosta puuttuvat henkilöt/taloudet, joilla ei ole puhelinta, sekä salaisen numeron omaavat taloudet. Asia on tapana ilmaista siten, että kehikkoperusjoukko (puhelinluettelo) peittää vain 90 % tavoiteperusjoukosta (esim. äänestysikäiset). Tällöin niin sanottu alipeitto on 10 %. Populaatio (Perusjoukko) Perusjoukko (populaatio) on tutkimuksen kohteena oleva ryhmä, jota koskevia tietoja halutaan kerätä, esim. äänestysikäiset kansalaiset. Trendi Trendi kuvaa pitkän ajanjakson kehityssuuntaa tai vaihtelua. Vaihteluväli Vaihteluväli on muuttujan suurimman ja pienimmän arvon välimatka. 5
Virhemarginaali (Luottamusväli) Luottamusvälit ilmaisevat satunnaisotoksesta laskettuihin lukuihin sisältyvän virhemahdollisuuden. Otoksesta lasketun tunnusluvun, esim. keskiarvo, molemmille puolille voidaan laskea esim. 95 prosentin virhemarginaalit. Asian voi ilmaista siten, että "olemme 95 prosenttisesti varmoja, että oikea tulos on näiden rajojen välissä". 6
LIITE 1 Tilastoryhmässä ovat olleet mukana: Elisa Oyj FiCom ry Finnet-liitto ry Finpro ry Liikenne- ja viestintäministeriö Sonera Oyj Suomen Kaapelitelevisioliitto ry Sähkö-, elektroniikka- ja tietoteollisuus SET ry Telia Mobile Teollisuus ja työnantajat ry Tietoalojen liitto ry Tietotekniikan liitto ry TIEKE Tietoyhteiskunnan kehittämiskeskus ry Tilastokeskus Viestintävirasto 7