TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas
KVANTITATIIVISEN TUTKIMUKSEN VAIHEET (EI VALMISTA AINEISTOA) 1. Tutkimusongelman määrittäminen Kirjallisuuteen perehtyminen 2. Suunnitteluvaihe Ongelman yksityiskohtaisempi määrittely Teorian valinta ja hypoteesien laadinta Konkretisointi Mittareiden ja menetelmien valinta (laadinta esitestaus) Aineiston keruun suunnittelu Analyysin suunnittelu Raportoinnin suunnittelu 3. Kenttätyövaihe eli aineiston keruu 4. Tietojen tallennus ja muokkaus analyysia varten 5. Tietojen analysointi ja johtopäätösten teko 6. Tutkimuksen raportointi
TUTKIMUSKYSYMYS Tutkimus lähtee liikkeelle siitä, että halutaan tarkastella jotakin todellisuuden ilmiötä ja tarkastelu puetaan usein kysymyksen muotoon Esim. Onko fyysisellä aktiivisuudella vaikutusta riskiin sairastua flunssaan? Tutkimuskysymyksestä muodostetaan tutkimushypoteesi, jossa otetaan kantaa siihen, mikä olisi mahdollinen vastaus tutkimuskysymykseen Mikä on tutkimushypoteesi, jos oletetaan, että vähäisempi aktiivisuus liittyy suurempaan riskiin? Tutkimushypoteeseista johdetaan tilastollisen testauksen testaushypoteesit (näistä enemmän myöhemmin)
HYVÄ HYPOTEESI Esittää yksiselitteisen suhteen kahden tutkittavan asian välille On perusteltu (teoria tai muut syyt) On empiirisesti testattavissa On lyhyt ja selkeä Kvantitatiivisessa tutkimuksessa hypoteesilla on yleensä matemaattinen vastine Hypoteesi: r 0 > r 1, missä r on sairastumisriski, ja indeksi 0 = matalaa fyysisen aktiivisuuden taso ja 1 = korkea fyysisen aktiivisuuden taso Onko seuraava hypoteesi hyvä tutkimushypoteesi? Liikuntaneuvonta on hyvä keino vaikuttaa terveydentilaan
Marko: Aineisto: Kaksi ryhmää (koe ja kontrolli), liikuntainterventio Kolme muuttujaa: Kävelynopeus (metri/sekunti) Polven ojennusvoima (Newton) Bergin tasapainotesti (summapistemäärä) Tutkimuskysymys: 1)Onko ryhmien keskiarvoissa eroa perusjoukossa? 2)Onko keskiarvoeroja itse arvioidun terveyden suhteen (hyvä / keskinkertainen / huono). Sari: Aineisto: Ryhmä naisia, tutkimus on osa geneettistä analyysia Kolme muuttujaa: Kehon painoindeksi (kg/m 2 ) Fyysinen aktiivisuus (MET, energiankulutus suhteessa lepotilaan) Kävelynopeus (m/s) Tutkimuskysymys: Onko painoindeksin, fyysisen aktiivisuuden määrän ja kävelynopeuden välillä riippuvuutta? Elina: Aineisto: Ryhmä satunnaisesti valittuja viidesluokkalaisia kolmesta koulusta Kaksi muuttujaa: Ruokavalio (vähärasvainen, vähälaktoosinen, normaali) Itse arvioitu terveys (hyvä / keskinkertainen / huono). Tutkimuskysymys: Riippuuko oma arvio terveyden tilasta ruokavaliosta? Miten ilmaistaan Markon, Sarin ja Elinan tutkimuksen malli ja tutkimushypoteesit?
KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit
TEOREETTINEN MALLI JA MITTAAMINEN Kvantitatiiviseen tutkimusotteeseen kuuluu, että tarkasteltavasta ilmiöstä luodaan malli Malliin kuuluvat tutkimusobjektit Tutkimusobjektien ominaisuudet määritellään teoreettisilla termeillä Termit käännetään empiirisiksi kvantitatiivista tutkimusta varten Jokaiseen termiin liitetään mittaoperaatio Ominaisuutta saadaan näin kuvaamaan lukuarvo, mittaluku (mittaoperaatio) Mittaaminen on toimenpide, jolla tutkimusobjektiin liitetään jotain sen ominaisuutta kuvaava luku eli mittaluku
MITTAAMISEN KÄSITTEITÄ Mittaoperaation säännöt ja välineet = mittari Objekti, jolle mittaus suoritetaan on havaintoyksikkö, tapaus, tutkittava (case) Ominaisuus, jota mitataan on muuttuja (variable) Ominaisuus voi saada erilaisia lukuarvoja, jotka ovat muuttujan havaintoarvoja tai luokkia (observation, value, category, class) Lukuarvot kuvaavat mitattavan ominaisuuden suurempaa määrällistä esiintyvyyttä Esim. suuret lukuarvot fyysisen aktiivisuuden mittarissa kertovat aktiivisemmasta fyysistä harrastuneisuudesta kielteisen asenteen mittarissa kertovat kielteisemmästä asenteesta
MITTA-ASTEIKOISTA Mittaluvut voivat esittää erilaisia ominaisuuksia muuttujan luonteesta riippuen, ja muuttujien arvoihin liittyvää informaatiota voidaan käsitellä matemaattisesti eri tavoin Jokaisella muuttujalla on mitta-asteikko, jonka perusteella voidaan määritellä sille sopivat analyysimenetelmät Muuttuja on epäjatkuva (diskreetti), jos se voi saada vain äärellisen määrän arvoja tietyllä välillä, esim. (biologinen) sukupuoli Muuttuja on jatkuva, jos se voi saada minkä tahansa reaalilukuarvon tietyllä välillä, esim. pituus
MITTA-ASTEIKKOJA (EPÄJATKUVAT) Luokittelu- eli nominaaliasteikko Yksinkertaisin mittaustapa, jossa havainnot luokitellaan ennalta määriteltyihin luokkiin. Luokkien välillä ei vallitse järjestystä. Mittaluvuilla korvataan luokkien nimet. Esim. sukupuoli, siviilisääty. Informaatiosisältö: samanlaisuus/erilaisuus Järjestys- eli ordinaaliasteikko Luokitteluasteikkoa monimuotoisempi, sillä luokat voidaan asettaa järjestykseen mitattavan ominaisuuden suhteen. Luokat eivät välttämättä sijaitse samalla etäisyydellä toisistaan. Esim. koulutusaste. Informaatiosisältö: samanlaisuus/erilaisuus + järjestys
MITTA-ASTEIKKOJA (JATKUVAT) Välimatka- eli intervalliasteikko Havaintoyksiköillä on yksikäsitteinen järjestys ja muuttujan arvojen lisäykset voidaan laskea, mutta nolla ei ole asteikon minimikohta. Esim. lämpötila Celsius-asteikolla. Informaatiosisältö: samanlaisuus/erilaisuus, järjestys, välimatka Suhdeasteikko Suhdeasteikolla on välimatka-asteikollisen muuttujan ominaisuudet, mutta lisäksi myös nolla kohta, joka on minimi (ts. ominaisuus häviää absoluuttisessa nollakohdassa). Esim. pituus. Informaatiosisältö: samanlaisuus/erilaisuus, järjestys, välimatka, absoluuttinen nollakohta
MITTA-ASTEIKKOJA (ERIKOISTAPAUKSIA) Kaksiluokkainen muuttuja Muuttujalla on vain kaksi arvoluokkaa. Esim. on kroonisia sairauksia vs. ei ole kroonisia sairauksia. Diskreetit suhdeasteikolliset muuttujat Lukumäärämuuttujat. Esim. kroonisten sairauksien lukumäärä.
Lähde: http://www.thl.fi/toimia/tietokanta/media/files/mittariversio/2011/01/07/berg_seurantalomake.pdf Kukin tutkittava suorittaa 14 osatestiä eli osiota, ja mittaaja kirjaa lomakkeelle pistemäärän jokaisesta osiosta
Tasapainotestin mittaustulos on sarakkeesta yhteenlaskettu pistemäärä. 3 4 4 4 4 3 4 2 3
CES-D Masentuneisuuden oirekysely 1. OLIN LEVOTON ASIOISTA, JOISTA EN YLEENSÄ HUOLESTU 2. MINUN EI TEHNYT MIELI SYÖDÄ; RUOKAHALUNI OLI HUONO HARVOIN TAI EI KOSKAAN JOSKUS MELKO USEIN LÄHES KOKO AJAN Tutkittava vastaa 20 kysymykseen 3. TUNSIN ITSENI ALAKULOISEKSI PERHEENI JA YSTÄVIENI TUESTA HUOLIMATTA 4. MINUSTA TUNTUI, ETTÄ OLIN AIVAN YHTÄ HYVÄ IHMINEN KUIN MUUTKIN 5. MINULLA OLI VAIKEUKSIA KESKITTYÄ TEKEMISIINI 6. TUNSIN ITSENI MASENTUNEEKSI 7. KAIKKI MITÄ TEIN TUNTUI VAIVALLOISELTA 8. TULEVAISUUS TUNTUI TOIVEIKKAALTA : : : : : :
CES-D Masentuneisuuden oirekysely Tutkittava/ haastattelija 1. OLIN LEVOTON ASIOISTA, JOISTA EN YLEENSÄ HUOLESTU 2. MINUN EI TEHNYT MIELI SYÖDÄ; RUOKAHALUNI OLI HUONO 3. TUNSIN ITSENI ALAKULOISEKSI PERHEENI JA YSTÄVIENI TUESTA HUOLIMATTA HARVOIN TAI EI KOSKAAN JOSKUS MELKO USEIN LÄHES KOKO AJAN 4. MINUSTA TUNTUI, ETTÄ OLIN AIVAN YHTÄ HYVÄ IHMINEN KUIN MUUTKIN 5. MINULLA OLI VAIKEUKSIA KESKITTYÄ TEKEMISIINI 6. TUNSIN ITSENI MASENTUNEEKSI 7. KAIKKI MITÄ TEIN TUNTUI VAIVALLOISELTA 8. TULEVAISUUS TUNTUI TOIVEIKKAALTA : : : : : :
Koodaajan pisteitysavain: 0 1 2 3 CES-D Masentuneisuuden oirekysely Koodaaja 1. OLIN LEVOTON ASIOISTA, JOISTA EN YLEENSÄ HUOLESTU 2. MINUN EI TEHNYT MIELI SYÖDÄ; RUOKAHALUNI OLI HUONO 3. TUNSIN ITSENI ALAKULOISEKSI PERHEENI JA YSTÄVIENI TUESTA HUOLIMATTA HARVOIN TAI EI KOSKAAN JOSKUS MELKO USEIN LÄHES KOKO AJAN 0 2 1 Käänteinen 4. MINUSTA TUNTUI, ETTÄ OLIN AIVAN YHTÄ HYVÄ IHMINEN KUIN MUUTKIN 5. MINULLA OLI VAIKEUKSIA KESKITTYÄ TEKEMISIINI 0 1 Käänteinen 6. TUNSIN ITSENI MASENTUNEEKSI 7. KAIKKI MITÄ TEIN TUNTUI VAIVALLOISELTA 8. TULEVAISUUS TUNTUI TOIVEIKKAALTA 0 0 2 : : : : : :
CES-D CES-D mittarin yhteenlaskettua pistemäärää vaihtelee välillä 0 60 Sitä käytetään tunnuslukuna, joka kertoo masentuneisuusoireiden vakavuudesta CES-D ja Bergin tasapainotesti ovat masentuneisuuteen taipuvuuden ja tasapainon epäsuoria mittareita Mikä on näiden mittarien mitta-asteikko? Samankaltaisia asteikkoihin perustuvia epäsuoria mittareita käytetään paljon terveystieteissä: UCLA yksinäisyysmittari, liikuntamotivaation mittari (REMM), WHO-elämänlaatumittari, COPE (omaishoidon tuki), BDI (masentuneisuus)
MITEN SELVITTÄÄ MITTA-ASTEIKKO? Yleensä on riittävää selvittää, onko muuttujan mitta-asteikko 1) luokitusasteikko, 2) järjestysasteikko, vai 3) jatkuva Voiko muuttuja saada vähän / paljon erilaisia arvoja? Jos paljon, niin kyseessä on todennäköisesti jatkuva muuttuja (mutta poikkeuksena huom. esim. ammattiluokka) Voiko arvot laittaa järjestykseen? Jos ei voi, niin kyseessä on luokitusasteikollinen muuttuja
ESIMERKKEJÄ Mitta-asteikon määrittäminen: Usein helppoa mittareille, jotka mittaavat ominaisuutta suoraan: Pituus Paino Oletteko tupakoinut viimeisen vuoden aikana? Kyllä / ei Hankalampaa epäsuorilla mittareilla: CES-D: masentuneisuuden oirekyselyn summapistemäärä Järjestys- vai intervalliasteikko?
MUUTTUJAN INFORMAATIO Käytännössä pyritään siihen, että tarkasteltavaa ominaisuutta kuvaavat muuttujat pitäisivät sisällään mahdollisimman paljon informaatiota tutkimuskohteesta Objektiivisuus vs. tutkittavan oma arvio Jatkuvat muuttujat Enemmän informaatiota tarkemmat johtopäätökset Vrt. esim. pituuden mittaus Yli/alle 170 cm Luokat: vähintään 140 / 170 / 180 cm Mittaluokat täsmälleen 1 cm välein
MITTAVIRHE Mittausmenetelmien ja -välineiden epätarkkuus Monia psyykkisiä ominaisuuksia mitataan asteikoilla, joissa kiinnostuksen kohteena olevaa ominaisuutta (esim. masentuneisuuden taso) ei voi tarkkaan erottaa muista vastaavanlaisista ominaisuuksista (mm. sulkeutuneisuus, yksinäisyys) Mittaajan epätäsmällisyys Keskittymisen herpaantuminen Ympäristön häiriötekijät Erilaiset tekijät, jotka eivät ole osa tutkimusta Mitattavan epätäsmällisyys Ymmärrettiinkö oikein mitä kysytään?
Marko: Aineisto: Kaksi ryhmää (koe ja kontrolli) Kolme muuttujaa: Kävelynopeus (metri/sekunti) Polven ojennusvoima (Newton) Bergin tasapainotesti (summapistemäärä) Tutkimuskysymys: 1)Onko ryhmien keskiarvoissa eroa perusjoukossa? 2)Onko keskiarvoeroja itse arvioidun terveyden suhteen (hyvä / keskinkertainen / huono). Sari: Aineisto: Ryhmä naisia Kolme muuttujaa: Kehon painoindeksi (kg/m 2 ) Fyysinen aktiivisuus (MET, energiankulutus suhteessa lepotilaan) Kävelynopeus (m/s) Tutkimuskysymys: Onko painoindeksi riippuvainen fyysisen aktiivisuuden määrästä ja / tai kävelynopeudesta? Elina: Aineisto: Ryhmä satunnaisesti valittuja viidesluokkalaisia kolmesta koulusta Kaksi muuttujaa: Ruokavalio (vähärasvainen, vähälaktoosinen, normaali) Itse arvioitu terveys (hyvä / keskinkertainen / huono). Tutkimuskysymys: Riippuuko oma arvio terveyden tilasta ruokavaliosta? Mitä muuttujien mitta-asteikkoja havaitset Markon, Sarin ja Elinan tutkimuksissa?
AINEISTON KERÄÄMINEN Tärkein vaihe tutkimuksen tekemisessä, koska mitatessa tulleita virheitä ei välttämättä voi huomata eikä niitä usein voi korjata analyysivaiheessa. Mittaajan tulisi pyrkiä siihen, että mittaluvut saadaan selville ilman vääristymiä. Jos käytetään useampaa mittaajaa, pitäisi pyrkiä siihen, että mittaustulokset eivät riipu siitä, kuka on mittaajana. Poikkeavat havainnot: pyritään jo mitattaessa selvittämään syitä sellaisille mittauksille, joissa havaittu mittaluku poikkeaa selkeästi muiden tutkittavien mittaluvuista.
Ei ole perusjoukon määrittävää ominaisuutta On perusjoukon määrittävä ominaisuus Alkio Havaintoyksikkö Perusjoukko Otanta Valikointi Otos Näyte Kokonaistutkimus: tutkimus kattaa koko perusjoukon Otantatutkimus: tutkimus kattaa (edustavan) osan perusjoukkoa
OTANTA Kokonaistutkimus kuluttaa usein liikkaa resursseja (aikaa ja rahaa) ja on tehotonta, jos samoihin tuloksiin päästäisiin tutkimalla pienempi osa perusjoukkoa (otos) eli suorittaa otantatutkimus. Tavoitteena on, että otantatutkimuksella saadut tulokset olisivat samansuuntaiset kuin tulokset, jotka olisi saatu tutkimalla koko perusjoukko. Kun tutkittavat on poimittu otokseen otantamenetelmällä, tulokset ovat yleistettävissä perusjoukkoon. Satunnaistamisella pyritään siihen, että suhteellisen homogeenisen perusjoukon kaikilla alkioilla olisi yhtä suuri mahdollisuus päätyä otokseen kun satunnaisuus onnistuu, perusjoukon alkiot ovat oikeassa suhteessa edustettuina otoksessa ja matemaattisten menetelmien käyttö analyysissä on järkevää Yleistettävyys pätee mm. toistetuille satunnaisotoksille (ns. frekvenssitulkinta).
OTANTA Käytännössä otantaa varten muodostetaan otantakehys (engl. sampling frame), josta otos poimitaan jotain otantamenetelmää käyttäen. Kehyksen voi muodostaa esim. jokin rekisteri tai luettelo. Sopiva otantamenetelmä valitaan perusjoukon homogeenisuuden mukaan Suhteellisen homogeeninen perusjoukko: yksinkertainen satunnaisotanta tai systemaattinen otanta Perusjoukossa on (homogeenisia) ryhmiä: ositettu otanta tai ryväsotanta Tässä käsittelemme aineistoja, joissa oletetaan käytetyn yksinkertaista satunnaisotantaa
YKSINKERTAINEN SATUNNAISOTANTA (YSO) 1. Määritetään otantakehys (N = 10) 1 2 3 4 5 6 7 8 9 10 2. Määritetään otoskoko n = 3 3. Valitaan otoskoon edellyttämä määrä satunnaislukuja 2 5 8 4. Poimitaan otokseen satunnaislukujen edustamat tutkittavat. 2 5 8
OTOSKOKO Otoskoon määrittämiselle ei yksiselitteistä ohjetta, koska muuttujien informaatio, perusjoukot ja tutkimustilanteet ovat erilaisia. Vaaligallupit (Suomi): n = 1000 Yrityksen imagotutkimus (tietty alue): n = 150 300 Lääketieteellinen koe (koe-/kontrolliryhmä): n = 20 30 Jos tutkittavasta ilmiöstä on aikaisempaa tutkimustietoa, sopiva otoskoko voidaan määrittää matemaattisesti (eri menetelmille erilaiset laskukaavat) Vaikutuksen koko (effect size) Muuttujiin liittyvä hajontainformaatio (dispersion, variance) Merkitsevyystaso (significance level) Tehokkuus (power) Kokeellisessa asetelmassa testattaessa useampaa muuttujaa samanaikaisesti pitää muuttujien lukumäärä ottaa huomioon Jotta tulokset olisivat luotettavia, pitää otoskoon olla sitä suurempi, mitä heterogeenisempi perusjoukko on.
Marko: Aineisto: Kaksi ryhmää (koe ja kontrolli), liikuntainterventio lonkkamurtuman kokeneilla Kolme muuttujaa: Kävelynopeus (metri/sekunti) Polven ojennusvoima (Newton) Bergin tasapainotesti (summapistemäärä) Tutkimuskysymys: 1)Onko ryhmien keskiarvoissa eroa perusjoukossa? 2)Onko keskiarvoeroja itse arvioidun terveyden suhteen (hyvä / keskinkertainen / huono). Sari: Aineisto: Ryhmä naisia, tutkimus on osa geneettistä analyysia Kolme muuttujaa: Kehon painoindeksi (kg/m 2 ) Fyysinen aktiivisuus (MET, energiankulutus suhteessa lepotilaan) Kävelynopeus (m/s) Tutkimuskysymys: Onko painoindeksi riippuvainen fyysisen aktiivisuuden määrästä ja / tai kävelynopeudesta? Elina: Aineisto: Ryhmä satunnaisesti valittuja viidesluokkalaisia kolmesta koulusta Kaksi muuttujaa: Ruokavalio (vähärasvainen, vähälaktoosinen, normaali) Itse arvioitu terveys (hyvä / keskinkertainen / huono). Tutkimuskysymys: Riippuuko oma arvio terveyden tilasta ruokavaliosta? Mikä voisi olla sopiva otoskoko kullekin tutkimukselle?
KATO (ATTRITION, MISSING DATA) Kun otostetuista havaintoyksiköistä saavutetaan (mitataan) vain osa, tarkoittaa kato sitä osaa tutkittavista tai mittauksista, jota ei saavutettu (mitattu). Teknisestä syystä kato on ongelmallista, koska se usein johtaa siihen, että havaintoyksikön muu mitattu aineisto joudutaan jättämään huomioimatta tai puuttuvien havaintoarvojen tilalle joudutaan tuottamaan arvioita havaitsematta jääneistä arvoista (imputointi) Jos puuttuvia havaintoja esiintyy satunnaisesti aineistossa, otoksesta saatavien tulosten ei pitäisi oleellisesti vääristyä käytössä on vain pienempi otos Jos puuttuva tieto ei vääristä tutkimustuloksia, informaation puuttumisen sanotaan olevan vaikutuksetonta (noninformative) tutkimuksen tulosten suhteen. Jos kato on vaikutuksellista (informative), puuttuu aineistosta tällöin sellaisia havaintoja, joilla olisi vaikutusta tuloksiin. Tällöin puuttuvien havaintojen vaikutusta tuloksiin on yleensä vaikeampi arvioida.
KATO Katoa voidaan pyrkiä estämään erilaisin keinoin, esim. kyselyä suunniteltaessa: kysely laaditaan sopivan mittaiseksi: liian pitkä kysely ei motivoi tutkittavia kyselyyn osallistuvia voidaan motivoida sopivin keinoin (mm. luvataan palautetta tutkimuksen valmistuttua) valvotussa tilanteessa tulee antaa tarpeeksi aikaa vastata Jos kato on suurta ja resurssit sen sallivat, voi harkita uusintakyselyn suorittamista Tarkastellaan kadon vaikutusta tuloksiin myöhemmin tilastollisten tunnuslukujen yhteydessä
HARHA (BIAS) Tutkimuksen tulokset ovat harhaisia silloin, kun otoksesta saatavat tiedot ovat systemaattisesti vääristyneitä suhteessa perusjoukon tuloksiin Usein kun satunnaistaminen epäonnistuu, tuloksiin liittyy harhaa. Valikointi Otoksesta puuttuu oleellisia ryhmiä Tärkeiden muuttujien puuttuminen Esim. kun tarkastellaan polvenojennusvoiman ja kehon rasvattoman painon välistä suhdetta ilman, että tunnetaan tutkittavien sukupuolta, tulokset kertovat usein enemmän sukupuolten eroista kuin em. muuttujien välisestä suhteesta Harhan tilanteessa kaikilla tutkittavilla ei ole ollut samaa todennäköisyyttä päätyä tutkimukseen Havaittua harhaa voi korjata esim. käyttämällä painokertoimia
TUTKITTAVIEN LUKUMÄÄRIÄ KOSKEVIA TUNNUSLUKUJA Tutkimuksen kannalta keskeisiä kokoja ovat Perusjoukon koko (N) Äärellinen / pieni; ääretön suuri Määritetään tutkimuskysymyksen pohjalta Otoksen koko (n) pyritään optimaaliseen kokoon suhteessa perusjoukkoon ja tutkimuskysymykseen Vastausprosentti pyritään mahdollisimman pieneen katoon