Tutkimuksen suunnittelu / tilastolliset menetelmät Marja-Leena Hannila Itä-Suomen yliopisto / Terveystieteiden tdk 25.8.2011
Kvantitatiivisen tutkimuksen vaiheet Suunnittelu Datan keruu Aineiston analysointi Raportointi, tulosten tulkinta 2
Tutkimuksen suunnittelu Tutkimusongelma(t) Koeasetelma ja datan keruu Aineiston koko, voimalaskelmat, kato yms. Tilastolliset menetelmät Hyvin suunniteltu puoleksi tehty 3
Tutkimusongelma(t) Eksploratiivinen / konfirmatorinen Kohdepopulaatio Tutkimusmuuttujat: ensi- ja toissijaiset 4
Koeasetelma Poikkileikkaus- vai pitkittäisaineisto Satunnaisotos vai kohortti Tapaus-verrokki-tutkimukset, mätsäys? Valintaan vaikuttaa monesti käytännön ja taloudelliset resurssit sekä koeasetelman tehokkuus Pidä mahdollisimman yksinkertaisena 5
Voimalaskelmat Aina riippuvaisia tilastollisesta menetelmästä Yleisiä käsitteitä: voima (suositus: 80-95 %), merkitsevyystaso (yleisesti 0.05), eron suuruus, havaintomäärä Edellisistä voidaan laskea jokin, kun muut tiedetään tai on kiinnitetty 6
Voimalaskelmat, esimerkkejä >?power.prop.test starting httpd help server... done > power.prop.test(p1=.20, p2=.25, power=.8) Two-sample comparison of proportions power calculation n = 1093.739 p1 = 0.2 p2 = 0.25 sig.level = 0.05 power = 0.8 alternative = two.sided NOTE: n is number in *each* group 7
Voimalaskelmat, esimerkkejä > power.prop.test(p1=.4, p2=.8, power=.95) Two-sample comparison of proportions power calculation n = 35.94604 p1 = 0.4 p2 = 0.8 sig.level = 0.05 power = 0.95 alternative = two.sided NOTE: n is number in *each* group 8
Voimalaskelmat, esimerkkejä >?power.t.test > power.t.test(delta=.5, power=.8) Two-sample t test power calculation n = 63.76576 delta = 0.5 sd = 1 sig.level = 0.05 power = 0.8 alternative = two.sided NOTE: n is number in *each* group 9
Voimalaskelmat, esimerkkejä Jotta havaittaisiin korrelaation 0.3 (0.2) ero nollasta 80 % voimakkuudella, tarvittaisiin 85 (194) havaintoa. Mikäli voimakkuudeksi halutaan 95 %, on vastaava havaintomäärä 139 (320). 10
Muita otoskokolaskelmia Voidaan myös laskea paljonko tarvitaan dataa tietyn tunnusluvun mittaamiseksi tietyllä tarkkuudella Esimerkiksi suhteellisen osuuden normaaliapproksimaatioon perustuva hajonta on sqrt(p*(1-p)/n). Mikäli hajonnaksi haluttaisiin enintään luku a, pitäisi olla n > p*(1-p)/a^2. Eli esim. 10 %:in 1 %:n hajonnalla (95 % CI: 8-12 %) tarvittaisiin havaintoja 900. 100 havainnolla saadaan 50 %:n hajonnaksi 5 % (95 % CI: 40-60 %) 11
Kato puuttuvat havainnot 12
Aineiston analysointi Kuvailu: kuvat, tunnusluvut, luottamusvälit Luottamusväli on aina kiinteästi yhteyksissä tunnuslukuun 95 % luottamusväli on yleisesti käytetyin Tulkinta: ko. tunnusluku on tällä välillä 95 %:n varmuudella Tilastolliset menetelmät ja mallinnus Hypoteesien testaaminen, p-arvot 13
Tilastollisen testauksen perusidea Hypoteesit nollahypoteesi (H 0 ) ja vastahypoteesi (H 1 ) Testisuure ja sen jakauma testiin liittyy yleensä testisuure, jonka jakauma tiedetään ja jonka avulla p-arvo lasketaan P-arvo on aina välillä [0,1] suuri p-arvo tukee nollahypoteesia ja päinvastoin pieni tukee vastahypoteesia tilastollisen merkitsevyyden rajana pidetään useasti lukua 0.05 14
P-arvo On paljolti riippuvainen aineiston koosta Pieni p-arvo ei välttämättä tarkoita, että tulos olisi kliinisesti merkitsevä Vastaavasti suuri p-arvo ei välttämättä tarkoita, etteikö esim. yhteyttä muuttujien välillä voisi olla Testien lisäksi on tästä syystä hyvä käyttää myös asianmukaisia tunnuslukuja ja mahdollisesti myös niiden luottamusvälejä. Ne kuvaavat dataa paremmin kuin mikään testi. 15
Tilastollisen menetelmän/testin valinta Menetelmän valintaan vaikuttavia asioita: Muuttujien mitta-asteikot (luokittelu- / järjestys- / välimatka- / suhdeasteikko) Menetelmän oletukset (normaalisuus, lineaarisuus, riippumattomuus, ) 16
Tilastolliset menetelmät: kahden muuttujan välinen yhteys Molemmat luokitteluasteikollisia: khii-toiseen testi, Fisherin testi, suhteellisten osuuksien testi, McNemarin testi Luokittelu- ja järjestysasteikollinen: Mann-Whitney, Wilcoxon, Kruskal-Wallis, Friedman Luokittelu- ja välimatka-asteikollinen: t-testit, varianssianalyysi, toistomittaus-anova / sekamallit Molemmat järjestysasteikollisia: Spearmanin korrelaatio Molemmat välimatka-asteikollisia: Pearsonin korrelaatio, lineaarinen regressio 17
Yleiset/yleistetyt lineaariset mallit Yleiset lineaariset mallit jatkuville selittäjille: varianssianalyysi, regressioanalyysi, kovarianssianalyysi Logistinen regressio binääriselle vasteelle Poisson-regressio lukumäärämuuttujille Yleiset/yleistetyt lineaariset sekamallit toistomittauksille ja erilaisten korrelaatiorakenteiden mallittamiseen 18
Erikoisempia malleja erityistilanteisiin Kaplan-Meier-menetelmä ja Coxin regressio elinaijan mallittamiseen ROC-analyysi testin hyvyyden mittaamiseen Aikasarja-analyysin menetelmät Faktorianalyysi, klusterianalayysi, Bayes-menetelmät frekventististen sijaan Boostrap otoksen jakauman käyttäminen 19
Ongelmatilanteita Puutteellinen suunnittelu, joka pahimmillaan aiheuttaa esim. sen, ettei haluttuun ongelmaan / kysymykseen saada vastausta Liian vähän dataa Jokin oleellinen muuttuja aineiston riippuvuusrakenteen kannalta puuttuu Käytetyn mallin oletukset epärealistisia Liian monimutkainen tutkimusasetelma 20