Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Luennon sisältö Pienten otoskokojen haasteista Pieni otoskoko Suositeltuja metodeja pienille aineistoille Power-laskelmat Eettisyys Näkökulmia

Pienen otoskoon haasteista ja mahdollisista hyödyistä Hyödyt: Data nopeaa kerätä ja valmistella analyysiin (esim. pilotointi) Kokonaiskustannus pysyy helposti budjetissa T-testi saattaa toimia luotettavasti Pienille aineistoille omat metodit (esim. ei-parametriset) Metodit suhteellisen yksinkertaisia, kombinatoriikkaan ja todennäköisyyslaskennan perusteisiin perustuvia Jopa käsin laskettavissa ->tulosten p-arvot yleensä tarkkoja (exact) eikä vain asymptoottisia Riittävätkö nämä ominaisuudet hyvän tutkimuksen tekemiseen? Puuttuuko joku hyötyomimaisuus?

Pienen otoskoon haasteista ja mahdollisista hyödyistä Haasteet: Yksilökustannukset nousevat herkästi korkeiksi Omat metodit pienille aineistoille Opeteltava ei-parametriset metodit Kaikilla parametrisilla menetelmillä ei vastaavaa ei-parametrista menetelmää Aineiston jakaumaoletukset eivät enää välttämättä päde (parametriset menetelmät) Tilastollinen voimakkuus (1- β) heikkoa, jos otos pieni Testin kyky hylätä nollahypoteesi, mikäli se todella pitääkin hylätä (Metsämuuronen, 2009) Tuloksen tulkinta harkittava tarkkaan vaikka tulos olisikin tilastollisesti merkitsevä Tilastollinen merkitsevyys ei aina synonyymi tieteelliselle merkityksellisyydelle! Mutta voi antaa viitteen efektin olemassaolosta populaatiossa

Pieni otoskoko (n) Mitä pidetään pienenä otoskokona? Tarkkaa määrittelyä ei ole olemassa Usein mainitaan luku <30 Mistä pieni n aiheutuu? Otos on yhtä kuin populaatio!!! Puuttuvista havainnoista (tai havaintojen hylkäämisestä) ->listwise proseduuri pudottaa nopeasti otoskokoa esim. regressio, RM ANOVA Jos puuttuminen täysin satunnaista (MCAR) vältetään havaintojen puuttumisesta johtuva harha, mutta tulosten voimakkuus heikko pienestä otoskoosta johtuen FIML:llä tai moni-imputoinnilla (MI) mahdollisuus korjata tällaista harhaa, mikäli puuttuminen voidaan luokitella tasolle MAR tai MCAR Jos puuttuminen on ei-satunnaista (NMAR) on vähintäänkin kysyttävä keitä/mitä me oikeasti analysoitiin? Omat erityiset menetelmät: Selection models, Pattern-mixture models jne. Pienestä budjetista, riittämättömästä ajasta Huonosta tutkimuksen valmistelusta

Pieni otoskoko (n) Mitä pieni n aiheuttaa tuloksille? Koska kerättyjä havaintoja on vain vähän suhteessa populaation kasvaa epävarmuus siitä kuinka edustavia havaintomme ovat Keskivirhe (SE) jää helposti suhteettoman suureksi (SE = sd/ n) -> luottamusvälit kasvavat suuriksi (x ± 1.96 SE) -> yleinen epävarmuus tuloksen luotettavuudesta

Suositeltuja metodeja pienille aineistoille Keskiarvojen vertailu: Jatkuvilla muuttujilla käytä riippumattomien otosten t testiä (independent samples T test) Osoittanut luotettavuutensa pienilläkin aineistoilla Binaarisilla (0/1) muuttujilla (riippumattomat suhteet) käytä khiin neliön testiä ( 2 test) Jos odotetut frekvenssit jäävät <1, Fisherin tarkka testi luotettavampi (Fisher exact test) Luottamusvälien käyttö: Keskiarvon luottamusväli jatkuvalla muuttujalla Käytä t-jakaumaan perustuvaan luottamusväliä (pyrkii huomioimaan pienen otoskoon)

Suositeltuja metodeja pienille aineistoille Ei-parametriset metodit Voidaan käyttää pienille aineistoille (n<30) ja/tai muuten ongelmallisille aineistoille Jos hylätään normaalisuusoletus eikä muunnoksillakaan päästä tyydyttävään ratkaisuun keskiarvovertailuissa Jos hylätään varianssien homogeenisuusoletus eikä heteroskedastisuuskorjauksia voi tehdä (SPSS 25!!) varianssianalyysissa Esimerkkejä metodien vastaavuuksista: Keskiarvojen vertailu (2 ryhmää):t-testi ->Mann-Whitney U testi Useampi kuin 2 ryhmää: 1-suuntainen ANOVA ->Kruskall-Wallis H testi Riippuvien ryhmien vertailu: pareittainen T-testi tai toistomittaus ANOVA -> Wilcoxon signed rank test tai Friedmannin testi

Kuinka voisimme välttää pienistä otoksista aiheutuvat ongelmat? Hyvällä valmistelulla! Tee hyvä, kattava kirjallisuuskatsaus Määrittele testattavat hypoteesit täsmällisesti Valitse hyvät mittarit (validiteetti, reliabilitetti) Määrittele metodit ennakkoon Tee power-laskelmat (tavoitteena riittävä otoskoko) Kerää data huolellisesti (pilotointi?) Valmistele data analyysiin Analysoi jne.

Power-analyysi Tavoitteena on saada arvioitua vähintäänkin riittävä otoskoko että edes teoreettisesti aineistolla olisi mahdollista löytää tilastollisesti merkitsevä lopputulos Vain ja ainoastaan ennen datan keräämistä! Käytetään hyväksi a prior-tietoa aikaisemmista tutkimuksista tai perustelluista arvioista (keskiarvot, hajonnat, otoskoot, efektien koot) Testin voimakkuus(1-β), α, n ja efektin koko: Mikä tahansa näistä neljästä saadaan laskettua muiden kolmen avulla (Field, 2017) Jotkut julkaisijat vaativat artikkeleihin Power-laskelmia Joissain hankeanomuksissa myös saatetaan edellyttää Power-laskelmia Vapaasti ladattavia Power-ohjelmia: GPower ohjelma WebPower Free online statistical power analysis Russ Lenth's power and sample-size page (Java-ongelmia?)

Power-laskelmia Yksinkertainen taulukko kahden riippumattoman otoksen t- testille riittävän otoskoon laskemiseksi Oletetaan että otosten/ryhmien koot ovat yhtäsuuria n 1 =n 2 HUOM! Kokonaisotos on siis 2 x taulukon luku Merkitsevyystaso α=.05 Cohen s d on efektin suuruus (Cohen 1992) d = (x 2 x 1) SD Pieni efekti:.2 d<.5 Keskisuuri efekti:.5 d<.8 Suuri efekti:.8 d Isojen efektien löytämiseksi tarvitaan pienempiä otoksia ja tehottomammat testitkin riittävät Pienten efektien löytämiseksi tarvitaan voimakkaita testejä ja suuria otoksia

Tutkimuksen etiikka Liian pienillä aineistoilla saadut tulokset sisältävät liikaa epävarmuutta/sattumaa Pahimmillaan koko tutkimuksen tulos saattaa osoittautua resurssien haaskaukseksi Pyritään tekemään tutkimuksia joissa on edes teoreettisesti mahdollista hylätä H 0 -hypoteesi Käytetään aikaisempaa tietoa tai teoriaa Powerlaskelmien avuksi

Näkökulmia? Määrällinen tutkimus: frekventistinen näkökulma (tämä esitys) bayesiläinen näkökulma A priori ja posteriori jakaumien vaikutus Laadullinen tutkimus:?

Lähteet: Metsämuuronen, J. (2009). Tutkimuksen tekemisen perusteet ihmistieteissä. tutkijalaitos. Helsinki: International Methelp Ky. Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155. Enders, C. K. (2010). Applied missing data analysis The Guilford Press. Field, A. P. (2017). Discovering statistics using SPSS : (and sex, drugs and rock 'n' roll) (5th ed.). Los Angeles: SAGE Publications.

Kiitos

Simulointiesimerkki? 4 otoskokoa Kaksi ryhmää T-testi vertaa keskiarvojen eroja Diff= keskiarvojen ero ja sen luottamusväli keskiarvo merkitty tummalla viivalla 1.rivi originaali otos Alemmat rivit satunnaisotoksia 1. rivistä https://garstats.wordpress.com/2017/02/04/small-sample-sizes/