Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Samankaltaiset tiedostot
Harjoitus 7: NCSS - Tilastollinen analyysi

Väliestimointi (jatkoa) Heliövaara 1

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Otoskoon arviointi. Tero Vahlberg

ABHELSINKI UNIVERSITY OF TECHNOLOGY

pitkittäisaineistoissa

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

pitkittäisaineistoissa

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Kandidaatintutkielman aineistonhankinta ja analyysi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Testejä suhdeasteikollisille muuttujille

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Sovellettu todennäköisyyslaskenta B

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Testit laatueroasteikollisille muuttujille

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Aineistokoko ja voima-analyysi

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Teema 9: Tilastollinen merkitsevyystestaus

11. laskuharjoituskierros, vko 15, ratkaisut

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

HAVAITUT JA ODOTETUT FREKVENSSIT

Todennäköisyyden ominaisuuksia

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

10. laskuharjoituskierros, vko 14, ratkaisut

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Matemaatikot ja tilastotieteilijät

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

2. TILASTOLLINEN TESTAAMINEN...

Mat Sovellettu todennäköisyyslasku A

Testit järjestysasteikollisille muuttujille

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Teema 8: Parametrien estimointi ja luottamusvälit

Sovellettu todennäköisyyslaskenta B

Mediaanikorko on kiinteäkorkoiselle lainalle korkeampi. Tämä hypoteesi vastaa taloustieteen käsitystä korkojen määräytymismekanismista.

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Mat Tilastollisen analyysin perusteet, kevät 2007

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Sovellettu todennäköisyyslaskenta B

Tilastollinen aineisto Luottamusväli

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

KAHDEN RYHMÄN VERTAILU

Tilastotieteen aihehakemisto

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

1. Tilastollinen malli??

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

031021P Tilastomatematiikka (5 op) viikko 5

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Perusnäkymä yksisuuntaiseen ANOVAaan

tilastotieteen kertaus

Aki Taanila VARIANSSIANALYYSI

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Osa 2: Otokset, otosjakaumat ja estimointi

Sovellettu todennäköisyyslaskenta B

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Kliininen arviointi ja kliininen tieto mikä riittää?

Transkriptio:

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Luennon sisältö Pienten otoskokojen haasteista Pieni otoskoko Suositeltuja metodeja pienille aineistoille Power-laskelmat Eettisyys Näkökulmia

Pienen otoskoon haasteista ja mahdollisista hyödyistä Hyödyt: Data nopeaa kerätä ja valmistella analyysiin (esim. pilotointi) Kokonaiskustannus pysyy helposti budjetissa T-testi saattaa toimia luotettavasti Pienille aineistoille omat metodit (esim. ei-parametriset) Metodit suhteellisen yksinkertaisia, kombinatoriikkaan ja todennäköisyyslaskennan perusteisiin perustuvia Jopa käsin laskettavissa ->tulosten p-arvot yleensä tarkkoja (exact) eikä vain asymptoottisia Riittävätkö nämä ominaisuudet hyvän tutkimuksen tekemiseen? Puuttuuko joku hyötyomimaisuus?

Pienen otoskoon haasteista ja mahdollisista hyödyistä Haasteet: Yksilökustannukset nousevat herkästi korkeiksi Omat metodit pienille aineistoille Opeteltava ei-parametriset metodit Kaikilla parametrisilla menetelmillä ei vastaavaa ei-parametrista menetelmää Aineiston jakaumaoletukset eivät enää välttämättä päde (parametriset menetelmät) Tilastollinen voimakkuus (1- β) heikkoa, jos otos pieni Testin kyky hylätä nollahypoteesi, mikäli se todella pitääkin hylätä (Metsämuuronen, 2009) Tuloksen tulkinta harkittava tarkkaan vaikka tulos olisikin tilastollisesti merkitsevä Tilastollinen merkitsevyys ei aina synonyymi tieteelliselle merkityksellisyydelle! Mutta voi antaa viitteen efektin olemassaolosta populaatiossa

Pieni otoskoko (n) Mitä pidetään pienenä otoskokona? Tarkkaa määrittelyä ei ole olemassa Usein mainitaan luku <30 Mistä pieni n aiheutuu? Otos on yhtä kuin populaatio!!! Puuttuvista havainnoista (tai havaintojen hylkäämisestä) ->listwise proseduuri pudottaa nopeasti otoskokoa esim. regressio, RM ANOVA Jos puuttuminen täysin satunnaista (MCAR) vältetään havaintojen puuttumisesta johtuva harha, mutta tulosten voimakkuus heikko pienestä otoskoosta johtuen FIML:llä tai moni-imputoinnilla (MI) mahdollisuus korjata tällaista harhaa, mikäli puuttuminen voidaan luokitella tasolle MAR tai MCAR Jos puuttuminen on ei-satunnaista (NMAR) on vähintäänkin kysyttävä keitä/mitä me oikeasti analysoitiin? Omat erityiset menetelmät: Selection models, Pattern-mixture models jne. Pienestä budjetista, riittämättömästä ajasta Huonosta tutkimuksen valmistelusta

Pieni otoskoko (n) Mitä pieni n aiheuttaa tuloksille? Koska kerättyjä havaintoja on vain vähän suhteessa populaation kasvaa epävarmuus siitä kuinka edustavia havaintomme ovat Keskivirhe (SE) jää helposti suhteettoman suureksi (SE = sd/ n) -> luottamusvälit kasvavat suuriksi (x ± 1.96 SE) -> yleinen epävarmuus tuloksen luotettavuudesta

Suositeltuja metodeja pienille aineistoille Keskiarvojen vertailu: Jatkuvilla muuttujilla käytä riippumattomien otosten t testiä (independent samples T test) Osoittanut luotettavuutensa pienilläkin aineistoilla Binaarisilla (0/1) muuttujilla (riippumattomat suhteet) käytä khiin neliön testiä ( 2 test) Jos odotetut frekvenssit jäävät <1, Fisherin tarkka testi luotettavampi (Fisher exact test) Luottamusvälien käyttö: Keskiarvon luottamusväli jatkuvalla muuttujalla Käytä t-jakaumaan perustuvaan luottamusväliä (pyrkii huomioimaan pienen otoskoon)

Suositeltuja metodeja pienille aineistoille Ei-parametriset metodit Voidaan käyttää pienille aineistoille (n<30) ja/tai muuten ongelmallisille aineistoille Jos hylätään normaalisuusoletus eikä muunnoksillakaan päästä tyydyttävään ratkaisuun keskiarvovertailuissa Jos hylätään varianssien homogeenisuusoletus eikä heteroskedastisuuskorjauksia voi tehdä (SPSS 25!!) varianssianalyysissa Esimerkkejä metodien vastaavuuksista: Keskiarvojen vertailu (2 ryhmää):t-testi ->Mann-Whitney U testi Useampi kuin 2 ryhmää: 1-suuntainen ANOVA ->Kruskall-Wallis H testi Riippuvien ryhmien vertailu: pareittainen T-testi tai toistomittaus ANOVA -> Wilcoxon signed rank test tai Friedmannin testi

Kuinka voisimme välttää pienistä otoksista aiheutuvat ongelmat? Hyvällä valmistelulla! Tee hyvä, kattava kirjallisuuskatsaus Määrittele testattavat hypoteesit täsmällisesti Valitse hyvät mittarit (validiteetti, reliabilitetti) Määrittele metodit ennakkoon Tee power-laskelmat (tavoitteena riittävä otoskoko) Kerää data huolellisesti (pilotointi?) Valmistele data analyysiin Analysoi jne.

Power-analyysi Tavoitteena on saada arvioitua vähintäänkin riittävä otoskoko että edes teoreettisesti aineistolla olisi mahdollista löytää tilastollisesti merkitsevä lopputulos Vain ja ainoastaan ennen datan keräämistä! Käytetään hyväksi a prior-tietoa aikaisemmista tutkimuksista tai perustelluista arvioista (keskiarvot, hajonnat, otoskoot, efektien koot) Testin voimakkuus(1-β), α, n ja efektin koko: Mikä tahansa näistä neljästä saadaan laskettua muiden kolmen avulla (Field, 2017) Jotkut julkaisijat vaativat artikkeleihin Power-laskelmia Joissain hankeanomuksissa myös saatetaan edellyttää Power-laskelmia Vapaasti ladattavia Power-ohjelmia: GPower ohjelma WebPower Free online statistical power analysis Russ Lenth's power and sample-size page (Java-ongelmia?)

Power-laskelmia Yksinkertainen taulukko kahden riippumattoman otoksen t- testille riittävän otoskoon laskemiseksi Oletetaan että otosten/ryhmien koot ovat yhtäsuuria n 1 =n 2 HUOM! Kokonaisotos on siis 2 x taulukon luku Merkitsevyystaso α=.05 Cohen s d on efektin suuruus (Cohen 1992) d = (x 2 x 1) SD Pieni efekti:.2 d<.5 Keskisuuri efekti:.5 d<.8 Suuri efekti:.8 d Isojen efektien löytämiseksi tarvitaan pienempiä otoksia ja tehottomammat testitkin riittävät Pienten efektien löytämiseksi tarvitaan voimakkaita testejä ja suuria otoksia

Tutkimuksen etiikka Liian pienillä aineistoilla saadut tulokset sisältävät liikaa epävarmuutta/sattumaa Pahimmillaan koko tutkimuksen tulos saattaa osoittautua resurssien haaskaukseksi Pyritään tekemään tutkimuksia joissa on edes teoreettisesti mahdollista hylätä H 0 -hypoteesi Käytetään aikaisempaa tietoa tai teoriaa Powerlaskelmien avuksi

Näkökulmia? Määrällinen tutkimus: frekventistinen näkökulma (tämä esitys) bayesiläinen näkökulma A priori ja posteriori jakaumien vaikutus Laadullinen tutkimus:?

Lähteet: Metsämuuronen, J. (2009). Tutkimuksen tekemisen perusteet ihmistieteissä. tutkijalaitos. Helsinki: International Methelp Ky. Cohen, J. (1992). A power primer. Psychological Bulletin, 112(1), 155. Enders, C. K. (2010). Applied missing data analysis The Guilford Press. Field, A. P. (2017). Discovering statistics using SPSS : (and sex, drugs and rock 'n' roll) (5th ed.). Los Angeles: SAGE Publications.

Kiitos

Simulointiesimerkki? 4 otoskokoa Kaksi ryhmää T-testi vertaa keskiarvojen eroja Diff= keskiarvojen ero ja sen luottamusväli keskiarvo merkitty tummalla viivalla 1.rivi originaali otos Alemmat rivit satunnaisotoksia 1. rivistä https://garstats.wordpress.com/2017/02/04/small-sample-sizes/