Biostatistisen päättelyn salaisuudet ja sudenkuopat. Eliisa Löyttyniemi,

Samankaltaiset tiedostot
Matemaatikot ja tilastotieteilijät

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

pitkittäisaineistoissa

Harjoitus 7: NCSS - Tilastollinen analyysi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

pitkittäisaineistoissa

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Tutkimuksen suunnittelu -tutkimusasetelmien valinta ja satunnaistaminen -statistiikan suunnittelu tutkimussuunnitelmassa. Eliisa Löyttyniemi, 2017

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Perusnäkymä yksisuuntaiseen ANOVAaan

Otoskoon arviointi. Tero Vahlberg

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Väliestimointi (jatkoa) Heliövaara 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

1. Tilastollinen malli??

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

TUTKIMUSOPAS. SPSS-opas

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Yleistetyistä lineaarisista malleista

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

ABHELSINKI UNIVERSITY OF TECHNOLOGY

HAVAITUT JA ODOTETUT FREKVENSSIT

pisteet Frekvenssi frekvenssi Yhteensä

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Aki Taanila VARIANSSIANALYYSI

Sovellettu todennäköisyyslaskenta B

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

riippumattomia ja noudattavat samaa jakaumaa.

Tilastollinen aineisto Luottamusväli

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

805306A Johdatus monimuuttujamenetelmiin, 5 op

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Sovellettu todennäköisyyslaskenta B

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Testit järjestysasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Kvantitatiiviset menetelmät

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Puuttuvan tiedon ongelmat pitkittäistutkimuksissa

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kandidaatintutkielman aineistonhankinta ja analyysi

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Aineistokoko ja voima-analyysi

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Til.yks. x y z

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Tekijä(t) Vuosi Nro. Arviointikriteeri K E? NA

Harjoitus 2: Matlab - Statistical Toolbox

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

MONISTE 2 Kirjoittanut Elina Katainen

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

LIITE 1 VIRHEEN ARVIOINNISTA

Kvantitatiiviset menetelmät

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Jakaumien merkitys biologisissa havaintoaineistoissa: Löytyykö ratkaisu Yleistetyistä Lineaarisista (Seka)Malleista?

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Testejä suhdeasteikollisille muuttujille

Parametrin estimointi ja bootstrap-otanta

Transkriptio:

Biostatistisen päättelyn salaisuudet ja sudenkuopat Eliisa Löyttyniemi, 10.11.2016 Eliisa.loyttyniemi@utu.fi

Tilastollinen päättely kokeellisessa tutkimuksessa Haluamme TODISTAA ideamme tutkimuksessa ja se tehdään tilastollisen päättelyn avulla

Esimerkkejä Voiko liikunnan lisääminen estää lonkkamurtumia? Onko HIIT tehokkaampi kuin MIT? Muuttaako HIIT rasva-arvoja eri tavalla kuin MIT?

Mikä on yhteistä tutkimuksille? Halutaan todistaa jotakin Tämä tehdään matemaattisella mallilla = tilastollinen analyysi Täytyy tietää millä paremmuutta tms voidaan mitata esimerkiksi lonkkamurtuma, rasvaprosentti Täytyy selvittää, mikä muu voi vaikuttaa asiaan esimerkiksi lonkkamurtumissa ravinto, geeniperimä

Tutkimussuunnitelma Tutkimuksen tavoite tärkein kappale APPAC - Aims of the study and study hypothesis - 1. The aim of the study is to compare antibiotic therapy with placebo in the treatment of uncomplicated acute appendicitis to evaluate the role of antibiotic therapy in the resolution of acute uncomplicated appendicitis. 2. The study hypothesis is that antibiotic therapy is necessary in the treatment of acute uncomplicated and that antibiotic therapy is superior to spontaneous resolution (placebo) with the primary endpoint evaluated at ten days after the intervention. Right ventricular metabolic adaptations to high-intensity interval and moderateintensity continuous training in healthy middle-aged men The primary outcome of the study was to determine the effects of HIIT and MICT on RV (Right ventricle) metabolism (RVGU [insulin-stimulated RV glucose uptake] and RVFFAU [fasted state RV free fatty acid uptake]) using PET.

Tutkittavien muuttujien määrä Tutkimussuunnitelmassa pitäisi määritellä päämuuttujaa (primary outcome) ja pari-kolme sekundääri muuttujaa (secondary outcome) Jos tutkittavia muuttujia kymmeniä tai sadoittain ja ne kaikki analysoidaan (ja pahimmillaan raportoidaan vain merkitsevät), on valtava riski, että tulokset eivät ole totta!

Tutkimuksen tavoitteet muodostaa tilastollisen hypoteesin Osoittaa keskiarvojen ero tutkimuksen lopussa? Osoittaa muutosta tutkimuksen aikana? Osoittaa, onko muutos tutkimuksen aikana erilaista eri ryhmissä? Osoittaa, että muutos on samankaltaista eri ryhmissä? 7

Ennen tutkimusta - Otoskoko! Tutkimuksen päämuuttujan ja päätavoitteiden perusteella lasketaan ennen tutkimusta tarvittava otoskoko Yleensä tähdätään 80% tilastolliseen voimakkuuteen = meillä on 80% todennäköisyys löytää haluttu ero MIKÄLI ERO ON TOTTA Jos meillä numeerinen päämuuttuja, niin otoskokolaskentaan tarvitaan arvio tulevasta keskihajonnasta ja eron suuruudesta, joka halutaan havaita Kategorinen päämuuttuja tarvitsee aina moninkertaisen otoskoon numeeriseen muuttujaan verrattuna

Ennen tutkimusta - Randomisointi Satunnaistamisen hyvät periaatteet Toistettava Perusperiaate sama todennäköisyys kaikille! Lohkoissa Stratifiointi

Kerrataan tilastollisen päättelyn idea

Otos => Päätelmät populaatioon Tutkimuksissa käytännössä aina on otos Kuitenkin halutaan todistaa, että päätelmät voidaan yleistää kaikille eli koko populaatioon Määritellään populaatio Tehdään sisäänotto- ja poissulkukriteerien avulla

Kokeellisen tutkimuksen statistiikka Otos 1 Populaatio Otos 2 Päätelmien yleistys - Tunnusluvut - Data - Luottamusvälit -> Populaatio - Analyysit -> Populaatio Epävarmuus - riski, että päätelmät väärin - ero on totta, vaikka tutkimuksessa ei sitä havaita (tai sitä ei ole..) - ero ei ole totta, vaikka se nyt havaittiin

Tunnusluvuista tilastolliseen päättelyyn Keskiarvo ja keskihajonta ovat esimerkkejä tunnusluvuista, jotka kuvaavat sijaintia ja vaihtelua Ei kuitenkaan ole tilastollista päättelyä, jos saat ryhmälle A keskiarvon 125 ja ryhmälle B keskiarvo 135, ja sanot, että ryhmän B keskiarvo oli suurempi Tilastollisessa päättelyssä, joka tehdään keskiarvosta, otetaan huomioon samanaikaisesti havaitut keskiarvot, hajonnat ja otoksen suuruus.

Luottamusväli Jos halutaan tehdä päättelyä populaation keskiarvosta datan perusteella, lasketaan luottamusväli Populaatiokeskiarvon luottamusvälin laskuun vaikuttavat otoskoko, otoksen keskiarvo ja otoksen keskihajonta Jos saadaan keskiarvon 95% luottamusväliksi 123-145. Voidaan sanoa, että havaitun datan perusteella, oikea keskiarvo on 95% todennäköisyydellä 123 ja 145 välillä Näin on päästy otoksesta populaatiotasolle

Data-analyysi esimerkki - miten todistaminen tehdään? Olkoon meillä tutkimus, jossa lumelääke ja oikea lääke Halutaan todistaa, että testattavalla lääkkeellä saadaan korkeampi hemoglobiinin keskiarvo

Koko data kuvassa

Kuvan perusteella jotain vaikutusta on, mutta riittääkö se todistamaan lääkkeen tehon? Tunnusluvut RYHMÄ N Keskiarvo Keskihajonta Median Min Max Luottamusvälin alaraja Luottamusvälin yläraja Placebo 30 121.3 7.1 121.2 105.6 135.3 118.6 124.0 Treatment 30 129.8 6.7 130.6 114.1 144.1 127.3 132.3 Tehdään testi ja todennäköisyys, että tällainen ero havaittaisiin otoksessa vain sattumalta, jos eroa ei ole populaatiotasolla on 0.0001 Voidaan päätellä, että lääke tehoaa keskimäärin

Tuloksen merkitys Jos on suuri otos (ja/tai pieni hajonta), niin tulee tilastollisesti merkitsevä tulos, vaikka tuloksella ei ole kliinistä merkitystä Pieni otos (tai suuri hajonta) voi aiheuttaa sen, että havaitulla erolla on kliininen merkitys, mutta sitä ei pystytä tilastollisesti todistamaan.

Tuloksen epävarmuus Tilastollisiin analyyseihin ja päätelmiin liittyy aina epävarmuus (95% luottamusväli 95% todennäköisyydellä toistettaessa 95% tapauksissa), p-arvo <0.05 tuloksella väitämme, että on ero, vaikka on pieni todennäköisyys, että eroa ei ole

Miten löydän sopivan metodin?

Sinun täytyy ymmärtää data rakenne ja sen ominaisuudet tilastoyksikkö mikä on riippumatonta ja mikä riippuvaa vasteen mitta-asteikko jakauma 21

Tilastolliset testit/mallit Testin valitaan vaikuttaa Millainen muuttuja on se, mitä tutkitaan (=vaste) Muuttujaan vaikuttavien tekijöiden määrä ja millaisia ne ovat Koeasetelma, datassa olevat riippuvuusrakenteet miten data on kerätty Tutkimushypoteesi

Study data Mikä on tutkimuksessa tilastoyksikkö? Subject/potilas/koehenkilö Vai Lihas, silmä, käsi, jalka... Huom: Mittauksia tehdään usein toistuvasti Mittaukset subjektin sisällä riippuvia Subjektit riippumattomia 23

Mitta-asteikot KATEGORISET NUMEERISET Nominaaliasteikko -väri -sukupuoli Frekvenssit ja % Järjestysasteikko -mielipide -kivun määrä Frekvenssit ja % Välimatka-ast. -lämpötila Suhteet ei järkeviä Abs. Asteikko -lukumäärä Suhdeasteikko -yleisin -verenpaine -labrat

Statistinen malli Vaste (response, dependent, output) = kiinnostuksen kohde Voi olla kategorinen tai numeerinen Tekijät (factors,explanatory, independent, input) = millä pyrit selittämään mitä vasteessa tapahtuu Voi olla kategorinen, numeerinen Yksi, monta. Jos monta, niiden välisiä yhteyksiä täytyy myös selvittää Hyvin oleellista kerätä mahdollisimman täydellisesti 25

Tekijä numeerisena vai kategorisena? Usein jatkuva tekijä (esimerkiksi liikunnan määrä) jaetaan 2-4 luokkaan (useimmiten mediaanin tai kvartiilien mukaan) Numeerisen käsittely on tehokkaampaa Mutta silloin tutkitaan esim lineaarista yhteyttä (tai muuta muotoa) Kategorioiden kanssa tulkinta helpompaa? Mutta jos luokittelu väärä, niin yhteyttä ei löydy Joka tutkimuksessa eri luokittelut, jos tehdään datan mukaan BMI on käytössä standardi-luokittelut

Vasteen mitta-asteikko Vasteen eli kiinnostuksen kohteena olevan muuttujan mitta-asteikko määrää sopivan analyysimetodin Vältä vasteen luokittelua analyysiä varten, mikäli numeerinen muuttuja Huom. Tarkista aina, että käyttämäsi ohjelmisto ymmärtää muuttujien mitta-asteikon oikein 27

Vaste (mitattu kerran) Vaste kaksiluokkainen => logistinen regression Vaste moniluokkainen => multinominaalinen regressio Vaste järjestysasteikollinen => ordinal regression Vaste lukumäärä => Poisson regressio Vaste numeerinen ja 1 kpl => esim varianssianalyysit (jos normaalijakauma)

2 riippumatonta ryhmää Numeerinen vaste (1 kpl) Normaalijakauma Ei normaalijakauma Samat varianssit Eri varianssit Muunnos Log, sqrt Kahden riippumattoman otoksen t-testi samavarianssisuusoletuksella Kahden riippumattoman otoksen t-testi erisuurilla variansseilla Muunnos ei auta Wilcoxon rank sum test

Useampi riippumatonta ryhmä Numeerinen vaste (1 kpl) Normaalijakauma Ei normaalijakauma p<0.05 Samat varianssit Yksisuuntainen ANOVA Monivertailut Eri varianssit Welch s test Muunnos Log, sqrt p<0.05 Monivertailut Muunnos ei auta Kruskal-Wallis test

Huom. Jos sinua kiinnostaa kahdennumeerisen muuttujan välinen yhteys, niin vaste/tekijä asetelmaa ei tarvita Pearson korrelaatio (linear association) Spearman korrelaatio (monotonic association) 33

Numeerinen vaste - Jakauma Sinun täytyy selvittää, noudattaako vasteesi likimain normaalijakaumaa Normaalijakaumaoletuksen ollessa voimassa Tuloksena tehokkaimmat analyysit Helppo tehdä monimutkaisia malleja Muista muunnosten mahdollisuus (log, neliöjuuri..) 34

Keskiarvo versus mediaani Histogrammi Akselit! Tutki jakaumaa ryhmissä Poikkeavat havainnot? Poikkeavat Normalisuus testaus 35

Histogrammin pylväiden leveys! 36

Yhden poikkeavan havainnon vaikutus 37

Neliöjuurimuunnoksen jälkeenkaunis normaalijakauma Myös poikkeavan havainnon kanssa ok 38

Vaste Mikä? Millainen muuttuja? Jakauma? Kategorinen: Nominaaliasteikko/kaksiluokkainen/moniluokkainen/järjestysasteikko Numeerinen: suhdeasteikko vai lukumäärä Time to -muuttuja? Monta aikapistettä? Mittaukset ovat riippuvia, se täytyy ottaa mallissa huomioon Monta vastetta? Esim mittauksia eri lihaksista, ovat myös hyvin korreloituneita Yksi mahdollisuus on mallintaa ne samassa mallissa

Tekijät Mitä tekijöitä mukaan malliin? Millaisia ne ovat? Kategorisia, onko tarvetta yhdistää luokkia? Numeerisia milloin luokitella? Onko kontrolliryhmää? Tekijät lähtötilanteessa Jos mitattu tutkimuksen aikana, analyysit monimutkaistuu Tekijöiden väliset yhteydet? Jos voimakasta korrelaatiota => valitse Tekijöiden määrä suhteessa datan määrään Mikä on oleellista? Yhdysvaikutukset?

Sudenkuopat

Yleisimmät virheet Riippuvuutta kahden tai useamman aikapisteen välillä ei ole huomioitu Tämä usein kyllä havaitaan ennen julkaisua Joskus analysoidaan vain tutkimuksen loppumittaus = tehotonta Oletuksia ei ole tarkistettu (joskus huomaa, että keskiarvo ja mediaani eroavat selkeästi, silti käytetty normaalisuuteen perustuvia testejä) Usein ei raportoida molempia, joten mahdoton tarkistaa Oletusten tarkastelua ei usein raportoida

Yleisimmät virheet Poikkeavat havainnot erityisesti pienissä datoissa Jos ei ole kuvia, poikkeavia ei pysty havaitsemaan Analysoidaan kymmeniä muuttujia Raportoidaan vain merkitsevät Vertailut monen ryhmän välillä Monivertailukorjauksia ei tehty Tai tehdään erillisiä kahden ryhmän t-testejä monta

Yleisimmät puutteet Analyysejä ei ole suunniteltu ennalta Julkaisussa ei mainita, onko analyysit suunniteltu kunnolla tutkimussuunnitelmassa tai analyysisuunnitelmassa vai ei

Yleisimmät puutteet YHDYSVAIKUTUKSEN ymmärryksen puute Selostetaan miesten ja naisten analyysit erikseen. Toisilla ero ja toisilla ei => päätellään, että miehet ja naiset ovat erilaisia TÄMÄ ON VIRHEELLINEN TAPA Oikea tapa: pidetään mallissa miehet ja naiset. Lisätään gender*group yhdysvaikutus malliin. Jos tämä termi merkitsevä, se on osoitus erilaisuudesta. Yhdysvaikutus usein heikompi testi, niiden havaitsemiseen tarvitaan suurempi otoskoko.

Analyysin jälkeen Tulosten järkevyys Mallin sopivuus, arviointi Jäännösten jakauma Poikkeavien havaintojen vaikutus

Vinkkejä raportointiin Käytä mean (sd), ei mean ± sd Käytä median (Q1-Q3), jos vino jakauma Käytä keskihajontaa, kun kuvailet dataa (Table 1.) Käytä luottamusvälejä (tai SE), kun kuvailet tuloksia, kun kuvailet keskiarvoa/mediaania

Vinkkejä raportointiin http://www.kttl.helsinki.fi/sarna/osa1.pdf (starting from page 195), in Finnish http://www.equator-network.org/wp- content/uploads/2013/03/sampl-guidelines-3-13- 13.pdf,in English

Hyvä kirja raportointiin

Miten löytää sopiva analyysitapa? Analyysien valintojen apukeino http://www.ats.ucla.edu/stat/mult_pkg/whatstat/ SAS, SPSS-koodin pätkää ja apuja HYVÄ kirjan korvike AtMyPace Statistics (ipad ym)

Tai.. Etsi joukkoosi statistikko, jonka vastuulla on yhteistyössä tehdä Tutkimushypoteesi <-> statistiset hypoteesit Otokokolaskenta Satunnaistaminen Lomakkeiden suunnittelu/tarkistaminen Tietokantarakenteiden optimointi analyyseja varten Analyysien suunnittelu Analyysien suoritus & oletusten tarkastelu Analyysien tulkinta

Vaan miten analysoida dataa, jossa toistettuja mittauksia? Eliisa Löyttyniemi

Todella yleinen tilanne kliinisissä tutkimuksissa on että vasteena on numeerinen, jatkuva vaste, jota on mitattu useassa aikapisteessä. Siis samoilta tilastoyksiköiltä (subjekteilta) on mitattu samaa asiaa toistuvasti (=pitkittäisaineisto). Useimmiten kiinnostuksen kohteena on tutkia, tapahtuuko yli ajan tilastollisesti merkitsevää muutosta. Myös erittäin kiintoisana halutaan nähdä, onko muutos erilaista eri ryhmissä (interventio, sukupuoli tms)

Toistomittaus Useimmiten toistettujen mittausten analyysillä tarkoitetaan tutkimustilannetta, jossa useita mittauksia per henkilö yli ajan Aikapisteet voivat olla tasavälisiä tai aikapisteet voivat jakautua epätasaisesti Optimaalisinta/helpointa on sellainen tutkimus, jossa mitataan mittauksia samoissa aikapisteissä kaikilta subjekteilta (mutta muistakin selvitään) Mutta se voi olla myös: Molemmista käsistä/silmistä tehdään mittaukset Useammasta lihaksesta Luuntiheys useammasta eri kohdasta

Toistomittaus Useampi havainto samasta tilastoyksiköstä (ihminen, hiiri) aiheuttaa sen, että eri aikapisteissä mitatut vasteen arvot ovat korreloituneita, ne eivät siis ole riippumattomia

Toistomittaus VÄÄRIN tehtynä Eri aikapisteiden välinen riippuvuus, korrelaatio pitää ottaa huomioon analyyseissä, muuten analyysitulokset ovat vääriä! On siis TÄYSIN VÄÄRIN analysoida toistomittausdataa esim yksisuuntaisella varianssianalyysillä, jossa aika olisi tekijä. Tämä olettaisi eri aikapisteissä tehdyt mittaukset riippumattomiksi.

Toistomittaus VÄÄRIN tehtynä Toinen tyypillinen huono tapa on analysoida aikapisteet erikseen Jos aikapisteessä 1 ei ole ryhmien välillä tilastollisesti merkitsevää eroa ja aikapisteessä 2 on, niin siitä EI voi päätellä, että ryhmien välillä muutos olisi tilastollisesti merkitsevästi erilaista

Toistomittaus puutteellisesti tehtynä Verrataan ryhmiä vain lopputilanteessa Jätetään muut aikapisteet pois eli ei hyödynnetä koko data Kenties jätetään lähtötilanne huomiotta Saadaan tulokseksi, että yhdessä ryhmässä muutos on merkitsevö ja muissa ei ja tehdään päätelmä tai vihjataan, että tämän perusteella ryhmät ovat erilaisia Ei riitä, erilainen muutos ryhmien välillä todistetaan yhdysvaikutuksen avulla

Muita VANHOJA tapoja Ennen dataa yksinkertaistettiin, jotta päästiin riippuvuudesta eroon Laskettiin aikapisteiden keskiarvo ja analysoitiin sitä ryhmien välillä Tällä analysointi tavalla jää koko aikakäyrän muoto analysoimatta Laskettiin AUC (Area Under Curve) jokaiselle henkilölle ja analysoitiin se Tästä jää erilaiset aikakäyrän muodot havaitsematta, mutta voi olla hyväkin tiivistelmä datasta, erottaa hyvin tasoerot. Tosin AUC arvo ei tarkoita kliinisesti mitään ja kliinisesti merkittävän eroa on mahdoton arvioida

Puuttuva data Toistettujen mittausta data sisältää useimmiten puuttuvaa dataa Ne metodit, joita tänään käsitellään olettavat puuttuvan olevan missing at random tai missing completely at random Eli puuttuva arvo ei saisi korreloida arvoon joka puuttuu.. Esimerkiksi arvo ei saa puuttua sen takia, että subjektin sairaus on pahentunut ja puuttuva arvo olisi sen takia luultavasti koholla/matala Tai subjektit lopettaneet kokonaan tutkimuksen, kun heidän tilansa on pahentunut/parantunut niin paljon Emme tietenkään tiedä puuttuvista arvoista koskaan totuutta, mutta onko olettamus uskottava?

Puuttuva data Nykyisillä metodeilla voi analysoida dataa, jossa on satunnaista puuttuvaa (MAR, MCAR) vasteen arvoissa Vanha metodi, jossa korvattiin loput puuttuvat viimeisellä havaitulla arvolla (LOCF last observation carried forward) on siten turha Huomaa, että joidenkin mielestä termi repeated measures analysis of variance viittaa vanhoihin metodeihin, jossa subjektit, joilla on puuttuvaa dataa vasteen arvoissa, tiputettiin automaattisesti pois HUOM metodit eivät kestä sitä, että tekijän arvo puuttuu. Nämä henkilöt tiputetaan automaattisesti analyyseistä pois. Tämä on tärkeää huomioida analyysejä suunnitellessa.

Toistomittaus Nyt käsitellään metodia, josta käytetään esimerkiksi nimeä Hierechical linear mixed models Hierarkiset lineaariset sekamallit Hierarkinen = datassa voi olla hierarkisia rakenteita (esim toistoja periodin sisällä, tai subjekti pesiytynyt cross-over tutkimuksen jonoon) Lineaarinen = mallissa testaan vain lineaarisia tai polynomisia funktioita, ei siis epälineaarisia funktioita

Toistomittaus Sekamalli = mallissa voi olla sekä kiinteitä, että satunnaisia tekijöitä Kiinteä tekijä = analyysin johtopäätökset vedetään vain tekijässä havaittuihin arvoihin Esim lääkeannokset 50 mg ja 100 mg tutkimuksessa. EI tehdä mitään johtopäätöksiä miten 75 mg voisi vaikuttaa. Sukupuoli, veriryhmä, syövän vakavuusaste Satunnaistekijä = analyysin johtopäätökset vedetään tekijän koko jakaumaan Esim. tutkimuksessa on 6 tutkimuskeskusta. Näiden keskusten uskotaan kuuluvan kaikkien mahdollisten tutkimuskeskuksen populaatioon, joka muodostaa jakauman. Analyysistä tehtävät johtopäätökset halutaan yleistää kaikkiin maailman tutkimuskeskuksiin, eikä vain 6 tutkimuksessa olevaan.

Sekamallista vielä Yleisesti oletetaan subjektin olevan satunnaistekijä (tulokset halutaan yleistää kaikkia subjekteja vastaavaan populaatioon) Tämä siis olettaa, että subjektien tasoerot muodostavat normaalijakauman Mutta haluttaessa mallia voidaan vielä monimutkaistaa, eli laittaa malliin myös subjektille satunnaisen kulmakertoimen (random slope), jossa sallitaan kaikille subjekteille (tai haluttaessa centre slope) erilaiset muutokset Voidaan tutkia, onko tämä tarpeellista datassa Useissa tapauksissa ei tarvita slope-malleja

Toistomittaus - tekijät Useimmiten kategoriset tekijät käsitellään kiinteinä Satunnaistekijöinä subjekti (oletuksena) ja joskus keskus Malliin tulee sisältää kohtuullinen määrä tekijöitä (riippuen tietenkin datan määrästä, mutta harvoin yli 10) Kiinnitä huomiotasi siihen, että tekijät eivät korreloisi keskenään valtavasti (jos korreloi, et tarvitse kuin toisen malliin, koska kuvaavat samaa asiaa) Mieti tarkkaan, minkä muuttujien kanssa lisää vielä tekijän päävaikutuksen kanssa yhdysvaikutuksen ajan kanssa (onko muutos til merk erilainen miehillä kuin naisilla jne). Samat säännöt koskevat numeerisia tekijöitä eli kovariaatteja

Toistomittaus - korrelaatio Aikapisteiden välillä oleva korrelaatio täytyy ottaa mallissa huomioon Yksi tapa arvioida datassa olevaa korrelaatiorakennetta on aluksi tehdä korrelaatiomatriisi Tähän tarvitaan useimmiten datarakenteeksi sellainen data, jossa eri aikapisteet ovat eri sarakkeissa/muuttujissa

Toistomittaus - korrelaatio Korrelaatiomatriisista näet mitä korrelaatiolle tapahtuu, kun aikapisteiden välinen etäisyys kasvaa. Useimmiten A) korrelaatio on aika vakio aikapisteiden välillä = tasakorrelaatiorakenne (CS compound symmetry) B) korrelaatio pienenee mitä suuremmaksi aikaetäisyys tulee (AR autoregressio) C) ei ole oikein mitään rakennetta (UN unstructured) CS sopii ainakin datoihin, jossa muutokset ovat pieniä (luuntiheys)

Toistomittaus - korrelaatio Korrelaation (tai tarkalleen ottaen varianssi-kovarianssimatriisin) mallintaminen vaatii estimoitavia parametrejä. CS rakenne aina 2 AR rakenne v, missä v on aikapisteiden määrä UN rakenne v(v+1)/2, missä v on aikapisteiden määrä Ja koska meitä kiinnostaa enemmän keskiarvokäyrän estimointi, kuin korrelaatio, niin pyritään mahdollisimman yksinkertaiseen korrelaatiorakenteeseen (minkä data sallii). Varsinkin tilanteissa, jossa paljon aikapisteitä!

Korrelaatiorakenteiden vertailu oikeaoppisesti Verrataan monimutkaisempia rakenteita yksinkertaiseen (CS), lasketaan erotus -2RLL arvoille. Tämä noudattaa khin neliö- (chisquare) jakaumaa. Lasketaan sille p-arvo. Vapausasteen määräytyvät estimoitavien parametrien erotuksesta. Jotkut katsovat vain AIC lukua (smaller is better)

Toistomittaus Aika-tekijä Aika-tekijä voidaan käsitellä kategorisena tai numeerisena Kategorisena: voimme vertailla jokaista aikapistettä keskenään. Keskiarvokäyrän muoto voi olla minkälainen vain, miten siksak kuvioinen vain. Jokaisella aikapisteelle tulee estimaatti sovitetusta arvosta (LsMeans=Least Square Means), joista voi tehdä kliinistä tulkintaa Numeerisena: dataan sovitetaan lineaarinen suora (käyttäen datassa ilmaistuja numeroarvoja). Tällöin tulokseksi tulee siis yksi kulmakerroin. Nyt voidaan vain verrata kulmakertoimia esim ryhmien välillä koko tutkimuksen aikana, ei yksittäisiä aikapisteitä

Toistomittaus Aika tekijä Jokaisen aikapisteen estimointi vaatii taas enemmän voimaa (=vapausasteita), mutta tulkinta helppoa. Jos aikapisteitä todella paljon, dataa pitäisi olla paljon, muuten mallin ratkaisua ei pystytä estimoimaan Lineaarista suoraa voi laajentaa toisen asteen yhtälöllä, kolmannen asteen funktiolla jne jos tarkoituksenmukaista Valinta riippuu kliinisestä kysymyksestä Paljon sovitetaan myös ns spline funktioita, jotka mukailevat vielä enemmän dataa. Silloin tulkinta kenties haasteellista

Toistomittaus mallin valinta päävaikutukset VASTE = Sukupuoli + BMI + ryhma + aika + sukupuoli x aika + BMI x aika + ryhma x aika yhdysvaikutukset Yleensä ei lisätä enää sukupuoli x ryhma x aika yms yhdysvaikutuksia (voimattomia testejä ja haastavia tulkintoja, vaativat suuria datoja) Jos mallissa on yhdysvaikutus, niin silloin on pakko pitää molemmat päävaikutuksetkin Osa pudottaa ei-merkitseviä yhdysvaikutuksia pois mallista

Toistomittaus vinkkejä - eroavaisuuksia Analysoi originaaleja arvoja, ei prosenttimuutoksia Prosenttimuutoksilla usein isompi hajonta ja yhdysvaikutuksen tulkinta hankala (=muutoksen muutos eli vastaa kysymykseen kiihtyykö muutos) Osa analysoi vasteena muutoksen. Silloin yhdysvaikutuksessa sama kiihtyvyys tulkinta. Ohjeistuksen mukaan silloin baseline pitää olla mallissa kovariaattina Osa analysoi vasteena originaalit arvot aikapisteissä 1-x ja baseline (aikapiste 0) on mallissa kovariaattina. Tällöin on haastavaa saada selville, onko muutosta tapahtunut 0->1 ja onko se erilaista eri ryhmissä Kaikki nämä siis analysoivat samaa dataa, mutta tulkinta on erilaista!

Toistomittaus - vinkkejä Itse analysoin aina kaikki aikapisteet 0 - x time -muuttujassa. Yhdysvaikutuksen tulkinta selkeä: onko keskimääräinen muutos erilaista ryhmien välillä. Kontrasteilla saan selville, minkä aikapisteiden välillä ero on Myös ensimmäisen ja toisen mittauksen välillä Osa analysoi aikapisteet 1-x ja pitävät lähtötilannetta kovariaattina Vaikea saada 0-1 vertailua Joskus käyttökelpoinen, tällöin ryhmän päävaikutus kuvaa jo kokonaan intervention vaikutusta

Raportoinnista Normaalijakauman tarkistus (jäännöksistä). Normal distribution assumption was checked from studentized residuals. XX was analysed using hierachical linear mixed model where gender, time (fixed effects) and center (random) were factors in the model. Also, gender x time interaction was included in the model to examine whether mean change over time was different between male and females. Compound symmetry covariance structure was used for repeated measures. Data included some missing values but they were assumed to be completely at random.

Datan rakenne Kaikki ohjelmistot (JMP, SPSS, SAS) vaativat datarakenteen, jossa toistomittaukset ovat allekkain useammalla rivillä. Toisena muuttujana Aika, jolla määritellään aikapisteet. Tämä vaatii usein datan transponoinnin (=kääntämisen tähän muotoon). Huom. Jos käsittelevät aikapisteitä numeerisena (slope-malli), niin numeroilla (aikapisteiden etäisyyksillä) on todellakin väliä.

Esimerkki data Vasteena PTH (Parathormoni eli lisäkilpirauhashormoni) Tarvittiin logaritmimuunnos, jotta normaalistijakautunut Tutkimuksessa 60 henkilöä Kolme ryhmää, eri interventioita (A, B, C) Aikapisteet 0, 1 viikko, 12 viiikkoa Tutkimuskysymys: Eroaako ryhmien muutokset 0-12viikon aikana?

Datasta lasketut keskiarvot logaritmiasteikolla (A=sin, B=pun, C=vihr)

Tulokset (JMP UN-rakenne)

Residuaalin saa dataan uudeksi muuttujaksi

Fit Model- Save columns-residuals

SAS PROC MIXED DATA=opetus.toisto plots=residualpanel; WHERE substr(var_name, 1, 4)='pth' ; CLASS nro ryhma time; MODEL ln_col1= ryhma time ryhma*time/ddfm=kr; REPEATED time/subject=nro TYPE=CS; LSMEANS ryhma /CL DIFF ADJUST=TUKEY; LSMEANS ryhma*time/cl DIFF; LSMEANS time /CL DIFF;

SAS

SAS interaktioiden tulos!

SAS: exp(estimate) + exp(lower),exp(upper)

SAS: esim A-ryhmän 0->1w

SAS: time main effect contrast Mutta huomaa, että nyt time-efektin päävaikutusta ei ole kovin järkevää raportoida, kun ryhmien muutokset ovat erilaisia yli ajan

Raportointi The mean changes from baseline to 12 weeks were statistically significantly different between the treatment groups (p=0.016) whereas treatment group C differed from A and B between time points 0 and 1 week (C vs A p=0.0041, C vs B p=0.0047). Toki on mahdollista raportoida ensin koko ajan yhdysvaikutukset ryhmien välillä (A vs B, A vs C, B vs C) ja vasta sitten mennä yksittäisiin aikapisteisiin.

Summary Ottamalla huomioon samoista henkilöistä tehtävien mittausten välinen riippuvuus saadaan aikaiseksi voimakkaita testejä, koska subjektien sisäinen vaihtelu aina pienempää kuin subjektien välinen vaihtelu. Sen takia näihin tutkimuksiin tarvitaan huomattavasti pienempi otoskoko Monimutkaisissa otoskokolaskuissa voidaan myös optimoida aikapisteiden määrää ja etäisyyttä (jos korkea korrelaatio, aikapisteet tuottavat suhteellisen vähän lisäinformaatiota).

KIITOS KIITOS

JMP