Biostatistisen päättelyn salaisuudet ja sudenkuopat. Eliisa Löyttyniemi,

Transkriptio

1 Biostatistisen päättelyn salaisuudet ja sudenkuopat Eliisa Löyttyniemi,

2 Tilastollinen päättely kokeellisessa tutkimuksessa Haluamme TODISTAA ideamme tutkimuksessa ja se tehdään tilastollisen päättelyn avulla

3 Esimerkkejä Voiko liikunnan lisääminen estää lonkkamurtumia? Onko HIIT tehokkaampi kuin MIT? Muuttaako HIIT rasva-arvoja eri tavalla kuin MIT?

4 Mikä on yhteistä tutkimuksille? Halutaan todistaa jotakin Tämä tehdään matemaattisella mallilla = tilastollinen analyysi Täytyy tietää millä paremmuutta tms voidaan mitata esimerkiksi lonkkamurtuma, rasvaprosentti Täytyy selvittää, mikä muu voi vaikuttaa asiaan esimerkiksi lonkkamurtumissa ravinto, geeniperimä

5 Tutkimussuunnitelma Tutkimuksen tavoite tärkein kappale APPAC - Aims of the study and study hypothesis - 1. The aim of the study is to compare antibiotic therapy with placebo in the treatment of uncomplicated acute appendicitis to evaluate the role of antibiotic therapy in the resolution of acute uncomplicated appendicitis. 2. The study hypothesis is that antibiotic therapy is necessary in the treatment of acute uncomplicated and that antibiotic therapy is superior to spontaneous resolution (placebo) with the primary endpoint evaluated at ten days after the intervention. Right ventricular metabolic adaptations to high-intensity interval and moderateintensity continuous training in healthy middle-aged men The primary outcome of the study was to determine the effects of HIIT and MICT on RV (Right ventricle) metabolism (RVGU [insulin-stimulated RV glucose uptake] and RVFFAU [fasted state RV free fatty acid uptake]) using PET.

6 Tutkittavien muuttujien määrä Tutkimussuunnitelmassa pitäisi määritellä päämuuttujaa (primary outcome) ja pari-kolme sekundääri muuttujaa (secondary outcome) Jos tutkittavia muuttujia kymmeniä tai sadoittain ja ne kaikki analysoidaan (ja pahimmillaan raportoidaan vain merkitsevät), on valtava riski, että tulokset eivät ole totta!

7 Tutkimuksen tavoitteet muodostaa tilastollisen hypoteesin Osoittaa keskiarvojen ero tutkimuksen lopussa? Osoittaa muutosta tutkimuksen aikana? Osoittaa, onko muutos tutkimuksen aikana erilaista eri ryhmissä? Osoittaa, että muutos on samankaltaista eri ryhmissä? 7

8 Ennen tutkimusta - Otoskoko! Tutkimuksen päämuuttujan ja päätavoitteiden perusteella lasketaan ennen tutkimusta tarvittava otoskoko Yleensä tähdätään 80% tilastolliseen voimakkuuteen = meillä on 80% todennäköisyys löytää haluttu ero MIKÄLI ERO ON TOTTA Jos meillä numeerinen päämuuttuja, niin otoskokolaskentaan tarvitaan arvio tulevasta keskihajonnasta ja eron suuruudesta, joka halutaan havaita Kategorinen päämuuttuja tarvitsee aina moninkertaisen otoskoon numeeriseen muuttujaan verrattuna

9 Ennen tutkimusta - Randomisointi Satunnaistamisen hyvät periaatteet Toistettava Perusperiaate sama todennäköisyys kaikille! Lohkoissa Stratifiointi

10 Kerrataan tilastollisen päättelyn idea

11 Otos => Päätelmät populaatioon Tutkimuksissa käytännössä aina on otos Kuitenkin halutaan todistaa, että päätelmät voidaan yleistää kaikille eli koko populaatioon Määritellään populaatio Tehdään sisäänotto- ja poissulkukriteerien avulla

12 Kokeellisen tutkimuksen statistiikka Otos 1 Populaatio Otos 2 Päätelmien yleistys - Tunnusluvut - Data - Luottamusvälit -> Populaatio - Analyysit -> Populaatio Epävarmuus - riski, että päätelmät väärin - ero on totta, vaikka tutkimuksessa ei sitä havaita (tai sitä ei ole..) - ero ei ole totta, vaikka se nyt havaittiin

13 Tunnusluvuista tilastolliseen päättelyyn Keskiarvo ja keskihajonta ovat esimerkkejä tunnusluvuista, jotka kuvaavat sijaintia ja vaihtelua Ei kuitenkaan ole tilastollista päättelyä, jos saat ryhmälle A keskiarvon 125 ja ryhmälle B keskiarvo 135, ja sanot, että ryhmän B keskiarvo oli suurempi Tilastollisessa päättelyssä, joka tehdään keskiarvosta, otetaan huomioon samanaikaisesti havaitut keskiarvot, hajonnat ja otoksen suuruus.

14 Luottamusväli Jos halutaan tehdä päättelyä populaation keskiarvosta datan perusteella, lasketaan luottamusväli Populaatiokeskiarvon luottamusvälin laskuun vaikuttavat otoskoko, otoksen keskiarvo ja otoksen keskihajonta Jos saadaan keskiarvon 95% luottamusväliksi Voidaan sanoa, että havaitun datan perusteella, oikea keskiarvo on 95% todennäköisyydellä 123 ja 145 välillä Näin on päästy otoksesta populaatiotasolle

15 Data-analyysi esimerkki - miten todistaminen tehdään? Olkoon meillä tutkimus, jossa lumelääke ja oikea lääke Halutaan todistaa, että testattavalla lääkkeellä saadaan korkeampi hemoglobiinin keskiarvo

16 Koko data kuvassa

17 Kuvan perusteella jotain vaikutusta on, mutta riittääkö se todistamaan lääkkeen tehon? Tunnusluvut RYHMÄ N Keskiarvo Keskihajonta Median Min Max Luottamusvälin alaraja Luottamusvälin yläraja Placebo Treatment Tehdään testi ja todennäköisyys, että tällainen ero havaittaisiin otoksessa vain sattumalta, jos eroa ei ole populaatiotasolla on Voidaan päätellä, että lääke tehoaa keskimäärin

18 Tuloksen merkitys Jos on suuri otos (ja/tai pieni hajonta), niin tulee tilastollisesti merkitsevä tulos, vaikka tuloksella ei ole kliinistä merkitystä Pieni otos (tai suuri hajonta) voi aiheuttaa sen, että havaitulla erolla on kliininen merkitys, mutta sitä ei pystytä tilastollisesti todistamaan.

19 Tuloksen epävarmuus Tilastollisiin analyyseihin ja päätelmiin liittyy aina epävarmuus (95% luottamusväli 95% todennäköisyydellä toistettaessa 95% tapauksissa), p-arvo <0.05 tuloksella väitämme, että on ero, vaikka on pieni todennäköisyys, että eroa ei ole

20 Miten löydän sopivan metodin?

21 Sinun täytyy ymmärtää data rakenne ja sen ominaisuudet tilastoyksikkö mikä on riippumatonta ja mikä riippuvaa vasteen mitta-asteikko jakauma 21

22 Tilastolliset testit/mallit Testin valitaan vaikuttaa Millainen muuttuja on se, mitä tutkitaan (=vaste) Muuttujaan vaikuttavien tekijöiden määrä ja millaisia ne ovat Koeasetelma, datassa olevat riippuvuusrakenteet miten data on kerätty Tutkimushypoteesi

23 Study data Mikä on tutkimuksessa tilastoyksikkö? Subject/potilas/koehenkilö Vai Lihas, silmä, käsi, jalka... Huom: Mittauksia tehdään usein toistuvasti Mittaukset subjektin sisällä riippuvia Subjektit riippumattomia 23

24 Mitta-asteikot KATEGORISET NUMEERISET Nominaaliasteikko -väri -sukupuoli Frekvenssit ja % Järjestysasteikko -mielipide -kivun määrä Frekvenssit ja % Välimatka-ast. -lämpötila Suhteet ei järkeviä Abs. Asteikko -lukumäärä Suhdeasteikko -yleisin -verenpaine -labrat

25 Statistinen malli Vaste (response, dependent, output) = kiinnostuksen kohde Voi olla kategorinen tai numeerinen Tekijät (factors,explanatory, independent, input) = millä pyrit selittämään mitä vasteessa tapahtuu Voi olla kategorinen, numeerinen Yksi, monta. Jos monta, niiden välisiä yhteyksiä täytyy myös selvittää Hyvin oleellista kerätä mahdollisimman täydellisesti 25

26 Tekijä numeerisena vai kategorisena? Usein jatkuva tekijä (esimerkiksi liikunnan määrä) jaetaan 2-4 luokkaan (useimmiten mediaanin tai kvartiilien mukaan) Numeerisen käsittely on tehokkaampaa Mutta silloin tutkitaan esim lineaarista yhteyttä (tai muuta muotoa) Kategorioiden kanssa tulkinta helpompaa? Mutta jos luokittelu väärä, niin yhteyttä ei löydy Joka tutkimuksessa eri luokittelut, jos tehdään datan mukaan BMI on käytössä standardi-luokittelut

27 Vasteen mitta-asteikko Vasteen eli kiinnostuksen kohteena olevan muuttujan mitta-asteikko määrää sopivan analyysimetodin Vältä vasteen luokittelua analyysiä varten, mikäli numeerinen muuttuja Huom. Tarkista aina, että käyttämäsi ohjelmisto ymmärtää muuttujien mitta-asteikon oikein 27

28

29 Vaste (mitattu kerran) Vaste kaksiluokkainen => logistinen regression Vaste moniluokkainen => multinominaalinen regressio Vaste järjestysasteikollinen => ordinal regression Vaste lukumäärä => Poisson regressio Vaste numeerinen ja 1 kpl => esim varianssianalyysit (jos normaalijakauma)

30

31 2 riippumatonta ryhmää Numeerinen vaste (1 kpl) Normaalijakauma Ei normaalijakauma Samat varianssit Eri varianssit Muunnos Log, sqrt Kahden riippumattoman otoksen t-testi samavarianssisuusoletuksella Kahden riippumattoman otoksen t-testi erisuurilla variansseilla Muunnos ei auta Wilcoxon rank sum test

32 Useampi riippumatonta ryhmä Numeerinen vaste (1 kpl) Normaalijakauma Ei normaalijakauma p<0.05 Samat varianssit Yksisuuntainen ANOVA Monivertailut Eri varianssit Welch s test Muunnos Log, sqrt p<0.05 Monivertailut Muunnos ei auta Kruskal-Wallis test

33 Huom. Jos sinua kiinnostaa kahdennumeerisen muuttujan välinen yhteys, niin vaste/tekijä asetelmaa ei tarvita Pearson korrelaatio (linear association) Spearman korrelaatio (monotonic association) 33

34 Numeerinen vaste - Jakauma Sinun täytyy selvittää, noudattaako vasteesi likimain normaalijakaumaa Normaalijakaumaoletuksen ollessa voimassa Tuloksena tehokkaimmat analyysit Helppo tehdä monimutkaisia malleja Muista muunnosten mahdollisuus (log, neliöjuuri..) 34

35 Keskiarvo versus mediaani Histogrammi Akselit! Tutki jakaumaa ryhmissä Poikkeavat havainnot? Poikkeavat Normalisuus testaus 35

36 Histogrammin pylväiden leveys! 36

37 Yhden poikkeavan havainnon vaikutus 37

38 Neliöjuurimuunnoksen jälkeenkaunis normaalijakauma Myös poikkeavan havainnon kanssa ok 38

39 Vaste Mikä? Millainen muuttuja? Jakauma? Kategorinen: Nominaaliasteikko/kaksiluokkainen/moniluokkainen/järjestysasteikko Numeerinen: suhdeasteikko vai lukumäärä Time to -muuttuja? Monta aikapistettä? Mittaukset ovat riippuvia, se täytyy ottaa mallissa huomioon Monta vastetta? Esim mittauksia eri lihaksista, ovat myös hyvin korreloituneita Yksi mahdollisuus on mallintaa ne samassa mallissa

40 Tekijät Mitä tekijöitä mukaan malliin? Millaisia ne ovat? Kategorisia, onko tarvetta yhdistää luokkia? Numeerisia milloin luokitella? Onko kontrolliryhmää? Tekijät lähtötilanteessa Jos mitattu tutkimuksen aikana, analyysit monimutkaistuu Tekijöiden väliset yhteydet? Jos voimakasta korrelaatiota => valitse Tekijöiden määrä suhteessa datan määrään Mikä on oleellista? Yhdysvaikutukset?

41 Sudenkuopat

42 Yleisimmät virheet Riippuvuutta kahden tai useamman aikapisteen välillä ei ole huomioitu Tämä usein kyllä havaitaan ennen julkaisua Joskus analysoidaan vain tutkimuksen loppumittaus = tehotonta Oletuksia ei ole tarkistettu (joskus huomaa, että keskiarvo ja mediaani eroavat selkeästi, silti käytetty normaalisuuteen perustuvia testejä) Usein ei raportoida molempia, joten mahdoton tarkistaa Oletusten tarkastelua ei usein raportoida

43 Yleisimmät virheet Poikkeavat havainnot erityisesti pienissä datoissa Jos ei ole kuvia, poikkeavia ei pysty havaitsemaan Analysoidaan kymmeniä muuttujia Raportoidaan vain merkitsevät Vertailut monen ryhmän välillä Monivertailukorjauksia ei tehty Tai tehdään erillisiä kahden ryhmän t-testejä monta

44 Yleisimmät puutteet Analyysejä ei ole suunniteltu ennalta Julkaisussa ei mainita, onko analyysit suunniteltu kunnolla tutkimussuunnitelmassa tai analyysisuunnitelmassa vai ei

45 Yleisimmät puutteet YHDYSVAIKUTUKSEN ymmärryksen puute Selostetaan miesten ja naisten analyysit erikseen. Toisilla ero ja toisilla ei => päätellään, että miehet ja naiset ovat erilaisia TÄMÄ ON VIRHEELLINEN TAPA Oikea tapa: pidetään mallissa miehet ja naiset. Lisätään gender*group yhdysvaikutus malliin. Jos tämä termi merkitsevä, se on osoitus erilaisuudesta. Yhdysvaikutus usein heikompi testi, niiden havaitsemiseen tarvitaan suurempi otoskoko.

46 Analyysin jälkeen Tulosten järkevyys Mallin sopivuus, arviointi Jäännösten jakauma Poikkeavien havaintojen vaikutus

47 Vinkkejä raportointiin Käytä mean (sd), ei mean ± sd Käytä median (Q1-Q3), jos vino jakauma Käytä keskihajontaa, kun kuvailet dataa (Table 1.) Käytä luottamusvälejä (tai SE), kun kuvailet tuloksia, kun kuvailet keskiarvoa/mediaania

48 Vinkkejä raportointiin (starting from page 195), in Finnish content/uploads/2013/03/sampl-guidelines pdf,in English

49 Hyvä kirja raportointiin

50 Miten löytää sopiva analyysitapa? Analyysien valintojen apukeino SAS, SPSS-koodin pätkää ja apuja HYVÄ kirjan korvike AtMyPace Statistics (ipad ym)

51 Tai.. Etsi joukkoosi statistikko, jonka vastuulla on yhteistyössä tehdä Tutkimushypoteesi <-> statistiset hypoteesit Otokokolaskenta Satunnaistaminen Lomakkeiden suunnittelu/tarkistaminen Tietokantarakenteiden optimointi analyyseja varten Analyysien suunnittelu Analyysien suoritus & oletusten tarkastelu Analyysien tulkinta

52 Vaan miten analysoida dataa, jossa toistettuja mittauksia? Eliisa Löyttyniemi

53 Todella yleinen tilanne kliinisissä tutkimuksissa on että vasteena on numeerinen, jatkuva vaste, jota on mitattu useassa aikapisteessä. Siis samoilta tilastoyksiköiltä (subjekteilta) on mitattu samaa asiaa toistuvasti (=pitkittäisaineisto). Useimmiten kiinnostuksen kohteena on tutkia, tapahtuuko yli ajan tilastollisesti merkitsevää muutosta. Myös erittäin kiintoisana halutaan nähdä, onko muutos erilaista eri ryhmissä (interventio, sukupuoli tms)

54 Toistomittaus Useimmiten toistettujen mittausten analyysillä tarkoitetaan tutkimustilannetta, jossa useita mittauksia per henkilö yli ajan Aikapisteet voivat olla tasavälisiä tai aikapisteet voivat jakautua epätasaisesti Optimaalisinta/helpointa on sellainen tutkimus, jossa mitataan mittauksia samoissa aikapisteissä kaikilta subjekteilta (mutta muistakin selvitään) Mutta se voi olla myös: Molemmista käsistä/silmistä tehdään mittaukset Useammasta lihaksesta Luuntiheys useammasta eri kohdasta

55 Toistomittaus Useampi havainto samasta tilastoyksiköstä (ihminen, hiiri) aiheuttaa sen, että eri aikapisteissä mitatut vasteen arvot ovat korreloituneita, ne eivät siis ole riippumattomia

56 Toistomittaus VÄÄRIN tehtynä Eri aikapisteiden välinen riippuvuus, korrelaatio pitää ottaa huomioon analyyseissä, muuten analyysitulokset ovat vääriä! On siis TÄYSIN VÄÄRIN analysoida toistomittausdataa esim yksisuuntaisella varianssianalyysillä, jossa aika olisi tekijä. Tämä olettaisi eri aikapisteissä tehdyt mittaukset riippumattomiksi.

57 Toistomittaus VÄÄRIN tehtynä Toinen tyypillinen huono tapa on analysoida aikapisteet erikseen Jos aikapisteessä 1 ei ole ryhmien välillä tilastollisesti merkitsevää eroa ja aikapisteessä 2 on, niin siitä EI voi päätellä, että ryhmien välillä muutos olisi tilastollisesti merkitsevästi erilaista

58 Toistomittaus puutteellisesti tehtynä Verrataan ryhmiä vain lopputilanteessa Jätetään muut aikapisteet pois eli ei hyödynnetä koko data Kenties jätetään lähtötilanne huomiotta Saadaan tulokseksi, että yhdessä ryhmässä muutos on merkitsevö ja muissa ei ja tehdään päätelmä tai vihjataan, että tämän perusteella ryhmät ovat erilaisia Ei riitä, erilainen muutos ryhmien välillä todistetaan yhdysvaikutuksen avulla

59 Muita VANHOJA tapoja Ennen dataa yksinkertaistettiin, jotta päästiin riippuvuudesta eroon Laskettiin aikapisteiden keskiarvo ja analysoitiin sitä ryhmien välillä Tällä analysointi tavalla jää koko aikakäyrän muoto analysoimatta Laskettiin AUC (Area Under Curve) jokaiselle henkilölle ja analysoitiin se Tästä jää erilaiset aikakäyrän muodot havaitsematta, mutta voi olla hyväkin tiivistelmä datasta, erottaa hyvin tasoerot. Tosin AUC arvo ei tarkoita kliinisesti mitään ja kliinisesti merkittävän eroa on mahdoton arvioida

60 Puuttuva data Toistettujen mittausta data sisältää useimmiten puuttuvaa dataa Ne metodit, joita tänään käsitellään olettavat puuttuvan olevan missing at random tai missing completely at random Eli puuttuva arvo ei saisi korreloida arvoon joka puuttuu.. Esimerkiksi arvo ei saa puuttua sen takia, että subjektin sairaus on pahentunut ja puuttuva arvo olisi sen takia luultavasti koholla/matala Tai subjektit lopettaneet kokonaan tutkimuksen, kun heidän tilansa on pahentunut/parantunut niin paljon Emme tietenkään tiedä puuttuvista arvoista koskaan totuutta, mutta onko olettamus uskottava?

61 Puuttuva data Nykyisillä metodeilla voi analysoida dataa, jossa on satunnaista puuttuvaa (MAR, MCAR) vasteen arvoissa Vanha metodi, jossa korvattiin loput puuttuvat viimeisellä havaitulla arvolla (LOCF last observation carried forward) on siten turha Huomaa, että joidenkin mielestä termi repeated measures analysis of variance viittaa vanhoihin metodeihin, jossa subjektit, joilla on puuttuvaa dataa vasteen arvoissa, tiputettiin automaattisesti pois HUOM metodit eivät kestä sitä, että tekijän arvo puuttuu. Nämä henkilöt tiputetaan automaattisesti analyyseistä pois. Tämä on tärkeää huomioida analyysejä suunnitellessa.

62 Toistomittaus Nyt käsitellään metodia, josta käytetään esimerkiksi nimeä Hierechical linear mixed models Hierarkiset lineaariset sekamallit Hierarkinen = datassa voi olla hierarkisia rakenteita (esim toistoja periodin sisällä, tai subjekti pesiytynyt cross-over tutkimuksen jonoon) Lineaarinen = mallissa testaan vain lineaarisia tai polynomisia funktioita, ei siis epälineaarisia funktioita

63 Toistomittaus Sekamalli = mallissa voi olla sekä kiinteitä, että satunnaisia tekijöitä Kiinteä tekijä = analyysin johtopäätökset vedetään vain tekijässä havaittuihin arvoihin Esim lääkeannokset 50 mg ja 100 mg tutkimuksessa. EI tehdä mitään johtopäätöksiä miten 75 mg voisi vaikuttaa. Sukupuoli, veriryhmä, syövän vakavuusaste Satunnaistekijä = analyysin johtopäätökset vedetään tekijän koko jakaumaan Esim. tutkimuksessa on 6 tutkimuskeskusta. Näiden keskusten uskotaan kuuluvan kaikkien mahdollisten tutkimuskeskuksen populaatioon, joka muodostaa jakauman. Analyysistä tehtävät johtopäätökset halutaan yleistää kaikkiin maailman tutkimuskeskuksiin, eikä vain 6 tutkimuksessa olevaan.

64 Sekamallista vielä Yleisesti oletetaan subjektin olevan satunnaistekijä (tulokset halutaan yleistää kaikkia subjekteja vastaavaan populaatioon) Tämä siis olettaa, että subjektien tasoerot muodostavat normaalijakauman Mutta haluttaessa mallia voidaan vielä monimutkaistaa, eli laittaa malliin myös subjektille satunnaisen kulmakertoimen (random slope), jossa sallitaan kaikille subjekteille (tai haluttaessa centre slope) erilaiset muutokset Voidaan tutkia, onko tämä tarpeellista datassa Useissa tapauksissa ei tarvita slope-malleja

65 Toistomittaus - tekijät Useimmiten kategoriset tekijät käsitellään kiinteinä Satunnaistekijöinä subjekti (oletuksena) ja joskus keskus Malliin tulee sisältää kohtuullinen määrä tekijöitä (riippuen tietenkin datan määrästä, mutta harvoin yli 10) Kiinnitä huomiotasi siihen, että tekijät eivät korreloisi keskenään valtavasti (jos korreloi, et tarvitse kuin toisen malliin, koska kuvaavat samaa asiaa) Mieti tarkkaan, minkä muuttujien kanssa lisää vielä tekijän päävaikutuksen kanssa yhdysvaikutuksen ajan kanssa (onko muutos til merk erilainen miehillä kuin naisilla jne). Samat säännöt koskevat numeerisia tekijöitä eli kovariaatteja

66 Toistomittaus - korrelaatio Aikapisteiden välillä oleva korrelaatio täytyy ottaa mallissa huomioon Yksi tapa arvioida datassa olevaa korrelaatiorakennetta on aluksi tehdä korrelaatiomatriisi Tähän tarvitaan useimmiten datarakenteeksi sellainen data, jossa eri aikapisteet ovat eri sarakkeissa/muuttujissa

67 Toistomittaus - korrelaatio Korrelaatiomatriisista näet mitä korrelaatiolle tapahtuu, kun aikapisteiden välinen etäisyys kasvaa. Useimmiten A) korrelaatio on aika vakio aikapisteiden välillä = tasakorrelaatiorakenne (CS compound symmetry) B) korrelaatio pienenee mitä suuremmaksi aikaetäisyys tulee (AR autoregressio) C) ei ole oikein mitään rakennetta (UN unstructured) CS sopii ainakin datoihin, jossa muutokset ovat pieniä (luuntiheys)

68 Toistomittaus - korrelaatio Korrelaation (tai tarkalleen ottaen varianssi-kovarianssimatriisin) mallintaminen vaatii estimoitavia parametrejä. CS rakenne aina 2 AR rakenne v, missä v on aikapisteiden määrä UN rakenne v(v+1)/2, missä v on aikapisteiden määrä Ja koska meitä kiinnostaa enemmän keskiarvokäyrän estimointi, kuin korrelaatio, niin pyritään mahdollisimman yksinkertaiseen korrelaatiorakenteeseen (minkä data sallii). Varsinkin tilanteissa, jossa paljon aikapisteitä!

69 Korrelaatiorakenteiden vertailu oikeaoppisesti Verrataan monimutkaisempia rakenteita yksinkertaiseen (CS), lasketaan erotus -2RLL arvoille. Tämä noudattaa khin neliö- (chisquare) jakaumaa. Lasketaan sille p-arvo. Vapausasteen määräytyvät estimoitavien parametrien erotuksesta. Jotkut katsovat vain AIC lukua (smaller is better)

70 Toistomittaus Aika-tekijä Aika-tekijä voidaan käsitellä kategorisena tai numeerisena Kategorisena: voimme vertailla jokaista aikapistettä keskenään. Keskiarvokäyrän muoto voi olla minkälainen vain, miten siksak kuvioinen vain. Jokaisella aikapisteelle tulee estimaatti sovitetusta arvosta (LsMeans=Least Square Means), joista voi tehdä kliinistä tulkintaa Numeerisena: dataan sovitetaan lineaarinen suora (käyttäen datassa ilmaistuja numeroarvoja). Tällöin tulokseksi tulee siis yksi kulmakerroin. Nyt voidaan vain verrata kulmakertoimia esim ryhmien välillä koko tutkimuksen aikana, ei yksittäisiä aikapisteitä

71 Toistomittaus Aika tekijä Jokaisen aikapisteen estimointi vaatii taas enemmän voimaa (=vapausasteita), mutta tulkinta helppoa. Jos aikapisteitä todella paljon, dataa pitäisi olla paljon, muuten mallin ratkaisua ei pystytä estimoimaan Lineaarista suoraa voi laajentaa toisen asteen yhtälöllä, kolmannen asteen funktiolla jne jos tarkoituksenmukaista Valinta riippuu kliinisestä kysymyksestä Paljon sovitetaan myös ns spline funktioita, jotka mukailevat vielä enemmän dataa. Silloin tulkinta kenties haasteellista

72 Toistomittaus mallin valinta päävaikutukset VASTE = Sukupuoli + BMI + ryhma + aika + sukupuoli x aika + BMI x aika + ryhma x aika yhdysvaikutukset Yleensä ei lisätä enää sukupuoli x ryhma x aika yms yhdysvaikutuksia (voimattomia testejä ja haastavia tulkintoja, vaativat suuria datoja) Jos mallissa on yhdysvaikutus, niin silloin on pakko pitää molemmat päävaikutuksetkin Osa pudottaa ei-merkitseviä yhdysvaikutuksia pois mallista

73 Toistomittaus vinkkejä - eroavaisuuksia Analysoi originaaleja arvoja, ei prosenttimuutoksia Prosenttimuutoksilla usein isompi hajonta ja yhdysvaikutuksen tulkinta hankala (=muutoksen muutos eli vastaa kysymykseen kiihtyykö muutos) Osa analysoi vasteena muutoksen. Silloin yhdysvaikutuksessa sama kiihtyvyys tulkinta. Ohjeistuksen mukaan silloin baseline pitää olla mallissa kovariaattina Osa analysoi vasteena originaalit arvot aikapisteissä 1-x ja baseline (aikapiste 0) on mallissa kovariaattina. Tällöin on haastavaa saada selville, onko muutosta tapahtunut 0->1 ja onko se erilaista eri ryhmissä Kaikki nämä siis analysoivat samaa dataa, mutta tulkinta on erilaista!

74 Toistomittaus - vinkkejä Itse analysoin aina kaikki aikapisteet 0 - x time -muuttujassa. Yhdysvaikutuksen tulkinta selkeä: onko keskimääräinen muutos erilaista ryhmien välillä. Kontrasteilla saan selville, minkä aikapisteiden välillä ero on Myös ensimmäisen ja toisen mittauksen välillä Osa analysoi aikapisteet 1-x ja pitävät lähtötilannetta kovariaattina Vaikea saada 0-1 vertailua Joskus käyttökelpoinen, tällöin ryhmän päävaikutus kuvaa jo kokonaan intervention vaikutusta

75 Raportoinnista Normaalijakauman tarkistus (jäännöksistä). Normal distribution assumption was checked from studentized residuals. XX was analysed using hierachical linear mixed model where gender, time (fixed effects) and center (random) were factors in the model. Also, gender x time interaction was included in the model to examine whether mean change over time was different between male and females. Compound symmetry covariance structure was used for repeated measures. Data included some missing values but they were assumed to be completely at random.

76 Datan rakenne Kaikki ohjelmistot (JMP, SPSS, SAS) vaativat datarakenteen, jossa toistomittaukset ovat allekkain useammalla rivillä. Toisena muuttujana Aika, jolla määritellään aikapisteet. Tämä vaatii usein datan transponoinnin (=kääntämisen tähän muotoon). Huom. Jos käsittelevät aikapisteitä numeerisena (slope-malli), niin numeroilla (aikapisteiden etäisyyksillä) on todellakin väliä.

77 Esimerkki data Vasteena PTH (Parathormoni eli lisäkilpirauhashormoni) Tarvittiin logaritmimuunnos, jotta normaalistijakautunut Tutkimuksessa 60 henkilöä Kolme ryhmää, eri interventioita (A, B, C) Aikapisteet 0, 1 viikko, 12 viiikkoa Tutkimuskysymys: Eroaako ryhmien muutokset 0-12viikon aikana?

78 Datasta lasketut keskiarvot logaritmiasteikolla (A=sin, B=pun, C=vihr)

79 Tulokset (JMP UN-rakenne)

80

81

82 Residuaalin saa dataan uudeksi muuttujaksi

83 Fit Model- Save columns-residuals

84 SAS PROC MIXED DATA=opetus.toisto plots=residualpanel; WHERE substr(var_name, 1, 4)='pth' ; CLASS nro ryhma time; MODEL ln_col1= ryhma time ryhma*time/ddfm=kr; REPEATED time/subject=nro TYPE=CS; LSMEANS ryhma /CL DIFF ADJUST=TUKEY; LSMEANS ryhma*time/cl DIFF; LSMEANS time /CL DIFF;

85

86

87 SAS

88 SAS interaktioiden tulos!

89 SAS: exp(estimate) + exp(lower),exp(upper)

90 SAS: esim A-ryhmän 0->1w

91 SAS: time main effect contrast Mutta huomaa, että nyt time-efektin päävaikutusta ei ole kovin järkevää raportoida, kun ryhmien muutokset ovat erilaisia yli ajan

92 Raportointi The mean changes from baseline to 12 weeks were statistically significantly different between the treatment groups (p=0.016) whereas treatment group C differed from A and B between time points 0 and 1 week (C vs A p=0.0041, C vs B p=0.0047). Toki on mahdollista raportoida ensin koko ajan yhdysvaikutukset ryhmien välillä (A vs B, A vs C, B vs C) ja vasta sitten mennä yksittäisiin aikapisteisiin.

93 Summary Ottamalla huomioon samoista henkilöistä tehtävien mittausten välinen riippuvuus saadaan aikaiseksi voimakkaita testejä, koska subjektien sisäinen vaihtelu aina pienempää kuin subjektien välinen vaihtelu. Sen takia näihin tutkimuksiin tarvitaan huomattavasti pienempi otoskoko Monimutkaisissa otoskokolaskuissa voidaan myös optimoida aikapisteiden määrää ja etäisyyttä (jos korkea korrelaatio, aikapisteet tuottavat suhteellisen vähän lisäinformaatiota).

94 KIITOS KIITOS

95

96 JMP

97