BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 3) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos

BIOSTATISTIIKKAA ESIMERKKIEN AVULLA Kurssimoniste (luku 3) Janne Pitkäniemi Helsingin Yliopisto Kansanterveystieteen laitos Helsinki, 005 Biostatistiikkaa esimerkkien avulla 1 Janne Pitkäniemi, syksy 005

Yhden prosenttiosuuden/suhdeluvun testaaminen Oletetaan, että tutkittavan ryhmän koko on n ja k on niiden henkilöiden lukumäärä, joilla on jokin tietty ominaisuus. Arvioitu suhdeluku kyseisen ominaisuuden esiintyvyydelle on siten p k/n. Tämä on nk. piste estimaatti vastaavalle perusjoukon suureelle. Oletetaan että tutkija väittää että perusjoukon tuntematon osuus kiinnostavalle ominaisuudelle on pp 0 ja tätä vastaava vastaväite on että se ei ole p p 0. Tällöin voimme rakentaa testin kahdella tavalla: Normaalijakaumaan perustuen tai binomijakaumaan perustuen. Normaalijakaumaan perustuva : pˆ p0 Lasketaan testisuure z jonka jakauma on normaalinen (0,1). Nyt tarvitsemme se( p0 ) p *(1 p) prosenttiosuuden keskivirheen, joka lasketaan kaavasta se( p). Näin ollen n voimme suorittaa testin. Sama testi voidaan laskea myös binomijakaumaan perustuen ja se on suoraan SPSS:ssä helposti saatavilla. Katso esimerkki. Esimerkki Otetaan taas kolesterolia koskeva otoksemme (7.5, 4.8, 6.3, 5.4,.0 mmol/l) ja oletetaan että tutkija väittää että sellaisten henkilöiden osuus joiden kolesteroli on yli 5.0 mmol/l olisi 40 %. Edetään kuten edellä kuvattiin. 1. Hypoteesin muodostaminen H0: p0.4 ja HA:p 0.4. Lasketaan osuuden estimaattori otoksestamme (1,0,1,1,0) eli 3/50.6 eli 60 % Tallennetaan SPSS:ään muuttuja korkea jonka arvot ovat siis (1,0,1,1,0). SPSS: Tallennetaan SPSS:ään muuttuja korkea, jonka arvot ovat siis (1,0,1,1,0). Valikot: Analyze Non parametric tests Binomial. Määritellään test variable korkea ja test proportion 0,4. Tämän jälkeen klikataan kohdasta Ok. Biostatistiikkaa esimerkkien avulla Janne Pitkäniemi, syksy 005

Tulos: Binomial Test korkea Category N Observed Prop. Test Prop. Exact Sig. (1 tailed) Group 1 1,00 3,6,4,317 Group,00,4 Total 5 1,0 Tulkinta: Otoksemme korkeakolesterolisten osuus ei poikkea tilastollisesti merkitsevästi 40 %:sta P0,0317. Lasketaan sama vielä normaalijakaumaan perustuen 3. Lasketaan testisuure z 0.6 0.4 0.4 *(1 0.4) 5 0.0 0.19 0.913 4. katsomme normaalijakaumasta N(0,1) vastaavan todennäköisyysmassa joka jää tämän arvon oikealle tai arvon 0.913 vasemmalle puolelle ja saamme p arvon 0.36. 5. Tällöin emme hylkää nollahypoteesia ja toteamme että oikea korkea kolesterolisten osuus väestössä voi olla 40 %. Tähän tarvitaan valmiiksi kirjoitettuja SPSS makroja, koska tätä yksinkertaista testiä ei ole SPSS:n perusvalikoissa. Vastaavia on saatavissa esimerkiksi osoitteesta: www.spsstools.net ja tarkemmin http://www.spsstools.net/syntax/distributions/proportiontestsandci.txt Matrix Run MATRIX procedure: n p SE z SIGz_TL SIGz_LTL SIGz_UTL 5,000,600,19,913,361,819,181 END MATRIX Biostatistiikkaa esimerkkien avulla 3 Janne Pitkäniemi, syksy 005

Kahden riippumattoman otoksen prosenttiosuuksien testaaminen Suhdelukujen testi kahden riippumattoman otoksen tapauksessa Oletetaan, että tutkittavien ryhmien koot ovat n1 ja n ja k1 ja k ovat niiden henkilöiden lukumäärä, joilla on jokin tietty ominaisuus. Arvioitu suhdeluku kyseisen ominaisuuden esiintyvyydelle on siten p1 k1/n1 ja pk/n. Oletetaan että tutkija väittää että perusjoukon tuntematon osuus kiinnostavalle ominaisuudelle on p 1 p eli p 1 p 0 ja tätä vastaava vastaväite on että se ei ole p 1 p. Jos väitteemme olisi tosi niin voisimme laskea arvioin ryhmien yhteiselle ominaisuuden k1 + k osuudelle kaavasta p. Tällöin voimme rakentaa testin seuraavan n1 + n pˆ ˆ 1 p testisuureen avulla z. se( p p ) 1 Esimerkki: Oletetaan että olemme saaneet seuraavat kaksi otosta: toinen 50 henkeä normaaliväestöstä (otos 1) ja toinen 40 hengen otos sokeritautiin sairastuneista henkilöistä. Koska metabolinen syndrooma vaikuttaa myös kolesteroli arvoihin haluamme nyt testata onko korkea kolesterolisten osuus (>5.0 mmol/l) kahdessa otoksessa sama. otos 1: (3.96, 4.31, 5.9, 4.47, 3.5, 4.6,.73, 3.1, 4.16, 4.07, 4.14, 4.73,.85, 4.77, 4.6, 4.7, 4.73,.5, 3.98, 5, 3.14, 3.11, 4.5, 5.46, 4.4, 4.13, 4.67, 5.56, 4.49, 4.16,.0, 5.48, 5.69, 3.74, 4.4, 5.48, 4.84, 3.1, 5.05, 5.76,.8, 4.88, 5.01, 3.87, 5.84, 3.9, 5.6, 3.14, 5.73, 5.00) lasketaan korkea kolesterolisten lukumäärä 1 eli suhteellinen osuus on 1/500.4 otos : (5.5, 4.7, 4.5, 6.94, 5.97, 5.56, 4.05, 4.99, 5.9, 5.9, 3.64, 4.79, 5., 5.78, 6.7, 7.08, 6.7, 5.33, 4.6, 4.7, 6.18, 4.65, 5.87, 6.15, 5.65, 4.5, 4.19, 4.79, 4.4, 3.45, 3.56, 6.09, 4.77, 5.61, 4.15, 5.05, 5.1, 4.4, 4.08, 5.) lasketaan korkea kolesterolisten lukumäärä 1 eli suhteellinen osuus on 1/400.55 Jatketaan esimerkkiä seuraavassa kappaleessa. Biostatistiikkaa esimerkkien avulla 4 Janne Pitkäniemi, syksy 005

Khi nelikenttätesti Käyttötilanne: Oletetaan, että vertaillaan kahta toisistaan riippumatonta ryhmää. Riippumattomuus tarkoittaa, että ryhmät muodostuvat eri havaintoyksiköistä; esim. eri henkilöistä. Kaksiarvoinen (binomiaalinen) lopputulosmuuttuja (kyllä, ei) Kahden suhdeluvun vertailu Lopputulos Kyllä Ei Yhteensä Ryhmä 1 a b a+b c d c+d Yhteensä a+c b+d n Huom. Lukujen a, b, c ja d tulee olla lukumääriä eikä esimerkiksi prosenttilukuja. Testisuure: χ (a d b c) n (a + c) (b + d) (a + b) (c + d) Testisuure Yatesin jatkuvuuskorjauksella: n ( a d b c ) n χ C (a + c) (b + d) (a + b) (c + d) Kummassakin tapauksessa vapausasteita (df) on 1 ja Vertailtavat suhdeluvut ovat: p 1 a/(a + b) ja p c/(c + d). Esim. SPSS: Tallennetaan edellinen aineisto hieman eri näköisessä muodossa olevat muuttujat group (1 otos 1, otos ), korkea (0 kolesteroli <5.0 mmol/l, 1kolesteroli >5.0 mmol/l) ja lkm joka on edellä olevat muuttujien ehdot täyttävien havaintojen lukumäärä Biostatistiikkaa esimerkkien avulla 5 Janne Pitkäniemi, syksy 005

Data view: group korkea lkm 1,00,00 38,00 1,00 1,00 1,00,00,00 19,00,00 1,00 1,00 Seuraavaksi kerromme SPSS:lle että jokaista group ja korkea yhdistelmää vastaakin itse asiassa lkm muuttujan osoittama määrä havaintoja. Tämä tapahtuu valikosta Data Weight cases klikkaa Weight cases by ja valitse muuttuja lkm. Seuraavaksi teemme varsinaisen testin : Analyze Crosstabs. Määritellään row variable group ja column variable korkea. Tämän jälkeen valitaan Statistics ja klikataan Chi square, jolloin saamme testien tulokset näkyviin. Lopuksi klikataan kohdasta Ok. Tulos: Count group group * korkea Crosstabulation korkea,00 1,00 Total 1,00 38 1 50,00 19 1 40 Total 57 33 90 Chi Square Tests Value df Asymp. Sig. ( sided) Exact Sig. ( sided) Exact Sig. (1 sided) Pearson Chi Square 7,773(b) 1,005 Continuity Correction(a) 6,594 1,010 Likelihood Ratio 7,89 1,005 Fisher's Exact Test,008,005 Linear by Linear Association 7,686 1,006 N of Valid Cases 90 a Computed only for a x table b 0 cells (,0%) have expected count less than 5. The minimum expected count is 14,67. Tulkinta: Korkeakolesterolisten (>5.0 mmol/l) osuus poikkeaa tilastollisesti merkitsevästi väestön ja sokeritautia sairastavien välillä (P0,010). Biostatistiikkaa esimerkkien avulla 6 Janne Pitkäniemi, syksy 005

Prosenttiosuuksien testaaminen parittaisessa aineistossa McNemarin testi Käyttötilanne: Lopputulos on kaksiarvoinen (Kyllä, Ei) ja kyseessä on jokin seuraavista parittaisista asetelmista: Samat henkilöt mitattu kahtena eri ajankohtana ja tarkastellaan muutosta lopputulosmuuttujassa Ristikkäistutkimusasetelma Kaltaistettu tapaus verrokki asetelma McNemarin testi McNemar's test on parittaisten aineistojen luokiteltujen muuttujien riippuvuustesti. Esim. Yksi potilasjoukko, jolle on suoritettu jokin interventio ja halutaan tutkia tapahtuuko intervention johdosta muutosta mittarissa, joka on joko laatueroasteikollinen tai luokiteltu muuttuja. Parittaisessa aineistossa lopputulosvaihtoehtoja on siten neljä: (Kyllä, Kyllä), (Kyllä, Ei), (Ei, Kyllä) ja (Ei, Ei). Olkoon e, f, g ja h näihin vaihtoehtoihin liittyvät havaintoaineiston perusteella lasketut lukumäärät. Ristikkäistutkimuksessa lopputulos taulukkomuotoon tiivistettynä on siten: Ristikkäistutkimus Vaste hoitoon A Yhteensä Kyllä Ei Vaste hoitoon B Kyllä e f e+f Ei g h g+h Yhteensä e+g f+h n ja kaltaistetussa tapaus verrokki tutkimuksessa vastaavasti: Kaltaistettu tapausverrokki tutkimus Verrokit Altistus Yhteensä Kyllä Ei Tapaukset Altistus Kyllä e f e+f Ei g h g+h Yhteensä e+g f+h n Biostatistiikkaa esimerkkien avulla 7 Janne Pitkäniemi, syksy 005

Approksimattivinen testisuure: χ (f g) f + g Testisuure Yatesin jatkuvuuskorjauksella: χ c (( f g 1) f + g Testisuure noudattaa kummassakin tapauksessa likimain jakaumaa vapausastein 1. Esimerkki : Tarkastellaan datasetb aineistoa. Tutkija on kiinnostunut onko korkeissa kolesteroliarvoissa (>15.0 mmol/l) tapahtunut muutosta vuosien 1950 ja 196 välillä. Olemme luoneet kaksiluokkaiset muuttujat highchol1950 ja highchol196 (1 kolesteroli >15.0 ja 0 muuten) Hypoteesit: H 0 : Ei muutosta kolesteroliarvoissa H 1 : Muutosta kolesteroliarvoissa SPSS: Luodaan uusi muuttuja : compute Transform ja highchol196chol196>15.0. Valikot: Analyze Non parametric tests related samples. Valitse McNemar. Tämän jälkeen valitaan muuttujapari highcho1950 ja highchol196 ja ok Tulos: Crosstabs highchol1950 & highchol196 highchol1950 0 1 highchol196 0 1 94 33 34 39 (33 34) Testit: Ei jatkuvuuskorjattu χ 0.015, P 0,903 33 + 34 Biostatistiikkaa esimerkkien avulla 8 Janne Pitkäniemi, syksy 005

McNemar Test N Chi Square a Asymp. Sig. Test Statistics b Exact Sig. ( tailed) Exact Sig. (1 tailed) Point Probability a. Continuity Corrected b. McNemar Test highchol1950 & highchol196 00,000 1,000 1,000,500,096 Tulkinta: Korkeakolesterolisten osuus ei ole muuttunut vuosien 1950 ja 196 välillä (p0.903). Yhteensopivuuden testaaminen luokittelumuuttujalla Joskus biologian tai aikaisemmat empiiriset tulokset antavat meille jakauman johon haluaisimme verrata havaittuja lukumääriä. Yhteensopivuustestien avulla voidaan selvittä, onko otoksena saatu havaintoaineisto peräisin populaatiosta, jonka jakauma tunnetaan ennalta. Hypoteesit: H 0 havaitut lukumäärät noudattavat annettua todennäköisyysjakaumaa H A Ainakin osa todennäköisyyksistä on erilaisia Testisuure: χ L l 1 ( o l e ) e l l Biostatistiikkaa esimerkkien avulla 9 Janne Pitkäniemi, syksy 005

missä l on luokkien lukumäärä, o l havaittu lukumäärä, e l odotettu lukumäärä joka perustuu siis hypoteettiseen jakaumaan kun havaintojen kokonaislukumäärä on tunnettu. Tämä testisuure noudattaa khii toiseen jakaumaa vapausastein (L 1) eli luokkien lukumäärä 1. Esimerkki : Oletetaan että tutkija tietää aikaisempien tutkimustulosten perusteella että kasvattaessaan bakteeriviljelmää tietyllä ravinteella bakteerityyppejä (A, B, C, D) pitäisi muodostua seuraavasti: 10 % A, 10 % B, 10 % C ja 70 % D. Tutkija tekee 00 viljelmää ja havaitsee bakteerityyppejä seuraavat lukumäärät A 4 B 11 C 0 D 145. Ovatko tutkijan havaitsemat lukumäärät (osuudet) yhteensopivat sen kanssa mitä on aikaisemmin väitetty? Lasketaan ensin testisuure havaittu lukumäärä (o) hypoteettiset osuudet (p) odotettu lukumäärä (e00*p) (o e) (oe) (o e) /e A 4 0.1 0 4 16 0.8000000 B 11 0.1 0 9 81 4.0500000 C 0 0.1 0 0 0 0.0000000 D 145 0.7 140 5 5 0.1785714 Yhteensä 00 1.0 00 5.08571 Saimme siis testisuureen arvoksi 5.09 joka on khii toiseen jakautunut vapausastein 4 13. Lasketaan nyt sama koneella SPSS: Tallennetaan edellinen aineisto muodossa muuttujat kanta seuraavat rivit( 4, 11,0,145) 4,00 11,00 0,00 145,00 Data view: kanta Biostatistiikkaa esimerkkien avulla 10 Janne Pitkäniemi, syksy 005

Seuraavaksi kerromme SPSS:lle että jokaista group ja korkea yhdistelmää vastaakin itse asiassa lkm muuttujan osoittama määrä havaintoja. Tämä tapahtuu valikosta Data Weight cases klikkaa Weight cases by ja valitse muuttuja kanta. Valikot: Analyze Non parametric tests Chi square. Määritellään test variable korkea ja test proportion 0,4. Tämän jälkeen klikataan kohdasta Expected kohta values ja syötetään yksi kerralaan hypoteettinen jakauma 0,1 0,1 0,1 ja 0,7 (Huomaa, ei piste) Tulos: NPar Tests Chi Square Test Frequencies kanta 11,00 0,00 4,00 145,00 Total Observed N Expected N Residual 11 0,0 9,0 0 0,0,0 4 0,0 4,0 145 140,0 5,0 00 Test Statistics Chi Square a df Asymp. Sig. kanta 5,09 3,170 a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 0,0. Tulkinta: Nollahypoteesia ei hylätä joten havaitut lukumäärät voivat olla peräisin annetusta jakaumasta(p0,170). Biostatistiikkaa esimerkkien avulla 11 Janne Pitkäniemi, syksy 005

Diagnostisen testin sensitiivisyys ja spesifisyys Diagnoosien teko on keskeisellä sijalla lääketieteessä ja siksi onkin tärkeää että diagnoosien tekoa yritettään parantaa. Jotta diagnoosia voitaisiin arvioida täytyy diagnoosin hyvyys jotenkin kvantifioida tilastollisesti. Seuraava jakso esittelee diagnostisen testin peruskäsiteet sensitiivisyys, spesifisyys, positiivinen prediktiivinen arvo ja negatiivinen prediktiivinen arvo. Aloitetaan taulukosta jotta T on testi ja T + kertoo että testin tulos oli positiivinen ja vastaavasti T kertoo että testin tulos oli negatiivinen. Merkitään taudin statusta D:llä ja D + tarkoittaa että yksilöllä on tauti (D ei tautia) Tehdään seuraava x taulukko Testi Tauti + + a b a+b c d c+d a+c b+d n Esimerkki (Altman): Oletetaan että tutkija diagnosoi maksasyöpää (testi) ja toisaalta patologi ottaa näyteen jonka perusteella päätetään onko maksasyöpä vai ei (tauti). saadaan seuraava taulukko: patologin löydös (tauti) + (epänormaali) (normaali) Maksasyöpä + 31 3 63 diagnoosi maksan skannaukseen perustuen (tässä siis testi) yhteensä 7 58 54d 86 81 344 Määritellään seuraavat todennäköisyydet: 1) Todennäköisyys että yksilön testin tulos on positiivinen ehdolla että on tauti saadaan kun luetaan siis ensimmäiseltä sarakkeelta a/(a+c) ja sitten hieman muodollisemmin a T + D + ). a + c Tämä on testin sensitiivisyys eli testin kyky löytää positiivisten testin tuloksen saaneet sairaiden joukosta. Biostatistiikkaa esimerkkien avulla 1 Janne Pitkäniemi, syksy 005

) Todennäköisyys että testitulos on negatiivinen ehdolla että yksilöllä EI ole tautia saadaan kun luetaan taulukon toiselta sarakkeelta d/(b+d) ja sitten hieman muodollisemmin d T D ). b + d Tämä on testin spesifisyys eli testin kyky löytää negatiiviset terveiden yksilöiden joukosta. Esimerkki (jatkuu) Lasketaan esimerkki aineistosta sensitiivisyys ja spesifisyys: sensitiivisyys eli tautisten osuus jotka testimme löysi 31/58 0.90 ja voimme todeta että odottaisimme 90% potilaista joilla on epänormaali maksa (patologi) niin myös diagnosoidaan maksasyöväksi. spesifisyys eli terveiden osuus negatiivisen testin omaavien joukosta 54/860.63 ja voimme todeta että 63 % niistä joilla on normaali maksa niin ei todeta tautia myöskään lääkärin maksakartoituksessa (scan) Huomatkaa että taudin esiintyvyys (prevalenssi), jota merkitään D+), on (a+c)/n, ja havaitusta aineistosta laskemamme sensitiivisyys ja spesifisyys perustuvat siihen että juuri tässä aineistossa taudin prevalenssi on se mitä olemme laskeneet. USEIN haluaisimme tietää miten testi toimii jos sovellamme testiä johonkin toiseen populaatioon jolla on erilainen prevalenssi. Tällöin kysymys kuuluu mikä on taudin todennäköisyys kun testitulos on positiivnen. Tämän laskemiseen tarvitaan ns. Bayes kaavaa joka on seutaavanlainen D + T + ) T T + D + ) D + ) + D + ) D + ) + T + D ) D ) Tämä on positiivinen prediktiivinen arvo (PPV) vastaavasti voidaan määrittää negatiivinen prediktiivinen arvo (NPV) D T ) T T D ) D ) D + ) D + ) + T D ) D ) Biostatistiikkaa esimerkkien avulla 13 Janne Pitkäniemi, syksy 005

Esimerkki (jatkuu) Lasketaan esimerkki aineistosta PPV. Tätä varten tarvitsemme taudin esiintyvyyden (prevalenssi, D+) ). Se on 58/3440.75 eli 75%. Sijoitetaan yo kaavaan D + T + ) T T + D + ) D + ) + D + ) D + ) + T + D ) D ) 0.90 *0.75 0.90* 0.75 + (1 0.63) *(1 0.75) 0.88 eli 88% Sama saataisiin laskemalla 31/630.88 eli 63 potilaasta jotka diagnosoitiin (testattiin) olevan maksasyöpä 31:llä oli oikeasti maksassa patologinen lsyöpä öydös ja tästä saadaan oikeiden diagnoosien osuus. Vastaavasti voidaan laskea NPV:n. HUOM!!! Tärkeää on kuitenkin huomata PPV:n kaavasta sen riippuvan taudin esiintyvyydestä. SIIS sama testi sovellettuna toiseen populaatioon, jossa taudin prevalenssi on erilainen antaa erilaisen PPV:n arvon. Tehtävä: laske PPV kun prevalenssi on 5 %. Biostatistiikkaa esimerkkien avulla 14 Janne Pitkäniemi, syksy 005