BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 3) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos

Samankaltaiset tiedostot
Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

voidaan hylätä, pienempi vai suurempi kuin 1 %?

voidaan hylätä, pienempi vai suurempi kuin 1 %?

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Sovellettu todennäköisyyslaskenta B

BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 4) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos

Sisällysluettelo SISÄLLYSLUETTELO...6 LYHYT SANASTO VASTA-ALKAJILLE JOHDATUS PARAMETRITTOMIIN MENETELMIIN...9

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

MTTTP5, luento Luottamusväli, määritelmä

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitus 7: NCSS - Tilastollinen analyysi

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Mat Tilastollisen analyysin perusteet, kevät 2007

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Testit laatueroasteikollisille muuttujille

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Testejä suhdeasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Sovellettu todennäköisyyslaskenta B

11. laskuharjoituskierros, vko 15, ratkaisut

Seulontatutkimusten perusperiaatteet

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

χ 2 -yhteensopivuustestissä käytetään χ 2 -testisuuretta χ = Mat Sovellettu todennäköisyyslasku A

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Sovellettu todennäköisyyslaskenta B

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 2) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

Todennäköisyyden ominaisuuksia

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

KAHDEN RYHMÄN VERTAILU

805306A Johdatus monimuuttujamenetelmiin, 5 op

HAVAITUT JA ODOTETUT FREKVENSSIT

/1. MTTTP5, luento Kertausta. Olk. X 1, X 2,..., X n on satunnaisotos N(µ, ):sta, missä tunnettu. Jos H 0 on tosi, niin

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

riippumattomia ja noudattavat samaa jakaumaa.

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

pisteet Frekvenssi frekvenssi Yhteensä

Tutkimus peliohjaimen käytöstä Super Smash Bros. Melee pelissä. Aleksanteri Karanka

Sovellettu todennäköisyyslaskenta B

Tilastollinen aineisto Luottamusväli

Teema 9: Tilastollinen merkitsevyystestaus

dx=5&uilang=fi&lang=fi&lvv=2014

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Bayesiläinen tilastollinen vaihtelu

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

1 Johdanto 2. 2 Aineistot 2. 3 Henkilöstön koulutustausta ja työkokemus 3. 4 Aikuissosiaalityön sisältö 5. 5 Henkilöstön osaaminen 12

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TAPAUS-VERROKKITUTKIMUS

Tilastollisia peruskäsitteitä ja Monte Carlo

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

10. laskuharjoituskierros, vko 14, ratkaisut

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Estimointi. Vilkkumaa / Kuusinen 1

6.1.2 Yhdessä populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva päättely

Estimointi. Otantajakauma

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

1. Tilastollinen malli??

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Perusnäkymä yksisuuntaiseen ANOVAaan

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

tilastotieteen kertaus

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Transkriptio:

BIOSTATISTIIKKAA ESIMERKKIEN AVULLA Kurssimoniste (luku 3) Janne Pitkäniemi Helsingin Yliopisto Kansanterveystieteen laitos Helsinki, 005 Biostatistiikkaa esimerkkien avulla 1 Janne Pitkäniemi, syksy 005

Yhden prosenttiosuuden/suhdeluvun testaaminen Oletetaan, että tutkittavan ryhmän koko on n ja k on niiden henkilöiden lukumäärä, joilla on jokin tietty ominaisuus. Arvioitu suhdeluku kyseisen ominaisuuden esiintyvyydelle on siten p k/n. Tämä on nk. piste estimaatti vastaavalle perusjoukon suureelle. Oletetaan että tutkija väittää että perusjoukon tuntematon osuus kiinnostavalle ominaisuudelle on pp 0 ja tätä vastaava vastaväite on että se ei ole p p 0. Tällöin voimme rakentaa testin kahdella tavalla: Normaalijakaumaan perustuen tai binomijakaumaan perustuen. Normaalijakaumaan perustuva : pˆ p0 Lasketaan testisuure z jonka jakauma on normaalinen (0,1). Nyt tarvitsemme se( p0 ) p *(1 p) prosenttiosuuden keskivirheen, joka lasketaan kaavasta se( p). Näin ollen n voimme suorittaa testin. Sama testi voidaan laskea myös binomijakaumaan perustuen ja se on suoraan SPSS:ssä helposti saatavilla. Katso esimerkki. Esimerkki Otetaan taas kolesterolia koskeva otoksemme (7.5, 4.8, 6.3, 5.4,.0 mmol/l) ja oletetaan että tutkija väittää että sellaisten henkilöiden osuus joiden kolesteroli on yli 5.0 mmol/l olisi 40 %. Edetään kuten edellä kuvattiin. 1. Hypoteesin muodostaminen H0: p0.4 ja HA:p 0.4. Lasketaan osuuden estimaattori otoksestamme (1,0,1,1,0) eli 3/50.6 eli 60 % Tallennetaan SPSS:ään muuttuja korkea jonka arvot ovat siis (1,0,1,1,0). SPSS: Tallennetaan SPSS:ään muuttuja korkea, jonka arvot ovat siis (1,0,1,1,0). Valikot: Analyze Non parametric tests Binomial. Määritellään test variable korkea ja test proportion 0,4. Tämän jälkeen klikataan kohdasta Ok. Biostatistiikkaa esimerkkien avulla Janne Pitkäniemi, syksy 005

Tulos: Binomial Test korkea Category N Observed Prop. Test Prop. Exact Sig. (1 tailed) Group 1 1,00 3,6,4,317 Group,00,4 Total 5 1,0 Tulkinta: Otoksemme korkeakolesterolisten osuus ei poikkea tilastollisesti merkitsevästi 40 %:sta P0,0317. Lasketaan sama vielä normaalijakaumaan perustuen 3. Lasketaan testisuure z 0.6 0.4 0.4 *(1 0.4) 5 0.0 0.19 0.913 4. katsomme normaalijakaumasta N(0,1) vastaavan todennäköisyysmassa joka jää tämän arvon oikealle tai arvon 0.913 vasemmalle puolelle ja saamme p arvon 0.36. 5. Tällöin emme hylkää nollahypoteesia ja toteamme että oikea korkea kolesterolisten osuus väestössä voi olla 40 %. Tähän tarvitaan valmiiksi kirjoitettuja SPSS makroja, koska tätä yksinkertaista testiä ei ole SPSS:n perusvalikoissa. Vastaavia on saatavissa esimerkiksi osoitteesta: www.spsstools.net ja tarkemmin http://www.spsstools.net/syntax/distributions/proportiontestsandci.txt Matrix Run MATRIX procedure: n p SE z SIGz_TL SIGz_LTL SIGz_UTL 5,000,600,19,913,361,819,181 END MATRIX Biostatistiikkaa esimerkkien avulla 3 Janne Pitkäniemi, syksy 005

Kahden riippumattoman otoksen prosenttiosuuksien testaaminen Suhdelukujen testi kahden riippumattoman otoksen tapauksessa Oletetaan, että tutkittavien ryhmien koot ovat n1 ja n ja k1 ja k ovat niiden henkilöiden lukumäärä, joilla on jokin tietty ominaisuus. Arvioitu suhdeluku kyseisen ominaisuuden esiintyvyydelle on siten p1 k1/n1 ja pk/n. Oletetaan että tutkija väittää että perusjoukon tuntematon osuus kiinnostavalle ominaisuudelle on p 1 p eli p 1 p 0 ja tätä vastaava vastaväite on että se ei ole p 1 p. Jos väitteemme olisi tosi niin voisimme laskea arvioin ryhmien yhteiselle ominaisuuden k1 + k osuudelle kaavasta p. Tällöin voimme rakentaa testin seuraavan n1 + n pˆ ˆ 1 p testisuureen avulla z. se( p p ) 1 Esimerkki: Oletetaan että olemme saaneet seuraavat kaksi otosta: toinen 50 henkeä normaaliväestöstä (otos 1) ja toinen 40 hengen otos sokeritautiin sairastuneista henkilöistä. Koska metabolinen syndrooma vaikuttaa myös kolesteroli arvoihin haluamme nyt testata onko korkea kolesterolisten osuus (>5.0 mmol/l) kahdessa otoksessa sama. otos 1: (3.96, 4.31, 5.9, 4.47, 3.5, 4.6,.73, 3.1, 4.16, 4.07, 4.14, 4.73,.85, 4.77, 4.6, 4.7, 4.73,.5, 3.98, 5, 3.14, 3.11, 4.5, 5.46, 4.4, 4.13, 4.67, 5.56, 4.49, 4.16,.0, 5.48, 5.69, 3.74, 4.4, 5.48, 4.84, 3.1, 5.05, 5.76,.8, 4.88, 5.01, 3.87, 5.84, 3.9, 5.6, 3.14, 5.73, 5.00) lasketaan korkea kolesterolisten lukumäärä 1 eli suhteellinen osuus on 1/500.4 otos : (5.5, 4.7, 4.5, 6.94, 5.97, 5.56, 4.05, 4.99, 5.9, 5.9, 3.64, 4.79, 5., 5.78, 6.7, 7.08, 6.7, 5.33, 4.6, 4.7, 6.18, 4.65, 5.87, 6.15, 5.65, 4.5, 4.19, 4.79, 4.4, 3.45, 3.56, 6.09, 4.77, 5.61, 4.15, 5.05, 5.1, 4.4, 4.08, 5.) lasketaan korkea kolesterolisten lukumäärä 1 eli suhteellinen osuus on 1/400.55 Jatketaan esimerkkiä seuraavassa kappaleessa. Biostatistiikkaa esimerkkien avulla 4 Janne Pitkäniemi, syksy 005

Khi nelikenttätesti Käyttötilanne: Oletetaan, että vertaillaan kahta toisistaan riippumatonta ryhmää. Riippumattomuus tarkoittaa, että ryhmät muodostuvat eri havaintoyksiköistä; esim. eri henkilöistä. Kaksiarvoinen (binomiaalinen) lopputulosmuuttuja (kyllä, ei) Kahden suhdeluvun vertailu Lopputulos Kyllä Ei Yhteensä Ryhmä 1 a b a+b c d c+d Yhteensä a+c b+d n Huom. Lukujen a, b, c ja d tulee olla lukumääriä eikä esimerkiksi prosenttilukuja. Testisuure: χ (a d b c) n (a + c) (b + d) (a + b) (c + d) Testisuure Yatesin jatkuvuuskorjauksella: n ( a d b c ) n χ C (a + c) (b + d) (a + b) (c + d) Kummassakin tapauksessa vapausasteita (df) on 1 ja Vertailtavat suhdeluvut ovat: p 1 a/(a + b) ja p c/(c + d). Esim. SPSS: Tallennetaan edellinen aineisto hieman eri näköisessä muodossa olevat muuttujat group (1 otos 1, otos ), korkea (0 kolesteroli <5.0 mmol/l, 1kolesteroli >5.0 mmol/l) ja lkm joka on edellä olevat muuttujien ehdot täyttävien havaintojen lukumäärä Biostatistiikkaa esimerkkien avulla 5 Janne Pitkäniemi, syksy 005

Data view: group korkea lkm 1,00,00 38,00 1,00 1,00 1,00,00,00 19,00,00 1,00 1,00 Seuraavaksi kerromme SPSS:lle että jokaista group ja korkea yhdistelmää vastaakin itse asiassa lkm muuttujan osoittama määrä havaintoja. Tämä tapahtuu valikosta Data Weight cases klikkaa Weight cases by ja valitse muuttuja lkm. Seuraavaksi teemme varsinaisen testin : Analyze Crosstabs. Määritellään row variable group ja column variable korkea. Tämän jälkeen valitaan Statistics ja klikataan Chi square, jolloin saamme testien tulokset näkyviin. Lopuksi klikataan kohdasta Ok. Tulos: Count group group * korkea Crosstabulation korkea,00 1,00 Total 1,00 38 1 50,00 19 1 40 Total 57 33 90 Chi Square Tests Value df Asymp. Sig. ( sided) Exact Sig. ( sided) Exact Sig. (1 sided) Pearson Chi Square 7,773(b) 1,005 Continuity Correction(a) 6,594 1,010 Likelihood Ratio 7,89 1,005 Fisher's Exact Test,008,005 Linear by Linear Association 7,686 1,006 N of Valid Cases 90 a Computed only for a x table b 0 cells (,0%) have expected count less than 5. The minimum expected count is 14,67. Tulkinta: Korkeakolesterolisten (>5.0 mmol/l) osuus poikkeaa tilastollisesti merkitsevästi väestön ja sokeritautia sairastavien välillä (P0,010). Biostatistiikkaa esimerkkien avulla 6 Janne Pitkäniemi, syksy 005

Prosenttiosuuksien testaaminen parittaisessa aineistossa McNemarin testi Käyttötilanne: Lopputulos on kaksiarvoinen (Kyllä, Ei) ja kyseessä on jokin seuraavista parittaisista asetelmista: Samat henkilöt mitattu kahtena eri ajankohtana ja tarkastellaan muutosta lopputulosmuuttujassa Ristikkäistutkimusasetelma Kaltaistettu tapaus verrokki asetelma McNemarin testi McNemar's test on parittaisten aineistojen luokiteltujen muuttujien riippuvuustesti. Esim. Yksi potilasjoukko, jolle on suoritettu jokin interventio ja halutaan tutkia tapahtuuko intervention johdosta muutosta mittarissa, joka on joko laatueroasteikollinen tai luokiteltu muuttuja. Parittaisessa aineistossa lopputulosvaihtoehtoja on siten neljä: (Kyllä, Kyllä), (Kyllä, Ei), (Ei, Kyllä) ja (Ei, Ei). Olkoon e, f, g ja h näihin vaihtoehtoihin liittyvät havaintoaineiston perusteella lasketut lukumäärät. Ristikkäistutkimuksessa lopputulos taulukkomuotoon tiivistettynä on siten: Ristikkäistutkimus Vaste hoitoon A Yhteensä Kyllä Ei Vaste hoitoon B Kyllä e f e+f Ei g h g+h Yhteensä e+g f+h n ja kaltaistetussa tapaus verrokki tutkimuksessa vastaavasti: Kaltaistettu tapausverrokki tutkimus Verrokit Altistus Yhteensä Kyllä Ei Tapaukset Altistus Kyllä e f e+f Ei g h g+h Yhteensä e+g f+h n Biostatistiikkaa esimerkkien avulla 7 Janne Pitkäniemi, syksy 005

Approksimattivinen testisuure: χ (f g) f + g Testisuure Yatesin jatkuvuuskorjauksella: χ c (( f g 1) f + g Testisuure noudattaa kummassakin tapauksessa likimain jakaumaa vapausastein 1. Esimerkki : Tarkastellaan datasetb aineistoa. Tutkija on kiinnostunut onko korkeissa kolesteroliarvoissa (>15.0 mmol/l) tapahtunut muutosta vuosien 1950 ja 196 välillä. Olemme luoneet kaksiluokkaiset muuttujat highchol1950 ja highchol196 (1 kolesteroli >15.0 ja 0 muuten) Hypoteesit: H 0 : Ei muutosta kolesteroliarvoissa H 1 : Muutosta kolesteroliarvoissa SPSS: Luodaan uusi muuttuja : compute Transform ja highchol196chol196>15.0. Valikot: Analyze Non parametric tests related samples. Valitse McNemar. Tämän jälkeen valitaan muuttujapari highcho1950 ja highchol196 ja ok Tulos: Crosstabs highchol1950 & highchol196 highchol1950 0 1 highchol196 0 1 94 33 34 39 (33 34) Testit: Ei jatkuvuuskorjattu χ 0.015, P 0,903 33 + 34 Biostatistiikkaa esimerkkien avulla 8 Janne Pitkäniemi, syksy 005

McNemar Test N Chi Square a Asymp. Sig. Test Statistics b Exact Sig. ( tailed) Exact Sig. (1 tailed) Point Probability a. Continuity Corrected b. McNemar Test highchol1950 & highchol196 00,000 1,000 1,000,500,096 Tulkinta: Korkeakolesterolisten osuus ei ole muuttunut vuosien 1950 ja 196 välillä (p0.903). Yhteensopivuuden testaaminen luokittelumuuttujalla Joskus biologian tai aikaisemmat empiiriset tulokset antavat meille jakauman johon haluaisimme verrata havaittuja lukumääriä. Yhteensopivuustestien avulla voidaan selvittä, onko otoksena saatu havaintoaineisto peräisin populaatiosta, jonka jakauma tunnetaan ennalta. Hypoteesit: H 0 havaitut lukumäärät noudattavat annettua todennäköisyysjakaumaa H A Ainakin osa todennäköisyyksistä on erilaisia Testisuure: χ L l 1 ( o l e ) e l l Biostatistiikkaa esimerkkien avulla 9 Janne Pitkäniemi, syksy 005

missä l on luokkien lukumäärä, o l havaittu lukumäärä, e l odotettu lukumäärä joka perustuu siis hypoteettiseen jakaumaan kun havaintojen kokonaislukumäärä on tunnettu. Tämä testisuure noudattaa khii toiseen jakaumaa vapausastein (L 1) eli luokkien lukumäärä 1. Esimerkki : Oletetaan että tutkija tietää aikaisempien tutkimustulosten perusteella että kasvattaessaan bakteeriviljelmää tietyllä ravinteella bakteerityyppejä (A, B, C, D) pitäisi muodostua seuraavasti: 10 % A, 10 % B, 10 % C ja 70 % D. Tutkija tekee 00 viljelmää ja havaitsee bakteerityyppejä seuraavat lukumäärät A 4 B 11 C 0 D 145. Ovatko tutkijan havaitsemat lukumäärät (osuudet) yhteensopivat sen kanssa mitä on aikaisemmin väitetty? Lasketaan ensin testisuure havaittu lukumäärä (o) hypoteettiset osuudet (p) odotettu lukumäärä (e00*p) (o e) (oe) (o e) /e A 4 0.1 0 4 16 0.8000000 B 11 0.1 0 9 81 4.0500000 C 0 0.1 0 0 0 0.0000000 D 145 0.7 140 5 5 0.1785714 Yhteensä 00 1.0 00 5.08571 Saimme siis testisuureen arvoksi 5.09 joka on khii toiseen jakautunut vapausastein 4 13. Lasketaan nyt sama koneella SPSS: Tallennetaan edellinen aineisto muodossa muuttujat kanta seuraavat rivit( 4, 11,0,145) 4,00 11,00 0,00 145,00 Data view: kanta Biostatistiikkaa esimerkkien avulla 10 Janne Pitkäniemi, syksy 005

Seuraavaksi kerromme SPSS:lle että jokaista group ja korkea yhdistelmää vastaakin itse asiassa lkm muuttujan osoittama määrä havaintoja. Tämä tapahtuu valikosta Data Weight cases klikkaa Weight cases by ja valitse muuttuja kanta. Valikot: Analyze Non parametric tests Chi square. Määritellään test variable korkea ja test proportion 0,4. Tämän jälkeen klikataan kohdasta Expected kohta values ja syötetään yksi kerralaan hypoteettinen jakauma 0,1 0,1 0,1 ja 0,7 (Huomaa, ei piste) Tulos: NPar Tests Chi Square Test Frequencies kanta 11,00 0,00 4,00 145,00 Total Observed N Expected N Residual 11 0,0 9,0 0 0,0,0 4 0,0 4,0 145 140,0 5,0 00 Test Statistics Chi Square a df Asymp. Sig. kanta 5,09 3,170 a. 0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 0,0. Tulkinta: Nollahypoteesia ei hylätä joten havaitut lukumäärät voivat olla peräisin annetusta jakaumasta(p0,170). Biostatistiikkaa esimerkkien avulla 11 Janne Pitkäniemi, syksy 005

Diagnostisen testin sensitiivisyys ja spesifisyys Diagnoosien teko on keskeisellä sijalla lääketieteessä ja siksi onkin tärkeää että diagnoosien tekoa yritettään parantaa. Jotta diagnoosia voitaisiin arvioida täytyy diagnoosin hyvyys jotenkin kvantifioida tilastollisesti. Seuraava jakso esittelee diagnostisen testin peruskäsiteet sensitiivisyys, spesifisyys, positiivinen prediktiivinen arvo ja negatiivinen prediktiivinen arvo. Aloitetaan taulukosta jotta T on testi ja T + kertoo että testin tulos oli positiivinen ja vastaavasti T kertoo että testin tulos oli negatiivinen. Merkitään taudin statusta D:llä ja D + tarkoittaa että yksilöllä on tauti (D ei tautia) Tehdään seuraava x taulukko Testi Tauti + + a b a+b c d c+d a+c b+d n Esimerkki (Altman): Oletetaan että tutkija diagnosoi maksasyöpää (testi) ja toisaalta patologi ottaa näyteen jonka perusteella päätetään onko maksasyöpä vai ei (tauti). saadaan seuraava taulukko: patologin löydös (tauti) + (epänormaali) (normaali) Maksasyöpä + 31 3 63 diagnoosi maksan skannaukseen perustuen (tässä siis testi) yhteensä 7 58 54d 86 81 344 Määritellään seuraavat todennäköisyydet: 1) Todennäköisyys että yksilön testin tulos on positiivinen ehdolla että on tauti saadaan kun luetaan siis ensimmäiseltä sarakkeelta a/(a+c) ja sitten hieman muodollisemmin a T + D + ). a + c Tämä on testin sensitiivisyys eli testin kyky löytää positiivisten testin tuloksen saaneet sairaiden joukosta. Biostatistiikkaa esimerkkien avulla 1 Janne Pitkäniemi, syksy 005

) Todennäköisyys että testitulos on negatiivinen ehdolla että yksilöllä EI ole tautia saadaan kun luetaan taulukon toiselta sarakkeelta d/(b+d) ja sitten hieman muodollisemmin d T D ). b + d Tämä on testin spesifisyys eli testin kyky löytää negatiiviset terveiden yksilöiden joukosta. Esimerkki (jatkuu) Lasketaan esimerkki aineistosta sensitiivisyys ja spesifisyys: sensitiivisyys eli tautisten osuus jotka testimme löysi 31/58 0.90 ja voimme todeta että odottaisimme 90% potilaista joilla on epänormaali maksa (patologi) niin myös diagnosoidaan maksasyöväksi. spesifisyys eli terveiden osuus negatiivisen testin omaavien joukosta 54/860.63 ja voimme todeta että 63 % niistä joilla on normaali maksa niin ei todeta tautia myöskään lääkärin maksakartoituksessa (scan) Huomatkaa että taudin esiintyvyys (prevalenssi), jota merkitään D+), on (a+c)/n, ja havaitusta aineistosta laskemamme sensitiivisyys ja spesifisyys perustuvat siihen että juuri tässä aineistossa taudin prevalenssi on se mitä olemme laskeneet. USEIN haluaisimme tietää miten testi toimii jos sovellamme testiä johonkin toiseen populaatioon jolla on erilainen prevalenssi. Tällöin kysymys kuuluu mikä on taudin todennäköisyys kun testitulos on positiivnen. Tämän laskemiseen tarvitaan ns. Bayes kaavaa joka on seutaavanlainen D + T + ) T T + D + ) D + ) + D + ) D + ) + T + D ) D ) Tämä on positiivinen prediktiivinen arvo (PPV) vastaavasti voidaan määrittää negatiivinen prediktiivinen arvo (NPV) D T ) T T D ) D ) D + ) D + ) + T D ) D ) Biostatistiikkaa esimerkkien avulla 13 Janne Pitkäniemi, syksy 005

Esimerkki (jatkuu) Lasketaan esimerkki aineistosta PPV. Tätä varten tarvitsemme taudin esiintyvyyden (prevalenssi, D+) ). Se on 58/3440.75 eli 75%. Sijoitetaan yo kaavaan D + T + ) T T + D + ) D + ) + D + ) D + ) + T + D ) D ) 0.90 *0.75 0.90* 0.75 + (1 0.63) *(1 0.75) 0.88 eli 88% Sama saataisiin laskemalla 31/630.88 eli 63 potilaasta jotka diagnosoitiin (testattiin) olevan maksasyöpä 31:llä oli oikeasti maksassa patologinen lsyöpä öydös ja tästä saadaan oikeiden diagnoosien osuus. Vastaavasti voidaan laskea NPV:n. HUOM!!! Tärkeää on kuitenkin huomata PPV:n kaavasta sen riippuvan taudin esiintyvyydestä. SIIS sama testi sovellettuna toiseen populaatioon, jossa taudin prevalenssi on erilainen antaa erilaisen PPV:n arvon. Tehtävä: laske PPV kun prevalenssi on 5 %. Biostatistiikkaa esimerkkien avulla 14 Janne Pitkäniemi, syksy 005