BIOSTATISTIIKKAA ESIMERKKIEN AVULLA Kurssimoniste (luku 4) Janne Pitkäniemi Helsingin Yliopisto Kansanterveystieteen laitos Helsinki, 005 Biostatistiikkaa esimerkkien avulla 1 Janne Pitkäniemi, syksy 005
Ristiintaulukkoanalyysit...3 Laatueroasteikollinen R x C taulukko 4 Fisherin tarkka testi (r x r) taulukoille 8 Korrelaatio...9 Pearsonin korrelaatiokerroin 9 Spearmanin järjestyskorrelaatiokerroin 13 Kendallin Tau ja Somerin D..14 Biostatistiikkaa esimerkkien avulla Janne Pitkäniemi, syksy 005
Ristiintaulukkoanalyysit Tähän kappaleeseen on koottu tavallisimmat luokitellun tiedon käsittelyssä käytettävät perustestit. Monia niistä on käsitelty ja esimerkein havainnollistettu jo aiemmin tässä monisteessa. Käyttötilanne: Halutaan tutkia luokiteltujen ( categorical ) muuttujien välisiä yhteyksiä. Luokitellut muuttujat voivat olla joko laatueroasteikollisia (esim. HLA tyyppi tai silmien väri) tai järjestysasteikollisia (esim. lääkeannos: matala, keskimääräinen, korkea tai vastaavasti esim. numeerisina arvoina ilmaistuna: 00 mg, 400 mg, 1600 mg). Oletetaan, että muuttujat tarkasteltavat muuttujat x ja y ovat luokiteltuja siten, että x:ssä on R luokkaa ja y:ssä C luokkaa ja että muuttujien välisen yhteyden tutkimiseksi on muodostettu R x C kontingenssitaulukko ( contigency table ): Muuttuja x Muuttuja y 1 j C 1 i f m j R n 1 n j N Taulukossa f tarkoittaa i. rivin ja j. sarakkeen frekvenssilukua. Tälle lokerofrekvenssille saadaan odotettu arvo kaavalla: E(f ) = m i n j /N, kun oletetaan, että x:n ja y:n välillä ei olisi mitään riippuvuutta keskenään. Tämä merkitsee, että rivi /sarakejakaumat eivät poikkea toisistaan, jolloin erot havaitussa frekvenssitaulukossa johtuvat sattumasta. Nimitys kontingenssi tarkoittaa sattumaa. Huom. Lokerokohtaiset odotusarvot ja havaittujen arvojen poikkeamat odotus arvoista kannattaa laskea, sillä niiden perusteella voi alustavasti tarkastella x:n ja y:n välisen riippuvuuden luonnetta. Tilastopaketit tulostavat nämä suureet pyydettäessä. Testattavat hypoteesit: Nollahypoteesi (H 0 ): taulukon rivit ja sarakkeet eivät riipu toinen toisistaan, ts. x:llä ja y:llä (riveillä ja sarakkeilla) ei ole yhdysvaikutusta ( interaction ) keskenään. Biostatistiikkaa esimerkkien avulla 3 Janne Pitkäniemi, syksy 005
Vaihtoehtoinen hypoteesi (H A ): taulukon rivien ja sarakkeiden välillä on riippuvuutta. Tarkastellaan tilastopakettien tarjoamia testivaihtoehtoja seuraaviin tilanteisiin: 1. Molemmat R x C taulukon muuttujista x ja y ovat laatueroasteikollisia,. Toinen muuttujista on laatueroasteikollinen ja toinen järjestysasteikollinen, jolloin kyseessä on yhteen suuntaan järjestetty taulukko, 3. Molemmat muuttujista x ja y ovat järjestysasteikollisia, eli taulukko on kahteen suuntaan järjestetty. Tilastopaketit tarjoavat näihin testaustilanteisiin useita eri testivaihtoehtoja ja lisäksi yleensä kunkin vaihtoehdon sisällä on valittavana kolme eri tapaa P arvon laskemiseksi: a) asymptoottinen, b) Monte Carlo ja c) eksakti laskentatapa. Kaikki nämä laskentatavat tuottavat asymptoottisesti saman tuloksen. Asymptoottinen menetelmä asymptotic method on mikä tahansa menetelmä, joka perustuu approksimaatioon, eli likimäämäisarviointiin, Normaalakaumalla tai jollain muulla todennäköisyysjakaumalla siten, että käytetty arvio tarkentuu, kun aineistokoko n kasvaa. Synonyymi asymptoottiselle menetelmälle on suurten otosten menetelmä large sample method ja vaihtoehto on tarkka menetelmä exact method. Monte Carlo menetelmät Monte Carlo methods ovat tietokonesimulaatiota käyttäviä ratkaisumenetelmiä matemaattisiin ja tilastollisiin ongelmiin. Simulaatiossa imitoidaan tilastollisia malleja satunnaislukujen avulla. Laatueroasteikollinen R x C taulukko Käytettävissä olevat testit: a) Pearsonin Khi heterogeenisuustesti: χ = R C i= 1 j= 1 (f E(f E(f ) )) Kaavassa f :t ovat taulukon havaitut lukumäärät ja E(f ):t ovat niiden odotusarvot. Huom. Khi testi on erittäin herkkä pienille odotusarvoille; Suhteellinen virhe tulee tällöin suureksi, koska odotusarvot ovat testisuureen nimittäjässä. b) G testi, uskottavuussuhde ( likelihood ratio ) testi: Biostatistiikkaa esimerkkien avulla 4 Janne Pitkäniemi, syksy 005
G = R C i= 1 j= 1 f f loge( ) E(f ) G testi on yleisimmin käytetty testi taulukkoanalyyseissä (Esim. loglineaariset mallit). Se ei ole yhtä herkkä kuin Khi testi pienille odotusarvoille log muunnoksesta johtuen. Vapausasteiden määrä on df = (R 1) (C 1) m, missä m = odotusarvojen laskemisessa tarvittavien estimoitujen parametrien määrä. Tavallisesti m = 0. Sekä khi että G testiin voidaan tilastopaketeista kohdasta options pyytää myös lisäykset testisuureen arvoon lokeroittain: (f E(f )) χ = ja E(f ) G = f log e f E(f ) Näiden suureiden perusteella voi todeta lokerokohtaiset lisäykset testisuureen arvoon ja todeta missä lokerossa tai lokeroissa on eniten poikkeamaa riippumattomuusoletuksesta. Sekä khi että G testisuureet ovat aineiston koosta riippuvaisia eivätkä siten anna hyvää käsitystä riippuvuuden voimakkuudesta. Niiden perusteella voidaan kuitenkin laskea normitettuja riippuvuuden mittoja; kontingenssikertoimia. SPSS:ssä polun Analyze Descriptive statistics Crosstabs Statistics päästä löytyy mm. vaihtoehdot: Kontingenssikerroin, Phi kerroin ja Cramerin V. Kaikkien näiden kerrointen vaihtelualue on: 0 1 (ei assosiaatiota täydellinen assosiaatio). Niiden avulla voidaan verrata mm. assosiaation voimakkuutta eri dimensioisissa (R x C) taulukoissa, mutta lääketieteellisissä julkaisuissa niitä käytetään erittäin harvoin. Esimerkki: Tutka on kiinnostunut iän ja kolesterolin riippuvuudesta esimerkki aineistossamme datasetb. Tätä varten hän luo uuden muuttujan ikäryhmiä varten SPSS:llä compute > transform ageg=(age1950>=30)+(age1950>=40)+(age1950>=50)+( age1950>=60). Voimme tarkastella jakaumaa SPSS:llä Analyze Descriptive statistics frequencies ageg Cumulative Frequency Percent Valid Percent Percent Valid age<30 16 8,0 8,0 8,0 30<=age<40 38 19,0 19,0 7,0 40<=age<50 68 34,0 34,0 61,0 50<=age<60 55 7,5 7,5 88,5 age>=60 3 11,5 11,5 100,0 Total 00 100,0 100,0 Biostatistiikkaa esimerkkien avulla 5 Janne Pitkäniemi, syksy 005
Tämä komento luo siis uuden muuttujan joka saa arvot 0 kun ikä on alle 30, 1 kun ikä on suurempi tai yhtäsuuri kuin 30 ja alle 40 jne. Tutka haluaa luokitella kolesteroli neljään luokkaa käyttäen aineiston kolesterolakauman prosenttipisteitä 5 %, 50 % ja 75 %. Tämä löytyy SPSS:llä Analyze Descriptive statistics frequencies Statistics valitaan quartiles. Statistics Serum cholesterol (mmol/l) N Valid 00 Missing 0 Percentiles 5 1,00 50 13,8900 75 16,3900 Näin saadaan luokittelumuuttujan tekemistä varten luokkarajat. Luodaan uusi muuttujan muuttuja kolestoroliryhmiä varten SPSS:llä: compute > transform ja sen jakauma frequencies valikosta cholg=(chol1950>=1.)+(chol1950>=13.89)+(chol1950>=16.39). cholg Cumulative Frequency Percent Valid Percent Percent Valid <1, 40 0,0 0,0 0,0 1,<=chol1950<13,89 54 7,0 7,0 47,0 13,89<=chol1950<16,39 55 7,5 7,5 74,5 >=16,39 51 5,5 5,5 100,0 Total 00 100,0 100,0 Nyt voimme ristiintaulukoida ikäryhmän ja kolesterolitason: Analyze Descriptive statistics crosstabs valitaan Statistics ja chi square sekä Cells ja expected, row, column, total. Näin saadaan seuraava taulukko sekä khiitoiseen homogeenisuustesti: Biostatistiikkaa esimerkkien avulla 6 Janne Pitkäniemi, syksy 005
ageg * cholg Crosstabulation cholg Total <1, 1,<=chol 1950<13,89 13,89<=chol 1950<16,39 >=16,39 ageg age<30 Count 4 5 3 4 16 Expected Count 3, 4,3 4,4 4,1 16,0 % within ageg 5,0% 31,3% 18,8% 5,0% 100,0% % within cholg 10,0% 9,3% 5,5% 7,8% 8,0% % of Total,0%,5% 1,5%,0% 8,0% 30<=age< Count 40 7 11 8 1 38 Expected Count 7,6 10,3 10,5 9,7 38,0 % within ageg 18,4% 8,9% 1,1% 31,6% 100,0% % within cholg 17,5% 0,4% 14,5% 3,5% 19,0% % of Total 3,5% 5,5% 4,0% 6,0% 19,0% 40<=age< Count 50 13 19 5 11 68 Expected Count 13,6 18,4 18,7 17,3 68,0 % within ageg 19,1% 7,9% 36,8% 16,% 100,0% % within cholg 3,5% 35,% 45,5% 1,6% 34,0% % of Total 6,5% 9,5% 1,5% 5,5% 34,0% 50<=age< Count 60 10 10 16 19 55 Expected Count 11,0 14,9 15,1 14,0 55,0 % within ageg 18,% 18,% 9,1% 34,5% 100,0% % within cholg 5,0% 18,5% 9,1% 37,3% 7,5% % of Total 5,0% 5,0% 8,0% 9,5% 7,5% age>=60 Count 6 9 3 5 3 Expected Count 4,6 6, 6,3 5,9 3,0 % within ageg 6,1% 39,1% 13,0% 1,7% 100,0% % within cholg 15,0% 16,7% 5,5% 9,8% 11,5% % of Total 3,0% 4,5% 1,5%,5% 11,5% Total Count 40 54 55 51 00 Expected Count 40,0 54,0 55,0 51,0 00,0 % within ageg 0,0% 7,0% 7,5% 5,5% 100,0% % within cholg 100,0% 100,0% 100,0% 100,0% 100,0% % of Total 0,0% 7,0% 7,5% 5,5% 100,0% Chi Square Tests Value df Asymp. Sig. ( sided) Pearson Chi Square 13,515(a) 1,333 Biostatistiikkaa esimerkkien avulla 7 Janne Pitkäniemi, syksy 005
Likelihood Ratio 13,981 1,30 Linear by Linear Association,003 1,959 N of Valid Cases 00 a 5 cells (5,0%) have expected count less than 5. The minimum expected count is 3,0. Testin perusteella nollahypoteesia ei hylätä 5 % merkitsevyystasolla, joten kolesterolitason ja ikäryhmien välillä ei ole tilastollisesti merkitsevää riippuvuutta tässä aineistossa. Fisherin tarkka testi (r x r) taulukoille Käyttötilanne: heterogeenisuuden testaaminen tarkasteltava muuttuja laatueroasteikollinen kaksi vertailtavaa ryhmää Esim. Onko mahahaavan ja ABO veriryhmän välillä tilastollisesti merkitsevä yhteys? (Varis K, Salmi H, ym., julkaisematon) Ryhmä ABO Total O A B AB Aktiivinen mahahaava 18 6 1 1 46 Muut ylävatsaoireiset 8 4 13 6 51 Total 6 50 14 7 97 SPSS: Valikot: Analyze Descriptive Statistics Crosstabs Määritellään taulukon rivit ja sarakkeet ja klikataan kohdasta Statistics Chi square ja kohdasta Exact Exact. Chi Square Tests Value df Asymp. Sig. ( sided) Exact Sig. ( sided) Pearson Chi Square 17,57(a) 3,0005,0003 Likelihood Ratio 19,935 3,000,0003 Fisher's Exact Test 18,101,0003 (a) cells (5,0%) have expected count less than 5. The minimum expected count is 3,3. Tulkinta: ABO veriryhmäjakaumissa on eroa vertailtavien ryhmien välillä, ts ABOveriryhmän ja ryhmän välillä on tilastollisesti merkitsevä yhteys. Biostatistiikkaa esimerkkien avulla 8 Janne Pitkäniemi, syksy 005
Korrelaatio Pearsonin korrelaatiokerroin Pearsonin korrelaatiokerroin, Pearson s correlation coefficient (r x, y ) Siitä käytetään myös nimitystä tulo momentti korrelaatiokerron. Se on parametrinen lineaarisen riippuvuuden mitta kvantitatiivisten suureiden x ja y välillä. Parametrinen tarkoittaa, että tarkasteltavien muuttujien x ja y yhteisjakauman tulisi olla likimain normaalinen. Muussa tapauksessa esim. poikkeavilla havaintoarvoilla voi olla suuri vaikutus r:n arvoon. r voi saada minkä tahansa arvon väliltä [ 1, +1], ja r = 1 merkitsee täydellistä lineaarista negatiivista (käänteistä) ja +1 positiivista riippuvuutta. r = 0 merkitsee, ettei x:n ja y:n välillä ole ollenkaan lineaarista riippuvuutta. r = 0 ei merkitse, ettei niiden välillä voisi jotain muunlaista epälineaarista riippuvuutta. Huom. Pearsonin korrelaatiokerrointa ylikäytetään, väärinkäytetään ja myös tulkitaan usein väärin lääketieteellisissä artikkeleissa. Esim. korrelaatiokertoimet voivat olla harhaanjohtavia mikäli aineistossa on selvästi muista arvoista poikkeavia havaintoarvoja kuvat A ja B) tai mikäli aineisto muodostuu osaryhmistä, joiden tiedetään eroavan keskiarvotasolla molempien korreloitavien muuttujien suhteen (kuva C). Biostatistiikkaa esimerkkien avulla 9 Janne Pitkäniemi, syksy 005
Käyttö: Jotta r olisi validi assosiaation mitta, niin seuraavat vaatimukset tulisi täyttyä: muuttujien x ja y yhteisjakauman tulisi olla normaalinen (ellei vaatimus täyty edes pitäisi turvautua parametrittomiin korrelaatioihin) muuttujien x ja y välillä ei saa olla teknisiä riippuvuuksia, jotka säätelevät muuttujien yhteisvaihtelua kustakin henkilöstä saa olla vain yksi havaintopari aineistossa, josta korrelaatio lasketaan, esim. jos 30 henkilöstä on 3 toistomittausta, niin korrelaatiota ei saa laskea siten, että havaintoarvoja olisi 90! (toistomittausten tapauksessa pitää käyttää toistomittausanalyysejä) Pearsonin korrelaatiokerroin ja sen keskivirhe lasketaan kaavoilla: Testi: xy n i= 1 n i= 1 (x (x i i x) (y x) n i= 1 i (y y) r =, SE(r) = i y) 1 r n Biostatistiikkaa esimerkkien avulla 10 Janne Pitkäniemi, syksy 005
Korrelaatiokertoimen tilastollista merkitsevyyttä voidaan arvioida testisuureella: t = r SE(r) = r n 1 Testisuure noudattaa Studentin t jakaumaa vapausastein (n ). r Esim. Tutkitaan kolesterolin ja iän riippuvuutta esimerkkiaineistossamme käyttäen jatkuvia muuttujia chol1950 ja age1950. Piirretään ensin hajontakuvio SPSS:llä: Graph Scatter Simple. Valitaan x axis Age1950 ja y axis chol1950. 30,00 5,00 Serum cholesterol (mmol/l) 0,00 15,00 10,00 5,00 0,0 30,0 40,0 50,0 60,0 70,0 Age in 1950 Jo pelkästään kuvaa katsomalla lienee selvää ettei ainakaan mitään voimakasta suoraviivaista riippuvuutta ole. Testataan asia kuitenkin tilastollisesti SPSS:llä: Analyze Correlate Bivariate ja valitaan kiinnostavat muuttujat chol1950 ja age1950. Biostatistiikkaa esimerkkien avulla 11 Janne Pitkäniemi, syksy 005
Correlations Age in 1950 Serum cholesterol (mmol/l) Serum cholesterol Age in 1950 (mmol/l) Pearson Correlation 1,070 Sig. ( tailed),35 N 00 00 Pearson Correlation,070 1 Sig. ( tailed),35 N 00 00 Johtopäätös: Iän vuonna 1950 ja kolesterolin välillä ei ole tilastollisesti merkitsevää korrelaatiota (5% merkitsevyystasolla). Nollahypoteesia ei hylätä joten Pearsonin korrelaatiokerroin (r) on nolla. Korrelatiivisia menetelmiä, esimerkiksi tavallista lineaarista regressiota, käytetään usein, kun osa muuttujista on järjestysasteikollisia. Tällöin tulisi kuitenkin olla erityisen varovainen, sillä järjestysasteikollisten ja jatkuvien muuttujien väliset korrelaatiot saattavat helposti vääristyä, koska harvoin järjestysasteikollisten muuttujien arvojoukko on tasavälinen. Jatkuvien muuttujien ja dikotomisten muuttujien välisissä korrelaatioissa ei sen saan ole mitään laskennallista ongelmaa. Sen saan testaamisen suhteen on, sillä yllä oleva testisuure toimii tällöin vain likimääräisesti. Huom. Korrelaatiokertoimia tulkittaessa kannattaa muistaa seuraavat asiat: korrelaatiokerroin on tulkinnallisesti eri asia kuin regressiokerroin korrelaatio on symmetrinen assosiaation mitta, r xy = r yx korrelaatio ja kausaliteetti ovat eri asioita; voimakas korrelaatio ei takaa kausaalista riippuvuutta tilastollisesti merkitsevä korrelaatio on eri asia kuin kliinisesti merkittävä korrelaatio Biostatistiikkaa esimerkkien avulla 1 Janne Pitkäniemi, syksy 005
Spearmanin järjestyskorrelaatiokerroin Spearmanin korrelaatiokerroin, (r s ) Spearman's rho on parametriton assosiaation mitta kvantitatiivisen tai järjestysasteikollisen suureen x ja y välillä. Mitta saa arvoja väliltä ( 1,1). Sitä käytetään erityisesti pienissä aineistoissa. Se lasketaan siten, että aineisto lajitellaan x:n ja y:n suhteen ja annetaan havaintoarvoille järjestysluvut ranks ja lasketaan Pearsonin korrelaatiokerroin näiden järjestyslukujen perusteella. Käyttö: Spearmanin korrelaatiokerrointa r s ( Spearman's rho ) käytetään järjestysasteikollisten muuttujien välisenä assosiaation mittana. Se on yleisesti käytetty mitta kliinisissä tutkimuksissa, koska se ei edellytä normaalisuutta, eikä ole herkkä poikkeaville havaintoarvoille, joita yleisesti tutkimusaineistoissa esiintyy. Ongelmana on, että monimuuttuja analyyseissa sillä ei ole käyttöä. Spearmanin korrelaatiokerroin lasketaan kaavalla: 6 rs = 1 3 n n i= 1 d n i missä d i on i. henkilön järjestyslukujen erotus korreloitavilla suureilla x ja y. Samojen lukuarvojen tapauksessa järjestyslukuna käytetään niitä vastaavien järjestyslukujen keskiarvoa. Yllä oleva laskentakaava on alunperin johdettu siten, että Pearsonin kaavaan on soitettu alkuperäisten x:n ja y:n lukuarvojen paikalle järjestysluvut. Spearmanin korrelaatioiden tilastollisen merkitsevyyden arvioimiseksi pienillä aineistoilla (n < 10) tulisi käyttää eksakteja testejä (esim. StatXact 6 tai erityistaulukoita). Kun aineistokoko on välillä 10 30 voidaan käyttää Monte Carlo menetelmiä ja sitä suuremmilla aineistoilla Pearsonin korrelaatiokertoimen t testiä. Esim. Lasketaan nyt Spearmanin korrelaatio kerroin ja testataan sitä vuoden 1950 kolesterolille ja iälle. Correlations Serum cholesterol Age in 1950 (mmol/l) Spearman's rho Age in 1950 Correlation Coefficient 1,000,06 Sig. ( tailed).,38 N 00 00 Serum Correlation Coefficient cholesterol,06 1,000 (mmol/l) Sig. ( tailed),38. N 00 00 Johtopäätös on sama kuin edellä (r s =0.06, p=0.383). Biostatistiikkaa esimerkkien avulla 13 Janne Pitkäniemi, syksy 005
Kendallin Tau ja Somerin D Kendallin tau Kendall's tau on parametriton assosiaation mitta kvantitatiivisen tai järjestysasteikollisen suureen x ja y välillä. Mitta saa arvoja väliltä ( 1,1). Sitä käytetään erityisesti pienissä aineistoissa, kuten Spearmanin korrelaatiokerrointakin. Kendallin tau:n avulla, toisin kuin Spearmanin kertoimella voidaan laskea myös osittaiskorrelaatioita r xy.z, missä z on muuttuja, jonka vaikutus halutaan x:n ja y:n välisestä assosiaatiosta puhdistaa. Somerin D, Somer's D Parametriton assosiaation mitta kvantitatiivisten tai järjestysasteikollisten suureiden x ja y välillä. Mitta saa arvoja väliltä ( 1,1). Se on kilpaileva mitta Kendallin tau:lle. Käyttö: Kendallin tau ja Somerin D ovat vaihtoehtoisia mittoja Spearmanin korrelaatiokertoimelle järjestysasteikollisten muuttujien x ja y välisiä riippuvuussuhteita tarkasteltaessa. Näiden mittojen laskentatapa on erilainen kuin Spearmanin korrelaatiokertoimessa. Siksi ne saattavat antaa hyvinkin erilaisen arvon kuin Spearman, yleensä numeerisesti pienemmän. Molemmat mitat perustuvat konkordanttien (sama tulos) ja diskordanttien (eri tulos) parien määriin eikä samalla tavalla järjestyslukuihin kuten Spearmanin korrelaatiokerroin. Kendallin Tau soveltuu käytettäväksi myös silloin, kun on tarve laskea osittaiskorrelaatioita, eli puhdistaa korrelaatiosta jonkun tai joidenkin muuttujien vaikutus. Somerin D on epäsymmetrinen assosiaation mitta toisin kuin Spearman ja Kendall. Se tarkoittaa, että toista assosioitavista muuttujista tarkastellaan riippuvana ja toista riippumattomana muuttujana. Biostatistiikkaa esimerkkien avulla 14 Janne Pitkäniemi, syksy 005