Altisteiden ja sairauksien mittaaminen. Biostatistiikan näkökulmasta EPIDEMIOLOGIAN JA BIOSTATISTIIKAN PERUSTEET. L2 kevät 2007



Samankaltaiset tiedostot
Testejä suhdeasteikollisille muuttujille

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastollinen aineisto Luottamusväli

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Otoskoon arviointi. Tero Vahlberg

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Väliestimointi (jatkoa) Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Testit järjestysasteikollisille muuttujille

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

tilastotieteen kertaus

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 2) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Osa 2: Otokset, otosjakaumat ja estimointi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Estimointi. Otantajakauma

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Testit laatueroasteikollisille muuttujille

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Sovellettu todennäköisyyslaskenta B

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Estimointi. Vilkkumaa / Kuusinen 1

Otoskoko 107 kpl. a) 27 b) 2654

pisteet Frekvenssi frekvenssi Yhteensä

Hypoteesin testaus Alkeet

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

1 TILASTOMENETELMIEN PERUSTEITA

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Harjoitus 2: Matlab - Statistical Toolbox

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

10. laskuharjoituskierros, vko 14, ratkaisut

Aineistokoko ja voima-analyysi

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Mitä käytännön lääkärin tarvitsee tietää biostatistiikasta?

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Sisältö. Perusteiden Kertaus. Tilastollinen analyysi. Peruskäsitteitä. Peruskäsitteitä. Kvantitatiivinen metodologia verkossa

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Parametrin estimointi ja bootstrap-otanta

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Luottamusvälit. Normaalijakauma johnkin kohtaan

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Tilastollisia peruskäsitteitä ja Monte Carlo

Sovellettu todennäköisyyslaskenta B

Mat Sovellettu todennäköisyyslasku A

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Tilastollisten aineistojen kerääminen ja mittaaminen

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Teema 8: Parametrien estimointi ja luottamusvälit

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tutkimustiedonhallinnan peruskurssi

Ohjeita kvantitatiiviseen tutkimukseen

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Mat Tilastollisen analyysin perusteet, kevät 2007

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Kandidaatintutkielman aineistonhankinta ja analyysi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

031021P Tilastomatematiikka (5 op) viikko 5

Tutkimustiedonhallinnan peruskurssi

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Kliininen arviointi ja kliininen tieto mikä riittää?

Transkriptio:

EPIDEMIOLOGIAN JA BIOSTATISTIIKAN PERUSTEET L2 kevät 2007 mittaaminen Biostatistiikan näkökulmasta Janne Pitkäniemi VTM, MSc (biometry) HY, Kansanterveystieteen laitos 1 Perusjoukon ja otoksen käsitteet Mitta-asteikot Sairauden vaara ja riski Otostunnusluvut Luottamusvälin käsite p-arvo 2 Lääketieteen sovelluksille erinomainen biometrian kooste löytyy prof. Sarnan kotisivuilta www.kttl.helsinki.fi/sarna/osa1.pdf www.kttl.helsinki.fi/sarna/osa2.pdf 3

Tilastollisten menetelmien käytöstä Valtaosassa (>80%) lääketieteellisiä tutkimuksia ja julkaisuita edellytetään nykyisin tilastollisten menetelmien käyttöä. Useimmissa arvostetuissa lehdissä (esim. BMJ ja Lancet) kiinnitetään erityistä huomiota tilastollisten menetelmien riittävälle ja oikealle käytölle. Kliinisissä kokeissa on erittäin tarkat normit tilastollisten menetelmien käytölle. 4 Tilasto-ohjelmistopaketteja SPSS (www.spss.com) SAS (www.sas.com) STATA (www.stata.com) SYSTAT STATISTICA S-PLUS R (www.r-project.org) nquery (www.statsol.ie/nquery) 5 Tilastollinen päättely statistical inference Se on päättelymekanismi, jolla kerätyn otoksen/otosten (tutkimusaineiston) perusteella tutkittavasta asiasta pyritään tekemään johtopäätöksiä (päätelmiä) laajempaa perusjoukkoa (populaatiota) koskevaksi. Osa-alueet ovat arviointi (estimointi) ja hypoteesien testaaminen (testaus). 6

Kohdeperusjoukko Suomen väestö Otanta Otoksesta Laskettu Otossuure (otoskeskiarvo) Otosperusjoukko Otos Otoksen Suomalaiset henkilöt x Väestörekisterin suomenkansalaiset Perusjoukon Tuntematon suure Kolesteroli keskiarvo (TAI Suomen Reumapotilaat) (TAI Reumasäätiösairaalan potilaat) (TAI Otos reumasäätiön Potilaista) 7 Esimerkki tutkimuksen aloituksesta Oletetaan että olemme kiinnostuneet suomalaisten kolesterolin keskimääräisestä arvosta koko väestössä (merkitään µ) Satunnaismuuttuja on kolesteroli merk. X Koska kaikkia ei voi/kannata mitata => poimitaan 50 yksilön otos => (3.28,3.99,7.53,4.93,5.73,5.2,6.5,5.1,5.07,5.4,6.3,3.95,3.3,6.38, 4.8,5.06,4.21,4.88,5.42,4.59,4.59,5.7,4.62,5.16,2.78,2.71,6.36, 4.15,5.34,4.74,5.73,3.45,8.31,4.52,4.9,3.75,6.42,3.89,4.35,2.61,3.95,5.22,5.72,5.32,5.69,4.52,7,6.03,4.08,5.34) Havaittua muuttujan arvo: x 1 =3.28 mmol/l Jos poimittaisiin uusi otos saataisiin eri havaintoarvot => satunnaisuus 8 Avainsanoja Estimoinnilla estimation tarkoitetaan tutkittavan ilmiön kuvaamiseen käytetyn mallin tai jakauman sisältämien tuntemattomien suureiden, parametrien, arviointia otoksen/otosten perusteella. Parametri parameter on tuntematon suure, joka säätelee tutkittavan ilmiön kuvaamisessa käytettyä mallia, esim. jotain teoreettista jakaumaa. Arvioidaan tutkimusaineiston perusteella. (esim. ) piste-estimointia ( point estimation ) ja luottamusväliestimointia ( confidence interval estimation ) Piste-estimointi on tuntemattoman suureen, eli parametrin, (esim. jonkin taudin yleisyys) arviointi yhdellä lukuarvolla (estimaatilla), joka on laskettu havaintoaineistosta. Otossuure sample statistic on otoksen havaintoarvojen perusteella laskettu suure, havaintoarvojen funktio. Estimaattori sample statistic on otossuure, jolla tuntematonta parametria arvioidaan. (aritmeettinen keskiarvo, x ) estimaatti estimate on otoksen perusteella laskettu estimaattorin lukuarvo. (aritmeettinen otoskeskiarvo 4.97) 9

Harha bias Tilastolliseen tutkimukseen liittyvät harhat voidaan määritellä sellaisina tulkintoina ja toimenpiteinä missä tahansa tutkimusprosessin vaiheessa, jotka johtavat systemaattiseen poikkeamaan todellisuudesta. Harhasta voidaan myös käyttää nimitystä systemaattinen virhe ( systematic error ). Kriittisen tutkimuksen olennainen osa on harhamahdollisuuksien jatkuva arviointi tutkimuksen kaikissa vaiheissa. Tutkittavan muuttujan (esim. kolesteroli) mittaasteikko/tyyppi ratkaiseen analyyseissa valittavan tilastollisen mentelmän 10 Muuttujien tyypit Muuttuja on suure, jota käytetään havaintojen tekemiseen tai mittaamiseen. Päätyypit: epäjatkuvat ( discrete ) ja jatkuvat ( continuous ) Epäjatkuvat muuttujat voivat saada vain tiettyjä, määrättyjä arvoja, ja jatkuvat muuttujat voivat saada arvoalueensa sisältä mitä tahansa arvoja (mittaustarkkuuden puitteissa), esim. henkilön ikä. Epäjatkuvat muuttujat voidaan edelleen jakaa: luokkamuuttujiin ( categorical ) ja numeerisiin muuttujiin ( numerical ) edellisistä esimerkkinä ABO-veriryhmäjärjestelmä, ja jälkimmäisestä lukumäärät ( counts ). 11 Mitta-asteikot Välimatka-asteikko ( Interval scale ) Asteikko, missä minkä tahansa kahden numeerisen arvon erotuksella on kvantitatiivisesti sama merkitys missä tahansa kohdassa skaalaa. Esim. lämpötila. Suhdeasteikko ( Ratio scale ) Välimatka-asteikko, missä 0-arvo merkitsee ominaisuuden puuttumista. Absoluuttinen nollapiste Esim. alkoholin kulutus, pituus, paino. 12

Asteikot (jatkoa) Järjestysasteikko ( Ordinal scale ) Kolmi- tai useampiluokkainen asteikko, missä luokkien suhteellinen sijainti toisiinsa nähden muodostaa luonnollisen järjestyksen Esim. oireen voimakkuus: 0=ei oiretta, 1=lievä, 2=kohtalainen, 3=vaikea. (numerointi samansuuntainen muutoksen kanssa, mutta muuten mielivaltainen!), sotilasarvo Laatueroasteikko ( Nominal scale ) Kolmi- tai useampiluokkainen asteikko, missä luokkien välillä ei oleteta olevan mitään luonnollista järjestystä tutkittavassa asiayhteydessä Esim. siviilisääty, tautiluokitus. 13 Asteikot (jatkoa) Kaksiluokkainen asteikko ( Dichotomy ) On erikoistapaus järjestysasteikosta. Siinä on kaksi luokkaa, joiden järjestys keskenään on sopimuskysymys, esim. sukupuoli, taudin olemassaolo, jonkun asia tapahtuminen. Muunnokset: Monissa tilastollisissa malleissa välimatka- tai suhdeasteikollinen muuttuja joudutaan luokittelemaan järjestysasteikolliseksi, jotta mallin parametrien arviointi olisi mahdollista ja tulokset tulkittavissa. 14 Asteikot (jatkoa) Välimatka- tai suhdeasteikollista muuttujaa (esim. ikä) voidaan tilastollisissa malleissa käsitellä kuten laatueroasteikollista muuttujaa, kun halutaan esim. testata muuttujan mahdollisia ei-monotonisia yhteyksiä mallin muihin muuttujiin. Katkaisukohdilla ( cut-off points ) on suuri merkitys tulosten kannalta. Huono katkaisukohtien valinta voi peittää alleen tilastollisen yhteyden. Tiedot kannattaa kerätä mahdollisimman tarkasti, ja tilastokäsittelyssä niitä yhdistellä tutkimushypoteesin edellyttämällä tavalla 15

Aineiston esitarkastelu ( data screening ) Suoritetaan ennen varsinaisia analyysejä Poikkeavien havaintoarvojen etsintä Outlier Muista havaintoarvoista selvästi poikkeava arvo, joita biologisessa aineistossa esiintyy. Paitsi biologinen vaihtelu syynä voi myös olla mittaus- tai tallennusvirhe. Jakaumien muotojen tarkastelu Perusriippuvuuksien selvittely 16 Sairauksien mittaaminen Sairauksia voidaan mitata karkeilla tunnusluvuilla jotka kuvaavat kahta keskeistä sairauksiin liittyvää ilmiötä Uusien tapausten ilmaantumista väestöön tai sairaiden ihmisten osuutta väestössä Otetaan esimerkiksi seuraava kuuden hengen väestö otos 17 Vaara risk on tietyn tapahtuman todennäköisyys. Lasketaan kaavalla: vaara = (tapahtumien lukumäärä) / (vaaralle alttiina olevien lukumäärä) Ilmaantuvuus ( Rate ) on tietyn tapahtuman todennäköisyys pienellä aikavälillä Lasketaan kaavalla Rate = uusien tapausten määrä aikavälillä / aikavälin henkilöaikojen summa 18

Event Chart 0 1 2 3 4 5 6 7 sairas terve 0 2 4 6 8 10 Follow-up Time 19 Sairastumisvaara risk Esimerkistä laskettuna 3/6=0.5 eli 50% Estimoitu todennäköisyys sairastua tarkastelujaksolla HUOM! Oletetaan että sairastumistodennäköisyys on vakio eikä huomioida kuka on riskissä sairastua tietyllä ajanhetkellä 20 Ilmaantuvuus (insidenssi) Uusien tautitapausten määrä tietyllä aikavälillä sairastumiselle alttiina olevassa väestönosassa. Event Chart Lasketaan tapaukset Aikavälillä 2-4 yht. 3 ja henkilövuodet 1+2+1+0.5+2=6.5 eli Ilmaantuvuus: 3 tapausta / 6.5 =0.462 tapausta/ eletty vuosi 0 1 2 3 4 5 6 7 Follow-up Time HUOM: Ilmaantuvuus muille väleille vaihtelee esim. 0-2 se olisi 0 sairas terve 0 2 4 6 8 10 21

Esiintyvyys (prevalenssi) Olemassa olevien sairaiden osuus perusväestöstä tiettynä ajankohtana Event Chart Lasketaan esiintyvyys Ajanhetkellä 3.5 tapausta seuranta-ajan hetkellä 3 jaettuna elossa olevien Lukumäärällä joka on 10 Siis 3/10=0.3 on siis taudin eli taudin esiintyvyys on 30 % ajanhetkellä 3.5 0 1 2 3 4 5 6 7 sairas terve elossa 0 2 4 6 8 10 Follow-up Time 22 Suhteellinen vaara (RR) relative risk, risk ratio Seurantatutkimusasetelmissa käytetty altisteen ja taudin välisen yhteyden mitta altistuneiden ja altistumattomien sairastumisvaaran suhde RR lasketaan kaavalla: RR = (vaara altistuneilla) / (vaara altistumattomilla) Vaaraa arvioidaan tavallisesti kumulatiivisella ilmaantuvuudella. Kumulatiinen ilmaatuvuus: seurannan aikana sairastuneet Altisteiden ja / sairauksien väestön määrä seurannan alussa 23 Oletetaan että henkilöt 1-3 (A) ovat altistuneita ja 4-6 altistumattomia (EA) Event Chart Altistuneet: 2/3 Altistumattomat: 1/3 Suhteellinen vaara 2 / 3 1/ 3 2.0 0 1 2 3 4 5 6 7 sairas terve 0 2 4 6 8 10 Follow-up Time 24

Vaarasuhde rate ratio, incidence ratio Lasketaan kahden ilmaantuvuusluvun suhteena (Altistuneet 1-3 ja altistumattomat 4-6) Ilmaantuvuus altistuneilla: 2/(3+6+3) pyrs = 0.1700 Ilmaantuvuus altistumattomilla: 1/(2.5+2+10) pyrs = 0.0689 0 1 2 3 4 5 6 7 Event Chart sairas terve 0 2 4 6 8 10 Follow-up Time Vaarasuhde: 0.17/0.0689 2.4 25 Vaaratekijästä johtuva osuus (AF), attributable fraction Se suhteellinen osuus absoluuttisesta vaaraerosta(ard), joka johtuu jostakin tekijästä, esim. altisteesta. Määritellään: AF = (vaara1 -vaara2) / vaara2 = (RR - 1) / RR, missä vaara1 on vaara altistuneessa ryhmässä, vaara2 on altistumattomien vaara ja RR on suhteellinen riski. Esimerkissämme (2-1)/2=0.5 eli 50% 26 Vaaratekijästä johtuva osuus perusjoukossa (PAF), population attributable fraction Mittaa kuinka suuri vaikutus vaaratekijällä (tai altisteella) on tietyssä perusjoukossa ylimääräiseen sairastumisvaaraan. Se ei riipu pelkästään altisteen ja taudin välisestä yhteydestä vaan myös altisteen yleisyydestä kyseisessä perusjoukossa. Määritellään: PAF = (ilmaantuvuus perusjoukossa -ilmaantuvuus altistumattomilla)/ ilmaantuvuus perusjoukossa = p (RR - 1) / ( p (RR - 1) + 1), missä p on altisteen vallitsevuus ja RR on suhteellinen riski. Esimerkki: Altisteen vallitsevuus 50% ja RR=2.0 Tällöin 33% eli 33% tapauksista olisi selitettävissä ko.altisteella. 27

Keskiluvut Aritmeettinen keskiarvo Painotettu aritmeettinen keskiarvo Mediaani (50%:n piste) Moodi, yleisimmin esiintyvä arvo 28 Esimerkki 1: Lasketaan aritmeettinen otoskeskiarvo 3.28 3.99... 4.08 5.34 x 50 248.57mmol/ l 4.97mmol/ l 50 Tämä estimoi/arvioi otoksesta laskettuna, perusjoukon oikeaa ei-havaittua / tuntematonta perusjoukon kolesterolin keskiarvoa 29 Hajonnan mitat Numeerinen tapa kvantifioida tutkittavissa suureissa esiintyvää vaihtelua ( variability ) eli hajontaa ( dispersion ) Vaihteluväli Range, (x min, x max ) (2.61 ; 8.31) Prosenttipisteet (Q P% ) Percentiles Kvartiilipoikkeama (Q 75%, Q 25% ) Interquartile range (5.70 ; 4.17) Keskihajonta, Standardipoikkeama (SD) Standard deviation Variaatiokerroin (CV) Coefficient of variation Skaalasta riippumaton vaihtelun mitta; mittausvirheiden SD jaettuna keskiarvolla 30

Keskihajonta, standardipoikkeama, standard deviation Mitta, joka kuvaa tutkittavan muuttujan havaintoarvojen jakautumista tietyssä tutkimusaineistossa. Soveltuu parhaiten hajonnan mitaksi symmetrisille jakaumille. Herkkä poikkeaville havaintoarvoille ( outlier ). Laskentakaava: missä x SD 2 = varianssi 2 SD (x x) /(n 1) on aritmeettinen keskiarvo i 31 Lasketaan 50 suomalaisen kolesteroliarvojen otoskeskihajonta SD 2 2 (3.28-4.97) (3.99-4.97) 50 1 2.85 0.96... 0.13 49 69.29 49... (5.34-4.97) 1.190 mmol / l Keskihajonta mittaa suureen x hajontaa yksittäisessä tutkimusaineistossa, ts. kuinka paljon esim. potilaskohtaisissa havaintoarvoissa esiintyy vaihtelua. 2 32 Keskivirhe, standard error Mittaa tutkimusaineiston perusteella lasketun minkä tahansa otossuureen hajontaa (luotettavuutta), eli kuinka paljon suure voisi vaihdella, jos tutkimus toteutettaisiin toistuvasti samalla aineistokoolla ja tutkimusasetelmalla. Esim. Keskiarvon keskivirhe: SE( x) SD/ n 33

Lasketaan 5 suomalaisen otoksesta lasketun (otos)kolesterolikeskiarvon 1.19 SEM 50 0.168 mmol/l 34 Luottamusväliestimointi Kaikille tärkeimmille tutkimustuloksille tulisi aina laskea luottamusvälit. Ne antavat käsityksen tulosten varmuudesta, ts. kuinka paljon ilmoitetut tulokset voisivat vaihdella otantavaihtelusta johtuen. Luottamusväli voidaan laskea mille tahansa otoksesta lasketulle otossuureelle (keskiarvo, prosenttiosuus jne.) 35 Laskentakaava Alaraja : ˆ z /2 SE( ˆ), Yläraja : ˆ z1 /2 1 SE( ˆ), Kaavassa on tarkasteltavan suureen piste-estimaatti, SE() sen keskivirhe ja z1- /2 standardin normaalijakauman (keskiarvo 0, hajonta 1) prosenttipiste, joka on 95% luottamusvälille 1.96 eli noin 2. on merkitsevyystaso - usein 5% eli olemme valmiit hyväksymään että keskimäärin 5 kertaa sadasta olemme väärässä sanoessamme että esim. todellinen kolesteroli keskiarvo on laskemallamme välillä 36

Keskiarvon luottamusväli Alaraja : x t (n 1) SD/ n, Yläraja : x t (n 1) SD/ 1 /2 1 /2 n Kaavassa t1- /2 (n-1) on Studentin t-jakauman prosenttipiste vapausastein n-1, x on aineistosta (x1, x2,, x n) laskettu aritmeettinen keskiarvo ja SD / sqrt(n) on keskiarvon keskivirheen arvio. 37 Lasketaan esimerkki aineiston otoskeskiarvon 95%:n Luottamusväli, perusjoukon tuntemattomalle koko suomalaisten Kolesteroli keskiarvolle: x 4.97 mmol/l ja SEM ( x) 0.170 mmol/l kone laskee : t 1 /2 (n 1) alaraja : 4.97 2.01*0.17 yläraja : 4.97 2.01*0.17 95% luottamusväli (4.63; 5.31) t 0.95 (50 1) 2.01 38 Mitkä tekijät vaikuttavat luottamusväliin? Otoskoko n ja luottamustaso Ajatellaan esimerkkiämme kolesteroliarvoja koskevasta otoksestamme. Jos tietäisimme että todellinen suomalaisten kolesteroli keskiarvo olisi 5.0 mmol/l ja jos poimisimme suomalaisista 10 kappaletta 5 sekä 50 hengen otoksia ja laskisimme 95% ja 99% keskiarvon luottamusvälit tulokset voisivat näyttää seuraavilta. 39

95% luottamusväli otoskoko 5 95% luottamusväli otoskoko 50 otoksen numero 2 4 6 8 10 0 2 4 6 8 10 kol (mmol/l) 99% luottamusväli otoskoko 5 otoksen numero 2 4 6 8 10 otoksen numero 2 4 6 8 10 0 2 4 6 8 10 kol (mmol/l) 99% luottamusväli otoskoko 50 otoksen numero 2 4 6 8 10 0 2 4 6 8 10 kol (mmol/l) 0 2 4 6 8 10 kol (mmol/l) 40 Klassisen tilastollisen testauksen vaiheet voidaan jaotella seuraavasti: 1. Muodostetaan hypoteesi (ennen otoksen poimintaa) 2. Poimitaan otos ja lasketaan tarvittavat otostunnusluvut (estimointi) 3. Lasketaan testisuureen arvo otoksen perusteella 4. Testisuureen jakauman perusteella lasketaan todennäköisyys sille, että olisi saatu poikkeavampi testisuureen arvo kuin kohdassa 3 laskettu (näin saadaan p-arvo) 5. Tehdään johtopäätös eli nollahypoteesi joko hylätään tai ei hylätä 41 p-arvon Hypoteesien Otoksen Testisuureen laskenta Johtopäätösen muodostamien poiminta laskenta tekeminen 42

Tilastolliseen päättelyyn liittyvät hypoteesit Nollahypoteesi (H 0 ), null hypothesis Ennalta määritelty perusväittämä, jonka hyväksymiseen tai kumoamiseen tutkimuksessa pyritään. Esim., että vertailtavien lääkehoitojen A ja B tehojen välillä ei ole eroa. Vaihtoehtoinen hypoteesi (H 1 ), alternative hypothesis Ennalta määritelty vaihtoehtoinen väittämä nollahypoteesille. Esim. lääkehoitojen teholla on eroa, mutta ei määritellä suuntaa (kaksisuuntainen hypoteesi) tai että hoito A on tehokkaampi kuin hoito B (yksisuuntainen hypoteesi). Tavallisimmin tutkimuksissa käytetään kaksisuuntaista hypoteesia. 43 Tilastolliseen päättelyyn liittyvät virheet alfa-virhe, -virhe, alpha error, type I error Todennäköisyys tehdä johtopäätös, että (esim. hoitojen välillä) on merkitsevää eroa, kun todellisuudessa ei kuitenkaan ole. eli hylätään nollahypoteesi vaikka se on tosi beeta-virhe, -virhe, beta error, type II error Todennäköisyys tehdä johtopäätös, että (esim. eri hoitojen välillä) ei ole eroa, kun sitä todellisuudessa on. eli ei hylätä nollahypoteesia vaikka pitäisi 44 Esimerkki 1 Oletetaan että olemme kiinnostuneet suomalaisten keskimääräisestä kolesteroliarvosta, jota emme kuitenkaan voi suoraan havaita. Noudatetaan edellä kuvattuja tilastollisen testauksen vaiheita: 1. Tutkija muotoilee seuraavat väittämät: H0 : perusjoukon kolesteroli keskiarvo on 5.5 mmol/l HA: perusjoukon kolesteroli keskiarvo on jotain muuta ja valitaan merkitsevyystasoksi 5% 2. Tehdään 50 hengen otos (3.28,,5.34) ja poimitun otoksen perusteella laskimme aikaisemmin seuraavat otossuureet 45

Esimerkki 1 3. Lasketaan havaittu testisuureen arvo poimimamme otoksen perusteella, yleensä tietokonetta ja valittua tilasto-ohjelmaa apuna käyttäen. Testisuureen laskentakaava saadaan tilastotieteellisestä kirjallisuudesta Meidän esimerkki tapauksessa se on muotoa ( x 0) 4.97 5.5 t 3.1432 sd ( x) / n 1.190 / 50 4. Verrataan testisuureen teoreettiseen jakaumaan joka on tässä tapauksessa t-jakauma ja saadaan p-arvo=0.002836 5. Tehdään johtopäätös: H0 hylätään (p-arvo<merkitsevyystaso), joten poimimamme otos ei ole perusjoukosta, jonka kolesteroli keskiarvo on 5.5 mmol/l. 46 t-jakauma 49 vapausastetta tiheysfunktio dt(x, 49) 0.0 0.1 0.2 0.3 0.4 t(49) p-arvo=jakauman häntien pinta-ala 0.00284 laskettu t=-3.143 laskettu t=3.143 pinta-ala 0.00142 pinta-ala 0.00142-4 -2 0 2 4 t 47 Oikean testin valinta erittäin yksinkertaisessa tilateessa Riippumaton otos Parittainen otos N>30 ja normaalinen N<10 tai ei-normaalinen N>30 N<10 ja normaalinen tai ei-normaalinen Riippumattomien Otosten t-testi Wilcoxon-Mann- Whitney testi pariutettu t-testi Wilcoxon parittainen testi 48

Monivertailutestaustilanne Vertaillaan päälopputulosmuuttujan ohella useita muita lopputulosmuuttujia (jotka on valittu joko ad hoc tai post hoc), joiden testaamiseen ei voimalaskelmissa ole varauduttu Vertaillaan pareittain tuloksia useina ajankohtina tai samana ajankohtana useiden ryhmien välillä Tehdään osaryhmäanalyysejä Tehdään välianalyysejä Monivertailutestaustilanne kasvattaa -virheen mahdollisuutta ja siksi monivertailutesteissä ('multiple comparison test') suoritetaankin -virheen korjaus 49 Bonferroni-korjaus (Ref. Carlo Emilio Bonferroni, 1936 Teoria statistica delle classi e calcolo delle probabilita.) Bonferroni-korjaus on monivertailujen yhteydessä käytetty P-arvojen korjausmenettely, jonka tavoitteena on säilyttää alkuperäinen tilastollinen merkitsevyystaso ( -virhe) alun perin suunnitellun suuruisena monivertailuista huolimatta. Tavallisimmin käytetty taso on 0,05 (5 %). Bonferroni-korjauksella korjattu P-arvo saadaan kertomalla testin antama P-arvo vertailujen lukumäärällä. 50 Monivertailutyypit Suunnitellut vertailut planned/ad hoc comparisons Tutkimushypoteeseissa (protokollassa) etukäteen, ennen analyysejä, määritellyt vertailut Jälkikäteisvertailut post hoc comparisons Vertailut, jotka ryhmien välillä suoritetaan sen jälkeen, kun yleisvaikutus lopputuloksesta on todettu; esim. todetaan, että hoitoryhmien A, B ja C keskiarvojen välillä on eroa ja vertaillaan sen jälkeen ryhmiä pareittain keskenään. 51

Tilastollinen merkitsevyystaso Tilastolliseen päättelyyn liittyvä todennäköisyys ( -virhe, I-lajin virhe), joka ilmoittaa kuinka suuri erehtymisriski nollahypoteesin virheelliseen hylkäämiseen halutaan sallia. Tilastollinen merkitsevyys on välttämätön edellytys kliiniselle merkittävyydelle ( importance ), mutta ei kerro mitään todellisesta vaikutuksen suuruudesta. 52 P- arvo Havaintoaineiston ja käytetyn testisuureen otosjakauman perusteella laskettu todennäköisyys saada lopputulos, joka on vähintään yhtä epätodennäköinen (harvinainen) kuin tutkimuksessa todettu lopputulos edellyttäen, että todellisuudessa nollahypoteesi (H 0 ) olisi tosi. P-arvo liittyy ainoastaan H 0 :n testaamiseen, eikä kerro esimerkiksi hoitoerosta mitään, toisin kuin luottamusväli. 53