TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas
Keskivirheyksiköllä ilmaistuna voidaan erottaa otantajakaumalta kriittisiä kohtia: Keskimmäinen 95 % otoskeskiarvoista välillä [-1.96,+1.96] Keskimmäinen 99 % otoskeskiarvoista välillä [-2.58,+2.58] Keskimmäinen 99.9 % otoskeskiarvoista välillä [-3.29,+3.29] 99.9 % 99 % 95 % Keskiarvon keskivirhe: s.e.
Tutkija B: Kuinka todennäköistä olisi havaita keskiarvo 182 tai sitä suurempi arvo, kun poimitaan satunnaisotos perusjoukosta? Tärkeää: aikaisemman perusteella B ei tiedä voiko otoskeskiarvo olla suurempi vaiko pienempi kuin vertailuarvo 182. Tutkija B on aikaisemmin päättänyt, että jos vertailuarvo 182 on 95 % otantajakauman keskimmäisen keskiarvon joukossa, se ei poikkea tilastollisesti merkitsevästi hänen havaitsemastaan arvosta ts. olisi vielä suhteellisen todennäköistä saada perusjoukosta tällainen keskiarvo Suhteutetaan keskiarvon 182 etäisyys tutkijan B otoksen pohjalta otantajakauman : keskiarvo 171.77 ja keskivirhe 4.93: z se = (171.77-182) / 4.93 = -2.08 Koska z se = 2.08 > 1.96, ero on tilastollisesti merkitsevä (ja kysytyn todennäköisyyden tarkka arvo saadaan pinta-ala integraalina p = 0.019) Johtopäätös: B:n otoskeskiarvo 171.77 on tilastollisesti merkitsevästi matalampi kuin vertailuarvo 182 (p= 0.019). p-arvo on näiden kahden pinta-alan summa
ESTIMOINTI Tehdään päätelmiä perusjoukon parametreista (keskiarvo, korrelaatio jne.) Parametrin estimaatti on arvo, jota lasketaan otostiedon perusteella ja edustaa arvioita perusjoukon parametrin arvosta silloin, kun laskentaan liittyvät matemaattiset oletukset ovat voimassa Mitä suurempi otos, sitä tarkemmat estimaatit A. Piste-estimaatit Perusjoukon parametrin arvo vastaa yksi lukuarvo Esim. otoskeskiarvo on perusjoukon keskiarvon pisteestimaatti B. Väliestimaatit Märitetään väli, jolla perusjoukon parametrin arvo sijaitsee valitulla todennäköisyydellä (luottamusväli) Esim. väli, jolla perusjoukon keskiarvo sijaitsee 95 % luottamustasolla
KESKIARVON LUOTTAMUSVÄLI Esim. keskiarvon 95 % luottamusväli saadaan määrittämällä väli, jolla 95 % keskimmäisistä otoskeskiarvoista sijaitsee otantajakaumalla Keskivirheyksiköillä ilmaistuna tämä väli sijaitsi ±1.96 keskivirheyksikön etäisyydellä keskiarvosta 95 %
ESIMERKKI B:n otoksesta (n = 3) lasketaan Keskiarvo: 171.77 Keskihajonta: 8.54 Keskivirhe on siis 8.54 3 4.93 Koska luottamusväli on 1.96 keskivirheyksikön päässä keskiarvon ala- ja yläpuolella, lasketaan Alaraja: 171.77 1.96 4.93 = 171.77 9.66 = 162.11 Yläraja: 171.77 + 1.96 4.93 = 171.77 + 9.66 = 181.43 Huom. Tässä laskut on suoritettu tarkoilla arvoilla, jotka on pyöristetty kahden desimaalin tarkkuudelle. Tulkinta: tutkijalla on 95 % luottamus siihen, että perusjoukon keskiarvo sijaitsee välillä[162.11, 181.43]
KESKIARVON LUOTTAMUSVÄLI Yleisesti keskiarvon luottamusväli voidaan laskea normaalisti jakautuneelle muuttujalle, kun n> 30 kaavalla: Vakion zarvona käytetään vakiintuneita varmuuden asteita z= 1.96 (95 %) z= 2.58 (99 %) z= 3.29 (99.9 %)
Luottamusvälit, joita tutkija A voi laskea kolmen tutkittavan otoksille Otos Otoskeskiarvo Keskivirhe 95% Luottamusväli Otantayksiköt perusjoukossa 1 177.57 4.41 168.93 186.21 1 2 3 2 165.97 10.46 145.47 186.47 1 2 4 3 180.04 5.91 168.46 191.62 1 2 5 4 172.14 5.29 161.77 182.51 1 2 6 5 165.60 10.17 145.67 185.53 1 3 4 6 179.66 5.85 168.19 191.13 1 3 5 7 171.77 4.93 162.11 181.43 1 3 6 8 168.07 12.18 144.20 191.94 1 4 5 9 160.17 6.86 146.72 173.62 1 4 6 10 174.24 7.36 159.81 188.67 1 5 6 11 170.18 11.78 147.09 193.27 2 3 4 12 184.24 2.30 179.73 188.75 2 3 5 13 176.35 5.62 165.34 187.37 2 3 6 14 172.65 13.14 146.90 198.40 2 4 5 15 164.75 10.36 144.44 185.06 2 4 6 16 178.82 7.08 164.94 192.70 2 5 6 17 172.28 13.01 146.78 197.78 3 4 5 18 164.38 10.05 144.68 184.08 3 4 6 19 178.44 7.00 164.72 192.16 3 5 6 20 166.85 12.21 142.92 190.78 4 5 6
PITUUSMUUTTUJAN 95% LUOTTAMUSVÄLIT Perusjoukon keskiarvo 172.21 cm Pituus (cm) Otos (keskiarvon mukaan järjestettynä) 20
TULKINTA Lähes kaikki luottamusvälit pitävät sisällään perusjoukon keskiarvon Yksi luottamusväleistä (otos 12, kuvion viimeinen) ei sisällä perusjoukon keskiarvoa 172.21 Lasketaan: 1/20 = 0.05, eli 5 %, joten 95 % otoskeskiarvon luottamusväleistä sisältää keskiarvon Tulkinta: Tutkija B ei tiedä otostaessaan, minkä erilaisista otoksista hän saa käyttöönsä, joten hän hyväksyy 5 % riskin sille, ettei luottamusväli sisällä perusjoukon keskiarvoa Hänellä on siis 95 % luottamus siihen, että luottamusväli sisältää perusjoukon keskiarvon B:n johtopäätös: 95 % luottamuksella tutkitun muuttujan perusjoukon keskiarvo sisältyy luottamusvälille [162.11, 181.43]
VIRHEPÄÄTELMÄN RISKI Luottamustasoon liittyy siis riski virhepäätelmälle 95 % luottamus 5 % riski 99 % luottamus 1 % riski 99.9 % luottamus 0.1 % riski Riskitaso (α) kuvaa todennäköisyyttä tehdä virhepäätelmä väitettäessä, että perusjoukon keskiarvo on luottamusvälin sisällä, vaikka se ei todellisuudessa olekaan Luottamustason valintaan liittyy siis riski tehdä virhepäätelmä Yleisesti tutkimuskäytössä 5 % riskitaso on riittävä Kun määritetään esim. lääkkeiden haittavaikutuksiin liittyviä luottamusvälejä, voidaan käyttää tiukempia riskitasoja
KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit
TESTAUKSEN TÄRKEIMMÄT VAIHEET Testaushypoteesit: mitä testataan? Nollahypoteesi (ja vastahypoteesi) Riskitaso: millä tasolla tulkitaan p-arvoa? α= 0.05, 0.01 tai 0.001 Oletukset: sopiiko testi aineistolle? Satunnaisotanta, normaalijakautuneisuus jne. p-arvo: testin tulos nollahypoteesin suhteen Jos p> α, nollahypoteesi jää voimaan Jos p< α, nollahypoteesi hylätään Ennen aineiston tarkastelua Periaatteessa Ennen aineiston tarkastelua Aineiston pohjalta
PERUSTESTEJÄ Tarkastellaan eroja Keskiarvotestit Tarkastellaan riippuvuutta Riippuvuustestit Riippumattomat otokset Riippuvat otokset Yhden otoksen t-testi Kahden otoksen t-testi Yksisuuntainen Varianssianalyysi Kahden otoksen t-testi χ 2 -riippumattomuustesti Korrelaatiokertoimen merkitsevyystesti
KESKIARVOTESTIT Yhden otoksen keskiarvon testaus Ongelma: Onko perusjoukon keskiarvo sama kuin vertailuarvo? Esim. Poikkeaako jyväskyläläisten miesten kokonaiskolesterolin keskimääräinen arvo merkitsevästi arvosta 5 mmol/l? Hypoteesit: H 0 : µ= µ 0 H 1 : µ µ 0 tai H 1 : µ< µ 0 H 1 : µ> µ 0 Otoksesta laskettu keskiarvo on vertailuarvon suuruinen Keskiarvo poikkeaa vertailuarvosta Keskiarvo on pienempi kuin vertailuarvo Keskiarvo on suurempi kuin vertailuarvo
YHDEN OTOKSEN KESKIARVON TESTAUS Oletukset: Muuttuja vähintään välimatka-asteikollinen Otos on riippumaton otos perusjoukosta (ts. se on satunnaisotos) Muuttuja on likimain normaalijakautunut perusjoukossa (vinous, huipukkuus, KS-testi) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)
YHDEN OTOKSEN KESKIARVON TESTAUS Testisuure: perusjoukon keskihajonta tiedetään tai n> 30 standardoitu normaalijakauma, ks. luentomoniste, liite. yleisemmin keskihajontaa ei tiedetä (lasketaan otoksesta) ja / tai n < 30; käytetään Studentin t-jakaumaa: Otoskeskiarvo ~ t(df) Vertailuarvo Otoskeskihajonta Otoskoko Vapausasteet: lasketaan otoskoon avulla: df= n-1
VAPAUSASTEET(DEGREES OF FREEDOM) Useilla otantajakaumilla, jakauman muoto riippuu otoskoosta Esim. pienillä otoksilla (n< 30), kun perusjoukon parametrit ovat tuntemattomia keskiarvoihin liittyvät otantajakaumat noudattavat likimain Studentin t-jakaumaa Jakauman tarkemman muodon eri otoskokojen kohdalla määrittää vapausasteet (vrt. oheinen kuvio t- jakaumasta) Joillain jakaumilla käytettään kahta vapausastetta, esim. varianssianalyysin F-jakaumalle kerrotaan otoskoko (df w ) ja ryhmien lukumäärä (df b )
YHDEN OTOKSEN KESKIARVON TESTAUS Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p < α), katsotaan testin puoltavan nollahypoteesin hylkäämistä. Tällöin vastahypoteesi selittää tutkittavan ilmiön paremmin ja se astuu voimaan. Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesi saa tukea.
YHDEN OTOKSEN KESKIARVON TESTAUS Esimerkki Haluttiin tarkastaa yleisen uimarannan bakteeripitoisuus. Bakteerikanta ei saisi ylittää 200 yksikköä. Otettiin satunnaisista paikoista 10 vesinäytettä, joiden bakteeripitoisuuden keskiarvo oli 194.8 yksikköä ja keskihajonta 13.14. Onko uimarannan vesi riittävän puhdasta? Hypoteesit Valitaan yksisuuntainen vastahypoteesi, sillä tämän asian kannalta ei ole merkitystä, jos bakteerikanta on yli 200 yks.: H 0 : µ= 200 H 1 : µ< 200
YHDEN OTOKSEN KESKIARVON TESTAUS Oletukset Muuttuja on suhdeasteikollinen Mittauspaikat on valittu satunnaisesti Normaalijakautuneisuus oletetaan voimassa olevaksi (data ei ole saatavilla, joten oletetaan olevan voimassa) Riskitaso Valitaan 0.05, sillä asialla on suhteellisen vakavat seuraukset Testisuure p= 0.211 df= 10 1 = 9 Johtopäätös Keskiarvo ei ole alle 200, sillä p> 0.05, ja veden bakteeripitoisuutta voidaan siis pitää hälyttävänä.
TESTIN JA LUOTTAMUSVÄLIEN ERO Aikaisempien tutkimusten perusteella määritettiin painon keskiarvoksi 75-vuotiaiden jyväskyläläisille miehille 74 kg. Uudesta otoksesta lasketaan painon keskiarvoksi vastaavassa otoksessa 80 kg (keskihajonta 10 kg). Jos n= 100 95 % luottamusväli keskiarvolle [78.04, 81.96]; 74 ei sijaitse välillä, joten merkitsevä ero suhteessa vertailuarvoon Testi H 0 : µ= 74, p< 0.001: nollahypoteesi hylätään, joten merkitsevä ero suhteessa vertailuarvoon Yleensä käytetään merkitsevyystestiä, jos halutaan tietää eron merkitsevyys; jos taas halutaan tietää minkälaisia eroja olisi mahdollista havaita, lasketaan luottamusväli
Kahden riippumattoman otoksen keskiarvojen vertailu Ongelma: Ovatko kahden ryhmän perusjoukkojen keskiarvot yhtä suuret? Esim. Onko jyväskyläläisten miesten keskimääräinen kehon rasvaprosentti yhtä suuri kuin göteborgilaisten miesten? Hypoteesit: H 0 : µ 1 = µ 2 Keskiarvot ovat yhtä suuret (µ 1 -µ 2 = 0) H 1 : µ 1 µ 2 tai H 1 : µ 1 < µ 2 H 1 : µ 1 > µ 2 Keskiarvot eri suuret Ensimmäisen ryhmän keskiarvo on pienempi kuin toisen ryhmän Toisen ryhmän keskiarvo on pienempi kuin ensimmäisen ryhmän
Kahden riippumattoman otoksen keskiarvojen vertailu Oletukset: Muuttuja vähintään välimatka-asteikollinen Otos on riippumaton otos perusjoukosta (ts. se on satunnaisotos) ja tarkasteltavat kaksi ryhmää ovat riippumattomia toisistaan Muuttuja on likimain normaalijakautunut kummassakin perusjoukossa (KS-testi) Perusjoukon varianssit ovat yhtä suuret. Jos ovat erisuuret, käytetään erilaista menettelyä kuin tässä esitellään. Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)
Kahden riippumattoman otoksen keskiarvojen vertailu Testisuure: Lasketaan yhteinen varianssiestimaatti s 2 Sitten keskiarvojen erotuksen t-testisuure: ~ t(df) Vapausasteet: lasketaan otoskokojen avulla: df= n 1 + n 2-2
Kahden riippumattoman otoksen keskiarvojen vertailu Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p> α), nollahypoteesi saa tukea Esim. jos riskitaso on α= 0.05, hylätään nollahypoteesi, jos p-arvo on tätä pienempi.
Kahden riippumattoman otoksen keskiarvojen vertailu Esimerkki Tarkastellaan kehon rasvatonta painoa 75- vuotiailla jyväskyläläisillä ja göteborgilaisilla miehillä. Molemmista perusjoukoista on kerätty satunnaisotos ja havaittiin: Hypoteesit jyväskyläläiset: n 1 = 104, x 1 = 57.43 (s 1 = 6.35) göteborgilaiset: n 2 = 118, x 2 = 59.37 (s 2 = 6.43) Valitaan kaksisuuntainen vastahypoteesi, sillä tuloksen suunnasta ei ole tietoa: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2
Kahden riippumattoman otoksen keskiarvojen vertailu Oletukset Muuttuja on suhdeasteikollinen Otokset satunnaisotoksia ja riippumattomia toisistaan Normaalijakautuneisuus: KS-testin perusteella havaitaan: Kolmogorov-Smirnov Paikkakunta Statistic df Sig. NC2618 Kehon 1 Jyväskylä,080 104,101 rasvaton paino 2 Göteborg,061 118,200* Varianssit oletetaan yhtä suuriksi (testauksesta myöhemmin) Riskitaso Valitaan 0.05, joka on yleisesti käytetty riskitaso tutkimuksessa.
Kahden riippumattoman otoksen keskiarvojen vertailu Testisuure df= 104 + 118 2 = 220 p= 0.025 Johtopäätös Nollahypoteesi hylätään, koska p< 0.05, ja sanotaan, että kehon rasvattoman painon keskiarvot eroavat toisistaan.
Normaalijakautuneisuus ryhmittäin
H 0 : Muuttuja on normaalistijakautunut.
Esim. suhteellisen tarkka 95 % luottamusväli: 57.433 ±1.96 0.6222 H 0 : s 12 = s 2 2 H 0 : µ 1 = µ 2 Jyväskyläläisten ja göteborgilaisten miesten ryhmien variansseja voitiin pitää yhtä suurina (p = 0.979). Paikkakuntien välillä rasvaton kehonpaino oli korkeampi göteborgilaisilla miehillä (t= -2.26, df= 220, p= 0.025).
RAPORTOINTI Table 1. Means, standard deviations(sd) and group comparisonp-valuesfor 75-year-old menlivingin Jyväskylä and Göteborg in 1989. Jyväskylä (n = 103) Göteborg (n = 116) Mean SD Mean SD p-value Lean body mass 57.4 6.35 59.4 6.42 0.034 Glucose 5.82 1.44 5.55 2.53 0.348 Waist girth 93.1 9.99 94.3 8.37 0.354 Diastolic blood pressure 85.7 9.31 81.6 11.04 0.003
NORMAALIJAKAUTUNEISUUS (JÄÄNNÖSTARKASTELU) if (sexcntry=1) z = nc2618-57.432692. if (sexcntry=3) z = nc2618-59.372881. Exe.
Data: järjestysast. Ei Kyllä Jatkuva, normaali Kyllä t-testi Ei Suuria poikkeavia arvoja Ei Mann-Whitney Kyllä Mediaani testi ks. luentomoniste Valintakaavio: Kahden riippumattoman ryhmän jakauman keskikohdan vertailu Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.
Kahden riippuvan otoksen keskiarvojen vertailu Ongelma: Ovatko kahden ryhmän perusjoukkojen keskiarvot yhtä suuret, kun ryhmien välillä on riippuvuutta? Esim. Onko jyväskyläläisten miesten keskimääräinen kehon rasvaprosentti yhtä suuri 75 vuotiaana kuin 80 vuotiaana? Hypoteesit: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 tai H 1 : µ 1 < µ 2 H 1 : µ 1 > µ 2 pienempi Keskiarvot ovat yhtä suuret Keskiarvot eri suuret Ensimmäisen ryhmän keskiarvo on pienempi kuin toisen ryhmän Toisen ryhmän keskiarvo on kuin ensimmäisen ryhmän
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Riippuvuus Riippuvuutta voi otosten välillä aiheuttaa seuranta-asetelma (alku-vs. seurantamittaukset), kaksosasetelma (kaksosparien vertailu) Esim. seurantatilanteessa voidaan merkitä esim. kehon rasvaprosenttia alkumittauksessa (X) ja seurantamittauksessa (Y) Oletukset: Muuttuja on vähintään välimatka-asteikollinen Havaintoparit riippumaton otos perusjoukosta Vastinparien erotus (d i = x i y i ) on perusjoukossa normaalisti jakautunut (erotusmuuttujaa D voidaan testata esim. KStestillä) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Testisuure: Lasketaan erotusten d i keskiarvo ja keskihajonta: Sitten keskiarvojen erotuksen t-testisuure: ~ t(df) Vapausasteet: lasketaan otoskoon avulla: df= n 1
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p> α), nollahypoteesi saa tukea
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Esimerkki Lääketehdas on tuottanut kaksi unilääkettä UNI1 ja UNI2. Nyt halutaan tietää kumpi lääke antaa pidemmän unen. Valitaan satunnaisotannallakoehenkilöt, jotka ottavat molempia uni-lääkkeitä ja kertovat unen pituuden. Aineiston perusteella tarkastellaan, onko unilääkkeillä eroa saavutetun nukkumisajan suhteen. Kh UNI1 UNI2 1 6 7 2 3 3 3 3 5 4 4 3 5 8 8 6 2 3 7 2 4 8 9 9 9 5 4 10 4 5 Yhteensä 46 51 Keskiarvo 4.6 5.1
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU 8 Unimäärä (tuntia) Keskiarvo 5 1 10 39 7 4 2 6
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Hypoteesit Valitaan kaksisuuntainen vastahypoteesi, sillä tuloksen suunnasta ei ole ennakkotietoa: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 Oletukset Satunnaisotos ja suhdeasteikollinen muuttuja Erotusten jakauma on normaali KS-testillä Kolmogorov-Smirnov testattuna: Statistic df Sig. Riskitaso D,178 10,200* Valitaan α = 0.05, koska seuraukset eivät ole vakavat.
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Testisuure Kh UNI1 UNI2 d i d i 2 1 6 7-1 1 2 3 3 0 0 3 3 5-2 4 4 4 3 1 1 5 8 8 0 0 6 2 3-1 1 7 2 4-2 4 8 9 9 0 0 9 5 4 1 1 10 4 5-1 1 p= 0.178 Johtopäätös: Nollahypoteesi jää voimaan, sillä p> 0.05. Yhteensä 46 51-5 13 Keskiarvo 4.6 5.1-0.5
H 0 : Muuttuja on normaalistijakautunut.
H 0 : ρ= 0 H 0 : µ 1 = µ 2
Data: järjestysast. Ei Jatkuva, normaali Ei Symmetrinen Kyllä Kyllä Kyllä Merkkitesti t-testi ks. luentomoniste Wilcoxon Ei Merkkitesti Valintakaavio: Kahden riippuvan ryhmän jakauman keskikohdan vertailu