Data: järjestysast. Ei Kyllä Jatkuva, normaali Kyllä t-testi Ei Suuria poikkeavia arvoja Ei Mann-Whitney Kyllä Mediaani testi ks. luentomoniste Valintakaavio: Kahden riippumattoman ryhmän jakauman keskikohdan vertailu Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.
Kahden riippuvan otoksen keskiarvojen vertailu Ongelma: Ovatko kahden ryhmän perusjoukkojen keskiarvot yhtä suuret, kun ryhmien välillä on riippuvuutta? Esim. Onko jyväskyläläisten miesten keskimääräinen kehon rasvaprosentti yhtä suuri 75-vuotiaana kuin 80-vuotiaana? Hypoteesit: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 tai H 1 : µ 1 < µ 2 H 1 : µ 1 > µ 2 pienempi Keskiarvot ovat yhtä suuret Keskiarvot eri suuret Ensimmäisen ryhmän keskiarvo on pienempi kuin toisen ryhmän Toisen ryhmän keskiarvo on kuin ensimmäisen ryhmän
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Riippuvuus Riippuvuutta voi otosten välillä aiheuttaa seuranta-asetelma (alku-vs. seurantamittaukset), kaksosasetelma (kaksosparien vertailu) Esim. seurantatilanteessa voidaan merkitä esim. kehon rasvaprosenttia alkumittauksessa (X) ja seurantamittauksessa (Y) Oletukset: Muuttuja on vähintään välimatka-asteikollinen Havaintoparit riippumaton otos perusjoukosta Vastinparien erotus (d i = x i y i ) on perusjoukossa normaalisti jakautunut (erotusmuuttujaa D voidaan testata esim. KStestillä) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Testisuure: Lasketaan erotusten d i keskiarvo ja keskihajonta: Sitten keskiarvojen erotuksen t-testisuure: ~ t(df) Vapausasteet: lasketaan otoskoon avulla: df= n 1
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p> α), nollahypoteesi saa tukea
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Esimerkki Lääketehdas on tuottanut kaksi unilääkettä UNI1 ja UNI2. Nyt halutaan tietää kumpi lääke antaa pidemmän unen. Valitaan satunnaisotannallakoehenkilöt, jotka ottavat molempia uni-lääkkeitä ja kertovat unen pituuden. Aineiston perusteella tarkastellaan, onko unilääkkeillä eroa saavutetun nukkumisajan suhteen. Kh UNI1 UNI2 1 6 7 2 3 3 3 3 5 4 4 3 5 8 8 6 2 3 7 2 4 8 9 9 9 5 4 10 4 5 Yhteensä 46 51 Keskiarvo 4.6 5.1
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU 8 Unimäärä (tuntia) Keskiarvo 5 1 10 39 7 4 2 6
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Hypoteesit Valitaan kaksisuuntainen vastahypoteesi, sillä tuloksen suunnasta ei ole ennakkotietoa: H 0 : µ 1 = µ 2 H 1 : µ 1 µ 2 Oletukset Satunnaisotos ja suhdeasteikollinen muuttuja Erotusten jakauma on normaali KS-testillä Kolmogorov-Smirnov testattuna: Statistic df Sig. Riskitaso D,178 10,200* Valitaan α = 0.05, koska seuraukset eivät ole vakavat.
KAHDEN RIIPPUVAN OTOKSEN KESKIARVOJEN VERTAILU Testisuure Kh UNI1 UNI2 d i d i 2 1 6 7-1 1 2 3 3 0 0 3 3 5-2 4 4 4 3 1 1 5 8 8 0 0 6 2 3-1 1 7 2 4-2 4 8 9 9 0 0 9 5 4 1 1 10 4 5-1 1 p= 0.178 Johtopäätös: Nollahypoteesi jää voimaan, sillä p> 0.05. Yhteensä 46 51-5 13 Keskiarvo 4.6 5.1-0.5
H 0 : Muuttuja on normaalistijakautunut.
H 0 : ρ= 0 H 0 : µ 1 = µ 2
Data: järjestysast. Ei Jatkuva, normaali Ei Symmetrinen Kyllä Kyllä Kyllä Merkkitesti t-testi ks. luentomoniste Wilcoxon Ei Merkkitesti Valintakaavio: Kahden riippuvan ryhmän jakauman keskikohdan vertailu
VARIANSSIANALYYSI Varianssianalyysillä ei testata varianssien yhtä suuruutta Nimitys johtuu siitä, että keskiarvojen yhtä suuruuden testaus perustuu erilaisiin neliösummiin, jotka ovat samanlaisia kuin variansseja laskettaessa. Varianssianalyysillä yleisenä käsitteenä viitataan erityyppisiin keskiarvojenvertailujen analyyseihin Yksisuuntaisessa varianssianalyysissä vertaillaan yhden jatkuvan muuttujan keskiarvoja toisen, luokittelevan muuttujan eri luokissa Tarkastellaan yhden selitettävän muuttujan keskiarvojen (tasot) vaihtelua luokitteluasteikollisen selittävän muuttujan (käsittelyt) mukaan Selitettävä muuttuja (esim. pituus, cm) jaetaan selitettävän muuttuja (luokitteleva, esim. koulutustausta, kolmiluokkainen muuttuja) perusteella ryhmiin ja keskiarvojen yhtäsuuruutta tarkastellaan näissä ryhmissä Selitettävä muuttuja (dependent) jakaumaoletus Selittävä muuttuja (independent) Kiinteä (fixed) ei jakaumaoletusta Satunnainen (random) jakaumaoletus
VARIANSSIANALYYSIN VAIHEET Olkoon vertailtavia ryhmiä k kpl Hypoteesit: H 0 : µ 1 = µ 2 = = µ k (kaikkien ryhmien keskiarvot ovat yhtä suuret) H 1 : µ 1 µ 2 µ k (ainakin yhden joukon keskiarvo poikkeaa muiden joukkojen keskiarvoista) Oletukset: 1) selitettävä muuttuja vähintään välimatka-asteikollinen 2) perusjoukoista poimittujen otosten täytyy olla toisistaan riippumattomia ja tutkittavien satunnaisesti otostettuja 3) perusjoukkojen jakaumat normaaliset 4) perusjoukkojen varianssit yhtä suuret [5) ryhmät yhtä suuria]
VARIANSSIHAJOTELMA Varianssianalyysissä vertaillaan ryhmien välistä vaihtelua ryhmien sisäiseenvaihteluun varianssien kaltaisilla neliösummilla Ryhmien välinen vaihtelu (SS b ) kertoo siitä, kuinka paljon ryhmittelevä muuttuja selittää ryhmien välisiä keskiarvoeroja. Ryhmien sisäinen vaihtelu (SS w ) kertoo ryhmän sisällä olevan vaihtelun määrää, jota ei pystytä selittämään ryhmittelevällä muuttujalla. Kokonaisvaihteluksi saadaan: SS TOTAL = SS b + SS w Testisuure Flasketaan neliösummien pohjalta ja se kertoo keskimääräisestä ryhmien välisestä vaihtelusta suhteessa ryhmien sisäiseen vaihteluun
VARIANSSIANALYYSI Riskitaso ja kriittinen alue:riskitaso αvalitaan kuten muissa keskiarvotesteissä. Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p< α), nollahypoteesin hylätään ja vastahypoteesi astuu voimaan Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesi saa tukea Jos nollahypoteesi hylätään testin tuloksena, voidaan selvittää keskiarvoparien välisten erojen merkitsevyyttä parittaisilla ryhmävertailutestillä
PARITTAISET RYHMÄVERTAILUT Varianssianalyysin merkitsevä tulos kertoo, että ainakin yhden ryhmäparin keskiarvoero on merkitsevä Parittaisia vertailuja ei yleensä tehdä t-testeinä, koska todennäköisyys löytää sattumanvarainen merkitsevä ero ainakin yhdessä keskiarvoparissa kasvaa Varianssianalyysin yhteydessä: parittaisia keskiarvovertailuja on sallittua käyttää vasta, kun varianssianalyysin nollahypoteesi hylätään; poikkeus: kontrastit, esim. 1) Interventiolla määrätty annosvaikutus vasteeseen. Malli: µ= µ + b = µ+ 2b; H 0 : b= 0 2) Tutkimuksessa tutkittiin tyttöjä, näiden äitiä ja isiä. Onko kehonrasvaprosentissa sukupuolieroja? Malli: ½µ N = ½µ N = µ M ; H 0 : µ N = µ M H 0 : µ i = µ j, i=1,, k; j= 1,, k; i j Erilaisia menetelmiä Varianssit yhtä suuret: LSD, Tukey, Scheffe, Bonferroni Varianssit eivät yhtä suuret: Tamhane Lisää ks. Toothaker, 1991
ESIMERKKI Tutkija selvittää eri kävelykyvyn suhdetta kehon rasvaprosentin tasoon Riippuva mja: Rasvaprosentti on jatkuva muuttuja Riippumaton mja: Kävelykykymuuttuja on tutkittavanoma arvio kyvystä kävellä ulkona huonolla säällä Ei vaikeuksia (1) Kävelee aikaisempaa hitaammin (2) On vaikeuksia tai ei kykene (3) Tarkasteltavina on satunnaisotanta jyväskyläläisiä 75-vuotiaita naisia
Normaalijakautuneisuus oli voimassa, ja varianssit voidaan olettaa yhtä suuriksi (p = 0.552). Ryhmien rasvaprosenttikeskiarvoissa on ero / eroja (p= 0.028). η 2 = 342.775 / 9124.550 = 0.0376 (n. 3.7 %) Kävelykyky selitti rasvaprosentin vaihtelusta n. 3.7 %. Parittaiset vertailut osoittavat vain kävelykyvyn ääripäiden välillä olevan tilastollisesti merkitsevää eroa (p= 0.029).
ESIMERKKI Tutkija selvittää eri siviilisäätyjen suhdetta masentuneisuuteen. Masentuneisuus on mitattu asteikolla, jonka summapistemäärää pidetään usein välimatkaasteikollisena muuttujana (S1_CESD). Siviilisäätyjen mukaan jaetussa otoksessa on edustettuna neljä ryhmää: naimattomat, naimisissa olevat, lesket ja eronneet. Aineistossa ovat mukana jyväskyläläiset 75- vuotiaat miehet ja naiset.
Ryhmä Tunnusluku Estimaatti Keskivirhe 1 Never married Skewness 1.035 0.378 (n 1 = 39) Kurtosis 0.937 0.741 2 Married Skewness 0.848 0.206 (n 2 = 139) Kurtosis 0.718 0.408 3 Widowed Skewness 1.749 0.210 (n 3 = 133) Kurtosis 5.685 0.417 4 Divorced Skewness 1.308 0.464 (n 4 = 25) Kurtosis 2.517 0.902
Normaalijakautuneisuutta vaikea perustella. Tehdään silti varianssianalyysi.
Varianssit oletetaan yhtä suuriksi (p = 0.687). Keskimääräisissä masennuspistemäärissä on eroja siviilisäätyryhmissä (p = 0.002). η 2 = 1007.297 / 22432.140 = 0.0449 (n. 4.5 %) Siviilisääty selitti masennuspistemäärän vaihtelusta n. 4.5 %.
Eronneitten ryhmä erosi naimattomista (p = 0.019), naimisissa olevista (p = 0.001) ja leskeytyneistä(p = 0.032).
Koska normaalijakautuneisuus ei ollut voimassa, olisi hyvä tarkastaa tulos joidenkin keskeisten tekijöiden suhteen Analyysissä miehet ja naiset olivat samassa aineistossa sukupuolittainen analyysi: analyysi miehille ja naisille erikseen Lisäongelmia: Testauksen tehottomuus (ei tule merkitseviä testejä, kun otoskoko ryhmissä pienenee) Miehillä osa ryhmistä tulee pieniksi (mm. n 4 = 2; uudelleenryhmitys?) Normaalijakautuneisuus ei silti toteudu näissä ryhmissä Kaksisuuntainen varianssianalyysi: siviilisääty ja sukupuoli ryhmittelevinä tekijöinä samat lisäongelmat vaivana Epäparametrinen testaus Kruskal-Wallisintestissä testaus suoritetaan mediaaneille ja käytetään järjestysasteikollista informaatiota hyväksi (tässä p= 0.002)
NORMAALIJAKAUTUNEISUUS (JÄÄNNÖSTARKASTELU) if(civilsta=1) zz=s1_cesd - 12.717949. if(civilsta=2) zz=s1_cesd - 12.165468. if(civilsta=3) zz=s1_cesd - 13.932331. if(civilsta=4) zz=s1_cesd - 18.840000. Exe.
Kyllä Data: järjestysast. Ei Jatkuva, normaali Kyllä Yhtä suuret varianssit Kyllä Varianssianalyysi Ei Suuria poikkeavia arvoja Ei Ei ks. luentomoniste Kruskal- Wallis Ei Brown-Forsythe Welsh Kyllä Mediaani testi Valintakaavio: Kolmen tai useamman riippumattoman ryhmän jakauman keskikohdan vertailu
NORMAALIJAKAUMA A B C D n= 205 Vinous: 0.56 (0.17)* Huip.: -0.23 (0.39) KS (p-arvo): 0.001 SW (p-arvo): < 0.001 n= 29 Vinous: -0.11 (0.43) Huip.: -0.47 (0.85) KS (p-arvo): > 0.200 SW (p-arvo): 0.858 n= 29 Vinous: 2.03 (0.43)* Huip.: 4.19 (0.85)* KS (p-arvo): < 0.001 SW (p-arvo): < 0.001 n= 209 Vinous: 0.92 (0.17)* Huip.: 6.19 (0.34)* KS (p-arvo): 0.006 SW (p-arvo): < 0.001 *Tunnusluku on tilastollisesti merkitsevä. Mikä jakaumista on normaalisti jakautunut? Mitä ongelmia löytyy muista jakaumista?
KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit
RIIPPUVUUS Korrelaatiokertoimen merkitsevyystestaus Ongelma: Onko korrelaatiokertoimen arvo nollasta poikkeava perusjoukossa? Hypoteesit: H 0 : ρ= 0 H 1 : ρ 0 tai H 1 : ρ< 0 korrelaatio H 1 : ρ> 0 korrelaatio Muuttujat ovat riippumattomia Muuttujat riippuvat toisistaan Muuttujien välillä on negatiivinen Muuttujien välillä on positiivinen
KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Oletukset: Muuttujat vähintään järjestysasteikollisia Riippumaton otos perusjoukosta (Jatkuvat) muuttujat ovat likimain normaalijakautuneet perusjoukossa (KS-testi) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)
KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Testisuure: lasketaan korrelaatiokertoimen, r, ja otoskoon, n, avulla: ~ t(df) Vapausasteet: lasketaan otoskoon avulla: df= n 2
KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p < α), katsotaan testin puoltavan nollahypoteesin hylkäämistä.tällöin vastahypoteesi selittää tutkittavan ilmiön paremmin ja se astuu voimaan. Muuttujien välillä sanotaan silloin olevan riippuvuutta. Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p> α), nollahypoteesi saa tukea. Tällöin muuttujia pidetään toisistaan riippumattomia.
ESIMERKKI Tutkimuksessa laskettiin käden puristusvoiman (KPV) ja kehon rasvattoman painon (KRP) välisen korrelaatiokertoimen arvo göteborgilaisille miehille (n = 92). Testataan riippuvuushypoteesiparia: H 0 : ρ= 0 H 1 : ρ 0 Oletukset: Muuttujat ovat riippumattomia Muuttujat riippuvat toisistaan Muuttujat ovat jatkuvia Riippumaton otos perusjoukosta Normaalijakautuneisuus KPV: vinous 0.274 (0.251); huipukkuus-0.285 (0.498) KRP: vinous 0.005 (0.251); huipukkuus 0.120 (0.498)
Valitaan riskitasoksi 0.05.
p< 0.001 Nollahypoteesi hylätään ja muuttujien välillä sanotaan olevan kohtalaista positiivista riippuvuutta.
χ 2 -RIIPPUMATTOMUUSTESTI Ongelma: Onko kahden vähintään luokitusasteikollisen muuttujan välinen riippuvuus tilastollisesti merkitsevää? Nollahypoteesinmukaisessa tilanteessa mm. rivijakaumat ovat samanlaiset. x 1 x 2 x 3 y 1 f 11 f 12 f 13 y 2 f 21 f 22 f 23 Hypoteesit H 0 : f ij = e ij H 1 : f ij e ij eli muuttujat ovat riippumattomia eli muuttujat riippuvat toisistaan
χ 2 -RIIPPUMATTOMUUSTESTI Oletukset Muuttujat ovat vähintään luokitusasteikollisia. Otos on satunnaisotos. Kaikki odotetut frekvenssit ovat suurempia kuin 1. Korkeintaan 20% odotetuista frekvensseistä on arvoltaan pienempiä kuin 5. Riskitaso Valitaan sopiva α-taso(0.05 / 0.01 / 0.001).
χ 2 -RIIPPUMATTOMUUSTESTI Testisuure -Tarvittavat kaavat on jo esitetty edellä. Odotetut frekvenssit laskettiin: x 1 x 2 x 3 Yht. y 1 f 11 f 12 f 13 f 1 - ja testisuure laskettiin: y 2 f 21 f 22 f 23 f 2 Yht. f 1 f 2 f 3 n missä gon rivien lukumäärä, h sarakkeiden lukumäärä, e ij ovat odotetut frekvenssit., Vapausasteet testisuure noudattaa χ 2 -jakaumaa vapausateilla: df= (g 1) (h 1)
χ 2 -RIIPPUMATTOMUUSTESTI Johtopäätökset Jos p-arvo on pienempi kuin riskitaso (p< α), niin nollahypoteesi ei saa tukea ja se hylätään. Tällöin sanotaan, että muuttujien välillä on riippuvuutta. Jos p-arvo on suurempi kuin riskitaso(p> α), nollahypoteesia ei voida hylätä ja sanotaan, että muuttujien välillä ei ole riippuvuutta.
ESIMERKKI Haluttiin selvittää oliko alkumittauksessa mitattu tutkittavien oma arvio terveydentilastaan yhteydessä seurannan loppuun mennessä havaittuun kuolleisuuteen 75-vuotiailla jyväskyläläisillä Terveydentila: (1 = hyvä, 2 = tyydyttävä, 3 = huono) Kuolleisuus: (0 = kuollut, 1 = elossa) Hypoteesit Kuten edellä esitettiin. Valitaan vastahypoteesi kaksisuuntaiseksi Oletukset Muuttujat ovat luokitusasteikollisia. Kyseessä on satunnaisotos. Tarkastetaan frekvenssioletus myöhemmin Riskitaso Valitaan riskitasoksi 0.05.
Χ 2 -RIIPPUMATTOMUUSTESTI(5) Nähdään, että pienin odotettu frekvenssi on 18.2, joten frekvenssioletukset ovat kunnossa.
χ 2 -RIIPPUMATTOMUUSTESTI(6) Nollahypoteesi ei saa tukea, koska p< 0.05. Tulkinta: Seurannan päättyessä elossa olleet arvioivat terveytensä paremmaksi (p < 0.001).
JÄÄNNÖKSET Jäännös Usein hankala tulkita Rivi: i= 1,, g Sarake: j= 1,, h Standardoitu jäännös Jos itseisarvo r (S)ij 1.96 (~ 2), merkittävä kontribuutio riippuvuuteen Tällaisia soluja ei aina löydy, vaikka χ 2 olisi merkitsevä Adjustoitu jäännös Jos itseisarvo r (A)ij 1.96 (~ 2), merkittävä kontribuutio riippuvuuteen
Jäännökset (Residual): suhteellinen tulkinta (suurempi vs. pienempi). Standardoidut jäännökset (Std. Residual): heikon terveyden ryhmässä itseisarvo > 2. Adjustoidut jäännökset (Adjusted Residual): hyvä vs. huono terveys