HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 21 13 57 91 Nainen (2) 43 29 121 193 Yhteensä 64 42 178 284 Huom. Tarkoilla arvoilla laskettuna mm. E-taulukon riviprosentit ovat yhtä suuret tupakointimuuttujan luokissa miehillä ja naisilla.
59 20.507 f ij e ij : Usein (1) Harvoin (2) Ei tupakoi (3) Mies (1) 38.493 14.542-53.035 0 Nainen (2) -38.493-14.542 53.035 0 0 0 0 (f ij e ij ) 2 /e ij : 38.493 2 /20.507 Usein (1) Harvoin (2) Ei tupakoi (3) Mies (1) 72.254 15.713 49.316 Nainen (2) 34.068 7.409 23.252 χ 2 = 72.254 + 34.068 + 15.713 + 7.409 + 49.316 + 23.252 = 202.012
χ 2 -RIIPPUMATTOMUUSTESTI Ongelma: Onko kahden vähintään luokitusasteikollisen muuttujan välinen riippuvuus tilastollisesti merkitsevää? Nollahypoteesinmukaisessa tilanteessa mm. rivijakaumat ovat samanlaiset. Hypoteesit H 0 : f ij = e ij H 1 : f ij e ij eli muuttujat ovat riippumattomia eli muuttujat riippuvat toisistaan Oletukset Muuttujat ovat vähintään luokitusasteikollisia. Otos on riippumaton otos perusjoukosta. Kaikki odotetut frekvenssit ovat suurempia kuin 1. Korkeintaan 20% odotetuista frekvensseistä on arvoltaan pienempiä kuin 5.
χ 2 -RIIPPUMATTOMUUSTESTI Riskitaso Valitaan sopiva α-taso (0.05 / 0.01 / 0.001). Testisuure χ 2 - testisuure Vapausasteet testisuure noudattaa χ 2 -jakaumaa vapausasteilla: df = (g 1) (h 1)
χ 2 -RIIPPUMATTOMUUSTESTI Johtopäätökset Jos p-arvo on pienempi kuin riskitaso (p < α), niin nollahypoteesi ei saa tukea ja se hylätään. Tällöin sanotaan, että muuttujien välillä on riippuvuutta. Jos p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesia ei voida hylätä ja sanotaan, että muuttujien välillä ei ole riippuvuutta.
Sukupuoli ja tupakoinnin useus: χ 2 = 202.012 Nollahypoteesi: H 0 : f ij = e ij eli muuttujat ovat riippumattomia Oletukset: Muuttujat vähintään luokitusasteikollisia Riippumaton otos perusjoukosta Toinen on Jos on satunnaisotos Kaikki odotetut frekvenssit ovat suurempia kuin 1 Korkeintaan 20% odotetuista frekvensseistä on arvoltaan pienempiä kuin 5. Pienin oli 13.458 Riskitaso: Valitaan α = 0.05 Seuraukset virhepäätelmästä eivät vakavia. Testisuure ja p-arvo: χ 2 = 202.012 df = 2 p < 0.001 Johtopäätös: Nollahypoteesi ei jää voimaan. Otostiedon perusteella näyttää vahvasti siltä, että riippuvuutta on myös perusjoukossa.
Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989. Muuttujien välillä ei ole merkitsevää riippuvuutta. Riviprosentit ovat lähes yhtä suuret.
Merkitsevä riippuvuus ulkona liikkumiskyvyn ja sukupuolen välillä (p = 0.004). Naisilla ongelmat liikkumiskyvyssä (83.4 %) olivat hieman vähäisempiä kuin miehillä (92.2 %). Koska ristiintaulukko on 2 2 taulukko, usein raportoidaan Fisherin nelikenttätestin p-arvo.
B. VÄLIMATKA- TAI SUHDEASTEIKOLLISET MUUTTUJAT: PEARSONIN KORRELAATIOKERROIN Kun puhutaan korrelaatiokertoimesta, tarkoitetaan yleensä Pearsonin tulomomenttikorrelaatiokerrointa (r, ρ) Kerroin ilmoittaa riippuvuuden suunnan ja voimakkuuden Lineaarisen yhteyden tunnusluku Korrelaation voimakkuus vaihtelee välillä [0, 1] Pienet arvot: vähäinen riippuvuus tai ei riippuvuutta Suuret arvot: korkea tai täydellinen riippuvuus suunta: etumerkki (+ tai -) Positiivinen: kasvavat X muuttujan arvot liittyvät kasvaviin Y muuttujan arvoihin Negatiivinen: kasvavat X muuttujan arvot liittyvät pieneneviin Y muuttujan arvoihin
PEARSONIN KORRELAATIOKERROIN Kertoimet erilaisista muuttujapareista ovat (ainakin matemaattisesti) vertailukelpoisia Karkea sääntö kertoimen tulkintaan: r > 0.7 : lineaarinen riippuvuus on voimakasta 0.3 < r < 0.7 : lineaarinen riippuvuus on kohtalaista r < 0.3 : lineaarinen riippuvuus on heikkoa Selitysaste (r 2 ): kuinka paljon Y-muuttujan vaihtelusta voidaan selittää X-muuttujan vaihtelulla Esim. korrelaatiokerrointa r = 0.7 vastaa r 2 = 0.49, eli 100 0.49 = 49 %, joten noin puolet Y-muuttujan vaihtelusta selittyy X-muuttujan vaihtelulla ja loput muilla tekijöillä
Kertoimen laskeminen = = ( )( ) Yhteisen hajonnan (kovarianssi) suhde muuttujien keskihajontojen tuloon Jos otoskoko on pieni, niin yksikin poikkeava havainto saattaa vaikuttaa suuresti korrelaatiokertoimen arvoon Mitä suurempi otoskoko, sitä pienempi korrelaatio tulee tilastollisesti merkitseväksi
ESIMERKKI kh Pituus Paino 1 171 78 2 178 76 3 157 70 4 180 71 5 162 81 6 150 61 7 160 70 8 169 69 9 161 63 10 171 66 x = 165.9 y = 70.5
ESIMERKKI kh Pituus Paino 1 171 78 5.1 7.5 2 178 76 12.1 5.5 3 157 70-8.9-0.5 4 180 71 14.1 0.5 5 162 81-3.9 10.5 6 150 61-15.9-9.5 7 160 70-5.9-0.5 8 169 69 3.1-1.5 9 161 63-4.9-7.5 10 171 66 5.1-4.5 x = 165.9 y = 70.5
ESIMERKKI kh Pituus Paino 1 171 78 5.1 7.5 38.25 2 178 76 12.1 5.5 66.55 3 157 70-8.9-0.5 4.45 4 180 71 14.1 0.5 7.05 5 162 81-3.9 10.5-40.95 6 150 61-15.9-9.5 151.05 7 160 70-5.9-0.5 2.95 8 169 69 3.1-1.5-4.65 9 161 63-4.9-7.5 36.75 10 171 66 5.1-4.5-22.95 238.50 x = 165.9 y = 70.5
ESIMERKKI kh Pituus Paino 1 171 98 5.1 26.5 38.25 26.01 56.25 2 178 76 12.1 4.5 66.55 146.01 30.25 3 157 70-8.9-1.5 4.45 79.21 0.25 4 180 71 14.1-0.5 7.05 198.81 0.25 5 162 81-3.9 9.5-40.95 15.21 110.25 6 150 51-15.9-20.5 151.05 252.81 90.25 7 160 70-5.9-1.5 2.95 34.81 0.25 8 169 69 3.1-2.5-4.65 9.61 2.25 9 161 63-4.9-8.5 36.75 24.01 56.25 10 171 66 5.1-5.5-22.95 26.01 20.25 ~ 0 ~ 0 238.50 812.90 366.50 x = 165.9 = y = 70.5 ( )( ) =... = 0.437
KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Ongelma: Onko korrelaatiokertoimen arvo nollasta poikkeava perusjoukossa? Hypoteesit: H 0 : ρ = 0 H 1 : ρ 0 tai H 1 : ρ < 0 korrelaatio H 1 : ρ > 0 korrelaatio Muuttujat ovat riippumattomia Muuttujat riippuvat toisistaan Muuttujien välillä on negatiivinen Muuttujien välillä on positiivinen
KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Oletukset: Muuttujat vähintään järjestysasteikollisia Riippumaton otos perusjoukosta (Jatkuvat) muuttujat ovat likimain normaalijakautuneet perusjoukossa (tästä lisää myöhemmin) Riskitaso: Valitaan sopiva α-taso (0.05 / 0.01 / 0.001)
KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Testisuure: lasketaan korrelaatiokertoimen, r, ja otoskoon, n, avulla: 1 r Vapausasteet: t r n 2 = ~ t(df) 2 lasketaan otoskoon avulla: df = n 2
KORRELAATIOKERTOIMEN MERKITSEVYYSTESTAUS Johtopäätökset: Jos testisuureeseen liittyvä p-arvo on pienempi kuin riskitaso (p < α), katsotaan testin puoltavan nollahypoteesin hylkäämistä. Tällöin vastahypoteesi selittää tutkittavan ilmiön paremmin ja se astuu voimaan. Muuttujien välillä sanotaan silloin olevan riippuvuutta. Jos testisuureeseen liittyvä p-arvo on suurempi kuin riskitaso (p > α), nollahypoteesi saa tukea. Tällöin muuttujia pidetään toisistaan riippumattomia.
Pituus ja paino: r = 0.437 Nollahypoteesi: H 0 : ρ = 0 (ei riippuvuutta) Oletukset: Muuttujat vähintään järjestysasteikollisia Riskitaso: Riippumaton otos perusjoukosta (Jatkuvat) muuttujat ovat likimain normaalijakautuneet perusjoukossa Vinous Jatkuvia Jos on satunnaisotos Valitaan α = 0.05 Seuraukset virhepäätelmästä eivät vakavia. 0.437 10 2 Testisuure ja p-arvo: t = = 1. 374 p = 0.207 1 0.437 2 Huipukkuus Pituus -0.038 (0.687) -0.738 (1.334) Paino 0.199 (0.687) -0.660 (1.334) df = 8 Johtopäätös: Nollahypoteesi jää voimaan. Otostiedon perusteella ei voida vielä sanoa, että riippuvuutta on perusjoukossa.
ESIMERKKI Tutkimuksessa laskettiin käden puristusvoiman (KPV) ja kehon rasvattoman painon (KRP) välisen korrelaatiokertoimen arvo göteborgilaisille miehille (n = 92). Testataan riippuvuushypoteesiparia: H 0 : ρ = 0 H 1 : ρ 0 Oletukset: Muuttujat ovat riippumattomia Muuttujat riippuvat toisistaan Muuttujat ovat jatkuvia Riippumaton otos perusjoukosta Normaalijakautuneisuus KPV: vinous 0.274 (0.251); huipukkuus -0.285 (0.498) KRP: vinous 0.005 (0.251); huipukkuus 0.120 (0.498)
Valitaan riskitasoksi 0.05.
r n 2 0.493 92 2 t = = 2 2 1 r 1 0.493 df = n 2 = 92 2 = 90 = 5.382 p < 0.001 Nollahypoteesi hylätään ja muuttujien välillä sanotaan olevan kohtalaista positiivista riippuvuutta.
SYY-SEURAUSSUHDE Korrelaatiosta ei voi suoraan päätellä kausaalisuutta (syy-seuraussuhde) Jos havaitaan korkea korrelaatio kahden muuttujan välillä, tästä ei voi vielä päätellä, että toinen aiheuttaa muutoksen toisessa X Y X Y X Z Y(kolmas tekijä tai muu mekanismi) Toisaalta: jos muuttujien välillä on kausaalisuhde, on niiden välillä korrelaatiota
Ilman Ruotsia: r = 0.862 N Engl J Med 2012; 367:1562-1564.