TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas
Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989. Muuttujien välillä ei ole merkitsevää riippuvuutta. HUOM. Riviprosentit ovat lähes yhtä suuret.
Merkitsevä riippuvuus ulkona liikkumiskyvyn ja sukupuolen välillä (p = 0.004). Naisilla ongelmat liikkumiskyvyssä (16.6 %) olivat yleisempiä kuin miehillä (7.8 %). Koska ristiintaulukko on 2 2 taulukko, usein raportoidaan Fisherin nelikenttätestin p-arvo.
B. VÄLIMATKA- TAI SUHDEASTEIKOLLISET MUUTTUJAT: PEARSONIN KORRELAATIOKERROIN Kun puhutaan korrelaatiokertoimesta, tarkoitetaan yleensä Pearsonin tulomomenttikorrelaatiokerrointa (r, ρ) Kerroin ilmoittaa riippuvuuden suunnan ja voimakkuuden, mutta siitä ei voi suoraan päätellä kausaalisuutta (syy-seuraussuhde) Lineaarisen yhteyden tunnusluku Korrelaation voimakkuus vaihtelee välillä [0, 1] Pienet arvot: vähäinen riippuvuus tai ei riippuvuutta Suuret arvot: korkea tai täydellinen riippuvuus suunta: etumerkki (+ tai -) Positiivinen: kasvavat X muuttujan arvot liittyvät kasvaviin Y muuttujan arvoihin Negatiivinen: kasvavat X muuttujan arvot liittyvät pieneneviin Y muuttujan arvoihin
PEARSONIN KORRELAATIOKERROIN Kertoimet erilaisista muuttujapareista ovat (ainakin matemaattisesti) vertailukelpoisia Karkea sääntö kertoimen tulkintaan: r > 0.7 : lineaarinen riippuvuus on voimakasta 0.3 < r < 0.7 : lineaarinen riippuvuus on kohtalaista r < 0.3 : lineaarinen riippuvuus on heikkoa Selitysaste (r 2 ): kuinka paljon Y-muuttujan vaihtelusta voidaan selittää X-muuttujan vaihtelulla Esim. korrelaatiokerrointa r = 0.7 vastaa r 2 = 0.49, eli 100 0.49 = 49 %, joten noin puolet Y-muuttujan vaihtelusta selittyy X-muuttujan vaihtelulla ja loput muilla tekijöillä
Kertoimen laskeminen: r = s xy s x 2 s y 2 = n i=1 (x i x )(y i y) i=1 (x i x ) 2 i=1(y i y) 2 Yhteisen hajonnan (kovarianssi) suhde muuttujien keskihajontatuloon Jos otoskoko on pieni, niin yksikin poikkeava havainto saattaa vaikuttaa suuresti korrelaatiokertoimen arvoon Mitä suurempi otoskoko, sitä pienempi korrelaatio tulee tilastollisesti merkitseväksi n n
ESIMERKKI kh Pituus Paino 1 171 98 2 178 76 3 157 70 4 180 71 5 162 81 6 150 51 7 160 70 8 169 69 9 161 63 10 171 66 x = 165.9 y = 71.5
ESIMERKKI kh Pituus Paino 1 171 98 2 178 76 3 157 70 4 180 71 5 162 81 6 150 51 7 160 70 8 169 69 9 161 63 10 171 66 x = 165.9 y = 71.5
ESIMERKKI kh Pituus Paino 1 171 98 2 178 76 3 157 70 4 180 71 5 162 81 6 150 51 7 160 70 8 169 69 9 161 63 10 171 66 x = 165.9 y = 71.5
ESIMERKKI kh Pituus Paino 1 171 98 5.1 26.5 2 178 76 12.1 4.5 3 157 70-8.9-1.5 4 180 71 14.1-0.5 5 162 81-3.9 9.5 6 150 51-15.9-20.5 7 160 70-5.9-1.5 8 169 69 3.1-2.5 9 161 63-4.9-8.5 10 171 66 5.1-5.5 x = 165.9 y = 71.5
ESIMERKKI kh Pituus Paino 1 171 98 5.1 26.5 135.15 2 178 76 12.1 4.5 54.45 3 157 70-8.9-1.5 13.35 4 180 71 14.1-0.5-7.05 5 162 81-3.9 9.5-37.05 6 150 51-15.9-20.5 325.95 7 160 70-5.9-1.5 8.85 8 169 69 3.1-2.5-7.75 9 161 63-4.9-8.5 41.65 10 171 66 5.1-5.5-28.05 499.50 x = 165.9 y = 71.5
ESIMERKKI kh Pituus Paino 1 171 98 5.1 26.5 135.15 26.01 702.25 2 178 76 12.1 4.5 54.45 146.01 20.25 3 157 70-8.9-1.5 13.35 79.21 2.25 4 180 71 14.1-0.5-7.05 198.81 0.25 5 162 81-3.9 9.5-37.05 15.21 90.25 6 150 51-15.9-20.5 325.95 252.81 420.25 7 160 70-5.9-1.5 8.85 34.81 2.25 8 169 69 3.1-2.5-7.75 9.61 6.25 9 161 63-4.9-8.5 41.65 24.01 72.25 10 171 66 5.1-5.5-28.05 26.01 30.25 499.50 812.90 1346.50 x = 165.9 y = 71.5 r = n i=1 (x i x )(y i y) = n i=1 (x i x ) 2 n i=1(y i y) 2 499.5 812.9 1346.5 = 0.477 Otoksessa pituuden ja painon välillä on siis kohtalainen riippuvuus. Pituus jakaumalla suureneviin arvoihin liittyvät myös jossain määrin suurenevat painomitat.
ESIMERKKI (SPSS) kh Pituus Paino 1 171 98 2 178 76 3 157 70 4 180 71 5 162 81 6 150 51 7 160 70 8 169 69 9 161 63 10 171 66
Correlation between Countries' Annual Per Capita Chocolate Consumption and the Number of Nobel Laureates per 10 Million Population. MESSERLI FH. N ENGL J MED 2012;367:1562-1564.
POIKKEAVAN HAVAINNON VAIKUTUS
KORRELAATIOMATRIISI Korrelaatio ja sen merkitsevyyden indikaattori (**) Tarkka p-arvo Ristitulo Kovarianssi Otoskoko Jyväskyläläiset 75-v. naiset, NORA tutkimus, 1989.
KORRELAATIO- MATRIISI
RAPORTOITAVA KORRELAATIOMATRIISI VERSIO 1 Table 1. Correlation matrix of height, weight, waist and hip girth among 75-year-old men living in Jyväskylä in 1989 (n = 103). Height Weight Waist girth Height -- Weight 0.31 *** -- Waist girth 0.05 0.87 *** -- Hip girth 0.09 0.86 *** 0.76 *** *** Correlation significant at the 0.001 significance level. HUOM! Tässä tapauksessa SPSS:n korrelaatiomatriisin viimeinen sarake on turha, koska muuttujan (tässä: lantionleveys) korrelaatio itsensä kanssa on aina 1, eikä siksi mielenkiintoinen.
RAPORTOITAVA KORRELAATIOMATRIISI VERSIO 2 Table 1. Means, standard deviations and correlation matrix for height, weight, waist and hip girth among 75-year-old men living in Jyväskylä in 1989 (n = 103). Mean Height Weight Waist girth Hip girth Height 169 6.20 Weight 74 0.31 *** 10.71 Waist girth 93 0.05 0.87 *** 9.99 Hip girth 97 0.09 0.86 *** 0.76 *** 6.56 *** Correlation significant at the 0.001 significance level. Standard deviations are shown on the diagonal. Kovarianssi (pituus, paino): r pit,pai s pit s pai = 0.31 6.20 10.71 = 20.58
RAPORTOITAVA KORRELAATIOMATRIISI VERSIO 3 Table 1. Correlation matrix of height, weight, waist and hip girth among 75-year-old men (below diagonal, n = 103) and women (above diagonal, n = 191) living in Jyväskylä in 1989. Height Weight Waist girth Hip girth Height -- 0.29 *** 0.01 0.10 Weight 0.31 *** -- 0.84 *** 0.90 *** Waist girth 0.05 0.87 *** -- 0.82 *** Hip girth 0.09 0.86 *** 0.76 *** -- *** Correlation significant at the 0.001 significance level. Tähän matriisiin voi liittää myös keskiarvot (kaksi lisäsaraketta) ja keskihajonnat diagonaalille, esim. miesten keskihajonta/naisten keskihajonta
PAIRWISE VAI LISTWISE? Kun aineistossa on muuttujia, joilla on erilainen lukumäärä puuttuvia havaintoja, voidaan korrelaatio laskea kahdella tavalla Pairwise: tutkittavat otetaan mukaan analyysiin, jos muuttujaparilta on havaittu arvot Listwise: huomioidaan tapaukset, joilla ei ole yhtään puuttuvaa tietoa Listwise on tilastomatemaattisesti paremmin perusteltu ja johtaa jatkoanalyyseissa usein harvemmin ongelmiin kuin pairwise Esim. määritetään painon ja vyötärön ympäryksen korrelaatio osana kolmen muuttujan yhteistarkastelua Koehenkilö Pituus Paino Vyötärönympärys 1 169 76 98.5 2 -- 82 85.5 3 187 -- 86.0 Pairwise: 1,2 Listwise: 1 Imputointi / SU-estimointi: 1,2,3
C. JÄRJESTYSLUKUASTEIKOLLISET MUUTTUJAT: SPEARMANIN JÄRJESTYSLUKUKORRELAATIOKERROIN Symbolit: otos, r S, perusjoukko, ρ S Kun ainakin toinen muuttuja on järjestysasteikollinen muuttujat; poikkeavia havaintoja sisältävät muuttujat; kun jakaumaoletukset eivät ole kunnossa Pearsonin korrelaatiolle Havaintoarvojen sijasta perustuu havaintojen keskinäiseen järjestykseen Laskeminen: 1) X- ja Y-muuttujien havaintoarvot korvataan järjestysluvuilla R(x i ) ja R(y i ). 2) Lasketaan järjestyslukujen erotusten neliö d i 2 = [R(x i ) R(y i )] 2 3) Sijoitetaan erotusten neliöt kaavaan: r S = 1 6 n i=1 d i 2 n 3 n
ESIMERKKI Tarkastellaan itse arvioidun terveydentilan ja käden puristusvoiman välistä riippuvuutta (n = 5). Aineisto: Koehenkilö Terveydentila Käden puristusvoima (Newton) 1 4 (= huono) 363 2 3 (= kohtalainen) 198 3 5 (= erittäin huono) 78 4 1 (= erittäin hyvä) 387 5 2 (= hyvä) 387 Olkoon seuraavassa terveydentila X ja puristusvoima Y. Huom. Terveydentila kertoo huonosta terveydentilasta (suuret arvot).
MUUTTUJAN ARVOLUOKKIEN KÄÄNTÄMINEN Muuttuja X on Terveydentila Suurin arvo: Max = 5 Pienin arvo: Min = 1 Lasketaan: Max x i + Min (i = 1,, 5) Terveydentila 4 (= huono) 3 (= kohtalainen) 5 (= erittäin huono) 1 (= erittäin hyvä) 2 (= hyvä)
MUUTTUJAN ARVOLUOKKIEN KÄÄNTÄMINEN Muuttuja X on Terveydentila Suurin arvo: Max = 5 Pienin arvo: Min = 1 Lasketaan: Max x i + Min (i = 1,, 5) Terveydentila Laskutoimitus 4 (= huono) 5 4 + 1 3 (= kohtalainen) 5 3 + 1 5 (= erittäin huono) 5 5 + 1 1 (= erittäin hyvä) 5 1 + 1 2 (= hyvä) 5 2 + 1
MUUTTUJAN ARVOLUOKKIEN KÄÄNTÄMINEN Muuttuja X on Terveydentila Suurin arvo: Max = 5 Pienin arvo: Min = 1 Lasketaan: Max x i + Min (i = 1,, 5) Terveydentila Laskutoimitus Käännetty Terveydentila 4 (= huono) 5 4 + 1 2 (= huono) 3 (= kohtalainen) 5 3 + 1 3 (= kohtalainen) 5 (= erittäin huono) 5 5 + 1 1 (= erittäin huono) 1 (= erittäin hyvä) 5 1 + 1 5 (= erittäin hyvä) 2 (= hyvä) 5 2 + 1 4 (= hyvä) Huom. Arvoluokat muuttuvat, mutta jokaisen tutkittavan terveysluokan tulkinta säilyy samana
ESIMERKKI Koehenkilö x y 1 2 363 2 3 198 3 1 78 4 5 387 5 4 387 Σ
ESIMERKKI Koehenkilö x y R(x) 1 2 363 2 2 3 198 3 3 1 78 1 4 5 387 5 5 4 387 4 Σ
ESIMERKKI Koehenkilö x y R(x) R(y) 1 2 363 2 3 2 3 198 3 2 3 1 78 1 1 4 5 387 5 4.5 5 4 387 4 4.5 Σ
ESIMERKKI d i = R(x i ) - R(y i ) Koehenkilö x y R(x) R(y) d i 1 2 363 2 3-1.0 2 3 198 3 2 1.0 3 1 78 1 1 0.0 4 5 387 5 4.5 0.5 5 4 387 4 4.5-0.5 Σ 0.0
ESIMERKKI Koehenkilö x y R(x) R(y) d i d 2 i 1 2 363 2 3-1.0 1.00 2 3 198 3 2 1.0 1.00 3 1 78 1 1 0.0 0.00 4 5 387 5 4.5 0.5 0.25 5 4 387 4 4.5-0.5 0.25 Σ 0.0 2.50 r S = 1 6 n i=1 d i 2 n 3 n = 1 6 2.50 5 3 5 = 1 15 120 = 1 1 8 = 7 8 = 0.875 Terveinä itsensä kokevilla on siis myös korkea puristusvoima. Korrelaatio on varsin korkea, mutta se laskettiin varsin pienestä aineistosta. Jos terveysmuuttujan arvoja ei olisi käännetty ennen laskemista, olisi saatu vastaava negatiivinen korrelaatiokertoimen arvo.
ESIMERKKI Korrelaatio SPSS-ohjelmalla tarkasteltuna: Kertoimen itseisarvo on hieman pienempi kuin käsin laskettaessa. SPSS käyttää tasatulosten osalta korjauskaavaa, joka johtaa hieman erilaiseen tulokseen (vrt. Ranta: Biometria)