TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Samankaltaiset tiedostot
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

HAVAITUT JA ODOTETUT FREKVENSSIT

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MTTTP1, luento KERTAUSTA

Kandidaatintutkielman aineistonhankinta ja analyysi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Regressioanalyysi. Vilkkumaa / Kuusinen 1

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSOPAS. SPSS-opas

Regressioanalyysi. Kuusinen/Heliövaara 1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

805306A Johdatus monimuuttujamenetelmiin, 5 op

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Monitasomallit koulututkimuksessa

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto Aineiston kuvaus Riippuvuustarkastelut...4

Harjoituksessa tarkastellaan miten vapaa-ajan liikunta on yhteydessä..

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Johdatus tilastotieteeseen Tilastollinen riippuvuus ja korrelaatio. TKK (c) Ilkka Mellin (2005) 1

Kvantitatiiviset menetelmät

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

Ohjeita kvantitatiiviseen tutkimukseen

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

5 Lisa materiaali. 5.1 Ristiintaulukointi

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Testejä suhdeasteikollisille muuttujille

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Matemaatikot ja tilastotieteilijät

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

031021P Tilastomatematiikka (5 op) viikko 6

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Korrelaatiokertoinen määrittely 165

Mat Tilastollisen analyysin perusteet, kevät 2007

Til.yks. x y z

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Teema 5: Ristiintaulukointi

Havaitsevan tähtitieteen peruskurssi I. Datan käsittely. Jyri Lehtinen. kevät Helsingin yliopisto, Fysiikan laitos

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

pitkittäisaineistoissa

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Matemaattinen Analyysi, k2012, L1

Estimointi. Vilkkumaa / Kuusinen 1

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tilastollinen aineisto Luottamusväli

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Harjoittele tulkintoja

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

pitkittäisaineistoissa

ReplicaX työkalu avointen datakopioiden luomiseen

Väliestimointi (jatkoa) Heliövaara 1

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

RISTIINTAULUKOINTI JA Χ 2 -TESTI

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

Harjoitukset 4 : Paneelidata (Palautus )

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta

vkp 4*(1+0)/(32-3)-1= vkp 2*(1+0)/(32-3)=

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Testit järjestysasteikollisille muuttujille

Transkriptio:

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas

Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989. Muuttujien välillä ei ole merkitsevää riippuvuutta. HUOM. Riviprosentit ovat lähes yhtä suuret.

Merkitsevä riippuvuus ulkona liikkumiskyvyn ja sukupuolen välillä (p = 0.004). Naisilla ongelmat liikkumiskyvyssä (16.6 %) olivat yleisempiä kuin miehillä (7.8 %). Koska ristiintaulukko on 2 2 taulukko, usein raportoidaan Fisherin nelikenttätestin p-arvo.

B. VÄLIMATKA- TAI SUHDEASTEIKOLLISET MUUTTUJAT: PEARSONIN KORRELAATIOKERROIN Kun puhutaan korrelaatiokertoimesta, tarkoitetaan yleensä Pearsonin tulomomenttikorrelaatiokerrointa (r, ρ) Kerroin ilmoittaa riippuvuuden suunnan ja voimakkuuden, mutta siitä ei voi suoraan päätellä kausaalisuutta (syy-seuraussuhde) Lineaarisen yhteyden tunnusluku Korrelaation voimakkuus vaihtelee välillä [0, 1] Pienet arvot: vähäinen riippuvuus tai ei riippuvuutta Suuret arvot: korkea tai täydellinen riippuvuus suunta: etumerkki (+ tai -) Positiivinen: kasvavat X muuttujan arvot liittyvät kasvaviin Y muuttujan arvoihin Negatiivinen: kasvavat X muuttujan arvot liittyvät pieneneviin Y muuttujan arvoihin

PEARSONIN KORRELAATIOKERROIN Kertoimet erilaisista muuttujapareista ovat (ainakin matemaattisesti) vertailukelpoisia Karkea sääntö kertoimen tulkintaan: r > 0.7 : lineaarinen riippuvuus on voimakasta 0.3 < r < 0.7 : lineaarinen riippuvuus on kohtalaista r < 0.3 : lineaarinen riippuvuus on heikkoa Selitysaste (r 2 ): kuinka paljon Y-muuttujan vaihtelusta voidaan selittää X-muuttujan vaihtelulla Esim. korrelaatiokerrointa r = 0.7 vastaa r 2 = 0.49, eli 100 0.49 = 49 %, joten noin puolet Y-muuttujan vaihtelusta selittyy X-muuttujan vaihtelulla ja loput muilla tekijöillä

Kertoimen laskeminen: r = s xy s x 2 s y 2 = n i=1 (x i x )(y i y) i=1 (x i x ) 2 i=1(y i y) 2 Yhteisen hajonnan (kovarianssi) suhde muuttujien keskihajontatuloon Jos otoskoko on pieni, niin yksikin poikkeava havainto saattaa vaikuttaa suuresti korrelaatiokertoimen arvoon Mitä suurempi otoskoko, sitä pienempi korrelaatio tulee tilastollisesti merkitseväksi n n

ESIMERKKI kh Pituus Paino 1 171 98 2 178 76 3 157 70 4 180 71 5 162 81 6 150 51 7 160 70 8 169 69 9 161 63 10 171 66 x = 165.9 y = 71.5

ESIMERKKI kh Pituus Paino 1 171 98 2 178 76 3 157 70 4 180 71 5 162 81 6 150 51 7 160 70 8 169 69 9 161 63 10 171 66 x = 165.9 y = 71.5

ESIMERKKI kh Pituus Paino 1 171 98 2 178 76 3 157 70 4 180 71 5 162 81 6 150 51 7 160 70 8 169 69 9 161 63 10 171 66 x = 165.9 y = 71.5

ESIMERKKI kh Pituus Paino 1 171 98 5.1 26.5 2 178 76 12.1 4.5 3 157 70-8.9-1.5 4 180 71 14.1-0.5 5 162 81-3.9 9.5 6 150 51-15.9-20.5 7 160 70-5.9-1.5 8 169 69 3.1-2.5 9 161 63-4.9-8.5 10 171 66 5.1-5.5 x = 165.9 y = 71.5

ESIMERKKI kh Pituus Paino 1 171 98 5.1 26.5 135.15 2 178 76 12.1 4.5 54.45 3 157 70-8.9-1.5 13.35 4 180 71 14.1-0.5-7.05 5 162 81-3.9 9.5-37.05 6 150 51-15.9-20.5 325.95 7 160 70-5.9-1.5 8.85 8 169 69 3.1-2.5-7.75 9 161 63-4.9-8.5 41.65 10 171 66 5.1-5.5-28.05 499.50 x = 165.9 y = 71.5

ESIMERKKI kh Pituus Paino 1 171 98 5.1 26.5 135.15 26.01 702.25 2 178 76 12.1 4.5 54.45 146.01 20.25 3 157 70-8.9-1.5 13.35 79.21 2.25 4 180 71 14.1-0.5-7.05 198.81 0.25 5 162 81-3.9 9.5-37.05 15.21 90.25 6 150 51-15.9-20.5 325.95 252.81 420.25 7 160 70-5.9-1.5 8.85 34.81 2.25 8 169 69 3.1-2.5-7.75 9.61 6.25 9 161 63-4.9-8.5 41.65 24.01 72.25 10 171 66 5.1-5.5-28.05 26.01 30.25 499.50 812.90 1346.50 x = 165.9 y = 71.5 r = n i=1 (x i x )(y i y) = n i=1 (x i x ) 2 n i=1(y i y) 2 499.5 812.9 1346.5 = 0.477 Otoksessa pituuden ja painon välillä on siis kohtalainen riippuvuus. Pituus jakaumalla suureneviin arvoihin liittyvät myös jossain määrin suurenevat painomitat.

ESIMERKKI (SPSS) kh Pituus Paino 1 171 98 2 178 76 3 157 70 4 180 71 5 162 81 6 150 51 7 160 70 8 169 69 9 161 63 10 171 66

Correlation between Countries' Annual Per Capita Chocolate Consumption and the Number of Nobel Laureates per 10 Million Population. MESSERLI FH. N ENGL J MED 2012;367:1562-1564.

POIKKEAVAN HAVAINNON VAIKUTUS

KORRELAATIOMATRIISI Korrelaatio ja sen merkitsevyyden indikaattori (**) Tarkka p-arvo Ristitulo Kovarianssi Otoskoko Jyväskyläläiset 75-v. naiset, NORA tutkimus, 1989.

KORRELAATIO- MATRIISI

RAPORTOITAVA KORRELAATIOMATRIISI VERSIO 1 Table 1. Correlation matrix of height, weight, waist and hip girth among 75-year-old men living in Jyväskylä in 1989 (n = 103). Height Weight Waist girth Height -- Weight 0.31 *** -- Waist girth 0.05 0.87 *** -- Hip girth 0.09 0.86 *** 0.76 *** *** Correlation significant at the 0.001 significance level. HUOM! Tässä tapauksessa SPSS:n korrelaatiomatriisin viimeinen sarake on turha, koska muuttujan (tässä: lantionleveys) korrelaatio itsensä kanssa on aina 1, eikä siksi mielenkiintoinen.

RAPORTOITAVA KORRELAATIOMATRIISI VERSIO 2 Table 1. Means, standard deviations and correlation matrix for height, weight, waist and hip girth among 75-year-old men living in Jyväskylä in 1989 (n = 103). Mean Height Weight Waist girth Hip girth Height 169 6.20 Weight 74 0.31 *** 10.71 Waist girth 93 0.05 0.87 *** 9.99 Hip girth 97 0.09 0.86 *** 0.76 *** 6.56 *** Correlation significant at the 0.001 significance level. Standard deviations are shown on the diagonal. Kovarianssi (pituus, paino): r pit,pai s pit s pai = 0.31 6.20 10.71 = 20.58

RAPORTOITAVA KORRELAATIOMATRIISI VERSIO 3 Table 1. Correlation matrix of height, weight, waist and hip girth among 75-year-old men (below diagonal, n = 103) and women (above diagonal, n = 191) living in Jyväskylä in 1989. Height Weight Waist girth Hip girth Height -- 0.29 *** 0.01 0.10 Weight 0.31 *** -- 0.84 *** 0.90 *** Waist girth 0.05 0.87 *** -- 0.82 *** Hip girth 0.09 0.86 *** 0.76 *** -- *** Correlation significant at the 0.001 significance level. Tähän matriisiin voi liittää myös keskiarvot (kaksi lisäsaraketta) ja keskihajonnat diagonaalille, esim. miesten keskihajonta/naisten keskihajonta

PAIRWISE VAI LISTWISE? Kun aineistossa on muuttujia, joilla on erilainen lukumäärä puuttuvia havaintoja, voidaan korrelaatio laskea kahdella tavalla Pairwise: tutkittavat otetaan mukaan analyysiin, jos muuttujaparilta on havaittu arvot Listwise: huomioidaan tapaukset, joilla ei ole yhtään puuttuvaa tietoa Listwise on tilastomatemaattisesti paremmin perusteltu ja johtaa jatkoanalyyseissa usein harvemmin ongelmiin kuin pairwise Esim. määritetään painon ja vyötärön ympäryksen korrelaatio osana kolmen muuttujan yhteistarkastelua Koehenkilö Pituus Paino Vyötärönympärys 1 169 76 98.5 2 -- 82 85.5 3 187 -- 86.0 Pairwise: 1,2 Listwise: 1 Imputointi / SU-estimointi: 1,2,3

C. JÄRJESTYSLUKUASTEIKOLLISET MUUTTUJAT: SPEARMANIN JÄRJESTYSLUKUKORRELAATIOKERROIN Symbolit: otos, r S, perusjoukko, ρ S Kun ainakin toinen muuttuja on järjestysasteikollinen muuttujat; poikkeavia havaintoja sisältävät muuttujat; kun jakaumaoletukset eivät ole kunnossa Pearsonin korrelaatiolle Havaintoarvojen sijasta perustuu havaintojen keskinäiseen järjestykseen Laskeminen: 1) X- ja Y-muuttujien havaintoarvot korvataan järjestysluvuilla R(x i ) ja R(y i ). 2) Lasketaan järjestyslukujen erotusten neliö d i 2 = [R(x i ) R(y i )] 2 3) Sijoitetaan erotusten neliöt kaavaan: r S = 1 6 n i=1 d i 2 n 3 n

ESIMERKKI Tarkastellaan itse arvioidun terveydentilan ja käden puristusvoiman välistä riippuvuutta (n = 5). Aineisto: Koehenkilö Terveydentila Käden puristusvoima (Newton) 1 4 (= huono) 363 2 3 (= kohtalainen) 198 3 5 (= erittäin huono) 78 4 1 (= erittäin hyvä) 387 5 2 (= hyvä) 387 Olkoon seuraavassa terveydentila X ja puristusvoima Y. Huom. Terveydentila kertoo huonosta terveydentilasta (suuret arvot).

MUUTTUJAN ARVOLUOKKIEN KÄÄNTÄMINEN Muuttuja X on Terveydentila Suurin arvo: Max = 5 Pienin arvo: Min = 1 Lasketaan: Max x i + Min (i = 1,, 5) Terveydentila 4 (= huono) 3 (= kohtalainen) 5 (= erittäin huono) 1 (= erittäin hyvä) 2 (= hyvä)

MUUTTUJAN ARVOLUOKKIEN KÄÄNTÄMINEN Muuttuja X on Terveydentila Suurin arvo: Max = 5 Pienin arvo: Min = 1 Lasketaan: Max x i + Min (i = 1,, 5) Terveydentila Laskutoimitus 4 (= huono) 5 4 + 1 3 (= kohtalainen) 5 3 + 1 5 (= erittäin huono) 5 5 + 1 1 (= erittäin hyvä) 5 1 + 1 2 (= hyvä) 5 2 + 1

MUUTTUJAN ARVOLUOKKIEN KÄÄNTÄMINEN Muuttuja X on Terveydentila Suurin arvo: Max = 5 Pienin arvo: Min = 1 Lasketaan: Max x i + Min (i = 1,, 5) Terveydentila Laskutoimitus Käännetty Terveydentila 4 (= huono) 5 4 + 1 2 (= huono) 3 (= kohtalainen) 5 3 + 1 3 (= kohtalainen) 5 (= erittäin huono) 5 5 + 1 1 (= erittäin huono) 1 (= erittäin hyvä) 5 1 + 1 5 (= erittäin hyvä) 2 (= hyvä) 5 2 + 1 4 (= hyvä) Huom. Arvoluokat muuttuvat, mutta jokaisen tutkittavan terveysluokan tulkinta säilyy samana

ESIMERKKI Koehenkilö x y 1 2 363 2 3 198 3 1 78 4 5 387 5 4 387 Σ

ESIMERKKI Koehenkilö x y R(x) 1 2 363 2 2 3 198 3 3 1 78 1 4 5 387 5 5 4 387 4 Σ

ESIMERKKI Koehenkilö x y R(x) R(y) 1 2 363 2 3 2 3 198 3 2 3 1 78 1 1 4 5 387 5 4.5 5 4 387 4 4.5 Σ

ESIMERKKI d i = R(x i ) - R(y i ) Koehenkilö x y R(x) R(y) d i 1 2 363 2 3-1.0 2 3 198 3 2 1.0 3 1 78 1 1 0.0 4 5 387 5 4.5 0.5 5 4 387 4 4.5-0.5 Σ 0.0

ESIMERKKI Koehenkilö x y R(x) R(y) d i d 2 i 1 2 363 2 3-1.0 1.00 2 3 198 3 2 1.0 1.00 3 1 78 1 1 0.0 0.00 4 5 387 5 4.5 0.5 0.25 5 4 387 4 4.5-0.5 0.25 Σ 0.0 2.50 r S = 1 6 n i=1 d i 2 n 3 n = 1 6 2.50 5 3 5 = 1 15 120 = 1 1 8 = 7 8 = 0.875 Terveinä itsensä kokevilla on siis myös korkea puristusvoima. Korrelaatio on varsin korkea, mutta se laskettiin varsin pienestä aineistosta. Jos terveysmuuttujan arvoja ei olisi käännetty ennen laskemista, olisi saatu vastaava negatiivinen korrelaatiokertoimen arvo.

ESIMERKKI Korrelaatio SPSS-ohjelmalla tarkasteltuna: Kertoimen itseisarvo on hieman pienempi kuin käsin laskettaessa. SPSS käyttää tasatulosten osalta korjauskaavaa, joka johtaa hieman erilaiseen tulokseen (vrt. Ranta: Biometria)