TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 147 9 175 174 10 173 173 156
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva Regressiosuora
RIIPPUVUUS Antavatko muuttujan Xarvoihin liittyvät frekvenssit lisätietoa muuttujan Yarvojen frekvensseistä? Keskeisiä riippuvuuden ominaisuuksia ovat suuntaja voimakkuus, jotka pyritään kuvaamaan yhdellä tunnusluvulla (jos mahdollista) Muuttujat kannattaa koodata niin, että suuret arvot tarkoittavat mitattavan ominaisuuden suurempaa esiintymistä tutkittavassa: Esim. terveydentila suuret arvot tarkoittavat parempaa terveyttä
1. LUOKITTELUASTEIKOLLISET MUUTTUJAT Ovatko muuttujan Xjakaumat samanlaiset muuttujan Y eri luokissa (ehdolliset jakaumat)? Tunnuslukuja χ 2 testisuure kontingenssikerroin Muita McNemarin testi Fisherin nelikenttätesti
ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä ei ole ollenkaan riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 45 52 45 142 Nainen 45 52 45 142 Yhteensä 90 104 90 284
ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä ei ole ollenkaan riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 45 (31.7) 52 (36.6) 45 (31.7) 142 (100) Nainen 45 (31.7) 52 (36.6) 45 (31.7) 142 (100) Yhteensä 90 104 90 284 Riviprosentit
ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä ei ole ollenkaan riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 45 (50) 52 (50) 45 (50) 142 Nainen 45 (50) 52 (50) 45 (50) 142 Yhteensä 90 (100) 104 (100) 90 (100) 284 Sarakeprosentit Johtopäätös: tupakoinnin useuden jakauma on sama huolimatta siitä kumpaa sukupuolta tarkastellaan
ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli. Onko tässä muuttujien välillä riippuvuutta? Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 40 52 28 120 Nainen 50 65 35 150 Yhteensä 90 117 63 270 Tarkastellaan esim. riviprosentteja
ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 40 (33.3) 52 (43.3) 28 (23.3) 120 (100) Nainen 50 (33.3) 65 (43.3) 35 (23.3) 150 (100) Yhteensä 90 117 63 270 Johtopäätös: muuttujien välillä ei ole riippuvuutta. Riippuvuuden tarkastelussa kannattaa kiinnittää huomio ehdollisiin prosenttijakaumiin
ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä ei ole ollenkaan riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 40 52 28 120 Nainen 50 65 35 150 Yhteensä 90 117 63 270 Johtopäätös: tupakoinnin useuden jakauma on sama huolimatta siitä kumpaa sukupuolta tarkastellaan
ESIMERKKI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä on riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 59 5 28 92 Nainen 14 4 174 192 Yhteensä 73 9 202 284
ESIMERKKI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä on riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 59 (64.1) 5 (5.4) 28 (30.4) 92 Nainen 14 (7.3) 4 (2.1) 174 (90.6) 192 Yhteensä 73 9 202 284 Riviprosentit Johtopäätös: Tupakoinnin useuden ja sukupuolen välillä on riippuvuutta; miehillä painottuupäivittäinen tupakointi, kun taas naiset eivät tupakoi.
2. JATKUVAT MUUTTUJAT Jos muuttujan Xarvot lisääntyvät yksikön, liittyykö myös muuttujan Yarvoihin lisäystä tai vähentymistä? Lineaarinen riippuvuus Korrelaatiokertoimet (mm. Spearman ja Pearson)
HAJONTAKUVIO EI RIIPPUVUUTTA
HAJONTAKUVIO POSITIIVINEN RIIPPUVUUS
HAJONTAKUVIO POSITIIVINEN RIIPPUVUUS
HAJONTAKUVIO POSITIIVINEN RIIPPUVUUS
HAJONTAKUVIO SUURIN MAHDOLLINEN POSITIIVINEN RIIPPUVUUS
HAJONTAKUVIO NEGATIIVINEN RIIPPUVUUS
SAMANAIKAINEN HAJONTAKUVIO Pituuden, painon ja kehon rasvaprosentin samanaikainen hajontakuvio 75-vuotiaille jyväskyläläisille miehille vuonna 1989.
3. JÄRJESTYSASTEIKOLLISET MUUTTUJAT Käsitys riippuvuudesta samankaltainen kuin jatkuvilla muuttujilla Varsinaisten havaintoarvojen sijasta käytetään järjestyslukuja
LINEAARISUUDESTA Usein kiinnostus kohdistuu yksikertaisiin riippuuvuussuhteisiinmuuttujien välillä, kuten edellä on esitetty Lineaarisuus: kuvaajaan asetettu suora kuvaa riippuvuudesta olennaisimman Joskus muuttujien väliset yhteydet eivät ole lineaarisia lineaarinen kuvaus on riittämätön tulokset saattavat olla epätarkkoja tai harhaanjohtavia
Kehon rasvaprosentti ja veren glukoosipitoisuus. Jyväskyläläiset 75-v. naiset, 1989.
Lineaarisen yhteyden kuvaaja Kehon rasvaprosentti ja veren glukoosipitoisuus. Jyväskyläläiset 75-v. naiset, 1989.
Lineaarisen kuvaajan (yhtenäinen viiva) ohella toisen asteen kaareva kuvaaja (katkoviiva). Kehon rasvaprosentti ja veren glukoosipitoisuus. Jyväskyläläiset 75-v. naiset, 1989.
Kaareva kuvaaja näyttää sopivan paremmin aineistoon Kehon rasvaprosentti ja veren glukoosipitoisuus. Jyväskyläläiset 75-v. naiset, 1989.
Empiirinen LOESS-kuvaaja näyttää tukevan hieman paremmin toisen asteen kuvaajaa. Kehon rasvaprosentti ja veren glukoosipitoisuus. Jyväskyläläiset 75-v. naiset, 1989.
BMC Research Notes 2011, 4:301
RIIPPUVUUS ALARYHMISSÄ Riippuvuus saattaa olla erilaista jos samassa aineistossa on esim. tutkittavia molemmista sukupuolista Yhteys saattaa olla erilaista alaryhmissä, mikä saattaa johtaa virhepäätelmiin riippuvuudesta Jos muuttujissa on sukupuolten välisiä tasoeroja, riippuvuuden tunnusluvut saattavat kertoa enemmän ryhmien välisestä erosta kuin riippuvuudesta Tällöin on usein järkevämpää raportoida riippuvuustarkastelu miehille ja naisille erikseen
Pituuden ja painon yhteys 75-vuotiailla glostrupilaisilla vuonna 1989.
Pituuden ja painon yhteys 75-vuotiailla glostrupilaisilla vuonna 1989.
Pituuden ja painon yhteys 75-vuotiailla glostrupilaisilla vuonna 1989. Miesten ja naisten kuvaajien (punainen katkoviiva) nousukulmat ovat matalampia kuin Kokonaisaineiston kuvaajalla (musta yhtenäinen viiva): Osa kokonaisaineiston riippuvuudesta tulee ryhmien tasoeroista.
YLEISESTI Eroja saattaa esiintyä myös muiden kuin sukupuolimuuttujien suhteen Yleisesti voidaan viitata kolmannen tekijän vaikutukseen riippuvuuden tarkastelussa Jos tällainen tekijä on mitattu voidaan sen vaikutusta huomioida esim. tarkastelemalla riippuvuutta osittaiskorrelaatiokertoimen avulla
KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit
RIIPPUVUUDEN TUNNUSLUKUJA A. LUOKITTELUASTEIKKO: Χ 2 TESTISUURE χ 2 testisuure mittaa kahden muuttujan välisen riippuvuuden voimakkuutta, mutta ei määritä sille suuntaa Mitä suuremman arvo suure saa, sitä enemmän muuttujien välillä on riippuvuutta Arvo vaihtelee teoreettisesti välillä [0, ] Perustuu ristiintaulukkoon Tunnusluvun laskenta: 1) Määritetään odotetut frekvenssit. 2) Lasketaan testisuureen arvo.
ESIMERKKI Onko tupakoinnin useus riippuvaista sukupuolesta? Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Merkintöjä (rivi ija sarake j) Rivisumma: f i (esim. f 1 = 91) Sarakesumma: f j (esim. f 2 = 42)
ODOTETUT FREKVENSSIT Jos havaittaisiin vastaava ristiintaulukko, jossa ei ole ollenkaan riippuvuutta, olkoon se nimeltään E RistiintaulukonEmarginaalit ( Yhteensä ) ovat samat kuin havaitussa ristiintaulukossa(olkoon se F) Ristiintaulukon E solufrekvenssit lasketaan e ij = f i f j / n
Χ 2 TESTISUURE Määrittää mikä on havaitun ristiintaulukon(f) etäisyys täydellisestä riippumattomuudesta (E), ts. F E. Lasketaan missä g on rivien ja h sarakkeiden lukumäärä, tässä esimerkissä g= 2 ja h= 3.
ESIMERKKI: ODOTETUT FREKVENSSIT Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Mies, usein: 91 64 / 284 = 20.507 Mies, harvoin: 91 42 / 284 = 13.458 Mies, ei tupakoi: 91 178 / 284 = 57.035 Nainen, usein: 193 64 / 284 = 43.493 Nainen, harvoin: 193 42 / 284 = 28.542 Nainen, ei tupakoi: 193 178 / 284 = 120.965
HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 21 13 57 91 Nainen (2) 43 29 121 193 Yhteensä 64 42 178 284