TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas



Samankaltaiset tiedostot
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

HAVAITUT JA ODOTETUT FREKVENSSIT

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kandidaatintutkielman aineistonhankinta ja analyysi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1, luento KERTAUSTA

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI. LTKY012 Timo Törmäkangas Gerontologian tutkimuskeskus

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

TUTKIMUSOPAS. SPSS-opas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

RISKITASO. Riskitaso (α) määrittää virhepäätelmän todennäköisyyden. Käytettyjä riskitasoja:

Kyllä. Kyllä. Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Määrällisen aineiston esittämistapoja. Aki Taanila

5 Lisa materiaali. 5.1 Ristiintaulukointi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Teema 5: Ristiintaulukointi

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Opinnäytetyön kvantitatiivinen osuus

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Til.yks. x y z

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Luento JOHDANTO

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

805306A Johdatus monimuuttujamenetelmiin, 5 op

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Määrällisen aineiston esittämistapoja. Aki Taanila

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Til.yks. x y z

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Todennäköisyyden ominaisuuksia

Johdatus tn-laskentaan perjantai

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Harjoitukset 4 : Paneelidata (Palautus )

RISTIINTAULUKOINTI JA Χ 2 -TESTI

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

MONISTE 2 Kirjoittanut Elina Katainen

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

11. laskuharjoituskierros, vko 15, ratkaisut

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

Kvantitatiiviset menetelmät

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Kvantitatiiviset menetelmät

Moniulotteisia todennäköisyysjakaumia

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

Transkriptio:

TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 147 9 175 174 10 173 173 156

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva Regressiosuora

RIIPPUVUUS Antavatko muuttujan Xarvoihin liittyvät frekvenssit lisätietoa muuttujan Yarvojen frekvensseistä? Keskeisiä riippuvuuden ominaisuuksia ovat suuntaja voimakkuus, jotka pyritään kuvaamaan yhdellä tunnusluvulla (jos mahdollista) Muuttujat kannattaa koodata niin, että suuret arvot tarkoittavat mitattavan ominaisuuden suurempaa esiintymistä tutkittavassa: Esim. terveydentila suuret arvot tarkoittavat parempaa terveyttä

1. LUOKITTELUASTEIKOLLISET MUUTTUJAT Ovatko muuttujan Xjakaumat samanlaiset muuttujan Y eri luokissa (ehdolliset jakaumat)? Tunnuslukuja χ 2 testisuure kontingenssikerroin Muita McNemarin testi Fisherin nelikenttätesti

ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä ei ole ollenkaan riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 45 52 45 142 Nainen 45 52 45 142 Yhteensä 90 104 90 284

ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä ei ole ollenkaan riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 45 (31.7) 52 (36.6) 45 (31.7) 142 (100) Nainen 45 (31.7) 52 (36.6) 45 (31.7) 142 (100) Yhteensä 90 104 90 284 Riviprosentit

ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä ei ole ollenkaan riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 45 (50) 52 (50) 45 (50) 142 Nainen 45 (50) 52 (50) 45 (50) 142 Yhteensä 90 (100) 104 (100) 90 (100) 284 Sarakeprosentit Johtopäätös: tupakoinnin useuden jakauma on sama huolimatta siitä kumpaa sukupuolta tarkastellaan

ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli. Onko tässä muuttujien välillä riippuvuutta? Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 40 52 28 120 Nainen 50 65 35 150 Yhteensä 90 117 63 270 Tarkastellaan esim. riviprosentteja

ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 40 (33.3) 52 (43.3) 28 (23.3) 120 (100) Nainen 50 (33.3) 65 (43.3) 35 (23.3) 150 (100) Yhteensä 90 117 63 270 Johtopäätös: muuttujien välillä ei ole riippuvuutta. Riippuvuuden tarkastelussa kannattaa kiinnittää huomio ehdollisiin prosenttijakaumiin

ESIMERKKI EI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä ei ole ollenkaan riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 40 52 28 120 Nainen 50 65 35 150 Yhteensä 90 117 63 270 Johtopäätös: tupakoinnin useuden jakauma on sama huolimatta siitä kumpaa sukupuolta tarkastellaan

ESIMERKKI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä on riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 59 5 28 92 Nainen 14 4 174 192 Yhteensä 73 9 202 284

ESIMERKKI RIIPPUVUUTTA MUUTTUJIEN VÄLILLÄ Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä on riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 59 (64.1) 5 (5.4) 28 (30.4) 92 Nainen 14 (7.3) 4 (2.1) 174 (90.6) 192 Yhteensä 73 9 202 284 Riviprosentit Johtopäätös: Tupakoinnin useuden ja sukupuolen välillä on riippuvuutta; miehillä painottuupäivittäinen tupakointi, kun taas naiset eivät tupakoi.

2. JATKUVAT MUUTTUJAT Jos muuttujan Xarvot lisääntyvät yksikön, liittyykö myös muuttujan Yarvoihin lisäystä tai vähentymistä? Lineaarinen riippuvuus Korrelaatiokertoimet (mm. Spearman ja Pearson)

HAJONTAKUVIO EI RIIPPUVUUTTA

HAJONTAKUVIO POSITIIVINEN RIIPPUVUUS

HAJONTAKUVIO POSITIIVINEN RIIPPUVUUS

HAJONTAKUVIO POSITIIVINEN RIIPPUVUUS

HAJONTAKUVIO SUURIN MAHDOLLINEN POSITIIVINEN RIIPPUVUUS

HAJONTAKUVIO NEGATIIVINEN RIIPPUVUUS

SAMANAIKAINEN HAJONTAKUVIO Pituuden, painon ja kehon rasvaprosentin samanaikainen hajontakuvio 75-vuotiaille jyväskyläläisille miehille vuonna 1989.

3. JÄRJESTYSASTEIKOLLISET MUUTTUJAT Käsitys riippuvuudesta samankaltainen kuin jatkuvilla muuttujilla Varsinaisten havaintoarvojen sijasta käytetään järjestyslukuja

LINEAARISUUDESTA Usein kiinnostus kohdistuu yksikertaisiin riippuuvuussuhteisiinmuuttujien välillä, kuten edellä on esitetty Lineaarisuus: kuvaajaan asetettu suora kuvaa riippuvuudesta olennaisimman Joskus muuttujien väliset yhteydet eivät ole lineaarisia lineaarinen kuvaus on riittämätön tulokset saattavat olla epätarkkoja tai harhaanjohtavia

Kehon rasvaprosentti ja veren glukoosipitoisuus. Jyväskyläläiset 75-v. naiset, 1989.

Lineaarisen yhteyden kuvaaja Kehon rasvaprosentti ja veren glukoosipitoisuus. Jyväskyläläiset 75-v. naiset, 1989.

Lineaarisen kuvaajan (yhtenäinen viiva) ohella toisen asteen kaareva kuvaaja (katkoviiva). Kehon rasvaprosentti ja veren glukoosipitoisuus. Jyväskyläläiset 75-v. naiset, 1989.

Kaareva kuvaaja näyttää sopivan paremmin aineistoon Kehon rasvaprosentti ja veren glukoosipitoisuus. Jyväskyläläiset 75-v. naiset, 1989.

Empiirinen LOESS-kuvaaja näyttää tukevan hieman paremmin toisen asteen kuvaajaa. Kehon rasvaprosentti ja veren glukoosipitoisuus. Jyväskyläläiset 75-v. naiset, 1989.

BMC Research Notes 2011, 4:301

RIIPPUVUUS ALARYHMISSÄ Riippuvuus saattaa olla erilaista jos samassa aineistossa on esim. tutkittavia molemmista sukupuolista Yhteys saattaa olla erilaista alaryhmissä, mikä saattaa johtaa virhepäätelmiin riippuvuudesta Jos muuttujissa on sukupuolten välisiä tasoeroja, riippuvuuden tunnusluvut saattavat kertoa enemmän ryhmien välisestä erosta kuin riippuvuudesta Tällöin on usein järkevämpää raportoida riippuvuustarkastelu miehille ja naisille erikseen

Pituuden ja painon yhteys 75-vuotiailla glostrupilaisilla vuonna 1989.

Pituuden ja painon yhteys 75-vuotiailla glostrupilaisilla vuonna 1989.

Pituuden ja painon yhteys 75-vuotiailla glostrupilaisilla vuonna 1989. Miesten ja naisten kuvaajien (punainen katkoviiva) nousukulmat ovat matalampia kuin Kokonaisaineiston kuvaajalla (musta yhtenäinen viiva): Osa kokonaisaineiston riippuvuudesta tulee ryhmien tasoeroista.

YLEISESTI Eroja saattaa esiintyä myös muiden kuin sukupuolimuuttujien suhteen Yleisesti voidaan viitata kolmannen tekijän vaikutukseen riippuvuuden tarkastelussa Jos tällainen tekijä on mitattu voidaan sen vaikutusta huomioida esim. tarkastelemalla riippuvuutta osittaiskorrelaatiokertoimen avulla

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

RIIPPUVUUDEN TUNNUSLUKUJA A. LUOKITTELUASTEIKKO: Χ 2 TESTISUURE χ 2 testisuure mittaa kahden muuttujan välisen riippuvuuden voimakkuutta, mutta ei määritä sille suuntaa Mitä suuremman arvo suure saa, sitä enemmän muuttujien välillä on riippuvuutta Arvo vaihtelee teoreettisesti välillä [0, ] Perustuu ristiintaulukkoon Tunnusluvun laskenta: 1) Määritetään odotetut frekvenssit. 2) Lasketaan testisuureen arvo.

ESIMERKKI Onko tupakoinnin useus riippuvaista sukupuolesta? Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Merkintöjä (rivi ija sarake j) Rivisumma: f i (esim. f 1 = 91) Sarakesumma: f j (esim. f 2 = 42)

ODOTETUT FREKVENSSIT Jos havaittaisiin vastaava ristiintaulukko, jossa ei ole ollenkaan riippuvuutta, olkoon se nimeltään E RistiintaulukonEmarginaalit ( Yhteensä ) ovat samat kuin havaitussa ristiintaulukossa(olkoon se F) Ristiintaulukon E solufrekvenssit lasketaan e ij = f i f j / n

Χ 2 TESTISUURE Määrittää mikä on havaitun ristiintaulukon(f) etäisyys täydellisestä riippumattomuudesta (E), ts. F E. Lasketaan missä g on rivien ja h sarakkeiden lukumäärä, tässä esimerkissä g= 2 ja h= 3.

ESIMERKKI: ODOTETUT FREKVENSSIT Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Mies, usein: 91 64 / 284 = 20.507 Mies, harvoin: 91 42 / 284 = 13.458 Mies, ei tupakoi: 91 178 / 284 = 57.035 Nainen, usein: 193 64 / 284 = 43.493 Nainen, harvoin: 193 42 / 284 = 28.542 Nainen, ei tupakoi: 193 178 / 284 = 120.965

HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 21 13 57 91 Nainen (2) 43 29 121 193 Yhteensä 64 42 178 284