TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Samankaltaiset tiedostot
TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

HAVAITUT JA ODOTETUT FREKVENSSIT

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Kandidaatintutkielman aineistonhankinta ja analyysi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI. LTKY012 Timo Törmäkangas Gerontologian tutkimuskeskus

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Teema 5: Ristiintaulukointi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Kyllä. Kyllä. Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.

RISKITASO. Riskitaso (α) määrittää virhepäätelmän todennäköisyyden. Käytettyjä riskitasoja:

Määrällisen aineiston esittämistapoja. Aki Taanila

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

Sovellettu todennäköisyyslaskenta B

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

TUTKIMUSOPAS. SPSS-opas

5 Lisa materiaali. 5.1 Ristiintaulukointi

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Mat Tilastollisen analyysin perusteet, kevät 2007

pisteet Frekvenssi frekvenssi Yhteensä

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Mat Tilastollisen analyysin perusteet, kevät 2007

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

RISTIINTAULUKOINTI JA Χ 2 -TESTI

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

Väliestimointi (jatkoa) Heliövaara 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Til.yks. x y z

Mitä tarvitsee tietää biostatistiikasta ja miksi? Matti Uhari Lastentautien klinikka Oulun yliopisto

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Todennäköisyyden ominaisuuksia

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

SPSS-perusteet. Sisältö

Harjoitukset 4 : Paneelidata (Palautus )

Mat Tilastollisen analyysin perusteet, kevät 2007

Opinnäytetyön kvantitatiivinen osuus

Ohjeita kvantitatiiviseen tutkimukseen

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Monitasomallit koulututkimuksessa

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

SPSS ohje. Metropolia Business School/ Pepe Vilpas

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Sovellettu todennäköisyyslaskenta B

Luento JOHDANTO

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

11. laskuharjoituskierros, vko 15, ratkaisut

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

H0: otos peräisin normaalijakaumasta H0: otos peräisin tasajakaumasta

tilastotieteen kertaus

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

Transkriptio:

TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Luokittelu- ja järjestysasteikko: Ristiintaulukko Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Arvoparin frekvenssi näkyy taulukon soluista Ehdolliset frekvenssit: kiinnitetään yksi maamuuttujan luokka (esim. Suomi) ja tarkastellaan sukupuolijakaumaa

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Riviprosentit: 100 119 / 355 = 33.52 % 100 236 / 355 = 66.48 % 100 159 / 368 = 43.21 % 100 209 / 368 = 56.79 % 100 222 / 481 = 46.15 % 100 259 / 481 = 53.85 %

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Luokitteluasteikko: Ristiintaulukko Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 (34 %) 236 (66 %) 355 (100 %) Ruotsi (2) 159 (43 %) 209 (57 %) 368 (100 %) Tanska (3) 222 (46 %) 259 (54 %) 481 (100 %) Yhteensä 500 704 1204 Esim. Suomessa otos painottui selkeämmin naisiin (noin kaksi kolmannesta oli naisia)

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Sarakeprosentit: 100 119 / 500 = 23.80 % 100 236 / 704 = 33.52 % 100 159 / 500 = 31.80 % 100 209 / 704 = 29.69 % 100 222 / 500 = 44.40 % 100 259 / 704 = 36.79 %

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 (24 %) 236 (34 %) 355 Ruotsi (2) 159 (32 %) 209 (30 %) 368 Tanska (3) 222 (44 %) 259 (37 %) 481 Yhteensä 500 (100 %) 704 (100 %) 1204 Esim. pienin osuus miehistä muodostui suomalaisista miehistä, naisista pienin osuus oli ruotsalaisilla

RISTIINTAULUKON GRAAFINEN ESITYS Huono: Vaikea erottaa pylväitten keskinäisiä korkeuksia 300 250 200 150 Miehet 100 Naiset 50 0 Suomi Ruotsi Tanska Naiset Miehet

RISTIINTAULUKON GRAAFINEN ESITYS 300 250 200 150 100 Mies Nainen 50 0 Suomi Ruotsi Tanska Maa

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 147 9 175 174 10 173 173 156

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva Regressiosuora

RIIPPUVUUS Antavatko muuttujan Xarvoihin liittyvät frekvenssit lisätietoa muuttujan Yarvojen frekvensseistä? Keskeisiä riippuvuuden ominaisuuksia ovat suunta ja voimakkuus

1. Luokitteluasteikolliset muuttujat Ovatko muuttujan Xjakaumat samanlaiset muuttujan Y eri luokissa (ehdolliset jakaumat)? Tunnuslukuja mm. χ 2 testisuure, kontingenssikerroin Muita: McNemarin testi, Fisherin nelikenttätesti

Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä ei ole ollenkaan riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 45 52 45 142 Nainen 45 52 45 142 Yhteensä 90 104 90 284

Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä ei ole ollenkaan riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 45 (31.7) 52 (36.6) 45 (31.7) 142 (100) Nainen 45 (31.7) 52 (36.6) 45 (31.7) 142 (100) Yhteensä 90 104 90 284 Riviprosentit

Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä ei ole ollenkaan riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 45 (50) 52 (50) 45 (50) 142 Nainen 45 (50) 52 (50) 45 (50) 142 Yhteensä 90 (100) 104 (100) 90 (100) 284 Sarakeprosentit Johtopäätös: tupakoinnin useuden jakauma on sama huolimatta siitä kumpaa sukupuolta tarkastellaan

Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä on riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 59 5 28 92 Nainen 14 4 174 192 Yhteensä 73 9 202 284

Esim. Tupakoinnin useus ja sukupuoli, kun muuttujien välillä on riippuvuutta Päivittäin Silloin Ei koskaan Yhteensä tällöin Mies 59 (64.1) 5 (5.4) 28 (30.4) 92 Nainen 14 (7.3) 4 (2.1) 174 (90.6) 192 Yhteensä 73 9 202 284 Johtopäätös: Tupakoinnin useuden ja sukupuolen välillä on riippuvuutta; miehillä painottuu päivittäinen tupakointi, kun taas naiset eivät tupakoi.

2. Jatkuvat muuttujat Jos muuttujan Xarvot lisääntyvät yksikön, liittyykö myös muuttujan Yarvoihin lisäystä tai vähentymistä? Lineaarinen riippuvuus Korrelaatiokertoimet (mm. Spearman ja Pearson) Muuttujat tulisi koodata niin, että suuret arvot tarkoittavat mitattavan ominaisuuden suurempaa esiintymistä tutkittavassa: Esim. terveydentila suuret arvot tarkoittavat parempaa terveyttä

3. Järjestysasteikolliset muuttujat Käsitys riippuvuudesta samankaltainen kuin jatkuvilla muuttujilla Varsinaisten havaintoarvojen sijasta käytetään järjestyslukuja

RIIPPUVUUDEN TUNNUSLUKUJA A. Luokitteluasteikko: χ 2 testisuure Mittaa kahden muuttujan välisen riippuvuuden voimakkuutta, mutta ei määritä sille suuntaa Mitä suuremman arvo suure saa, sitä enemmän muuttujien välillä on riippuvuutta Arvo vaihtelee teoreettisesti välillä [0, ] Perustuu ristiintaulukkoon

ESIMERKKI Onko tupakoinnin useus riippuvaista sukupuolesta? Usein (1) Harvoin (2) Ei tupakoi (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Tunnusluvun laskenta: 1) Määritetään odotetut frekvenssit. 2) Lasketaan testisuureen arvo. Merkintöjä (rivi ija sarake j) Rivisumma: f i (esim. f 1 = 91) Sarakesumma: f j (esim. f 2 = 42) Yhteensä

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

RIIPPUVUUDEN TUNNUSLUKUJA A. LUOKITTELUASTEIKKO: Χ 2 TESTISUURE χ 2 testisuure mittaa kahden muuttujan välisen riippuvuuden voimakkuutta, mutta ei määritä sille suuntaa Mitä suuremman arvo suure saa, sitä enemmän muuttujien välillä on riippuvuutta Arvo vaihtelee teoreettisesti välillä [0, ] Perustuu ristiintaulukkoon Tunnusluvun laskenta: 1) Määritetään odotetut frekvenssit. 2) Lasketaan testisuureen arvo.

ESIMERKKI Onko tupakoinnin useus riippuvaista sukupuolesta? Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Merkintöjä (rivi ija sarake j) Rivisumma: f i (esim. f 1 = 91) Sarakesumma: f j (esim. f 2 = 42)

ODOTETUT FREKVENSSIT Nimitetään ristiintaulukoksiesellaista, jossa ei ole ollenkaan riippuvuutta RistiintaulukonEmarginaalit ( Yhteensä ) ovat samat kuin havaitussa ristiintaulukossa; olkoon tämä jälkimmäinen F Ristiintaulukon E solufrekvenssit lasketaan e ij = f i f j / n

Χ 2 TESTISUURE Määrittää mikä on havaitun ristiintaulukon(f) etäisyys täydellisestä riippumattomuudesta (E), ts. F E. Lasketaan missä g on rivien ja h sarakkeiden lukumäärä (tässä esimerkissä g= 2 ja h= 3).

ESIMERKKI: ODOTETUT FREKVENSSIT Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Mies, usein: 91 64 / 284 = 20.507 Mies, harvoin: 91 42 / 284 = 13.458 Mies, ei tupakoi: 91 178 / 284 = 57.035 Nainen, usein: 193 64 / 284 = 43.493 Nainen, harvoin: 193 42 / 284 = 28.542 Nainen, ei tupakoi: 193 178 / 284 = 120.965

HAVAITUT JA ODOTETUT FREKVENSSIT F: E: Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 59 28 4 91 Nainen (2) 5 14 174 193 Yhteensä 64 42 178 284 Usein Harvoin Ei tupakoi Yhteensä (1) (2) (3) Mies (1) 21 13 57 91 Nainen (2) 43 29 121 193 Yhteensä 64 42 178 284

f ij e ij : Usein (1) Harvoin (2) Ei tupakoi (3) Mies (1) 38.493 14.542-53.035 0 Nainen (2) -38.493-14.542 53.035 0 0 0 0 (f ij e ij ) 2 /e ij : Usein (1) Harvoin (2) Ei tupakoi (3) Mies (1) 72.254 15.713 49.316 Nainen (2) 34.068 7.409 23.252 χ 2 = 72.254 + 34.068 + 15.713 + 7.409 + 49.316 + 23.252 = 202.012

MERKITSEVYYS χ 2 -testisuure poikkeaa siis nollasta, joten riippuvuutta on muuttujien välillä Jos riippuvuus on tilastollisesti merkitsevää, voidaan sitä sanoa olevan myös perusjoukossa Tilastollinen testi suureelle osoittaa, että siihen liittyy pieni p-arvo (Asymp. Sig.), joten riippuvuus on tässä merkitsevää

Itse arvioidun terveydentilan ja sukupuolen välinen riippuvuustarkastelu. Jyväskyläläiset 75-vuotiaat miehet ja naiset vuonna 1989. Muuttujien välillä ei ole merkitsevää riippuvuutta. HUOM. Riviprosentit ovat lähes yhtä suuret.

Merkitsevä riippuvuus ulkona liikkumiskyvynja sukupuolenvälillä (p= 0.004). Naisilla ongelmat liikkumiskyvyssä (16.6 %) olivat yleisempiä kuin miehillä (7.8 %). Koska ristiintaulukko on 2 2 taulukko, usein raportoidaan Fisherin nelikenttätestin p-arvo.