TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Samankaltaiset tiedostot
TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Kandidaatintutkielman aineistonhankinta ja analyysi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

HAVAITUT JA ODOTETUT FREKVENSSIT

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Til.yks. x y z

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Til.yks. x y z

pisteet Frekvenssi frekvenssi Yhteensä

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Mat Tilastollisen analyysin perusteet, kevät 2007

Hannu mies LTK 180 Johanna nainen HuTK 168 Laura nainen LuTK 173 Jere mies NA 173 Riitta nainen LTK 164

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Sovellettu todennäköisyyslaskenta B

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Mat Tilastollisen analyysin perusteet, kevät 2007

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

5 Lisa materiaali. 5.1 Ristiintaulukointi

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Tilastollinen aineisto Luottamusväli

tilastotieteen kertaus

Sovellettu todennäköisyyslaskenta B

Harjoittele tulkintoja

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

RISKITASO. Riskitaso (α) määrittää virhepäätelmän todennäköisyyden. Käytettyjä riskitasoja:

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Väliestimointi (jatkoa) Heliövaara 1

2. Aineiston kuvailua

Teema 5: Ristiintaulukointi

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI. LTKY012 Timo Törmäkangas Gerontologian tutkimuskeskus

Matemaatikot ja tilastotieteilijät

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Johdatus tilastotieteeseen Tilastollisten aineistojen kuvaaminen. TKK (c) Ilkka Mellin (2005) 1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kyllä. Kyllä. Jäitkö vielä epävarmaksi: Selvitä antavatko testit samansuuntaisen tuloksen.

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

Harjoitus 7: NCSS - Tilastollinen analyysi

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

MTTTP1, luento KERTAUSTA

7. laskuharjoituskierros, vko 10, ratkaisut

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Tilastollisten aineistojen kuvaaminen

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

805306A Johdatus monimuuttujamenetelmiin, 5 op

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

Ohjeita kvantitatiiviseen tutkimukseen

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012

Sovellettu todennäköisyyslaskenta B

Estimointi. Otantajakauma

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

TUTKIMUSOPAS. SPSS-opas

Luottamusvälit. Normaalijakauma johnkin kohtaan

Harjoituksessa tarkastellaan miten vapaa-ajan liikunta on yhteydessä..

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

MTTTP1, luento KERTAUSTA

MTTTP1, luento KERTAUSTA

Kvantitatiiviset menetelmät

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

Monitasomallit koulututkimuksessa

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Transkriptio:

TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas

JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma) Vertailuarvona: g 1 < 2, jos jakauman symmetrisyydessä ei ole selkeitä ongelmia Jos g 1 on positiivinen jakauma on vino oikealle (häntä oikealla) Jos g 1 on negatiivinen vinous on vasemmalle (häntä vasemmalla) Merkitsevyystesti: g 1 /[s.e.(g 1 )] < 2, jos vinous ei ole tilastollisesti merkitsevää. Luottamusväli: Jos väli g 1 ± 2 s.e.(g 1 ) sisältää nollan, vinous ei ole tilastollisesti merkitsevää. Esim. miesten pituuden vinous g 1 = -0.62 ja sen keskivirhe on 0.564 Ei ylitä vertailuarvoa Ei tilastollisesti merkitsevä, koska merkitsevyystestin arvoksi saadaan -0.62 / 0.564 = -1.10; luottamusväli: -0.62 ± 2 0.564 = [-1.748, 0.508] sisältää nollan Jakaumaa voidaan pitää symmetrisenä perusjoukossa

JAKAUMAN MUOTO Huipukkuus, kurtosis (g 2, γ 2 ) Kertoo jakauman terävyydestä tai latteudesta symmetrisyydestä (mm. suhteessa normaalijakaumaan) Vertailuarvona on nolla, joka vastaa jakaumaa (mm. normaalijakauma) Vertailuarvona: g 2 < 2, jos jakaumassa ei ole merkittäviä ongelmia huipukkuuden suhteen Positiivinen g 2 tarkoittaa, että jakaumalla on terävä huippu Negatiivinen g 2 tarkoittaa, että jakauma on lattea Merkitsevyystesti ja luottamusväli kuten vinouden tunnusluvulla Esim. miesten pituuden huipukkuusg 2 = 0.41 ja sen keskivirhe on 1.09 Ei ylitä vertailuarvoa Ei tilastollisesti merkitsevä, koska merkitsevyystestin arvoksi saadaan 0.41 / 1.09 = 0.38; luottamusväli: -0.41 ± 2 1.09 = [-1.77, 2.59] sisältää nollan Perusjoukon jakaumaa ei siis pidetä huipukkaana

ESIMERKKI Masentuneisuuden oireet Götegorgilaiset 75-vuotiaat Miehet, NORA-tutkimus, 1989. 1.306/0.217 = 6.018 > 2 1.890/0.431 = 4.385 > 2 Positiivinen vinous: Jakauman häntä on oikealla.

SUHTEELLINEN OSUUS, PROPORTION Symboli: otoksessa p, perusjoukossa π Havaintoryhmän frekvenssin f osuus koko aineistosta Lasketaan: p = f / n, missä f sisältää sen ryhmän frekvenssin, josta ollaan kiinnostuneita ja n on otoskoko Suhteellinen osuus vaihtelee välillä [0, 1] Prosenttiosuus saadaan kertomalla suhteellinen osuus sadalla: p 100 Mitta-asteikko: vähintään luokitteluasteikko Esim. tutkimukseen osallistui 284, ja heistä 106 oli miehiä. Miesten suhteellinen osuus oli siis p = 106 / 284 = 0.37 (eli 37 %)

ESIMERKKEJÄ Havaintoaineistossa oli käytettävissä 690 tutkittavaa ja vastausprosentin kerrottiin olleen n. 80.8 %. Kuinka paljon tutkittavia oli alun perin otostettu? p = f / n 0.808 = 690 / n n = 690 / 0.808 = 854 Kuinka moni jätti vastaamatta? 1 0.808 = 0.192 (ts. 19.2 % ei vastannut) 854 0.192 = 164 jätti vastaamatta (myös: 854 690 = 164) Havaintoaineisto koostui n = 50 tutkittavasta. Alkumittauksessa 15 tutkittavalla havaittiin liikuntavaikeuksia. Seurantamittauksessa vaikeuksia oli 12:ta. Mikä oli muutoksen suunta ja suuruus prosenttimuodossa ilmaistuna. 1: p 1 = 15 / 50 = 0.30 (30 %); p 2 = 12 /50 = 0.24 (24 %); eli muutos oli p 2 p 1 = 24 30 = -6 prosenttiyksikköä, ts. laskua oli 6 prosenttiyksikköä (Huom! Vähennetään aina seurannan prosentit alkumittauksen prosenteista) 2: (p 2 p 1 ) / p 1 = (24 30) / 30 = -6 / 30 = -0.2 (-20 %), eli laskua oli n. 20 prosenttia

LAATIKKO-JANA KUVIO (BOX PLOT) Q 3 Md Q 1 - Kuvaa ryhmittäin jatkuvan muuttujan jakauman keskeisiä piirteitä - Laatikko kuvaa kvartiilien rajaamaa aluetta (keskimmäinen 50 % havainnoista), joka jaetaan kahteen osaan mediaanin kohdalta

LAATIKKO-JANA KUVIO (BOX PLOT) Q 3 Md Q 1 - Laatikon molemmin puolin erotetaan laskennalliset minimi- ja maksimiarvot (vaakasuorat janat) - Janat ovat 1.5 kertaa (laskennallisen) kvartiilivälin pituuden verran laatikon ylä- ja alapuolella - Laskennallisuuden takia Etäisyys laatikkoon voi olla erilainen laatikon alaja yläpuolella

LAATIKKO-JANA KUVIO (BOX PLOT) Q 3 Md Q 1-1.5 3 kertaa kvartiilivälin pituuden etäisyydellä laatikosta: poikkeava havainto (outlier) - yli 3 kertaa kvartiilivälin pituuden etäisyydellä laatikosta: erittäin poikkeava havainto (extreme) *

LAATIKKO-JANA KUVIO (BOX PLOT) Q 3 Md Q 1 Kuviosta nähdään mm.: - Miesten jakauman keskikohta on naisia korkeammalla tasolla - Miesten hajonta näyttää olevan hieman suurempaa kuin naisilla - Naisten jakauma on keskittynyttiiviimmin jakauman keskikohtaan - Naisilla osa havainnoista on merkitty poikkeaviksi

Kaikki havaitut tapaukset (n = 20) Keskiarvo 171 Keskihajonta 10 Satunnaisesti puuttuvat tapaukset (n = 15) Keskiarvo 171 Keskihajonta 10

Kaikki havaitut tapaukset (n = 20) Keskiarvo 171 Keskihajonta 10 Ei-satunnaisesti puuttuvat tapaukset (n = 16) Keskiarvo 175 Keskihajonta 8 Puuttuvat Havaitut

Keskiarvo: Keskihajonta: p [318, 418] = 67 % 368 N 50 N p: suhteellinen frekvenssi (tässä yhden keskihajonnan välille keskiarvon ympärillä sijoittuvien osuus ) Data 285 290 325 349 359 363 383 387 393 408 426 449

Keskiarvo: Keskihajonta: p [296, 474] = 75 % 385 N 89 N p: suhteellinen frekvenssi (tässä yhden keskihajonnan välille keskiarvon ympärillä sijoittuvien osuus ) Data 285 290 325 349 359 363 383 387 393 408 626 449

Keskiarvo: 376 N Keskihajonta: 103 N p [273, 479] = 83 % p: suhteellinen frekvenssi (tässä yhden keskihajonnan välille keskiarvon ympärillä sijoittuvien osuus ) Data 185 290 325 349 359 363 383 387 393 408 626 449

ESIMERKKI LONKKAMURTUMAPOTILAIDEN KUNTOUTUS Ote: Salpakoski et al. (2014). Lähde: http://dx.doi.org/10.1155/2014/289549

KUN PITÄÄ TIIVISTÄÄ MUUTTUJAN JAKAUMAN TIETOA Mitta-asteikko Jatkuva Nominaali Ordinaali Raportoi Luokkafrekvenssit Tarkista vinous ja huipukkuus Molemmat < 2 Ainakin toinen > 2 Virhe datassa tms. Muokkaa Selvitä syy Vino/huipukas jakauma, Poikkeava havainto Raportoi Keskiarvo ja -hajonta Raportoi Mediaani ja kvartiilivälin pituus Jos tarkasteltavana on alaryhmiä (miehet / naiset tms.), käy vaiheet läpi kullekin ryhmälle erikseen.

KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Luokittelu- ja järjestysasteikko: Ristiintaulukko Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Arvoparin frekvenssi näkyy taulukon soluista Ehdolliset frekvenssit: kiinnitetään yksi maamuuttujan luokka (esim. Suomi) ja tarkastellaan sukupuolijakaumaa

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Riviprosentit: 100 119 / 355 = 33.52 % 100 236 / 355 = 66.48 % 100 159 / 368 = 43.21 % 100 209 / 368 = 56.79 % 100 222 / 481 = 46.15 % 100 259 / 481 = 53.85 %

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Luokitteluasteikko: Ristiintaulukko Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 (34 %) 236 (66 %) 355 (100 %) Ruotsi (2) 159 (43 %) 209 (57 %) 368 (100 %) Tanska (3) 222 (46 %) 259 (54 %) 481 (100 %) Yhteensä 500 704 1204 Esim. Suomessa otos painottui selkeämmin naisiin (noin kaksi kolmannesta oli naisia)

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Sarakeprosentit: 100 119 / 500 = 23.80 % 100 159 / 500 = 31.80 % 100 222 / 500 = 44.40 % 100 236 / 704 = 33.52 % 100 209 / 704 = 29.69 % 100 259 / 704 = 36.79 %

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 (24 %) 236 (34 %) 355 Ruotsi (2) 159 (32 %) 209 (30 %) 368 Tanska (3) 222 (44 %) 259 (37 %) 481 Yhteensä 500 (100 %) 704 (100 %) 1204 Esim. pienin osuus miehistä muodostui suomalaisista miehistä, naisista pienin osuus oli ruotsalaisilla

RISTIINTAULUKON GRAAFINEN ESITYS Huono: Vaikea erottaa pylväitten keskinäisiä korkeuksia 300 250 200 150 Miehet 100 Naiset 50 0 Suomi Ruotsi Tanska Naiset Miehet

RISTIINTAULUKON GRAAFINEN ESITYS 300 250 200 150 100 Mies Nainen 50 0 Suomi Ruotsi Tanska Maa

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 147 9 175 174 10 173 173 156

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva

KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva Regressiosuora