TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas
AINEISTON TARKASTELU JA MUOKKAUS AINA ennen varsinaista analyysia suoritetaan aineiston tarkastelu ja muokkaus, data-analyysi Tavoitteena: Aineiston laadun toteaminen ja valvonta Aineiston rakenteen tarkastelu ja muokkaus Muuttujien jakauman muoto Apua mallin ja hypoteesien määrittämiseen Tarkastuksia: Puuttuvien tietojen tarkistus (paikkaus) Loogisuuskorjaukset Virheellisten arvojen korjaus
TARKASTUKSIA Tarkastelua voidaan suorittaa ajamalla muuttujien jakaumat jakauman muoto poikkeavat tapaukset virheelliset arvot Voi käyttää myös tunnuslukuja Pienimmät ja suurimmat arvot (ovatko järkeviä) Keskiarvo (onko oikean tuntuinen) Korrelaatiokerroin (onko yhteys oikeansuuntainen) Jakaumaa kuvaavat graafit ovat hyödyllisiä: jatkuvat muuttujat: esim. histogrammi, diskreetit muuttujat: esim. pylväskuvio Kuviosta näkee suoraa mm. poikkeavat havainnot sekä myös havaintojen keskittymisen jonkun arvon ympärille
MUOKKAUKSIA Esim. diskreetti muuttuja, jossa on viisi luokkaa voidaan joutua teoreettisista tai käytännön syistä uudelleen luokittelemaan kolmeen luokkaan Lasketaan erilaisia summia Asteikot Esim. kroonisten sairauksien lukumäärä Lasketaan erilaisia ajan pituuksia Muokataan muuttujan / muuttujien arvoja jonkun laskennallisen kaavan mukaan, esim. kehon painoindeksi (BMI)
VIRHELÄHTEITÄ TUTKIMUKSEN KULUESSA Suunnittelu -Valittiinko tutkimuksen kannalta oikeat mittarit? Koodaus - Koodattiinko vastaukset oikein? Aineiston muokkaus - Olivatko käytetyt muunnokset perusteltuja? Data-analyysi - Havaittiinko tärkeimmät ongelmat aineistossa? Analyysi - Valittiinko asianmukainen menetelmä?
KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit
YKSIULOTTEINEN EMPIIRINEN JAKAUMA Kun havaintojen lukumäärä on liian suuri, että havaintomatriisista on vaikea nähdä aineiston yleispiirteitä, informaatiota voidaan tiivistää, että johtopäätösten teko helpottuisi Yhtä muuttujaa tarkasteltaessa aineiston informaatiota voidaan tiivistää havaintomatriisin muuttujan arvojen (jakauma) sijasta ilmoitetaan kuinka monta kertaa kukin arvo esiintyi kyseisellä muuttujalla Yksiulotteinen frekvenssijakauma tai suora jakauma
Havaintomatriisi Aineistonäkymä (Data View, ks. välilehti, vasen alareuna) Satunnaisotanta (n. 25 %) NORA-aineiston jyväskyläläisistä 75-vuotiaista miehistä (mittausvuosi: 1989).
Havaintomatriisi Muuttujanäkymä (Variable View, ks. välilehti, vasen alareuna)
ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ Digit symbol (pistemäärä) f i p i F i P i 7 2 8.7 2 8.7 12 1 4.3 3 13.0 18 1 4.3 4 17.4 20 2 8.7 6 26.1 21 1 4.3 7 30.4 22 2 8.7 9 39.1 23 1 4.3 10 43.5 24 1 4.3 11 47.8 25 2 8.7 13 56.5 27 1 4.3 14 60.9 28 1 4.3 15 65.2 29 2 8.7 17 73.9 30 2 8.7 19 82.6 32 1 4.3 20 87.0 33 1 4.3 21 91.3 36 1 4.3 22 95.7 42 1 4.3 23 100.0 Yhteensä 23 100
ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ Digit symbol (pistemäärä) f i p i F i P i 7 2 8.7 2 8.7 12 1 4.3 3 13.0 18 1 4.3 4 17.4 20 2 8.7 6 26.1 21 1 4.3 7 30.4 22 2 8.7 9 39.1 23 1 4.3 10 43.5 24 1 4.3 11 47.8 25 2 8.7 13 56.5 27 1 4.3 14 60.9 28 1 4.3 15 65.2 29 2 8.7 17 73.9 30 2 8.7 19 82.6 32 1 4.3 20 87.0 33 1 4.3 21 91.3 36 1 4.3 22 95.7 42 1 4.3 23 100.0 Yhteensä 23 100 Frekvenssi (f i ) ilmaisee havaintoarvojen esiintymiskertojen lukumäärän (frequency, count) Esim. f 20 = 2
ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ Digit symbol (pistemäärä) f i p i F i P i 7 2 8.7 2 8.7 12 1 4.3 3 13.0 18 1 4.3 4 17.4 20 2 8.7 6 26.1 21 1 4.3 7 30.4 22 2 8.7 9 39.1 23 1 4.3 10 43.5 24 1 4.3 11 47.8 25 2 8.7 13 56.5 27 1 4.3 14 60.9 28 1 4.3 15 65.2 29 2 8.7 17 73.9 30 2 8.7 19 82.6 32 1 4.3 20 87.0 33 1 4.3 21 91.3 36 1 4.3 22 95.7 42 1 4.3 23 100.0 Yhteensä 23 100 Suhteellinen frekvenssi (p i ) ilmaisee havaintoarvojen esiintymiskertojen lukumäärän prosenttiosuutena kaikista havainnoista (percent) Esim. p 20 = 100 2/23 = 200 / 23 = 8.7
ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ Digit symbol (pistemäärä) f i p i F i P i 7 2 8.7 2 8.7 12 1 4.3 3 13.0 18 1 4.3 4 17.4 20 2 8.7 6 26.1 21 1 4.3 7 30.4 22 2 8.7 9 39.1 23 1 4.3 10 43.5 24 1 4.3 11 47.8 25 2 8.7 13 56.5 27 1 4.3 14 60.9 28 1 4.3 15 65.2 29 2 8.7 17 73.9 30 2 8.7 19 82.6 32 1 4.3 20 87.0 33 1 4.3 21 91.3 36 1 4.3 22 95.7 42 1 4.3 23 100.0 Yhteensä 23 100 Summafrekvenssi (F i ) eli kumulatiivinen frekvenssi ilmaisee kuinka moni järjestykseen asetetuista havaintoarvoista oli korkeintaan yhtä suuri kuin kyseinen muuttujan arvo (cumulative frequency) Esim. F 20 = 2 + 1 + 1 + 2 = 6
ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ Digit symbol (pistemäärä) f i p i F i P i 7 2 8.7 2 8.7 12 1 4.3 3 13.0 18 1 4.3 4 17.4 20 2 8.7 6 26.1 21 1 4.3 7 30.4 22 2 8.7 9 39.1 23 1 4.3 10 43.5 24 1 4.3 11 47.8 25 2 8.7 13 56.5 27 1 4.3 14 60.9 28 1 4.3 15 65.2 29 2 8.7 17 73.9 30 2 8.7 19 82.6 32 1 4.3 20 87.0 33 1 4.3 21 91.3 36 1 4.3 22 95.7 42 1 4.3 23 100.0 Yhteensä 23 100 Suhteellinen summafrekvenssi (P i ) ilmoittaa summafrekvenssin prosenttimuodossa (cumulative percent) Esim. P 20 = 100 (2 + 1 + 1 + 2) / 23 = 26.1
ESIMERKKI DIGIT SYMBOL TESTIN PISTEMÄÄRÄ (SPSS-TULOSTE)
Marko: Aineisto: Kaksi ryhmää (koe ja kontrolli), liikuntainterventio Perusjoukko: Uransa lopettaneet pohjoismaiset kilpaurheilijat Kolme muuttujaa: Kävelynopeus (metri/sekunti) Polven ojennusvoima (Newton) Bergin tasapainotesti (summapistemäärä) Tutkimuskysymys: 1)Onko ryhmien keskiarvoissa eroa perusjoukossa? Auttaako liikuntainterventio toimintakyvyn ylläpitämistä? 2)Onko keskiarvoeroja itse arvioidun terveyden suhteen (hyvä / keskinkertainen / huono). Auttaako liikuntainterventio samalla tavalla eri terveydentilan tasolla olevia? Miten Markon voi hyödyntää jakaumatiedosta (esim. polven ojennusvoima koe- ja kontrolliryhmät)?
Markon aineiston jakaumatietoja pov Polvenojennusvoima a pov Polvenojennusvoima a Valid 298 Frequency Percent Valid Percent 1 3,7 3,7 3,7 450 1 3,7 3,7 7,4 Frequency Percent Valid Percent 455 1 3,7 3,7 11,1 Valid 233 1 4,0 4,0 4,0 470 1 3,7 3,7 14,8 301 1 4,0 4,0 8,0 487 1 3,7 3,7 18,5 319 1 4,0 4,0 12,0 514 1 3,7 3,7 22,2 349 1 4,0 4,0 16,0 548 1 3,7 3,7 25,9 366 1 4,0 4,0 20,0 559 1 3,7 3,7 29,6 444 1 4,0 4,0 24,0 575 1 3,7 3,7 33,3 451 1 4,0 4,0 28,0 588 1 3,7 3,7 37,0 481 1 4,0 4,0 32,0 589 1 3,7 3,7 40,7 507 2 8,0 8,0 40,0 594 1 3,7 3,7 44,4 529 1 4,0 4,0 44,0 597 1 3,7 3,7 48,1 530 1 4,0 4,0 48,0 606 1 3,7 3,7 51,9 531 1 4,0 4,0 52,0 615 1 3,7 3,7 55,6 548 1 4,0 4,0 56,0 625 1 3,7 3,7 59,3 554 1 4,0 4,0 60,0 627 1 3,7 3,7 63,0 565 1 4,0 4,0 64,0 642 1 3,7 3,7 66,7 568 1 4,0 4,0 68,0 644 1 3,7 3,7 70,4 589 1 4,0 4,0 72,0 647 1 3,7 3,7 74,1 590 1 4,0 4,0 76,0 666 1 3,7 3,7 77,8 600 1 4,0 4,0 80,0 688 1 3,7 3,7 81,5 601 1 4,0 4,0 84,0 715 1 3,7 3,7 85,2 632 1 4,0 4,0 88,0 734 1 3,7 3,7 88,9 652 1 4,0 4,0 92,0 737 1 3,7 3,7 92,6 711 1 4,0 4,0 96,0 743 1 3,7 3,7 96,3 798 1 4,0 4,0 100,0 753 1 3,7 3,7 100,0 Total 25 100,0 100,0 Total 27 100,0 100,0 a. a.
KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit
LUOKITTELU Luokitteluasteikollisia muuttujia ei yleensä tarvitse luokitella, koska luokkia on usein vähän Joskus luokkia voi olla niin paljon, että tarvitsee käyttää jonkin tasoista luokkien uudelleen ryhmittelyä perustuen esim. yläkäsitteisiin Esim. tilastokeskuksen ammattiluokitus (2010) luokitus on käyttökelpoinen, koska luokitukset on tarkasti rajattu ja usein on mainittu myös mitkä ammatit eivät kuulu ko. luokan alle
AMMATTILUOKITUS 2010 (TILASTOKESKUS) 1 Johtajat 2 Erityisasiantuntijat 3 Asiantuntijat 4 Toimisto- ja asiakaspalvelutyöntekijät 5 Palvelu- ja myyntityöntekijät 6 Maanviljelijät, metsätyöntekijät ym. 7 Rakennus-, korjaus- ja valmistustyöntekijät 8 Prosessi- ja kuljetustyöntekijät 9 Muut työntekijät 0 Sotilaat X Tuntematon kirvesmies, (7111 talonrakentaja), pääluokka: 7 huoltomies (lvi), (7126 putkiasentajat), pääluokka: 7 peruskoulun opettaja, (2341 peruskoulun alaluokkien opettajat), pääluokka: 2 jne.
1 2 3 Huom. Informaatiota häviää, kun ääripään luokkiin kuuluvat on liitetty muihin luokkiin.
LUOKITTELU Jatkuvilla muuttujilla (välimatka- ja suhdeasteikolliset) havaitaan yleensä paljon erilaisia arvoja, ja tällöin luokittelu helpottaa usein aineiston käsittelyä ja esittämistä Edellytyksenä taulukoiden ja kuvaajien (mm. histogrammi) käytölle jatkuvilla muuttujilla Luokittelussa informaatiota häviää, mutta aineistosta tulee havainnollisempi ja käytännöllisempi Yleisin luokittelumuoto on tasavälinen luokitus, jossa kaikki luokat ovat yhtä leveitä (0..9, 10..19,20..29, ) Jos muuttujan jakauma on vino (painottunut alkutai loppupäähän) tai siinä on poikkeavia havaintoarvoja, voidaan käyttää epätasavälistä luokittelua (0..2,3..10,10..50)
JATKUVAN MUUTTUJAN LUOKITTELU Luokittelussa käytettävä luokkien määrä on harkinnanvarainen Suurella luokkien määrällä saadaan enemmän informaatiota muuttujasta, kun taas pienemmällä luokkien määrällä saavutetaan parempi havainnollisuus Luokittelussa määritetään: Mittaustarkkuus: a = kahden mahdollisen peräkkäisen arvon erotus Luokkien lukumäärä: k Vaihteluvälin pituus: R = muuttujan suurimman ja pienimmän arvon erotus Luokan pituus: c = R / k
JATKUVAN MUUTTUJAN LUOKITTELU Pyöristetyt luokkarajat: mittaustarkkuuden mukaiset luvut Todelliset luokkarajat: alaraja a / 2 yläraja + a / 2 Luokkakeskus: (alaraja + yläraja) / 2
POLVENOJENNUSVOIMA (N) 359 521 170 199 383 415 378 380. 400 299 404 322 363 249 379 449 340 355 601 368 387. 506. 196 257 347 413 426 408 354 389 367 325 541 359 338 538.... 629. 397 419.. 327. 235 332 487 308 433. 404 411 295 184 400 417 332 489 355 341 599 240 400 211 407 393 454 408 334 395 379 401 221. 341 214 236 552 243 533. 432 275 360 413 325 314 335. 280 311 201 262 447 282. 412 401 108 297 454 426 318 405 160 293. 332. 436 300. Jyväskyläläiset 75-vuotiaita miehet vuonna 1989 (n = 119). NORA -tutkimus. Frekvenssijakauma: 86 riviä (puuttuva tieto mukana) Puuttuva tieto =.
POLVENOJENNUSVOIMA (NEWTON) 108 293 341 395 426 160 295 341 397 426 170 297 347 400 432 184 299 354 400 433 196 300 355 400 436 199 308 355 401 447 201 311 359 401 449 211 314 359 404 454 214 318 360 404 454 221 322 363 405 487 235 325 367 407 489 236 325 368 408 506 240 327 378 408 521 243 332 379 411 533 249 332 379 412 538 257 332 380 413 541 262 334 383 413 552 275 335 387 415 599 280 338 389 417 601 282 340 393 419 629 Järjestetty aineisto, puuttuvat tapaukset poistettu (n= 100) Jos aineistoa ei luokitella, jakaumataulukkoon tulee 85 riviä. Mittaustarkkuus: a = 109 108 = 1 Valitaan luokkien lukumäärä (noin): k = 20 Vaihteluvälin pituus: R = 629 108 = 521 Luokan pituus: c = 521 / 20 = 26.05 25 Koska luokan pituus pyöristettiin, voidaan vastaavasti aloittaa esim. arvosta 101.
POLVENOJENNUSVOIMA (NEWTON) 108 293 341 395 426 160 295 341 397 426 170 297 347 400 432 184 299 354 400 433 196 300 355 400 436 199 308 355 401 447 201 311 359 401 449 211 314 359 404 454 214 318 360 404 454 221 322 363 405 487 235 325 367 407 489 236 325 368 408 506 240 327 378 408 521 243 332 379 411 533 249 332 379 412 538 257 332 380 413 541 262 334 383 413 552 275 335 387 415 599 280 338 389 417 601 282 340 393 419 629 Todelliset luokkarajat f i 100.5-125.5 1 125.5-150.5 0 150.5-175.5 2 175.5-200.5 3 200.5-225.5 4 225.5-250.5 5 250.5-275.5 3 275.5-300.5 7 300.5-325.5 7 325.5-350.5 11 350.5-375.5 9 375.5-400.5 13 400.5-425.5 15 425.5-450.5 7 450.5-475.5 2 475.5-500.5 2 500.5-525.5 2 525.5-550.5 3 550.5-575.5 1 575.5-600.5 1 605.5-625.5 1 625.5-650.5 1
(100.5+125.5) = (101 + 125) / 2 = 113 Todelliset luokkarajat Pyöristetyt luokkarajat f i Luokkakeskus f i 100.5-125.5 101-125 1 125.5-150.5 126-150 0 150.5-175.5 151-175 2 175.5-200.5 176-200 3 200.5-225.5 201-225 4 225.5-250.5 226-250 5 250.5-275.5 251-275 3 275.5-300.5 276-300 7 300.5-325.5 301-325 7 325.5-350.5 326-350 11 350.5-375.5 351-375 9 375.5-400.5 376-400 13 400.5-425.5 401-425 15 425.5-450.5 426-450 7 450.5-475.5 451-475 2 475.5-500.5 476-500 2 500.5-525.5 501-525 2 525.5-550.5 526-550 3 550.5-575.5 551-575 1 575.5-600.5 576-600 1 605.5-625.5 601-625 1 625.5-650.5 626-650 1 113 1 138 0 163 2 188 3 213 4 238 5 263 3 288 7 313 7 338 11 363 9 388 13 413 15 438 7 463 2 488 2 513 2 538 3 563 1 588 1 613 1 638 1 Esitystapa 1 Esitystapa 2
KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit
YKSIULOTTEISEN JAKAUMAN GRAAFINEN KUVAUS Tilastoaineistojen havainnollistamiskeino Nopea yleiskatsaus muuttujan jakaumasta Helppoja tehdä tietokoneella (SPSS, R, Powerpoint) Etuja Havainnollinen ja suppea esitystapa Voidaan korostaa erityisseikkoja Useita erilaisia esitystapoja Huonoja puolia Epätarkkuus Tahallisen tai tahattoman harhauttamisen mahdollisuus Vaatii usein lukijalta arvaamattoman paljon asiantuntemusta ja kriittisyyttä Kuvion tulisi olla selkeä; kikkailua tulisi välttää
PYLVÄSDIAGRAMMI Erityisesti diskreetit muuttujat Havainnollistetaan frekvenssijakaumaa Pylväät alkavat aina nollasta Voidaan piirtää myös vaakasuoraan Kuvio 1. Itsearvioitu terveydentila 75-vuotiailla jyväskyläläisillä naisilla (n = 208) vuonna 1989 (Jyväskylän yliopisto, Gerontologian Tutkimuskeskus, NORA-projekti, 1989).
HISTOGRAMMI Jatkuvat muuttujat Luokiteltu muuttuja Pylväät Kuvaavat intervallin frekvenssiä kiinni toisissaan alkavat aina nollasta todelliset luokkaraja Voidaan piirtää myös vaakasuoraan Kuvio 3. Polven ojennusvoima (N) 75-vuotiailla jyväskyläläisillä miehillä (n = 100) vuonna 1989 (Jyväskylän yliopisto, Gerontologian Tutkimuskeskus, NORA-projekti, 1989).
ESIMERKKEJÄ HISTOGRAMMIN KÄYTÖSTÄ - vino jakauma - asteikkomuuttuja: sensuroitunut jakauman alkupäästä Kuvio 4. Masennusoireiden summapistemäärä (CES-D) 75-vuotiailla göteborgilaisilla naisilla (n = 158) vuonna 1989 (Jyväskylän yliopisto, Gerontologian Tutkimuskeskus, NORA-projekti, 1989).
ESIMERKKEJÄ HISTOGRAMMIN KÄYTÖSTÄ - poikkeava havainto jakauman ylälaidalla Kuvio 5. Kehon painoindeksi (BMI) 75-vuotiailla jyväskyläläisillä naisilla (n = 191) vuonna 1989 (Jyväskylän yliopisto, Gerontologian Tutkimuskeskus, NORA-projekti, 1989).
ESIMERKKEJÄ HISTOGRAMMIN KÄYTÖSTÄ Alaryhmien vertailu Miehet Koko aineisto Naiset Kuvio 5. Polvenojennusvoima (N) 75-vuotiailla göteborgilaisilla miehillä (n = 95) naisilla (n = 110) vuonna 1989 (Jyväskylän yliopisto, Gerontologian Tutkimuskeskus, NORA-projekti, 1989).
Marko: Aineisto: Kaksi ryhmää (koe ja kontrolli), liikuntainterventio Perusjoukko: Uransa lopettaneet pohjoismaiset kilpaurheilijat Kolme muuttujaa: Kävelynopeus (metri/sekunti) Polven ojennusvoima (Newton) Bergin tasapainotesti (summapistemäärä) Tutkimuskysymys: 1)Onko ryhmien keskiarvoissa eroa perusjoukossa? Auttaako liikuntainterventio toimintakyvyn ylläpitämistä? 2)Onko keskiarvoeroja itse arvioidun terveyden suhteen (hyvä / keskinkertainen / huono). Auttaako liikuntainterventio samalla tavalla eri terveydentilan tasolla olevia? Frequency Frequency Histogrammit Markon tutkimuksessa (pylvään leveys: 50 N) Mitä havaitset?