TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas
TEOREETTISISTA JAKAUMISTA Usein johtopäätösten teko helpottuu huomattavasti, jos tarkasteltavan muuttujan perusjoukon jakauma noudattaa jotain teoreettista jakaumaa Tällaiset jakaumat pystytään kuvaamaan helposti muutaman parametrin pohjalta parametriset menetelmät Yksi data-analyysin tarkoituksista on siis selvittää noudattaako tarkasteltavan muuttujan jakauma tunnettua teoreettista jakaumaa Jatkuvilla muuttujilla tämä teoreettinen jakauma on tavallisesti normaalijakauma (tällä kurssilla ei tarkemmin käsitellä muita) Jos jakauma ei vaikuta noudattavan mitään tunnettua jakaumaa, voidaan käyttää eiparametrista menetelmää
NORMAALIJAKAUMA
NORMAALIJAKAUMA keskiarvo Normaalijakauman kuvaajan massakeskittymän sijainti X-muuttujan akselilla riippuu vain kahdesta parametrista: keskiarvo ja -hajonta. Useat luonnon ilmiöitä mittaavat muuttujat ovat lähes normaalisti jakautuneita. hajonta
NORMAALIJAKAUMA RYHMISSÄ Jos tarkastellaan esim. kahta ryhmää, mielenkiinto voi kiinnittyä näiden ryhmien väliseen keskiarvoeroon. Teoreettisella normaalijakaumalla voidaan kuvata malli, jota ryhmäkeskiarvojen uskotaan noudattavan perusjoukossa. Interventio Polven ojennusvoima Frekvenssi 0.0 0.1 0.2 0.3 0.4 0.5 166 168 170 172 X Tässä malliin liittyvät ryhmien keskiarvot ja keskihajonnat, jotka ovat tärkeitä tunnuslukuja keskiarvoerotuksen tarkastelussa.
OTANTA NORMAALISTI JAKAUTUNEESTA PERUSJOUKOSTA Frekvenssi 0.0 0.1 0.2 0.3 0.4 0.5 166 168 170 172 X
OTANTA NORMAALISTI JAKAUTUNEESTA PERUSJOUKOSTA Frekvenssi 0.0 0.1 0.2 0.3 0.4 0.5 Frequency 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Histogram of rand 168 169 170 171 172 166 168 170 172 rand X
Mitkä jakaumista ovat peräisin normaalijakautuneesta perusjoukosta? A Histogram of y B Histogram of y Frequency 0 1 2 3 4 99 100 101 102 103 y Histogram of y Histogram of y Frequency 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Frequency 0 1 2 3 4 Frequency 0 1 2 3 4 5 97 98 99 100 101 y C D 98 99 100 101 102 y 97 98 99 100 101 102 103 y
KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit
JAKAUMAN TUNNUSLUVUT Tunnusluku (statistic) kuvaa jotain keskeistä informaatiota muuttujan jakaumasta Tarkoitus on kuvata muuttujan jakaumaan liittyvä keskeinen tieto käyttämällä muutamaa tunnuslukua Sopivien tunnuslukujen valinta riippuu jakauman erityispiirteestä Esim. kun jatkuvan muuttujan jakauma on lähes normaali, riittää kuvata jakauma käyttämällä keskiarvoa ja keskihajontaa Tällä kurssilla esitetään perusasiat seuraavista tunnusluvuista: Sijaintiluvut Keskiluvut Muut sijaintiluvut Hajontaluvut Jakauman muodon tunnusluvut Tunnuslukuja tarvitaan johtopäätösten tueksi Esim. kahden ryhmän välisestä keskiarvoerotuksen suuruusluokasta (effect size) saa selkeämmän kuvan, kun kerrotaan mitä keskiarvot ja keskihajonnat olivat (ks. tilastollinen testaus)
JAKAUMAN SIJAINTI Sijaintiluvut kertovat missä kohdalla muuttujan arvoasteikkoa jokin jakauman kohta sijaitsee Keskiluvut pyrkivät kuvaamaan jakauman keskikohdan sijaintia Muut sijaintiluvut kertovat jonkun toisen jakauman kohdan sijainnin Luentomonisteen pituusaineisto 171 177 168 170 173 nouseva järjestys 168 170 171 173 177 keskus
KESKILUVUT Moodi, mode (Mo) Tyyppiarvo, tyypillinen arvo; arvo joka esiintyy muuttujalla useimmin Määritetään frekvenssijakaumasta: muuttujan arvo, jolla on korkein frekvenssi Käytännössä voi kuvata jakauman keskikohdan sijaintia huonosti, joten suhteellisen vähän käytetty Muuttujalla voi olla useampi moodi samalla kertaa Mitta-asteikko: luokitteluasteikosta ylöspäin Esim. Luentomonisteen miesten pituuden esimerkkiaineistolle moodi on arvolla, koska f = 3 on suurin havaittu frekvenssi. 168 170 171 173 177
KESKILUVUT Mediaani, median (Md) Suuruusjärjestykseen järjestetyssä muuttujan jakaumassa se arvo, jota pienempiä (ja suurempia) arvoja on 50 % Jos havaintoja on pariton määrä, mediaani on jakauman keskimmäinen arvo Jos havaintoja on parillinen määrä, mediaani on jakauman kahden keskimmäisen arvon keskiarvo Vakaa keskikohdan mitta, vaikka muuttujalla olisi poikkeavia havaintoja Mitta-asteikko: vähintään järjestysasteikko 168 170 171 173 177 Esim. miesten pituuden aineistossa mediaani on Md = (173 + ) / 2 = 173.5.
KESKILUVUT Keskiarvo, (artihmetic) mean (x, μ) Tärkein jatkuvien muuttujien keskiluku Otoskeskiarvon symbolina muuttujan arvoa kuvaava kirjain, jonka päälle piirretään vaakaviiva Lasketaan kaavalla: x = 1 n Ł n x i i= 1 Herkkä poikkeaville havainnoille Mitta-asteikko: vähintään välimatka-asteikko Esim. Miesten pituuden keskiarvoksi saadaan 1381 / 8 = 172.63. ł 171 177 168 170 173
MUUT SIJAINTILUVUT Fraktiilit, fractiles / percentiles Voidaan määrätä aineistosta suhteellisen summafrekvenssin pohjalta p % p %:n fraktiili on arvo, jota pienempiä arvoja muuttujalla esiintyy p % Käytetyimpiä fraktiileja ovat tertiilit (3 ryhmää), kvartiilit (4 ryhmää), kvintiilit (5 ryhmää) ja desiilit (10 ryhmää) Kvartiilit: Q 1 : alakvartiili, jakaumalla 25 % muuttujan arvoista on pienempiä kuin alakvartiili Q 2 : mediaani, jakaumalla 50 % muuttujan arvoista on pienempiä kuin mediaani Q 3 : yläkvartiili, jakaumalla 75 % muuttujan arvoista on pienempiä kuin yläkvartiili (ja siis 25 % sitä suurempia) Käyttökelpoinen varsinkin silloin kun halutaan kuvata epätyypillisen jakauman kertymäkohtia
POLVENOJENNUSVOIMA (NEWTON) 108 293 341 395 426 160 295 341 397 426 170 297 347 400 432 184 299 354 400 433 196 300 355 400 436 199 308 355 401 447 201 311 359 401 449 211 314 359 404 454 214 318 360 404 454 221 322 363 405 487 235 325 367 407 489 236 325 368 408 506 240 327 378 408 521 243 332 379 411 533 249 332 379 412 538 257 332 380 413 541 262 334 383 413 552 275 335 387 415 599 280 338 389 417 601 282 340 393 419 629 Järjestetty aineisto, puuttuvat tapaukset poistettu (n = 100)
Q 1 = 300
Q 1 = 300 Q 2 = 363
Q 1 = 300 Q 2 = 363 Q 3 = 412
f 332 = 3
Kvartiilit (302, 365, 413) Kvartiilit: missä sijaitsee keskimmäinen 50 % aineistosta?
Kvartiilit (302, 365, 413) Keskiarvo (362.2) Keskiarvo ja mediaani: ovatko päällekkäin / lähellä toisiaan?
HAJONTALUVUT Kuvaavat havaintojen jakautumista (yleensä) keskilukujen ympärille: miten laajalle alueelle havainnot ovat hajaantuneet Tärkeä merkitys kun arvioidaan tutkimuksen luotettavuutta (heterogeenisuus) Yleensä pätee: mitä yhtenäisempi aineisto on (= pieni hajonta), sitä yleistettävämpiä ovat tulokset Käytetyimmät tunnusluvut on määritelty järjestysasteikollisista muuttujista eteenpäin
VAIHTELUVÄLIIN PERUSTUVAT TUNNUSLUVUT Variaatiosuhde (variation ratio, v) Vähintään luokitusasteikollinen muuttuja Kertoo kuinka suuri osuus aineistosta ei sijaitse moodiluokassa Lasketaan kaavalla: =1 Usean moodin tapauksessa valitaan yksi moodiluokista käytettäväksi kaavassa Esim. v = 1 f / 8 = 1 3 / 8 = 5 / 8 = 0.625 = 62.5 % tapauksista sijaitsee moodiluokan ulkopuolella 168 170 171 173 177
VAIHTELUVÄLIIN PERUSTUVAT TUNNUSLUVUT Vaihteluväli Kuvaa välin, jonka rajaavat muuttujan pienin arvo (min) ja suurin arvo (max) Merkitään [min, max] Luokitellun aineiston kanssa käytetään todellisia luokkarajoja näille arvoille Mitta-asteikko: vähintään järjestyslukuasteikko Esim. Miesten pituuden vaihteluväli on [168, 177] Vaihteluvälin pituus, range (R) Havaintoaineiston suurimman ja pienimmän arvon erotus Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden vaihteluvälin pituus on R = 177 168 = 9. Näihin tunnuslukuihin vaikuttavat poikkeavat havainnot 168 170 171 173 177
KVARTIILEIHIN PERUSTUVAT HAJONTALUVUT Kvartiiliväli, interquartile [Q 1, Q 3 ] Kuvaa välin, jonka rajaavat ala- ja yläkvartiili Mitta-asteikko: vähintään järjestysasteikko Esim. miesten pituuden kvartiiliväli on [170, ] Kvartiilivälin pituus, interquartile range [Q r ] Ylä- ja alakvartiilin välinen erotus Q r = Q 3 Q 1 Kertoo kuinka pitkällä välillä keskimmäinen 50 % aineistosta sijaitsee Vaihteluvälin pituutta vakaampi hajonnan mitta Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden kvartiilivälin pituus on Q r = -170 = 4 Kvartiilipoikkeama, semi-interquartile range (Q) Kvartiilivälin pituus jaettuna kahdella (Q = Q r / 2) Ilmoittaa välin, jolla keskimmäinen 25 % aineistosta sijaitsee Kvartiilivälin pituutta vakaampi hajonnan mitta Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden kvartiilipoikkeama on Q = 4 / 2 = 2 168 170 171 173 177
KESKIHAJONTA, STANDARD DEVIATION Tunnusluvun symbolit s (otos), σ (perusjoukko) Useimmin käytetty hajonnan mitta Kertoo havaintojen keskimääräisestä jakautumisesta keskiarvon ympärille Lasketaan kaavalla: s n i= 1 = [( ) ] 2 x - x i ( n -1) x i on tapauksen i havaintoarvo (i = 1,, n) x on keskiarvo n on otoksen koko Kokonaistutkimuksessa korvataan n 1 perusjoukon koolla N Poikkeavat havainnot vaikuttavat haitallisesti Mitta-asteikko: vähintään välimatka-asteikko
MIESTEN PITUUDEN KESKIHAJONTA Koehenkilö Pituus 1 2 3 171 4 177 5 168 6 170 7 8 173 Σ 1381 Keskiarvo: x = 1381 / 8 = 172. 625
MIESTEN PITUUDEN KESKIHAJONTA Koehenkilö Pituus Erotus keskiarvosta (x i x) 1 172.625 = 1.375 2 1.375 3 171-1.625 4 177 4.375 5 168-4.625 6 170-2.625 7 1.375 8 173 0.375 Σ 1381 0.00 Keskiarvo: x = 1381 / 8 = 172. 625
MIESTEN PITUUDEN KESKIHAJONTA Koehenkilö Pituus Erotus keskiarvosta (x i x) Erotuksen neliö (x i x) 2 1 172.625 = 1.375 1.891 2 1.375 1.891 3 171-1.625 2.641 4 177 4.375 19.141 5 168-4.625 21.391 6 170-2.625 6.891 7 1.375 1.891 8 173 0.375 0.141 2 = Pyöristettyjä arvoja! Laskettaessa kannattaa käyttää mahdollisimman tarkkaa arvoa Σ 1381 0.00 55.878 Keskiarvo: x Keskihajonta: s = 1381 / 8 = 172.625 n i= 1 = [( ) ] 2 x - x i ( n -1) 55.878 = (8-1) = 7.983 = 2.83
KESKIHAJONNAN TULKINTA Yhden keskihajonnan etäisyydellä keskiarvosta eli välillä [x s, x+s] sijaitsee 68.2 % jakauman havainnoista Kahden keskihajonnan etäisyydellä keskiarvosta eli välillä [x 2 s, x+2 s] sijaitsee 95.4 % jakauman havainnoista Kolmen keskihajonnan etäisyydellä keskiarvosta eli välillä [x 3 s, x+3 s] sijaitsee 99.8 % jakauman havainnoista Frekvenssi (%) 0 10 20 30 40 x - 3s x - 2s x - s x Muuttuja X x + s x + 2s x + 3s Seuraavaksi tarkastellaan esimerkkinä polven ojennusvoimamuuttujan jakaumaa.
POLVENOJENNUSVOIMA (NEWTON) 108 293 341 395 426 160 295 341 397 426 170 297 347 400 432 184 299 354 400 433 196 300 355 400 436 199 308 355 401 447 201 311 359 401 449 211 314 359 404 454 214 318 360 404 454 221 322 363 405 487 235 325 367 407 489 236 325 368 408 506 240 327 378 408 521 243 332 379 411 533 249 332 379 412 538 257 332 380 413 541 262 334 383 413 552 275 335 387 415 599 280 338 389 417 601 282 340 393 419 629 Järjestetty aineisto, puuttuvat tapaukset poistettu (n = 100)
POLVENOJENNUSVOIMA (NEWTON) Keskihajonta: n. 99 N Noin 68 % havainnoista pitäisi siis löytyä väliltä [362 99, 362+99] = [263, 461] Havainnoista: Pienempiä kuin 263 on 17 kpl Suurempia kuin 461 on 11 kpl Yhteensä: 28 kpl (28 %) Otoksessa välille siis sijoittuu 100 % 28 % = 72 % havainnoista Vastaavasti kahden keskihajonnan sisälle [164, 560] sisältyy 95 % tapauksista Kolmen keskihajonnan sisälle [66, 659] sijoittuvat kaikki tapaukset (100 %)
KESKIHAJONNAN TULKINTA Kun normaalijakauma on sellainen, että sen keskiarvo on 0 ja keskihajonta on 1, sanotaan jakaumaa standardoiduksi normaalijakaumaksi Kaikki normaalijakaumat (ts. sellaiset, joissa keskiarvo ei ole nolla ja hajonta yksi) voidaan laskennallisesti muuntaa standardoituun muotoon Tällöin standardoidun jakauman yksiköksi tulee keskihajontayksikkö Käyttökohteita: Tilastollinen päätöksen teko helpottuu matemaattisesti Useiden muuttujien yhtäaikainen tarkastelu helpottuu (mm. korrelaatio) Frekvenssi (%) 0 10 20 30 40-3 - 2-1 0 Muuttuja X 1 2 3
KESKIHAJONTAYKSIKKÖ Vastaa yksikönmuunnosta Havaintoarvo voidaan muuntaa keskihajontayksiköksi kaavalla z i = (x i x)/s (standardoitu muuttuja) Tällöin, jos havaittu arvo xi = 171.21 ja keskiarvo sekä keskihajonta ovat kuten edellä miesten pituusaineistolle, niin tutkittavan keskihajontayksikön arvo on: (171.21 172.625)/2.83 = -1/2 Miesten pituuden keskiarvo oli 172.625 cm ja keskihajonta 2.83 cm. Esim. jos tiedetään, että tutkittavan arvo on puolen keskihajonnan päässä keskiarvosta, mikä on havaintoarvo? Jos tapaus on keskiarvon alapuolella: x = 172.625 ½ 2.83 = 171.21 cm Jos tapaus on keskiarvon yläpuolella: x = 172.625 + ½ 2.83 =.04 cm Painon keskiarvo on 70 ja keskihajonta 5, mikä oli sellaisen tutkittavan havaintoarvo, joka oli kahden keskihajontayksikön päässä keskiarvon yläpuolella y = 70 + 2 5 = 80 Aineistossa on suhteellisen harvinaista havaita tutkittavia, joiden paino oli 80 kg tai sen yli
KESKIHAJONTAYKSIKKÖ Tärkeitä lukuja standardoidun normaalijakauman kohdalla ovat: Havainnoista sijaitsee välillä ja välin ulkopuolella 95 % [-1.96, 1.96] 5 % 99 % [-2.58, 2.58] 1 % 99.9 % [-3.29, 3.29] 0.1 % Näitä rajakohtia käytetään myöhemmin tilastollisen päätöksenteon yhteydessä (väliestimointi, tilastollinen testaus) Frekvenssi (%) 0 10 20 30 40-3 - 2-1 0 Muuttuja X 1 2 3