TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas
f 332 = 3
Kvartiilit(302, 365, 413) Kvartiilit: missä sijaitsee keskimmäinen 50 % aineistosta?
Kvartiilit(302, 365, 413) Keskiarvo (362.2) Keskiarvo ja mediaani: ovatko lähellä toisiaan?
HAJONTALUVUT Kuvaavat havaintojen jakautumista (yleensä) keskilukujen ympärille: miten laajalle alueelle havainnot ovat hajaantuneet Tärkeä merkitys kun arvioidaan tutkimuksen luotettavuutta (heterogeenisuus) Yleensä pätee: mitä yhtenäisempi aineisto on (= pieni hajonta), sitä luotettavampia tulokset ovat Käytetyimmät tunnusluvut on määritelty vain järjestysasteikollisista muuttujista eteenpäin
VAIHTELUVÄLIIN PERUSTUVAT TUNNUSLUVUT Vaihteluväli Kuvaa välin, jonka rajaavat muuttujan pienin arvo (min) ja suurin arvo (max) Merkitään [min, max] Luokitellun aineiston kanssa käytetään todellisia luokkarajoja näille arvoille Mitta-asteikko: vähintään järjestyslukuasteikko Esim. Miesten pituuden vaihteluväli on [168, 177] Vaihteluvälin pituus, range (R) Havaintoaineiston suurimman ja pienimmän arvon erotus Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden vaihteluvälin pituus on R= 171 168 = 9. Näihin tunnuslukuihin vaikuttavat poikkeavat havainnot 168 170 171 173 174 174 174 177
KVARTIILEIHIN PERUSTUVAT HAJONTALUVUT Kvartiiliväli, interquartile[q 1, Q 3 ] Kuvaa välin, jonka rajaavat ala- ja yläkvartiili Mitta-asteikko: vähintään järjestysasteikko Esim. miesten pituuden kvartiiliväli on [170, 174] Kvartiilivälin pituus, interquartilerange[q r ] Ylä-ja alakvartiilinvälinen erotus Q r = Q 3 Q 1 Kertoo kuinka pitkällä välillä keskimmäinen 50 % aineistosta sijaitsee Vaihteluvälin pituutta vakaampi hajonnan mitta Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden kvartiilivälinpituus on Q r = 174-170 = 4 Kvartiilipoikkeama, semi-interquartile range(q) Kvartiilivälin pituus jaettuna kahdella (Q = Q r / 2) Ilmoittaa välin, jolla keskimmäinen 25 % aineistosta sijaitsee Kvartiilivälin pituutta vakaampi hajonnan mitta (vinot jakaumat) Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden kvartiilipoikkeamaon Q= 4 / 2 = 2 168 170 171 173 174 174 174 177
KESKIHAJONTA, STANDARD DEVIATION Tunnusluvun symbolit s(otos), σ(perusjoukko) Useimmin käytetty hajonnan mitta Kertoo havaintojen keskimääräisestä jakautumisesta keskiarvon ympärille Lasketaan kaavalla: x i on tapauksen ihavaintoarvo (i= 1,, n) x on keskiarvo non otoksen koko Kokonaistutkimuksessa korvataan n 1 perusjoukon koolla N Poikkeavat havainnot vaikuttavat haitallisesti Mitta-asteikko: vähintään välimatka-asteikko
MIESTEN PITUUDEN KESKIHAJONTA Koehenkilö Pituus Keskiarvo: 1 174 2 174 3 171 4 177 5 168 6 170 7 174 8 173 Σ 1381
MIESTEN PITUUDEN KESKIHAJONTA Koehenkilö Pituus Erotus keskiarvosta (x i x) Keskiarvo: 1 174 172.625 = 1.38 2 174 1.38 3 171-1.63 4 177 4.38 5 168 4.63 6 170-2.63 7 174 1.38 8 173 0.38 Σ 1381 0.00
MIESTEN PITUUDEN KESKIHAJONTA Koehenkilö Pituus Erotus keskiarvosta (x i x) Erotuksen neliö (x i x) 2 Keskiarvo: 1 174 172.625 = 1.38 2 = 1.89 2 174 1.38 1.89 3 171-1.63 2.64 4 177 4.38 19.14 5 168 4.63 21.39 6 170-2.63 6.89 7 174 1.38 1.89 8 173 0.38 0.14 Σ 1381 0.00 55.88 Keskihajonta:
KESKIHAJONNAN TULKINTA Yhden keskihajonnan etäisyydellä keskiarvosta eli välillä [x s, x+s] sijaitsee 68.2 % jakauman havainnoista Kahden keskihajonnan etäisyydellä keskiarvosta eli välillä [x 2 s, x+2 s] sijaitsee 95.4 % jakauman havainnoista Kolmen keskihajonnan etäisyydellä keskiarvosta eli välillä [x 3 s, x+3 s] sijaitsee 99.8 % jakauman havainnoista Seuraavaksi tarkastellaan esimerkkinä polven ojennusvoimamuuttujan jakaumaa.
POLVENOJENNUSVOIMA(NEWTON) 108 293 341 395 426 160 295 341 397 426 170 297 347 400 432 184 299 354 400 433 196 300 355 400 436 199 308 355 401 447 201 311 359 401 449 211 314 359 404 454 214 318 360 404 454 221 322 363 405 487 235 325 367 407 489 236 325 368 408 506 240 327 378 408 521 243 332 379 411 533 249 332 379 412 538 257 332 380 413 541 262 334 383 413 552 275 335 387 415 599 280 338 389 417 601 282 340 393 419 629 Järjestetty aineisto, puuttuvat tapaukset poistettu (n = 100)
POLVENOJENNUSVOIMA(NEWTON) Keskihajonta: n. 99 N Noin 68 % havainnoista pitäisi siis löytyä väliltä [362 99, 362+99] = [263, 461] Havainnoista: Pienempiä kuin 263 on 17 kpl Suurempia kuin 461 on 11 kpl Yhteensä: 28 kpl (28 %) Otoksessa välille siis sijoittuu 100 % 28 % = 72 % havainnoista Vastaavasti kahden keskihajonnan sisälle [164, 560] sisältyy 95 % tapauksista Kolmen keskihajonnan sisälle [66, 659] sijoittuvat kaikki tapaukset (100 %)
KESKIHAJONNAN TULKINTA Kun normaalijakauma on sellainen, että sen keskiarvo on nolla ja keskihajonta on 1, sanotaan jakaumaa standardoiduksi normaalijakaumaksi Kaikki normaalijakaumat (ts. myös sellaiset, joissa keskiarvo ei ole nolla ja hajonta yksi) voidaan laskennallisesti muuntaa standardoituun muotoon Tällöin standardoidun jakauman yksiköksi tulee keskihajontayksikkö
KESKIHAJONTAYKSIKKÖ Miesten pituuden keskiarvo oli 172.625 cm ja keskihajonta 2.83 cm. Esim. jos tiedetään, että tutkittavan arvo on puolen keskihajonnan päässä keskiarvosta, mikä on havaintoarvo? Jos tapaus on keskiarvon alapuolella: x= 172.625 ½ 2.83 = 171.21 cm Jos tapaus on keskiarvon yläpuolella: x= 172.625 + ½ 2.83 = 174.04 cm Painon keskiarvo on 70 ja keskihajonta 5, mikä oli sellaisen tutkittavan havaintoarvo, joka oli puolen keskihajontayksikön päässä keskiarvon yläpuolella y= 70 + ½ 5 = 72.5 Havaintoarvo voidaan muuntaa keskihajontayksiköksi kaavalla z i = (x i x)/s(standardoitu muuttuja) Tällöin esim. (171.21 172.625)/2.83 = -1/2 Mitä hyötyä tästä on (vrt. frekvenssit ja prosentit)?
KESKIHAJONTAYKSIKKÖ Tärkeitä lukuja standardoidun normaalijakauman kohdalla ovat: Havainnoista sijaitsee välillä ja välin ulkopuolella 95 % [-1.96, 1.96] 5 % 99 % [-2.58, 2.58] 1 % 99.9 % [-3.29, 3.29] 0.1 % Näitä rajakohtia käytetään myöhemmin tilastollisen päätöksenteon yhteydessä (väliestimointi)
MUITA HAJONNAN TUNNUSLUKUJA Varianssi, variance(s 2, σ 2 ) Keskihajonnan neliö Käyttöä enemmän osana erilaisia menetelmiä (mm. varianssianalyysi), vähän käyttöä tunnuslukuna Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden varianssi on s 2 = 7.98 Variaatiokerroin, coefficient of variation Suhteellisen hajonnan mitta Mittayksiköstä riippumaton Lasketaan keskihajonnan suhteena keskiarvoon: V= s/ x Ilmoitetaan tavallisesti prosentteina: V 100 Mitta-asteikko: suhdeasteikko Esim. miesten pituuden variaatiokerroin on V= 2.83/172.63 = 0.016 eli pituuden havaintoarvot vaihtelevat keskimäärin n. 2 % keskiarvon ympärillä. 168 170 171 173 174 174 174 177 s= 2.83
JAKAUMAN MUOTO Vinous, skew(g 1, γ 1 ) Kertoo jakauman symmetrisyydestä Vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma) Vertailuarvona: g 1 < 2, jos jakauman symmetrisyydessä ei ole selkeitä ongelmia Jos g 1 on positiivinen jakauma on vino oikealle (häntä oikealla) Jos g 1 on negatiivinen vinous on vasemmalle (häntä vasemmalla) Merkitsevyystesti: g 1 /[s.e.(g 1 )] < 2, jos vinous ei ole tilastollisesti merkitsevää. Luottamusväli: Jos väli g 1 ±2 s.e.(g 1 ) sisältää nollan, vinous ei ole tilastollisesti merkitsevää. Esim. miesten pituuden vinous g 1 = -0.62 ja sen keskivirhe on 0.564 Ei ylitä vertailuarvoa Ei tilastollisesti merkitsevä, koska merkitsevyystestin arvoksi saadaan -0.62 / 0.564 = -1.10, luottamusväli: -0.62 ±2 0.564 = [-1.748, 0.508] sisältää nollan Jakaumaa voidaan pitää symmetrisenä perusjoukossa
JAKAUMAN MUOTO Huipukkuus, kurtosis(g 2, γ 2 ) Kertoo jakauman terävyydestä tai latteudesta symmetrisyydestä (mm. suhteessa normaalijakaumaan) Vertailuarvona on nolla, joka vastaa jakaumaa (mm. normaalijakauma) Vertailuarvona: g 2 < 2, jos jakaumassa ei ole merkittäviä ongelmia huipukkuuden suhteen Positiivinen g 2 tarkoittaa, että jakaumalla on terävä huippu Negatiivinen g 2 tarkoittaa, että jakauma on lattea Merkitsevyystesti ja luottamusväli kuten vinouden tunnusluvulla Esim. miesten pituuden huipukkuusg 2 = 0.41 ja sen keskivirhe on 1.09 Ei ylitä vertailuarvoa Ei tilastollisesti merkitsevä, koska merkitsevyystestin arvoksi saadaan 0.41 / 1.09 = 0.38, luottamusväli: -0.41 ±2 1.09 = [-1.77, 2.59] sisältää nollan Perusjoukon jakaumaa ei siis pidetä huipukkaana
ESIMERKKI Masentuneisuuden oireet Götegorgilaiset 75-vuotiaat Miehet, NORA-tutkimus, 1989. 1.306/0.217 = 6.018 > 2 1.890/0.431 = 4.385 > 2 Positiivinen vinous: Jakauman häntä on oikealla.
SUHTEELLINEN OSUUS, PROPORTION Symboli: otoksessa p, perusjoukossa Havaintoryhmän frekvenssin f osuus koko aineistosta Lasketaan: p= f / n, missä fsisältää sen ryhmän frekvenssin, josta ollaan kiinnostuneita ja n on otoskoko Suhteellinen osuus vaihtelee välillä [0, 1] Prosenttiosuus saadaan kertomalla suhteellinen osuus sadalla: p 100 Mitta-asteikko: vähintään luokitteluasteikko Esim. tutkimukseen osallistui 284, ja heistä 106 oli miehiä. Miesten suhteellinen osuus oli siis p= 106 / 284 = 0.37 (eli 37 %)
ESIMERKKEJÄ Havaintoaineistossa oli käytettävissä 690 tutkittavaa ja vastausprosentin kerrottiin olleen n. 80.8 %. Kuinka paljon tutkittavia oli alun perin otostettu? p = f / n 0.808 = 690 / n n= 690 / 0.808 = 854 Kuinka moni jätti vastaamatta? 1 0.808 = 0.192 (ts. 19.2 % ei vastannut) 854 0.192 = 164 jätti vastaamatta (myös: 854 690 = 164) Havaintoaineisto koostui n= 50 tutkittavasta. Alkumittauksessa 15 tutkittavalla havaittiin liikuntavaikeuksia. Seurantamittauksessa vaikeuksia oli 12:ta. Mikä oli muutoksen suunta ja suuruus prosenttimuodossa ilmaistuna. 1: p 1 = 15 / 50 = 0.30 (30 %); p 2 = 12 /50 = 0.24 (24 %); eli muutos oli p 2 p 1 = 24 30 = -6 prosenttiyksikköä, ts. laskua oli 6 prosenttiyksikköä (Huom! Vähennetään aina seurannan prosentit alkumittauksen prosenteista) 2: (p 2 p 1 ) / p 1 = (24 30) / 30 = -6 / 30 = -0.2 (-20 %), eli laskua oli n. 20 prosenttia
LAATIKKO-JANA KUVIO(BOX PLOT) Q 3 Md Q 1 -Kuvaa ryhmittäin jatkuvan muuttujan jakauman keskeisiä piirteitä - Laatikko kuvaa kvartiilien rajaamaa aluetta (keskimmäinen 50 % havainnoista), joka jaetaan kahteen osaan mediaanin kohdalta
LAATIKKO-JANA KUVIO(BOX PLOT) Q 3 Md Q 1 - Laatikon molemmin puolin erotetaan laskennalliset minimi-ja maksimiarvot (vaakasuorat janat) -Janat ovat 1.5 kertaa (laskennallisen) kvartiilivälin pituuden verran laatikon ylä- ja alapuolella - Laskennallisuuden takia Etäisyys laatikkoon voi olla erilainen laatikon alaja yläpuolella
LAATIKKO-JANA KUVIO(BOX PLOT) Q 3 Md Q 1-1.5 3 kertaa kvartiilivälin pituuden etäisyydellä laatikosta: poikkeava havainto (outlier) - yli 3 kertaa kvartiilivälin pituuden etäisyydellä laatikosta: erittäin poikkeava havainto (extreme) *
LAATIKKO-JANA KUVIO(BOX PLOT) Q 3 Md Q 1 Kuviosta nähdään mm.: - Miesten jakauman keskikohta on naisia korkeampi -Miesten hajonta näyttää olevan hieman suurempaa kuin naisilla - Naisten jakauma on keskittynyttiiviimmin jakauman keskikohtaan - Naisilla osa havainnoista on merkitty poikkeaviksi
KUN PITÄÄ TIIVISTÄÄ MUUTTUJAN JAKAUMAN TIETOA Mitta-asteikko Jatkuva Nominaali Ordinaali Raportoi Luokkafrekvenssit Tarkista vinous ja huipukkuus Molemmat < 2 Ainakin toinen > 2 Virhe datassa tms. Muokkaa Selvitä syy Vino/huipukas jakauma Poikkeava havainto Raportoi Keskiarvo ja -hajonta Raportoi Mediaani ja kvartiilivälin pituus Jos tarkasteltavana on alaryhmiä (miehet / naiset tms.), käy vaiheet läpi kullekin ryhmälle erikseen.
KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Luokittelu- ja järjestysasteikko: Ristiintaulukko Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Arvoparin frekvenssi näkyy taulukon soluista Ehdolliset frekvenssit: kiinnitetään yksi maamuuttujan luokka (esim. Suomi) ja tarkastellaan sukupuolijakaumaa
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Riviprosentit: esim. 100 119 / 355 = 33.52 %
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Luokitteluasteikko: Ristiintaulukko Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 (34 %) 236 (66 %) 355 (100 %) Ruotsi (2) 159 (43 %) 209 (57 %) 368 (100 %) Tanska (3) 222 (46 %) 259 (54 %) 481 (100 %) Yhteensä 500 704 1204 Riviprosentit: esim. 100 119 / 355 = 33.52 % Suomessa otos painottui selkeämmin naisiin (vain noin kolmannes oli miehiä)
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 236 355 Ruotsi (2) 159 209 368 Tanska (3) 222 259 481 Yhteensä 500 704 1204 Sarakeprosentit: esim. 100 119 / 500 = 23.80 %
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Sukupuoli Mies (1) Nainen (2) Maa Suomi (1) 119 (24 %) 236 (34 %) 355 Ruotsi (2) 159 (32 %) 209 (30 %) 368 Tanska (3) 222 (44 %) 259 (37 %) 481 Yhteensä 500 (100 %) 704 (100 %) 1204 Sarakeprosentit: esim. 100 119 / 500 = 23.80 % Miehistä vähiten oli suomalaisia, naisista pienin osuus oli ruotsalaisilla
RISTIINTAULUKON GRAAFINEN ESITYS Huono: Vaikea erottaa pylväitten keskinäisiä korkeuksia 300 250 200 150 Miehet 100 Naiset 50 0 Suomi Ruotsi Tanska Naiset Miehet
RISTIINTAULUKON GRAAFINEN ESITYS 300 250 200 150 100 Mies Nainen 50 0 Suomi Ruotsi Tanska Maa
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 147 9 175 174 10 173 173 156
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Jatkuvat muuttujat: hajontakuvio Koehenkilöiden pituus 75- ja 80-vuotiaana ID Pituus 75 Pituus 80 1 156 147 2 174 170 3 169 167 4 153 151 5 164 163 6 156 155 7 160 159 8 159 158 9 175 174 10 173 173
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva
KAKSIULOTTEISEN EMPIIRISEN JAKAUMAN TARKASTELU Tulkintaa helpottavia kuvaajia Identiteettiviiva Regressiosuora