TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012 Timo Törmäkangas
MUITA HAJONNAN TUNNUSLUKUJA Varianssi, variance (s 2, σ 2 ) Keskihajonnan neliö Käyttöä enemmän osana erilaisia menetelmiä (mm. varianssianalyysi), vähän käyttöä tunnuslukuna Mitta-asteikko: vähintään välimatka-asteikko Esim. miesten pituuden varianssi on s 2 = 2.83 2 = 7.98 Variaatiokerroin, coefficient of variation Suhteellisen hajonnan mitta Mittayksiköstä riippumaton Lasketaan keskihajonnan suhteena keskiarvoon: V = s / x Ilmoitetaan tavallisesti prosentteina: V 100 Mitta-asteikko: suhdeasteikko Esim. miesten pituuden variaatiokerroin on V = 2.83/172.63 = 0.016 eli pituuden suhteellinen hajonta on n. 2 %. Naisten pituuden (ks. luentomoniste) variaatiokerroin on V = 6.56 / 156.25 = 0.042. 168 170 171 173 177
JAKAUMAN MUOTO Vinous, skew (g 1, γ 1 ) Kertoo jakauman symmetrisyydestä SPSS:ssä vertailuarvona on nolla, joka vastaa symmetristä jakaumaa (mm. normaalijakauma) Vertailuarvona: g 1 < 2, kun jakauman symmetrisyys on yleensä riittävä analyysia varten Jos g 1 on positiivinen jakauma on vino oikealle (häntä oikealla) Jos g 1 on negatiivinen vinous on vasemmalle (häntä vasemmalla) Merkitsevyystesti: g 1 /[s.e.(g 1 )] < 2, jos vinous ei ole tilastollisesti merkitsevää. Luottamusväli: Jos väli g 1 ± 2 s.e.(g 1 ) sisältää nollan, vinous ei ole tilastollisesti merkitsevää. Merkitsevä vinous ei välttämättä tarkoita, että jakauma olisi liian vino Esim. miesten pituuden vinous g 1 = -0.62 ja sen keskivirhe on 0.564 Ei ylitä vertailuarvoa Ei tilastollisesti merkitsevä, koska merkitsevyystestin arvoksi saadaan - 0.62 / 0.564 = -1.10; luottamusväli: -0.62 ± 2 0.564 = [-1.748, 0.508] sisältää nollan Jakaumaa voidaan pitää symmetrisenä perusjoukossa 171 177 168 170 173
JAKAUMAN MUOTO Huipukkuus, kurtosis (g 2, γ 2 ) Kertoo jakauman terävyydestä tai latteudesta symmetrisyydestä (mm. suhteessa normaalijakaumaan) SPSS:ssä vertailuarvona on nolla, joka on säädetty vastaamaan normaalijakauman tilannetta Vertailuarvona: g 2 < 2, kun jakauman huipukkuuden taso on yleensä riittävä analyysia varten Positiivinen g 2 tarkoittaa, että jakaumalla on terävä huippu Negatiivinen g 2 tarkoittaa, että jakauma on lattea Merkitsevyystesti ja luottamusväli kuten vinouden tunnusluvulla Merkitsevä vinous ei välttämättä tarkoita, että jakauma olisi liian huipukas Esim. miesten pituuden huipukkuus g 2 = 0.41 ja sen keskivirhe on 1.09 Ei ylitä vertailuarvoa Ei tilastollisesti merkitsevä, koska merkitsevyystestin arvoksi saadaan 0.41 / 1.09 = 0.38; luottamusväli: 0.41 ± 2 1.09 = [-1.77, 2.59] sisältää nollan Perusjoukon jakaumaa ei siis pidetä huipukkaana 171 177 168 170 173
ESIMERKKI Masentuneisuuden oireet Götegorgilaiset 75-vuotiaat Miehet, NORA-tutkimus, 1989. 1.306/0.217 = 6.018 > 2 1.890/0.431 = 4.385 > 2 Positiivinen vinous: Jakauman häntä on oikealla.
SUHTEELLINEN OSUUS, PROPORTION Symboli: otoksessa p, perusjoukossa π Havaintoryhmän frekvenssin f osuus koko aineistosta Lasketaan: p = f / n, missä f sisältää sen ryhmän frekvenssin, josta ollaan kiinnostuneita ja n on otoskoko Suhteellinen osuus vaihtelee välillä [0, 1] Prosenttiosuus saadaan kertomalla suhteellinen osuus sadalla: p 100 Mitta-asteikko: vähintään luokitteluasteikko Esim. tutkimukseen osallistui 284, ja heistä 106 oli miehiä. Miesten suhteellinen osuus oli siis p = 106 / 284 = 0.37 (eli 37 %)
ESIMERKKEJÄ Havaintoaineistossa oli muuttujalla oli käytettävissä havaintoarvoja 690 tutkittavalta ja vastausprosentiksi kerrottiin n. 80.8 %. Kuinka paljon tutkittavia oli alun perin otostettu? p = f / n 0.808 = 690 / n n = 690 / 0.808 = 854 Kuinka moni jätti vastaamatta? 1 0.808 = 0.192 (ts. 19.2 % ei vastannut) 854 0.192 = 164 tutkittavaa jätti vastaamatta (myös: 854 690 = 164) Havaintoaineisto koostui n = 50 tutkittavasta. Alkumittauksessa 15 tutkittavalla havaittiin liikuntavaikeuksia. Seurantamittauksessa vaikeuksia oli 12:ta. Mikä oli muutoksen suunta ja suuruus prosenttimuodossa ilmaistuna? 1: p 1 = 15 / 50 = 0.30 (30 %); p 2 = 12 /50 = 0.24 (24 %); eli muutos oli p 2 p 1 = 24 30 = 6 prosenttiyksikköä, ts. laskua oli 6 prosenttiyksikköä (Huom! Vähennetään alkumittauksen prosentit seurannan prosenteista) 2: (p 2 p 1 ) / p 1 = (0.24 0.30) / 0.30 = 0.06 / 0.30 = 0.20 ( 20 %), eli laskua oli 20 prosenttia
LAATIKKO-JANA KUVIO (BOX PLOT) Lean body mass, kg, 1 des. 80 70 60 50 40 30 N = 104 Q 3 Md Q 1 191 814 632 697 738 - Kuvaa ryhmittäin jatkuvan muuttujan jakauman keskeisiä piirteitä - Laatikko kuvaa kvartiilien rajaamaa aluetta (keskimmäinen 50 % havainnoista), joka jaetaan kahteen osaan mediaanin kohdalta MALE FEMALE Sex
LAATIKKO-JANA KUVIO (BOX PLOT) Lean body mass, kg, 1 des. 80 70 60 50 40 30 N = Sex 104 MALE Q 3 Md Q 1 191 814 632 697 738 FEMALE - Laatikon molemmin puolin erotetaan laskennalliset minimi- ja maksimiarvot (vaakasuorat janat) - Janat ovat 1.5 kertaa (laskennallisen) kvartiilivälin pituuden verran laatikon ylä- ja alapuolella - Laskennallisuuden takia Etäisyys laatikkoon voi olla erilainen laatikon alaja yläpuolella
LAATIKKO-JANA KUVIO (BOX PLOT) 80 Lean body mass, kg, 1 des. 70 60 50 40 30 N = 104 Q 3 Md Q 1 191 814 632 697 738-1.5 3 kertaa kvartiilivälin pituuden etäisyydellä laatikosta: poikkeava havainto (outlier) - yli 3 kertaa kvartiilivälin pituuden etäisyydellä laatikosta: erittäin poikkeava havainto (extreme) * MALE FEMALE Sex
LAATIKKO-JANA KUVIO (BOX PLOT) 80 Kuviosta nähdään mm.: Lean body mass, kg, 1 des. 70 60 50 40 30 N = 104 Q 3 Md Q 1 191 814 632 697 738 - Miesten jakauman keskikohta on naisia korkeampi - Miesten hajonta näyttää olevan hieman suurempaa kuin naisilla - Naisten jakauma on keskittynyt tiiviimmin jakauman keskikohtaan - Naisilla osa havainnoista on merkitty poikkeaviksi MALE FEMALE Sex
KUN PITÄÄ TIIVISTÄÄ MUUTTUJAN JAKAUMAN TIETOA Mitta-asteikko Jatkuva Nominaali Ordinaali Raportoi Luokkafrekvenssit Tarkista vinous ja huipukkuus Molemmat < 2 Ainakin toinen > 2 Virhe datassa tms. Muokkaa Selvitä syy Vino/huipukas jakauma, Poikkeava havainto Raportoi Keskiarvo ja -hajonta Raportoi Mediaani ja kvartiilivälin pituus Jos tarkasteltavana on alaryhmiä (miehet / naiset tms.), käy vaiheet läpi kullekin ryhmälle erikseen.
Marko: Aineisto: Kaksi ryhmää (koe ja kontrolli), liikuntainterventio Perusjoukko: Uransa lopettaneet pohjoismaiset kilpaurheilijat Kolme muuttujaa: Kävelynopeus (metri/sekunti) Polven ojennusvoima (Newton) Bergin tasapainotesti (summapistemäärä) Tutkimuskysymys: 1)Onko ryhmien keskiarvoissa eroa perusjoukossa? Auttaako liikuntainterventio toimintakyvyn ylläpitämistä? 2)Onko keskiarvoeroja itse arvioidun terveyden suhteen (hyvä / keskinkertainen / huono). Sari: Aineisto: Ryhmä naisia, tutkimus on osa geneettistä analyysia Perusjoukko: Suomalaiset naiset Kolme muuttujaa: Kehon painoindeksi (kg/m 2 ) Fyysinen aktiivisuus (MET, energiankulutus suhteessa lepotilaan) Kävelynopeus (m/s) Tutkimuskysymys: Onko painoindeksi riippuvainen fyysisen aktiivisuuden määrästä ja / tai kävelynopeudesta? Elina: Aineisto: Ryhmä satunnaisesti valittuja viidesluokkalaisia kolmesta koulusta Perusjoukko: Jyväskylän koululaiset Kaksi muuttujaa: Ruokavalio (vähärasvainen, vähälaktoosinen, normaali) Itse arvioitu terveys (hyvä / keskinkertainen / huono). Tutkimuskysymys: Riippuuko oma arvio terveyden tilasta ruokavaliosta? Markon, Sarin ja Elinan tutkimuksissa tulee yleensä kuvata tarkasteltavien muuttujien jakauma pääpiirteittäin. Mitä tunnuslukuja heidän kannattaa käyttää? Kuka hyötyisi laatikkojana -kuvion käytöstä? Oletetaan, että jatkuvat jakaumat noudattavat normaalijakaumaa.