TUTKIMUSAINEISTON ANALYYSI LTKY012 Timo Törmäkangas
KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit
B. VÄLIMATKA- TAI SUHDEASTEIKOLLISET MUUTTUJAT: PEARSONIN KORRELAATIOKERROIN Kun puhutaan korrelaatiokertoimesta, tarkoitetaan yleensä Pearsonintulomomenttikorrelaatiokerrointa (r, ρ) Kerroin ilmoittaa riippuvuuden suunnan ja voimakkuuden, mutta siitä ei voi suoraan päätellä kausaalisuutta (syy-seuraussuhde) Lineaarisen yhteyden tunnusluku Korrelaation voimakkuus vaihtelee välillä [0, 1] Pienet arvot: vähäinen riippuvuus tai ei riippuvuutta Suuret arvot: korkea tai täydellinen riippuvuus suunta: etumerkki (+ tai -) Positiivinen: kasvavat X muuttujan arvot liittyvät kasvaviin Y muuttujan arvoihin Negatiivinen: kasvavat Xmuuttujan arvot liittyvät pieneneviin Y muuttujan arvoihin
PEARSONIN KORRELAATIOKERROIN Kertoimet erilaisista muuttujapareista ovat (ainakin matemaattisesti) vertailukelpoisia Karkea sääntö kertoimen tulkintaan: r > 0.7 : lineaarinen riippuvuus on voimakasta 0.3 < r < 0.7 : lineaarinen riippuvuus on kohtalaista r < 0.3 : lineaarinen riippuvuus on heikkoa Selitysaste (r 2 ): kuinka paljon Y-muuttujan vaihtelusta voidaan selittää X-muuttujan vaihtelulla Esim. korrelaatiokerrointa r= 0.7 vastaa r 2 = 0.49, eli 100 0.49 = 49 %, joten noin puolet Y-muuttujan vaihtelusta selittyy X-muuttujan vaihtelulla ja loput muilla tekijöillä
Kertoimen laskeminen: Yhteisen hajonnan (kovarianssi) suhde muuttujien keskihajontatuloon Jos otoskoko on pieni, niin yksikin poikkeava havainto saattaa vaikuttaa suuresti korrelaatiokertoimen arvoon Mitä suurempi otoskoko, sitä pienempi korrelaatio tulee tilastollisesti merkitseväksi
ESIMERKKI kh Pituus Paino 1 171 98 5.1 26.5 135.15 26.01 702.25 2 178 76 12.1 4.5 54.45 146.01 20.25 3 157 70-8.9-1.5 13.35 79.21 2.25 4 180 71 14.1-0.5-7.05 198.81 0.25 5 162 81-3.9 9.5-37.05 15.21 90.25 6 150 51-15.9-20.5 325.95 252.81 420.25 7 160 70-5.9-1.5 8.85 34.81 2.25 8 169 69 3.1-2.5-7.75 9.61 6.25 9 161 63-4.9-8.5 41.65 24.01 72.25 10 171 66 5.1-5.5-28.05 26.01 30.25 499.50 812.90 1346.50 Otoksessa pituuden ja painon välillä on siis kohtalainen riippuvuus.
SPSS-tuloste:
POIKKEAVAN HAVAINNON VAIKUTUS
KORRELAATIOMATRIISI Korrelaatio ja sen merkitsevyyden indikaattori (**) Tarkka p-arvo Ristitulo Kovarianssi Otoskoko Jyväskyläläiset 75-v. miehet, NORA tutkimus, 1989.
RAPORTOITAVA KORRELAATIOMATRIISI Table 1.Correlation matrix of height, weight, waist and hip girth among 75-year-old women living in Jyväskylä in 1989 (n= 191). Height Weight Waist girth Height -- Weight 0.31* -- Waist girth 0.05 0.87* -- Hip girth 0.09 0.86* 0.76 * * Correlation significant at the 0.05 alpha level. HUOM! Viimeinen sarake on turha, koska muuttujan (tässä: lantionleveys) korrelaatio itsensä kanssa on aina 1, eikä siksi mielenkiintoinen.
C. JÄRJESTYSLUKUASTEIKOLLISETMUUTTUJAT: SPEARMANIN JÄRJESTYSLUKUKORRELAATIOKERROIN Symbolit: otos, r S, perusjoukko, ρ S Vähintään järjestysasteikolliset muuttujat; poikkeavia havaintoja sisältävät muuttujat; kun jakaumaoletukset eivät ole kunnossa Pearsonin korrelaatiolle Havaintoarvojen sijasta perustuu havaintojen keskinäiseen riippuvuuteen Laskeminen: 1) X-ja Y-muuttujien havaintoarvot korvataan järjestysluvuilla R(x i ) ja R(y i ). 2) Lasketaan järjestyslukujen erotusten neliö d i2 = [R(x i ) R(y i )] 2 3) Sijoitetaan neliöt kaavaan:
ESIMERKKI Tarkastellaan itse arvioidun terveydentilan ja käden puristusvoiman välistä riippuvuutta (n = 5). Aineisto: Koehenkilö Terveydentila Käden puristusvoima (Newton) 1 4 = huono 363 2 3 = kohtalainen 198 3 5 = erittäin huono 78 4 1 = erittäin hyvä 387 5 2 = hyvä 387 Olkoon seuraavassa terveydentila Xja puristusvoima Y. Huom. Terveydentila kertoo huonosta terveydentilasta (suuret arvot).
ESIMERKKI Koehenkilö x y R(x) R(y) d i d 2 i 1 4 363 4 3 1.0 1.00 2 3 198 3 2 1.0 1.00 3 5 78 5 1 4.0 16.00 4 1 387 1 4.5-3.5 12.25 5 2 387 2 4.5-2.5 6.25 Σ 0.0 36.50 Terveinä itsensä kokevilla on siis myös korkea puristusvoima. Korrelaatio on varsin korkea ja se laskettiin varsin pienestä aineistosta. Jos terveysmuuttujan arvot olisi käännetty toisinpäin (u = 6 x) olisi saatu vastaava positiivinen korrelaatiokertoimen arvo.
ESIMERKKI Korrelaatio SPSS-ohjelmalla tarkasteltuna: Kertoimen itseisarvo on hieman suurempi kuin käsin laskettaessa. SPSS käyttää tasatulosten osalta korjauskaavaa, joka johtaa hieman erilaiseen tulokseen (vrt. Ranta: Biometria)
TODENNÄKÖISYYDEN MÄÄRITTÄMINEN Otos glostrupilaisia 75-vuotiaita miehiä (n = 197) Mitataan pituus (cm) Määritetään todennäköisyys, että otoksesta satunnaisesti valittu tutkittava on alle 160 cm pitkä(ts. pituus 160 cm) Pienin havainto alle 160 on 159,0 ja summafrekvenssi F 159 = 6 Todennäköisyys: p= 6/197 = 0.0305 (eli n. 3 %)
GRAAFINEN MÄÄRITYS Todennäköisyys p= 0.0305 pätee tässä vain otoksen kohdalla. Voidaanko sanoa jotain myös perusjoukosta? 6 kpl
GRAAFINEN MÄÄRITYS Oletetaan: 1) Jos glostrupilaisten pituuden jakauma on normaali 2) Otos on satunnaisotos 3) Keskiarvo ja keskihajonta ovat suurin piirtein samat perusjoukossa Todennäköisyys on tämän alueen osuus koko kuvaajan pinta-alasta. Arvio todennäköisyydestä, että 75-v. glostrupilaisten miesten perusjoukosta satunnaisesti valittu mies olisi korkeintaan 160 cm: 0.0445 (n. 4.5 %).
KURSSIN SISÄLTÖ Johdanto Mittaaminen ja aineiston hankinta Mitta-asteikot Otanta Aineiston esittäminen ja data-analyysi Havaintomatriisi Yksiulotteisen empiirisen jakauman esittäminen Frekvenssijakauma Luokittelu Kuviot Tunnusluvut Kaksiulotteisen jakauman esittäminen ja riippuvuus Ristiintaulukko ja kuviot Riippuvuuden tunnusluvut Vähän todennäköisyydestä Otantajakauma Tilastollinen päätöksenteko Estimointi Hypoteesien testaus Perustestejä Keskiarvotestit, varianssianalyysit Riippuvuuden testit
OTANTAJAKAUMA Tarkastellaan jotain otoksen parametria(esim. keskiarvo tai korrelaatiokerroin) Estimaattorion sääntö, jolla parametrille määritetään arvo tarkasteltavasta aineistosta (kaava) Estimaatti on parametrille määritetty arvo Olkoon perusjoukon koko Nja siitä poimittavan otoksen koko n kpl tutkittavia Yksittäinen otos on yksi mahdollinen edustava perusjoukon osajoukko, kun otos on poimittu jollain satunnaistamismenetelmällä(esim. yksinkertainen satunnaisotanta) Otoksesta laskettu parametrin arvo, estimaatti, on siten yksi arvio muuttujan parametrin arvosta Jos perusjoukosta poimitaan toinen otos, siihen ei yleensä päädy täsmälleen samat tutkittavat ja estimaatti on siksi erilainen kuin alkuperäisestä otoksesta laskettuna Eri otoksista laskettavat estimaatit eivät ole yhtä suuria, koska otoksissa eivät ole samat tutkittavat
DATA Toisistaan tietämättä kaksi tutkijaa A ja B tutkivat samaa ilmiötä, jonka perusjoukko koostuu kuudesta tutkittavasta. Tarkoituksena on määrittää ominaisuuden keskiarvo. Tutkija A kerää koko aineiston: 168.78, 182.52, 181.40, 146.62, 188.81, 165.12 Tutkija Bpoimii satunnaisotoksen olettaen perusjoukon äärettömäksi: 168.78, 181.40,165.12 Tutkija A laskee perusjoukon keskiarvoksi 172.21 ja B otoksen keskiarvoksi 171.77 Millaisia päätelmiä tutkija B voi tehdä perusjoukon keskiarvosta? Miten otostaminenvaikuttaa hänen tarkasteluunsa?
Tarkastellaan minkälaisia otoksia aineistosta voi muodostaa (tutkija A) Kun otostetaansatunnaisotos, on mahdollista, että otokseen päätyvät tapaukset 1, 2 ja 3 Otos Henkilöt otoksessa 1 1 2 3 Henkilö Mitta 1 168.78 2 182.52 Otostaminen 3 181.40 4 146.62 5 188.81 6 165.12 Perusjoukon Keskiarvo 172.21
Satunnaistamisen tuloksena otokseen olisi voinut päätyä henkilöt 1, 2 ja 4 Otos Henkilöt otoksessa 1 1 2 3 2 1 2 4 Henkilö Mitta 1 168.78 2 182.52 3 181.40 4 146.62 5 188.81 6 165.12 Otostaminen Perusjoukon Keskiarvo 172.21
Lopulta havaitaan, että perusjoukosta voidaan otostaa20 erilaista otosta, joista kussakin on ainakin yksi eri henkilö kuin muissa Henkilö Mitta 1 168.78 2 182.52 3 181.40 4 146.62 5 188.81 6 165.12 Perusjoukon Keskiarvo 172.21 Otostaminen Otos Henkilöt otoksessa 1 1 2 3 2 1 2 4 3 1 2 5 4 1 2 6 5 1 3 4 6 1 3 5 7 1 3 6 8 1 4 5 9 1 4 6 10 1 5 6 11 2 3 4 12 2 3 5 13 2 3 6 14 2 4 5 15 2 4 6 16 2 5 6 17 3 4 5 18 3 4 6 19 3 5 6 20 4 5 6
Siten otoksista voidaan laskea 20 erilaista otoskeskiarvoa Henkilö Mitta 1 168.78 2 182.52 3 181.40 4 146.62 5 188.81 6 165.12 Perusjoukon Keskiarvo 172.21 Otostaminen Keskiarvon otantajakauma Otos Otoskeskiarvo Henkilöt otoksessa 1 177.57 1 2 3 2 165.97 1 2 4 3 180.04 1 2 5 4 172.14 1 2 6 5 165.60 1 3 4 6 179.66 1 3 5 7 171.77 1 3 6 8 168.07 1 4 5 9 160.17 1 4 6 10 174.24 1 5 6 11 170.18 2 3 4 12 184.24 2 3 5 13 176.35 2 3 6 14 172.65 2 4 5 15 164.75 2 4 6 16 178.82 2 5 6 17 172.28 3 4 5 18 164.38 3 4 6 19 178.44 3 5 6 20 166.85 4 5 6 B:n Otos
Keskiarvon otantajakauma Perusjoukon keskiarvo Huom. Perusjoukon keskiarvo on yhtä suuri kuin otantajakauman keskiarvo.
HAVAINTOJA OTANTAJAKAUMASTA Otantajakauman ominaisuuksia Otantajakauma on normaali, jos muuttujan jakauma on normaali perusjoukossa Otantajakaumalla on keskiarvo ja hajonta Otantajakauman keskiarvo on sama kuin perusjoukon keskiarvo Otantajakauman hajonta on pienempi kuin perusjoukon hajonta Vaihteluväli Keskihajonta Perusjoukko [146.62, 188.81] 15.38 Otantajakauma [160.17, 184.24] 6.44
Kun B haluaa tehdä päätelmiä perusjoukon keskiarvosta, päätelmät helpottuvat, jos hän voi arvioida otantajakauman hajontaa Otoksesta otantajakauman hajonta lasketaan keskiarvon keskivirheenä Jos perusjoukon hajonta tunnetaan: Jos perusjoukon hajontaa ei tunneta: Tulkinta: Kuinka paljon puoleen tai toiseen arvio keskiarvosta vaihtelee satunnaisvaihtelusta johtuen
Henkilö Mitta 1 168.78 2 182.52 3 181.40 4 146.62 5 188.81 6 165.12 Perusjoukon Keskiarvo 172.21 Otos Otoskeskiarvo Keskivirhe Otantayksiköt perusjoukossa 1 177.57 4.41 1 2 3 2 165.97 10.46 1 2 4 3 180.04 5.91 1 2 5 4 172.14 5.29 1 2 6 5 165.60 10.17 1 3 4 6 179.66 5.85 1 3 5 7 171.77 4.93 1 3 6 8 168.07 12.18 1 4 5 9 160.17 6.86 1 4 6 10 174.24 7.36 1 5 6 11 170.18 11.78 2 3 4 12 184.24 2.30 2 3 5 13 176.35 5.62 2 3 6 14 172.65 13.14 2 4 5 15 164.75 10.36 2 4 6 16 178.82 7.08 2 5 6 17 172.28 13.01 3 4 5 18 164.38 10.05 3 4 6 19 178.44 7.00 3 5 6 20 166.85 12.21 4 5 6 B:n otos 171.77±2 4.93 = [162, 182] 172.28±2 13.01 = [146, 198]
Keskivirheyksiköllä ilmaistuna voidaan erottaa otantajakaumalta kriittisiä kohtia: Keskimmäinen 95 % otoskeskiarvoista välillä [-1.96,+1.96] Keskimmäinen 99 % otoskeskiarvoista välillä [-2.58,+2.58] Keskimmäinen 99.9 % otoskeskiarvoista välillä [-3.29,+3.29] 99.9 % 99 % 95 %
Tutkija B: Kuinka todennäköistä olisi havaita keskiarvo 182 tai sitä suurempi arvo, kun poimitaan satunnaisotos perusjoukosta? Tutkija B on aikaisemmin päättänyt, että jos vertailuarvo 182 on 95 % otantajakauman keskimmäisen keskiarvon joukossa, se ei poikkea tilastollisesti merkitsevästi hänen havaitsemastaan arvosta ts. olisi vielä suhteellisen todennäköistä saada perusjoukosta tällainen keskiarvo Suhteutetaan keskiarvon 182 etäisyys tutkijan B otoksen pohjalta otantajakauman : keskiarvo 171.77 ja keskivirhe 4.93: z= (182 171.77) / 4.93 = 2.08 Koska z= 2.08 > 1.96, ero on tilastollisesti merkitsevä ja kysytty todennäköisyys saadaan pinta-ala integraalina p = 0.019 Katkoviivasta oikealle rajoittuvan alueen pinta-ala
ESTIMOINTI Tehdään päätelmiä perusjoukon parametreista (keskiarvo, korrelaatio jne.) Parametrin estimaatti on arvo, jota lasketaan otostiedon perusteella ja edustaa arvioita perusjoukon parametrin arvosta silloin, kun laskentaan liittyvät matemaattiset oletukset ovat voimassa Mitä suurempi otos, sitä tarkemmat estimaatit A. Piste-estimaatit Perusjoukon parametrin arvo vastaa yksi lukuarvo Esim. otoskeskiarvo on perusjoukon keskiarvon pisteestimaatti B. Väliestimaatit Märitetään väli, jolla perusjoukon parametrin arvo sijaitsee valitulla todennäköisyydellä (luottamusväli) Esim. väli, jolla perusjoukon keskiarvo sijaitsee 95 % luottamustasolla
KESKIARVON LUOTTAMUSVÄLI Esim. keskiarvon 95 % luottamusväli saadaan määrittämällä väli, jolla 95 % keskimmäisistä otoskeskiarvoista sijaitsee otantajakaumalla Keskivirheyksiköillä ilmaistuna tämä väli sijaitsi ±1.96 keskivirheyksikön etäisyydellä keskiarvosta 95 %
ESIMERKKI B:n otoksesta (n= 3) lasketaan pituudelle Keskiarvo: 172 Keskihajonta: 5 Keskivirhe on siis = 5 3 =2.89 Koska luottamusväli on 1.96 keskivirheyksikön päässä keskiarvon ala- ja yläpuolella, lasketaan Alaraja: 172 1.96 2.89 = 172 5.66 = 166.34 Yläraja: 172 + 1.96 2.89 = 172 + 5.66 = 177.66 Tulkinta: tutkijalla on 95 % luottamus siihen, että perusjoukon keskiarvo sijaitsee välillä [166, 178]
KESKIARVON LUOTTAMUSVÄLI Yleisesti keskiarvon luottamusväli voidaan laskea normaalisti jakautuneelle muuttujalle, kun n> 30 kaavalla: Vakion zarvona käytetään vakiintuneita varmuuden asteita z= 1.96 (95 %) z= 2.58 (99 %) z= 3.29 (99.9 %)
Luottamusvälit, joita tutkija A voi laskea kolmen tutkittavan otoksille Otos Otoskeskiarvo Keskivirhe 95% Luottamusväli Otantayksiköt perusjoukossa 1 177.57 4.41 168.93 186.21 1 2 3 2 165.97 10.46 145.47 186.47 1 2 4 3 180.04 5.91 168.46 191.62 1 2 5 4 172.14 5.29 161.77 182.51 1 2 6 5 165.60 10.17 145.67 185.53 1 3 4 6 179.66 5.85 168.19 191.13 1 3 5 7 171.77 4.93 162.11 181.43 1 3 6 8 168.07 12.18 144.20 191.94 1 4 5 9 160.17 6.86 146.72 173.62 1 4 6 10 174.24 7.36 159.81 188.67 1 5 6 11 170.18 11.78 147.09 193.27 2 3 4 12 184.24 2.30 179.73 188.75 2 3 5 13 176.35 5.62 165.34 187.37 2 3 6 14 172.65 13.14 146.90 198.40 2 4 5 15 164.75 10.36 144.44 185.06 2 4 6 16 178.82 7.08 164.94 192.70 2 5 6 17 172.28 13.01 146.78 197.78 3 4 5 18 164.38 10.05 144.68 184.08 3 4 6 19 178.44 7.00 164.72 192.16 3 5 6 20 166.85 12.21 142.92 190.78 4 5 6
PITUUSMUUTTUJAN 95% LUOTTAMUSVÄLIT Perusjoukon keskiarvo 172.21 cm Pituus (cm) Otos (keskiarvon mukaan järjestettynä) 20
TULKINTA Lähes kaikki luottamusvälit pitävät sisällään perusjoukon keskiarvon Yksi luottamusväleistä (otos 12, kuvion viimeinen) ei sisällä perusjoukon keskiarvoa 172.21 Lasketaan: 1/20 = 0.05, eli 5 % Tulkinta: Tutkija B ei tiedä otostaessaan, minkä erilaisista otoksista hän saa käyttöönsä, joten hän hyväksyy 5 % riskin sille, ettei luottamusväli sisällä perusjoukon keskiarvoa Hänellä on siis 95 % luottamus siihen, että luottamusväli sisältää perusjoukon keskiarvon
VIRHEPÄÄTELMÄN RISKI Luottamustasoon liittyy siis riski virhepäätelmälle 95 % luottamus 5 % riski 99 % luottamus 1 % riski 99.9 % luottamus 0.1 % riski Riskitaso (α) kuvaa todennäköisyyttä tehdä virhepäätelmä Luottamustason valintaan liittyy siis riski tehdä virhepäätelmä Yleisesti tutkimuskäytössä 5 % riskitaso on riittävä Kun määritetään esim. lääkkeiden haittavaikutuksiinliittyviä luottamusvälejä, voidaan käyttää tiukempia riskitasoja