Tilastotieteen johdantokurssi kevät2017 1. JOHDANTO 1.1. Mitä on tilastotiede? Ks. esim. http://fi.wikipedia.org/wiki/tilastotiede 1.2. Millainen tämä kurssi on? ei-matemaattinen + käytännönläheinen + aineisto- ja ohjelmistokeskeinen + menetelmien soveltamiseen tähtäävä = nöyrästi työtä tekemällä opettelemista ja katsomalla mihin se riittää 1
2. MITTAAMINEN 2.1. Muuttujista T u t k i m u s o n g e l m a n mukaisesti määräytyvät y k s i k ö t, joihin kohdistetaan mittauksia, ja o m i n a i s u u d e t, joita sitten näistä yksiköistä mitataan. Mittausten kohteena olevia yksiköitä kutsutaan t i l a s t o y k s i k ö i k s i eli havaintoyksiköiksi. Tilastoyksikkönä on usein ihminen, joskus myös kunta, valtio, perhe tai esim. konkurssi, tapaturma... Se mittaustapa eli "mittari", jolla ominaisuuden mittaluku saadaan mitatuksi kullekin tilastoyksikölle, on m u u t t u j a. Mittaluku on muuttujan a r v o. Mitatut luvut tallennetaan siten, että tietyn muuttujan arvot ovat allekkain (sarakkeena) ja tietyn tilastoyksikön saamat arvot rinnakkain (rivinä). Näin muodostuva taulukko on h a v a i n t o m a t r i i s i Esim. sukupuoli ikä... asenne tilyks1 2 20 5 tilyks2 1 28 2............ tilyks30 2 25 3 2
Muuttujat voidaan jakaa kahteen ryhmään sen mukaan, mitataanko "l a a d u l l i s e s t i " vai "m ä ä r ä l l i s e s t i ". HUOM. tarkasteltava ominaisuus sinänsä on yleensä erittäin selvästi joko laadullinen tai määrällinen ja mittaus yleensä sen mukainen. Tilastollisessa tutkimuksessa voidaan laadullinen ominaisuus mitata määrällisesti ja päinvastoin. Jälkimmäinen vaihtoehto on huomattavasti helpompaa, ja sitä harrastetaankin siksi aivan liikaa! K v a l i t a t i i v i s e n muuttujan arvot ilmaisevat tilastoyksiköiden osalta ainoastaan l a a t u - tai s u u r u u s l u o k a n k.o. ominaisuuden suhteen. K v a n t i t a t i i v i s e n muuttujan arvot ilmaisevat k.o. ominaisuuden m ä ä r ä n tilastoyksiköillä (tiettynä mitta-yksikkönä: kg,, kpl, %, v, pist,...). 3
Muuttujien ryhmitteleminen: (sopimuksen varainen, käytössä Tilastotieteen johdantokurssilla / Saloranta) Mittaustason mukaan: kvantitatiivinen (määrää/laatua) määrällisesti mittaava tarkan (arvioidun) määrän ilmaiseva mittayksiköllinen "numeerinen" jatkuva-arvoinen (ei aina) kvalitatiivinen (määrää/laatua) laadullisesti mittaava luokan tai tason ilmaiseva mittayksikötön "kategorinen" epäjatkuva (aina) Käyttötarkoituksen mukaan: y-muuttuja selitettävä tutkittava vaste riippuva rivimuuttuja x-muuttuja selittävä tausta tekijä ryhmittelevä sarakemuuttuja 4
2.2. Mitta-asteikot Tilastotieteessä lukuja käytetään eritasoisissa merkityksissä ilmaisemaan mitattavaa ominaisuutta. Mittaluku voi olla: Ilmaisu: 1) luokka --------------------------------> laatuero 2) järj.numero ----------------------------> järjestys 3) määrä (ei 0-pistettä) ---------------> välimatka 4) -,, - (on 0-piste) ------------------> suhdeluku Nämä neljä mittaamisen tasoa jakavat muuttujat a s t e i k k o t y y p p e i h i n a) kvalitatiiviset: 1) Laatuero- eli nominaaliasteikko N 2) Järjestys- eli ordinaaliasteikko J b) kvantitatiiviset: 3) Välimatka-eli intervalliasteikko I 4) Suhdeluku-eli suhdeasteikko S 5
Mitta-asteikon huomaamista helpottava ohje: Saadaanko mittaustulos mittayksikköinä? Kvantitatiivinen Kvalitatiivinen Voiko suhteuttaa? Onko järjestys? Suhde Interv. Järj. Nomin. S I J N 6
Mitta-asteikkojen ilmaisuvoima : S I suhde J välimatka välimatka N järjestys järjestys järjestys laatuero laatuero laatuero laatuero Saman ominaisuuden mittaaminen kaikilla neljällä eri asteikolla: Ikä Levikki Varallisuus Nom. ppkkvv pääpaikka pääas.muoto Järj. vvkkpp kpl-luokka -luokka Int. arv.iän muutos ero keskivirhe v. ed.vuoteen määräiseen Suhde vuosina kpl:eina /vuosi 7
3. YKSIULOTTEINEN JAKAUMA Tarkastellaan havaintomatriisin yhtä saraketta: sivsaaty 3 4 Tarkoituksena "jalostaa" havainto- 4 matriisiin tallennettu tieto helpom- 4 min ymmärrettävään muotoon. 1 2 4 1 4 3.1. Kvalitatiiviset muuttujat Esim. sivsaadyn arvojen esiintymis- 4 tiheydestä ei saa yleiskuvaa pelkän 1 alkuperäisen sarakkeen perusteella, 1 varsinkin jos n on kovin suuri. 1 4 Tietyn arvon esiintymistiheys eli 1 niiden tilastoyksiköiden l k m, 2 joilla muuttuja saa k.o. arvon, on 4 nimeltään f r e k v e n s s i. 1 8
2 Kvalitatiivisen muuttujan jakauman 3 tekeminen on hyvin helppoa, koska 1 ns. l u o k a t ovat jo valmiina 1 (tietenkin voi tulla tarve yhdistellä 4 alkuperäisiä luokkia toisiinsa). 1 4 Esim. sivsaadyn arvojen frekvenssit ja kum% 2 1 10 33 4 2 5 50 4 3 3 60 3 4 12 100 2 Yhteensä 30 100 9
Esimerkkejä jakaumataulukoista g) juontipaikka Frequency Percent Valid Percent Cumulative Percent Valid kotona 86 31,3 32,2 32,2 kylässä 65 23,6 24,3 56,6 kapakassa 105 38,2 39,3 95,9 muualla 11 4,0 4,1 100,0 Total 267 97,1 100,0 Missing System 8 2,9 Total 275 100,0 juontipaikka Lkm % Kum. lkm Kum-% kotona 86 32 86 32 kylässä 65 24 151 57 kapakassa 105 39 256 96 muualla 11 4 267 100 Yht. 267 100 267 100 10
Esimerkkejä jakaumataulukoista f) poliittinen kanta Frequency Percent Valid Percent Cumulative Percent Valid vas 52 18,9 18,9 18,9 kesk 17 6,2 6,2 25,1 oik 53 19,3 19,3 44,4 vihr 59 21,5 21,5 65,8 sit 31 11,3 11,3 77,1 eos 63 22,9 22,9 100,0 Total 275 100,0 100,0 poliittinen kanta Lkm % Kum. lkm Kum-% vasemmistoon 52 19 52 19 keskustaan 17 6 69 25 oikeistoon 53 19 122 44 vihreisiin 59 21 181 66 sitoutumattomiin 31 11 212 77 en osaa/halua sanoa 63 23 275 100 Yht. 275 100 275 100 11
Esimerkkejä jakaumataulukoista e) arvio Tarja Halosesta Frequency Percent Valid Percent Cumulative Percent Valid onnistuneet 87 31,6 31,6 31,6 melko hyvät 114 41,5 41,5 73,1 keskinkert 57 20,7 20,7 93,8 melko huonot 13 4,7 4,7 98,5 epäonnistuneet 4 1,5 1,5 100,0 Total 275 100,0 100,0 arvio Tarja Halosesta Lkm % Kum. lkm Kum-% onnistuneet 87 32 87 32 melko hyvät 114 41 201 73 keskinkertaiset 57 21 258 94 melko huonot 13 5 271 99 epäonnistuneet 4 1 275 100 Yht. 275 100 275 100 12
Esimerkkejä jakaumataulukoista d) ikäluokka Frequency Percent Valid Percent Cumulative Percent Valid 18-19 3 1,1 1,1 1,1 20-21 77 28,0 28,0 29,1 22-24 98 35,6 35,6 64,7 25-30 72 26,2 26,2 90,9 31-25 9,1 9,1 100,0 Total 275 100,0 100,0 ikäluokka Lkm % Kum. lkm Kum-% 18-19 3 1 3 1 20-21 77 28 80 29 22-24 98 36 178 65 25-30 72 26 250 91 31-25 9 275 100 Yht. 275 100 275 100 13
3.2 Kvantitatiiviset muuttujat Kvantitatiivisille muuttujille pitää (tarkkoina arvoina tallentamisen jälkeen) määrätä luokkien ala- ja ylärajat jakaumataulukon esittämistä varten. S o p i v a n luokittelutavan löytäminen vaatii ensi alkuun seuraavien valintojen tekemistä: - tasavälinen vai epätasavälinen? - kuinka monta luokkaa tai miten pitkä(t) luokkaväli(t)? - mihin kohtiin luokkarajat? Epätasavälinen luokkajako sopii muuttujille, joiden arvot kasautuvat tiettyihin erityisiin kohtiin tai sisältävät harvinaisen pieniä/suuria poikkeustapauksia. Esim. KYSELY-aineiston AMAARA -muuttujalla on molemmat edellä mainitut ominaisuudet. Arvo 0 on erityinen (absolutisti?) ja ns.kasautumiskohta, jota ei ole syytä mennä yhdistämään edes kohtuullisen pieniin -määriin. Huom. epäsymmetriselle sopii epätasavälinen ja symmetriselle tasavälinen luokittelu. Luokkien lukumäärälle on olemassa *ohjearvo, mutta toisaalta luokan pituudeksi pitäisi valita tasaluku 1, 2, 5, 10, 20, 25, 50, 100,200,250,... * matemaattinen ohjearvo on kuutiojuuri n:stä 14
Luokkarajojen kohdentamiseen voidaan antaa joitakin yleisiä ohjeita: -Luettavuuden kannalta on luokkien rajojenkin hyvä olla tasalukuja. -Epätasavälisessä luokituksessa luokkarajat suositellaan asetettavaksi sopivasti tiettyihin "kriittisiin" kohtiin tutkimuksen tavoitteita silmällä pitäen, kuten -luokat alkoholinkäyttö- tai lkm-luokat harrastuneisuustutkimuksessa: 0, 1, 10,... tai 0, 1, 7,... krt/vk. Epätasavälisten luokkien muodostamisen nyrkkisääntö: luokan prosenttiosuus ei saisi luokan pidentämisen ansiosta ylittää sitä lyhyemmän luokan prosenttiosuutta! Toteutus: Tilasto-ohjelmalla yksiulotteinen jakaumataulukko ja/tai histogrammikuvio ensin ilman luokitusta ja niitä/sitä silmäilemällä oikeaoppiset luokkarajat. Yhteenveto (kvant. muuttujat): Luokitellun yksiulott. jakauman tarkoitus on havainnollistaa alkuperäistä muuttujan arvojen jakautumista eli havaintomatriisin saraketta, joten hyvä luokitustapa on siis sellainen, että sen avulla muodostetun jakauman m u o t o on mahdollisimman lähellä alkuperäistä eli jakaumaa, jossa muuttujan jokainen arvo* on omana luokkanaan. * jokainen esiintyvä luku kuitenkin niin, että se on (kuvion akselilla) kohdistettu oikealle paikalleen 15
Esimerkkejä jakaumataulukoista c) euroja alkoholiin viikossa Frequency Percent Valid Percent Cumulative Percent Valid 0 34 12,4 12,4 12,4 0,10-5 108 39,3 39,4 51,8 5,1-10 69 25,1 25,2 77,0 10,1-20 43 15,6 15,7 92,7 20,1-50 17 6,2 6,2 98,9 50,1-200 3 1,1 1,1 100,0 Total 274 99,6 100,0 Missing System 1,4 Total 275 100,0 alkoholieurot Lkm % Kum. lkm Kum-% 0 34 12 34 12 1-5 108 39 142 52 6-10 69 25 211 77 11-20 43 16 254 93 21-50 17 6 271 99 51-200 3 1 274 100 Yht. 274 100 274 100 16
Esimerkkejä jakaumataulukoista b) näin monta kolmesta symbolista Frequency Percent Valid Percent Cumulative Percent Valid 0 51 18,5 18,5 18,5 1 64 23,3 23,3 41,8 2 78 28,4 28,4 70,2 3 82 29,8 29,8 100,0 Total 275 100,0 100,0 näin monta kolmesta symbolista Lkm % Kum. lkm Kum-% 0 51 19 51 19 1 64 23 115 42 2 78 28 193 70 3 82 30 275 100 Yht. 275 100 275 100 17
Esimerkkejä jakaumataulukoista a) kontaktiopetusta Frequency Percent Valid Percent Cumulative Percent Valid 1-5 7 2,5 2,6 2,6 6-10 40 14,5 15,0 17,6 11-15 64 23,3 24,0 41,6 16-20 97 35,3 36,3 77,9 21-25 42 15,3 15,7 93,6 26-30 12 4,4 4,5 98,1 31-35 1,4,4 98,5 36-40 4 1,5 1,5 100,0 Total 267 97,1 100,0 Missing System 8 2,9 Total 275 100,0 luennot+harj/vk Lkm % Kum. lkm Kum-% 1-5 7 3 7 3 6-10 40 15 47 18 11-15 64 24 111 42 16-20 97 36 208 78 21-25 42 16 250 94 26-30 12 4 262 98 31-35 1 0 263 99 36-40 4 1 267 100 Yht. 267 100 267 100 18
% 3.3 Jakauman graafinen esitys a) Kvantitatiivinen muuttuja, joka on luokiteltu tasavälisesti: 40 luennot+harj/vk 35 30 25 20 15 10 5 0 1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40 19
% b) Kvantitatiivinen muuttuja, jota ei ole ollut syytä luokitella: 35 näin monta kolmesta symbolista 30 25 20 15 10 5 0 0 1 2 3 20
c) Kvantitatiivinen muuttuja, joka on luokiteltu epätasavälisesti: alkoholieurot 0 1-5 6-10 11-20 21-50 51-200 0 5 10 15 20 25 30 35 40 45 % 21
d) Järjestysasteikollinen muuttuja, joka on tehty luokittelemalla kvantitatiivinen ominaisuus etukäteen: ikäluokka 18-19 20-21 22-24 25-30 31-0 5 10 15 20 25 30 35 40 % 22
e) Järjestysasteikollinen muuttuja, joka on vähintään 3-luokkainen: arvio Tarja Halosesta 0 % 10 % 20 % 30 % 40 % 50 % 60 % 70 % 80 % 90 % 100 % onnistuneet melko hyvät keskinkertaiset melko huonot epäonnistuneet 23
f) Nominaaliasteikollinen muuttuja, joka on vähintään 5-luokkainen: poliittinen kanta vasemmistoon keskustaan oikeistoon vihreisiin sitoutumattomiin en osaa/halua sanoa 0 5 10 15 20 25 % 24
g) Nominaaliasteikollinen muuttuja, joka on korkeintaan 5-luokkainen tai jonka yksi luokka on n. 50% tai yli: juontipaikka kotona kylässä kapakassa muualla 25
4. YKSIULOTTEISEN JAKAUMAN TUNNUSLUVUT Usein halutaan yhden muuttujan arvoista vielä jalostetumpaa tietoa kuin mitä frekvenssi-, %-, kum.frekv. tai kum.%-jakaumista saadaan. Tällöin muuttujan tilastollisia ominaisuuksia pyritään kuvaamaan nk. t u n n u s l u v u i l l a. Niistä tärkeimmät ovat: muuttujan keskimääräistä arvoa kuvaavat k e s k i l u v u t ja muuttujan arvojen vaihtelua mittaavat h a j o n t a l u v u t Lisäksi on olemassa eräitä vähemmän käytettyjä tunnuslukuja mm. k k u u vin o u s - ja h u i p u s- luvut (skewness) (kurtosis). 26
Ennen keski- ja hajontalukujen esittämistä määritellään tunnusluku, joka on tyypiltään vähän niiden väliltä : Sellainen luku, jota pienempiä muuttujan havaituista arvoista on p %, on ns. p %:n f r a k t i i l i. (percentile) Prosenttilukujen 25, 50 ja 75 fraktiilit ovat erityisiä, koska ne jakavat aineiston tilastoyksiköiden lukumäärän suhteen neljään yhtä suureen osaan. 25%:n (merk. Q1) ja 75%:n fraktiili (Q3) ovat ns. a l a - ja y l ä k v a r t i i l i. (lower and upper quartiles) Huom. 50%:n fraktiili on sama kuin Md, joka on eräs tärkeä keskiluku. Raportoinnissa pitää yrittää välttää saman asian kahteen kertaan esittämistä samassa yhteydessä. Suositus onkin, että Md esitetään Md:nä eikä 50%:n fraktiilina. 27
4.1. Keskiluvut M o o d i (Mo) on se muuttujan arvo tai luokka, jolla on suurin frekvenssi (ts. on "tyypillisin"). Esim. sukupuolen arvoista 2, 2, 1, 1, 2, 1, 1, 1, 2 moodi on 1 (mies). - Moodi ei aina ole yksikäsitteinen + Moodi on keskilukuna mahdollinen kaikilla mitta-asteikoilla M e d i a a n i (Md) on sellainen luku, että sitä pienempiä ja suurempia muuttujan havaittuja arvoja on aineistossa yhtä monta eli noin n/2 kpl. Esim. iän arvojen (n=9) 39, 21, 22, 36, 20, 21, 20, 20, 30 mediaani on = 21, mutta iän arvojen (n=8) 39, 21, 22, 36, 21, 20, 20, 30 mediaani on (21+22)/2 = 21,5. Muuttujan k e s k i a r v o (mean) saadaan laskemalla x:n arvot (n kpl) yhteen ja jakamalla summa niiden lukumäärällä eli x = n i=1 x i n 28
Esim. iän arvoista (n=9) _ x = (39+21+22+36+20+21+20+20+30) / 9 25,4. Keskiluvut esitettiin "huonommuusjärjestyksessä". Kuitenkin erittäin *vinojen frekvenssijakaumien kohdalla mediaani on keskiarvoa käyttökelpoisempi. Huom. vasemmalle tai oikealle *vino on oikeastaan paremmin sanottuna vasemmalle tai oikealle *loiveneva, *venynyt. Keskilukujen käyttö mittaustasoittain: S I Erik. ka:t J x x 2-luok J N Md Md Md Mo Mo Mo Mo 29
4.2. Hajontaluvut V a i h t e l u v ä l i n p i t u u s (= w) on suurimman ja pienimmän arvon erotus. Esim. iän w = 39-20 = 19. K v a r t i i l i p o i k k e a m a Q = (Q3 - Q1) / 2 on eli ylä- ja alakvartiilin erotuksen puolikas. Esim. Iän kvartiilipoikkeama Q = (33 20,5)/2 = 6,25. Keskihajonta (s) (standard deviation) on varianssin (s 2 ) neliöjuuri (variance) s 2 = n i=1(x i x ) 2 n 1 Esim. iän arvojen (n=9 ja keskiarvo 25,4) 39, 21, 22, 36, 20, 21, 20, 20, 30 ja s = s 2 s 2 = (39 25,4) 2 + (21 25,4) 2 + + (30 25,4) 2 / (9 1)~57, jolloin s = 57~7,5 30
V a r i a a t i o k e r r o i n (cv) on mittayksiköstä riippumaton ja siten käyttökelpoinen verrattaessa eri muuttujien vaihtelujen suuruutta. Se saadaan lasketuksi jakamalla keskihajonta keskiarvolla eli cv = s x Variaatiokerroin ilmaisee keskihajonnan suhteellisen osuuden keskiarvosta. Sen arvo ilmoitetaan yleensä kahdella desimaalilla ja tulkitaan prosenttilukuna. Esim. iän cv = 7,5 / 25,4 = 0,29 eli 29%. Hajontalukujen käyttö mittaustasoittain: S I cv J väh. 3-luokk. s s N Q Q Q??? w w w 31
Esim. Kysely-aineiston kvantitatiivisten muuttujien tunnusluvut Tunnusluvut Kysely Tilastotieteen perusteet-kursseilla syksy05&kevät06 Muuttuja Lkm Keskiarvo Mediaani Keskihajonta Minimi Alakvartiili Yläkvartiili Maksimi aloitusvuosi 275 103,9 104,5 2,6 75,5 103,5 105,5 105,5 luennot+harj/vk 267 17,6 18,0 6,6 3,0 13,0 20,0 40,0 alkoholieurot 274 10,0 5,0 16,1 0,0 3,0 10,0 200,0 vastauslukukausi 275 47,5 48,0 0,5 47,0 47,0 48,0 48,0 Esim. Biostat-aineiston kvantitatiivisten muuttujien tunnusluvut Tunnusluvut OSABIOSTAT Muuttuja Lkm Keskiarvo Mediaani Keskihajonta Minimi Alakvartiili Yläkvartiili Maksimi ika 30 23,3 21,0 5,7 19,0 20,0 22,8 39,0 pituus 30 171,0 173,5 10,3 156,0 160,5 178,8 189,0 paino 30 61,6 63,0 9,8 45,0 53,3 69,8 80,0 systvp 30 122,6 120,0 9,3 105,0 116,3 130,0 140,0 diastvp 30 79,1 80,0 6,4 70,0 75,0 82,3 90,0 pulssi 30 73,7 73,0 12,1 45,0 66,0 80,0 100,0 kyynar 30 27,6 27,5 2,6 24,0 25,0 29,8 32,0 vyotaro 30 74,4 75,0 7,8 61,0 67,3 79,8 90,0 aidinika 29 28,3 27,0 6,7 17,0 24,0 31,0 44,0 syntpai 24 34,2 34,0 5,7 22,0 31,0 36,0 48,0 32
Esim. Kysely-aineiston kvalitatiivisten muuttujien tunnuslukuja Yksiulotteinen jakauma Kysely Tilastotieteen perusteet-kursseilla syksy05&kevät06 sukupuoli Lkm % mies 68 25 nainen 207 75 Yht. 275 100 ikäluokka Lkm % Kum. lkm Kum-% 18-19 3 1 3 1 20-21 77 28 80 29 22-24 98 36 178 65 25-30 72 26 250 91 31-25 9 275 100 Yht. 275 100 275 100 siviilisääty Lkm % avioliitossa 28 10 avoliitossa 87 32 leski tai eronnut 1 0 naimaton 159 58 Yht. 275 100 33
juontipaikka Lkm % kotona 86 32 kylässä 65 24 kapakassa 105 39 muualla 11 4 Yht. 267 100 arvio Tarja Halosesta Lkm % Kum. lkm Kum-% onnistuneet 87 32 87 32 melko hyvät 114 41 201 73 keskinkertaiset 57 21 258 94 melko huonot 13 5 271 99 epäonnistuneet 4 1 275 100 Yht. 275 100 275 100 poliittinen kanta Lkm % vasemmistoon 52 19 keskustaan 17 6 oikeistoon 53 19 vihreisiin 59 21 sitoutumattomiin 31 11 en osaa/halua sanoa 63 23 Yht. 275 100 34
5. KAHDEN MUUTTUJAN VÄLINEN RIIPPUVUUSTARKASTELU Tarkoitus kuvata muuttujien välisiä tilastollisia r i i p p u v u u k s i a (mahdollisia vaikutuksia toisiinsa). Ns. k a k s i u l o t t e i n e n jakauma voidaan kuvata jollakin seuraavista kolmesta erilaisesta esitystavasta: K o n t i n g e n s s i t a u l u k k o ("ristiintaulukko") on mahdollista muodostaa, olivatpa muuttujat mitä mitta-asteikkoa tahansa. (C) K o r r e l a a t i o d i a g r a m m i ("pisteparvi") soveltuu vain, jos molemmat muuttujat ovat kvantitatiivisia. (r) Jos vain selitettävä muuttuja (y) on kvantitatiivinen, niin kontingenssitaulukon sijasta kannattaa käyttää riippuvuustarkastelumenetelmänä ns. ryhmäkeskiarvoja. (y:t) ("laatikko-viikset"-kuvio) 35
Esim. BIOSTAT-aineiston SYSTVPmuuttujan (y) keskiarvot erikseen SUKUP-muuttujan (x) ryhmissä: = miesten keskimääräisen systolisen verenpaineen vertaaminen naisten keskimääräiseen systoliseen verenpaineeseen keskiarvojen avulla. Miehet (44 kpl) Naiset (36 kpl) y = 129, 1 y = 119, 3 Tulkinta: Keskiarvot poikkeavat hieman toisistaan. Miesten keskimääräinen yläpaine on n. 10 Hgm:ä korkeampi (johtuen ehkä epäterveellisemmistä elintavoista tms.). 36
Systvp:n kvartiilivertailu sukupuolittain (Box and whiskers plot) 180,00 160,00 140,00 120,00 100,00 systvp Maksimi 165,00 150,00 Yläkvartiili 140,00 125,00 Mediaani 127,00 120,00 Alakvartiili 120,00 110,00 Minimi 110,00 105,00 80,00 mies nainen 60,00 40,00 20,00 0,00 mies sukup nainen 37
Riippuvuustarkastelumenetelmien paremmuusjärjestys : 1. r Korrelaatio 2. y:t Keskiarvot 3. C Kontingenssi 38
Menetelmien käyttösuositukset eritasoisille muuttujapareille: Paras (Vaihtoehdot) Selitettävä y kvant Riippuva y kvant Selittäjä r ( y:t, C ) x kvant Ryhmittelevä y:t ( C ) x kval Rivimuuttuja Sarakemuuttuja C ( ei mikään ) y kval x kumpi tahansa 39
Ns. takorautaohje : 40
Seuraavalla sivulla esitettävään ns. rautalankaohjeeseen on merkitty vain paras menetelmä. Joissakin tilanteissa on joskus kuitenkin parempi vaihtoehto valita huonompi menetelmä!!! 41
Käyttösuositus (toinen tapa) eritasoisille muuttujapareille 42
Esim. Paras menetelmä Biostat- aineiston muuttujapareille 43
5.2. KORRELAATIODIAGRAMMI Kvantitatiivisten muuttujien x ja y välistä riippuvuutta voidaan tarkastella siten, että kuvataan jokaisen tilastoyksikön saamat arvot x i ja y i koordinaatiston pisteenä. Pisteiden ( x i, y i ) joukkoa sanotaan korrelaatiodiagrammiksi. 44
Esim. painon ja systvp:n korrelaatiodiagrammi (Scatter) 45
5.1. KONTINGENSSITAULUKKO Kontingenssitaulukon käyttö edellyttää, että molemmat muuttujat ovat luokiteltuja. Kvantitatiivinen muuttuja pitää siis ensin luokitella. Usein taulukoitavat muuttujat ovat kuitenkin kvalitatiivisia (ainakin y), jolloin luokat ovat jo valmiina. 46
Esim. muuttujien SUKUPUOLI (x) ja TUPAKOINTI (tässä nyt y:nä) välinen ristiintaulukointi. mies nainen Yht. polttaa 14 lopettanut 12 ei koskaan 54 Yhteensä 44 36 80 47
mies nainen Yht. polttaa 9 5 14 lopettanut 9 3 12 ei koskaan 26 28 54 Yhteensä 44 36 80 48
mies nainen Yht. polttaa 20 14 17 lopettanut 20 8 15 ei koskaan 60 78 68 Yhteensä 100 100 100 49
Riippuvuustarkastelun pohjana ovat siis y:n j a k a u m a t x:n l u o k i s s a, ja riippuvuuden havaitsemiseksi ne on (kuten edellisellä sivulla tehtiinkin) syytä esittää rinnakkain prosentteina (= %:t laskettuna järkevään suuntaan"). 50
Ja jos sarakkeissa olevien y:n prosentti- jakaumien alle vielä lisätään x:n kunkin luokan tilastoyksiköiden lukumäärä (N), niin saadaan ns. Vancouver-ohjeiden mukainen ristiintaulukko: 51
Esim. muuttujien SUKUPUOLI (x) ja TUPAKOINTI (tässä nyt y:nä) välinen ristiintaulukointi mies nainen Yht. polttaa 20 14 17 lopettanut 20 8 15 ei koskaan 60 78 68 Yhteensä 100 100 100 N 44 36 80 52
Vaakapalkkivertailu ( Stacked Bars) 53
6. RIIPPUVUUSLUVUT ja käytettävien menetelmien vaatimukset Riippuvuutta mittaavia tunnuslukuja eli r i i p p u v u u s l u k u j a ovat mm. k o n t i n g e n s s i k e r r o i n ja k o r r e l a a t i o k e r r o i n. Riippuvuuden voimakkuutta voidaan varsinaisten riippuvuuslukujen lisäksi mitata myös r y h m äk e s k i a r v o j e n (ks. luku 5) avulla seuraavasti: 54
"mitä enemmän y:n keskiarvot poikkeavat toisistaan x:n luokissa (= ryhmien välillä), sitä enemmän x:llä ja y:llä on tilastollista riippuvuutta eli x näyttäisi vaikuttavan y:hyn". Käyttökelpoisen riippuvuusluvun valinnasta ks. luku 5. 55
(Tako)rauta(lanka)ohjeiden täsmennys: mikäli riippuvuus on korrelaatiodiagrammin "käyräviivaisuuden" (tai muuttujien kvalitatiivisuuden) perusteella e p ä l i n e a a r i s t a, pitää korrelaatiotarkastelun sijaan käyttää jotakin muuta sopivampaa riippuvuustarkastelumenetelmää! 56
Erilaisia riippuvuuden ilmenemis- muotoja on (karkea jako) neljä: a) positiivinen lineaarinen riippuvuus b) negatiivinen lineaarinen riippuvuus c) ei mitään riippuvuutta d) epälineaarinen riippuvuus Huom: jos siis edes toinen muuttujista on kvalitatiivinen, niin mahdollisesti ilmenevä riippuvuus on epälineaarista. 57
a) P o s i t i i v i n e n lineaarinen riippuvuus tarkoittaa, että mitä suurempi x sitä suurempi y (tai mitä pienempi x sitä pienempi y). Korrelaatiodiagrammi on tällöin "nouseva" soikio, jonka kapeus ilmaisee riippuvuuden määrän. 58
b) N e g a t i i v i n e n lineaarinen riippuvuus tarkoittaa, että mitä suurempi x sitä pienempi y (tai mitä pienempi x sitä suurempi y). Korrelaatiodiagrammi on tällöin "laskeva" soikio, jonka kapeus ilmaisee riippuvuuden määrän. 59
c) E i m i t ä ä n riippuvuutta, jos korrelaatiodiagrammi on pyöreä tai tasaisesti hajallaan, ryhmäkeskiarvot ovat yhtäsuuret, y:n %-jakaumat ovat yhtenevät... d) E p ä l i n e a a r i s t a riippu- vuutta on, jos ei a), b) eikä c). 60
Kvantitatiivisten muuttujien x ja y välinen riippuvuus a) 61
Kvantitatiivisten muuttujien x ja y välinen riippuvuus b) 62
Kvantitatiivisten muuttujien x ja y välinen riippuvuus c) 63
Kvantitatiivisten muuttujien x ja y välinen riippuvuus d) 64
6.2 KORRELAATIOKERROIN Korrelaatiokerroin r ilmaisee vain l i n e a a r i s e n eli suoraviivaisen riippuvuuden määrän. 65
Korrelaatiokertoimen r laskemista varten määrätään ensin x:n ja y:n ns. kovarianssi s xy = n i=1 (x i x )(y i y ) n 1 jolloin r xy = s xy s x s y eli kovarianssi jaetaan kummankin muuttujan keskihajonnalla. 66
Huom. -1 r +1 Korrelaatiokertoimen etumerkki ilmaisee onko lineaarinen riippuvuus negatiivista vai positiivista, ja mitä kauempana sen lukuarvo on 0:sta, sitä voimakkaampaa se on. 67
Lähellä nollaa oleva korrelaatiokerroin ilmaisee siis ainoastaan sen verran, että lineaarista riippuvuutta ei ole, mutta se voi silti olla tyypiltään *epälineaarista. Korrelaatiokertoimen "kriittinen arvo ns. tilastollisen merkitsevyyden raja joillakin erisuuruisilla otoskoon arvoilla: eli n = 30 50 100 200 500 1000 r = ±0,36 ±0,30 ±0,20 ±0,14 ±0,09 ±0,06 68
*Esim. vaikka kuviosta d laskettu r 0, niin riippuvuus on kuitenkin voimakasta mutta "käyräviivaista". Riippuvuus pitäisikin tällöin tutkia ryhmäkeskiarvojen tai ristiintaulukoinnin avulla, tai vielä paremmin (=tehokkaammin): laskemalla korrelaatiokerroimet niiden x:n arvojen, joiden kohdalla on "mutka, avulla muodostetuissa ryhmissä erikseen (eli menetelmänä ns. osakorrelaatiot). 69
6.1 KONTINGENSSIKERROIN Muuttujien x ja y kontingenssitaulukkoon liittyen y r i i p p u u x : stä, jos y:n %-jakaumat x:n luokissa. p o i k k e a v a t selvästi toisistaan Riippumattomuuden vallitessa ne ovat samanlaiset sekä keskenään että yhteensä-%:ien (= y:n yksiulotteisen %-jakauman) kanssa. 70
Kuvitellaan tilanne, jossa vallitsee täydellinen riippumattomuus x:n ja y:n välillä, sekä merkitään tämän teoreetti- sen ristiintaulukon frekvenssejä eij :llä. Huom. nämä teoreettiset luvut eli nk. o d o t e t u t f r e k v e n s s i t eij saadaan lasketuksi, kun kerrotaan vastaavat reunafrekvenssit ja jaetaan n:llä. 71
Esim. muuttujien SUKUPUOLI (x) ja TUPAKOINTI (y) välinen ristiintaulukko (= havaitut frekvenssit fij ): mies nainen Yht. polttaa 9 5 14 lopettanut 9 3 12 ei koskaan 26 28 54 Yhteensä 44 36 80 72
Vastaavat odotetut frekvenssit saadaan: e 11 = 14 44/80 = 7,7 joten e 12 = 6,3 e 21 = 12 44/80 = 6,6 joten e 22 = 5,4 e 31 näin ollen=29,7 ja siis e 32 =24,3. Täyttämällä esimerkkitaulukon ruudut havaittujen frekvenssien sijaan nyt näillä teoreettisilla odotetuilla frekvensseillä saadaan luvun alussa kuviteltu taulukko: 73
muuttujien SUKUPUOLI (x) ja TUPAKOINTI (y) välinen ristiintaulukko mies nainen Yht. polttaa 14 lopettanut 12 ei koskaan 54 Yhteensä 44 36 80 74
muuttujien SUKUPUOLI (x) ja TUPAKOINTI (y) välinen ristiintaulukko (= odotetut frekvenssit eij ): mies nainen Yht. polttaa 7,7 6,3 14 lopettanut 6,6 5,4 12 ei koskaan 29,7 24,3 54 Yhteensä 44 36 80 75
Tehtävä: muodosta SUKUPUOLEN (x) ja TUPAKOINNIN (y) välisen ristiintaulukon odotettujen frekvenssien sarake-%t: mies nainen Yht. polttaa 17 lopettanut 15 ei koskaan 58 Yhteensä 100 100 100 76
Tehtävä: muodosta SUKUPUOLEN (x) ja TUPAKOINNIN (y) välisen ristiintaulukon odotettujen frekvenssien sarake-%t: mies nainen Yht. polttaa 17 17 17 lopettanut 15 15 15 ei koskaan 58 58 58 Yhteensä 100 100 100 77
Muuttujien välistä riippuvuutta mittaavan k o n t i n g e n s s i - k e r t o i m e n C määräämiseksi lasketaan ensin nk. χ 2 -arvo (lue: "kii toiseen"), joka ilmaisee kontingenssitaulukon ja odotettujen frekvenssien muodostaman taulukon välisen eron suuruuden χ 2 = ((f ij e ij ) 2 /e ij ) 78
Sellaisenaan χ 2 -arvo ei sovellu riippuvuus- luvuksi, koska kontingenssitaulukon rivien ja sarakkeiden lukumäärät vaikuttavat sen suuruuteen. Riippuvuuslukuna käytetäänkin sen avulla laskettavaa kontingenssikerrointa C = χ 2 (χ 2 + n). 79
Esim. SUKUPUOLI - ja TUPAKOINTI - muuttujien kontingenssikerroin: χ 2 = (9 7, 7) 2 7, 7 + (5 6, 3) 2 6, 3 +(9 6, 6) 2 6, 6 + (3 5, 4) 2 5, 4 +(26 29, 7) 2 29, 7 +(28 24, 3) 2 24, 3 = 3, 45 C = 3, 45/(3, 45 + 80) = 0, 20 80
Kontingenssikertoimen tulkinta on hieman konstikkaampi kuin korrelaatiokertoimen, ja asia jätetäänkin tässä yhteydessä silleen, muttei pelkästään konstikkuuden takia. Tilasto-ohjelman avulla saadaan nimittäin riippuvuus testatuksi suoraan χ 2 - arvolla, kunhan ristiintaulukointimenetelmän vaatimukset (tässä tapauksessa odotettujen frekvenssien osalta) täyttyvät. 81
ja käytettävien menetelmien vaatimukset Korrelaatiodiagrammi on harhaanjohtava, jos muuttujilla ei ole riittävästi sirontaa. Korrelaatiokertoimeen vaikuttaa paljon yksi poikkeuksellisen suuri (tai pieni) havainto, mutta sellainen onkin syytä poistaa tarkastelusta määrittelemällä se missing-arvoksi. 82
Ryhmäkeskiarvojen vertailu ei ole luotettavaa, jos mukana on liian pieniä ryhmiä. Pienimmässäkin ryhmässä pitäisi tilastoyksiköitä olla vähintään "kymmenkunta". Ryhmien keskihajontojen (varianssien) pitäisi keskiarvotestauksen luotettavuuden kannalta olla samaa suuruusluokkaa (eli ryhmien homogeenisia y:n suhteen). 83
Ristiintaulukoitavien muuttujien reunajakaumissa ei myöskään saisi olla liian pieniä ryhmiä, jottei enempää kuin 20% odotetuista frekvensseistä jäisi alle viiden eikä yksikään alle yhden. Mutta jos jää, niin voi yrittää yhdistellä taulukoitavien muuttujien luokkia tai tehdä alusta alkaen uudet luokittelut. 84
7. Hypoteesien testaus a) Korrelaatio Testausta varten asetetaan nollahypoteesi H 0 : x ei korreloi y:n kanssa eli = 0. Jos x on *tilastollisesti merkitsevä selittäjä, päästään hylkäämään nollahypoteesi. (* otoksesta laskettu r poikkeaa riittävästi nollasta) Ennen johtopäätöksen tekoa tarkistettava, että menetelmän vaatimukset toteutuvat. 85
b) Keskiarvot Testausta varten asetetaan nollahypoteesi H 0 : y ei riipu x:stä eli µ 1 = µ 2 =... = µ k. Jos x on *tilastollisesti merkitsevä selittäjä, päästään hylkäämään nollahypoteesi. (* otoksesta lasketut y:t poikkeavat riittävästi toisistaan) Ennen johtopäätöksen tekoa tarkistettava, että menetelmän vaatimukset toteutuvat. 86
c) Kontingenssi Testausta varten asetetaan nollahypoteesi H 0 : y ei riipu x:stä eli χ 2 = 0. Jos x on *tilastollisesti merkitsevä selittäjä, päästään hylkäämään nollahypoteesi. (* y:n jakaumat poikkeavat riittävästi toisistaan) Ennen johtopäätöksen tekoa tarkistettava, että menetelmän vaatimukset toteutuvat. 87
Tilastollinen testaus perustuu epäsuoraan päättelysääntöön reductio ad absurdum (ns. päättely mahdottomaan ). Esimerkki: kvant y:n keskiarvojen eron testaus kval x:n kahden ryhmän välillä (perusjoukossa) H 0 : µ 1 = µ 2. H 0 µ 1 - µ 2 = 0 otoskeskiarvojen erotuksella (sen lisäksi, että se noudattaa normaalijakaumaa,koska otoksista lasketut keskiarvot ja myös niiden erotus noudattavat aina normaalijakaumaa jollakin keskiarvolla ja -hajonnalla), on keskiarvona nyt nimenomaan 0. 88
aineistosta laskettu kahden ryhmän keskiarvojen erotus y 1 - y 2 on kaiken todennäköisyyden mukaan lähellä 0:aa, MUTTA JOS SE EI OLE (siis keskiarvot ovat selvästi toisistaan poikkeavat), niin päättelyketjumme on päätynyt ns. absurdum - tilaan, eli lähtökohtamme H 0 on epätosi. Tosioletuksesta alkavasta ja epätositilaan päätyvästä päättelystä (esim. äskeisessä esimerkkitilanteessa) TOSI TOSI TOSI EPÄTOSI seuraa aina, että alkuoletus on epätosi. 89
No kuinka lähellä 0:aa sen y 1 y 2 :n sitten pitäisi olla, jottei tilasta tulisi absurdum? (yleensä tutkija toivoo päätyvänsä siihen!) Sen pitää olla ns. 95%:n varmuusvälillä. Eli kaiken todennäköisyyden mukaan on käytännössä 95%:n varmuudella. Mitä kauemmaksi 0:sta testattavana oleva erotus menee, sitä pienempi on ns. p-arvo. (yleensä tutkija toivoo pientä p-arvoa!) 90
95%:n varmuusvälin ulkopuolelle joutuminen tarkoittaa, että p-arvo < 0,05 jolloin y:n keskiarvojen eron voidaan sanoa olevan ns. tilastollisesti merkitsevä (huomaa se). Tällöin riski tehdä väärä päätelmä, kun sanotaan ryhmien keskiarvoissa olevan eroa perusjoukossa (otoskeskiarvojen avulla testattuna), on pienempi kuin 5%, joka tilastotieteilijän mielestä on riittävän pieni. 91
Edellä mainittiin, että otoskeskiarvo noudattaa aina (ainakin lähes) normaalijakaumaa. Se tarkoittaa, että jos tehtäisiin (olisi varaa eli rahaa tehdä) samasta perusjoukosta riittävästi eli noin 30 otosta, ja esitettäisiin y:n kaikkien laskettujen 30 keskiarvon aineisto murtoviivana (line), niin jakauma olisi muodoltaan likimain normal curve. Edellä esitetyssä tilanteessa sanotaan, että y:n otantajakauma on normaalijakauma. 92
Huom. Otoksen avulla jonkin tunnusluvun (esim. perusjoukon keskiarvon) ns. luottamusvälin estimoimiseksi tarvitaan otoksesta laskettu keskihajonta sekä todennäköisyyslaskentaa. Onneksi koneet hoitavat nykyisin ne asiat, ja tutkija pärjää, kun muistaa seuraavan: jos hajonta on pieni eli vaihtelu vähäistä, niin luottamusväli on kapea ja estimointi tarkkaa (sekä vastaavasti päinvastoin). 93