1 TILASTOJEN KÄYTTÖ 7. Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ 7 Mitä tilastotiede on 7 Historiaa 8 Tilastotieteen nykyinen asema 9 Tilastollisen tutkimuksen vaiheet 10 Tilastoaineisto 11 Peruskäsitteitä 11 Tilastoaineiston luonne 13 Mittaaminen 14 Tilastotietojen hankinta 20 Valmiit tilastot 20 Aineiston kerääminen 21 Otannan suorittaminen 23 2 TILASTOJEN ESITTÄMINEN 29 Taulukointi 29 Luokittelu 34 Kaksiulotteinen taulukko 36 Taulukon ulkoasu ja muotoilu 40 Graafinen esittäminen 46 Kuviotyypit 47 Pylväskuviot ja histogrammit 49 Ympyräkaavio eli sektorikuvio 55 Murtoviivakuvio 56 Parvikuvio 59 Teemakartat 60 Visuaalisia näkökohtia 61 3 TUNNUSLUKUJA 66 Sijaintilukuja 66 Keskiarvo 66 Mediaani 71 Fraktiilit 72 Moodi 74 Hajontalukuja 77 Vaihteluväli 77 Kvartiiliväli 78 Keskihajonta 79 Varianssi 81 Variaatiokerroin 81 Standardoitu muuttuja 82

Muita tunnuslukuja 82 Vinous 82 Huipukkuus 83 Keskiarvon luottamusväli 83 Keskivirhe 84 Tunnuslukuja kuvaavia graafisia esityksiä 86 Vertailu 91 4 TILASTOLLINEN RIIPPUVUUS 95 Korrelaatio 95 Korrelaatiokerroin 98 Pearsonin korrelaatiokerroin 99 Spearmanin järjestyskorrelaatiokerroin 102 Kontingenssikerroin 103 Regressio 108 Lineaarinen regressiomalli 108 5 AIKASARJAT 113 Aikasarjan vaihtelukomponentit 116 Trendin arviointi ja tasoitus 118 Kausivaihtelut 121 Indeksit 124 Yksinkertainen indeksi 124 Ryhmäindeksit 125 Näennäinen muutos ja reaalinen muutos 126 6 TODENNÄKÖISYYSLASKENTAA 134 Kombinatoriikkaa 135 Tuloperiaate 135 Permutaatio 137 Variaatio 138 Kombinaatio 139 Todennäköisyys 143 Todennäköisyyden tilastollinen määrittely 143 Todennäköisyyden klassinen määrittely 144 Todennäköisyyden yleinen määrittely 146 Laskusääntöjä 146 Vastatapahtuman todennäköisyys 147 Yhteenlaskusääntö 148 Kertolaskusääntö 149 Ehdollinen todennäköisyys 151 Kokonaistodennäköisyys ja Bayesin kaava 152

Todennäköisyysjakaumia 160 Satunnaismuuttuja ja todennäköisyysjakauma 160 Kertymäfunktio 161 Todennäköisyysjakauman tunnuslukuja 162 Binomijakauma 164 Poisson-jakauma 167 Normaalijakauma 170 Eksponenttijakauma 174 7 TILASTOLLINEN PÄÄTTELY 179 Estimointi 180 Luottamusväli 180 Keskivirhe 181 Tilastolliset testit 183 Testaukseen liittyviä käsitteitä 183 Testin valinta 185 Testauksen päävaiheet 185 Jakauman normaalisuuden tutkiminen 186 Riippuvuuden testaaminen 188 χ 2 -riippumattomuustesti 188 Korrelaatiokertoimen testaus 190 Keskiarvotestejä 192 Yhden otoksen keskiarvon T-testi 192 Kahden otoksen keskiarvojen T-testi 194 Muita testejä 196 χ 2 -yhteensopivuustesti 197 8 TEHTÄVIEN VASTAUKSIA 204 LIITTEET 1 Kunta-aineisto 211 2 Sairaala-aineiston muuttujamäärittely 219 3 Eri mitta-asteikon muuttujille soveltuvat tunnusluvut 221 4 Tilastollisen tutkimuksen vaiheet 222 5 Hakusanasto 223

1-7 Mitkä kunta-aineiston muuttujat ovat kvalitatiivisia ja mitkä kvantitatiivisia? 1-8 Määritä kunta-aineiston kaikkien muuttujien mitta-asteikot. 1-9 Määritä Sairaala-aineiston muuttujien mitta-asteikot. 1-10 Ravintolan asiakkailla oli tilaisuus antaa palautetta seuraavalla lomakkeella: Erinomainen Hyvä Tyydyttävä Huono 1. Ruuan laatu O O O O 2. Ruokalistan monipuolisuus O O O O 3. Palvelun ystävällisyys O O O O 4. Palvelun asiantuntemus O O O O 5. Hinta-laatusuhde O O O O a) Mikä kyselyn tavoitteena ilmeisesti oli? Seuraavassa on 20 palautetun lomakkeen tiedot (ilman tekstejä): Vastaaja 1 Vastaaja 2 Vastaaja 3 Vastaaja 4 1. Ο Ο Ο 1. Ο Ο Ο 1. Ο Ο Ο 1. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο Vastaaja 5 Vastaaja 6 Vastaaja 7 Vastaaja 8 1. Ο Ο Ο 1. Ο Ο Ο 1. Ο Ο Ο 1. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο Vastaaja 9 Vastaaja 10 Vastaaja 11 Vastaaja 12 1. Ο Ο Ο 1. Ο Ο Ο 1. Ο Ο Ο 1. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο Vastaaja 13 Vastaaja 14 Vastaaja 15 Vastaaja 16 1. Ο Ο Ο 1. Ο Ο Ο 1. Ο Ο Ο 1. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 2. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 3. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 4. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο 5. Ο Ο Ο jatkuu...

Esim. 2.1 Tarkastellaan Suomen kuntien sijoittumista eri lääneihin. Jakautuminen voidaan esittää tiivistetysti seuraavasti: Lääni Kuntien lukumäärä Suhteellinen eli frekvenssi frekvenssi Etelä-Suomen 89 19,7 % Länsi-Suomen 205 45,4 % Itä-Suomen 68 15,0 % Oulun 52 11,5 % Lapin 22 4,9 % Ahvenanmaan 16 3,5 % Yhteensä 452 100,0 % Taulukko muodostaa läänijakauman. Esiintymiskertojen lukumäärää ilmaisevia lukuja sanotaan frekvensseiksi. Muuttujan arvot ja vastaavat frekvenssit muodostavat frekvenssijakauman. Jos lasketaan, kuinka monta prosenttia kunnista sijaitsee kussakin läänissä, saadaan vastaava suhteellinen frekvenssi. Suhteelliset frekvenssit ovat prosenttilukuja, jotka ilmoittavat kyseisen muuttujan arvon esiintymisen prosenttiosuuden kaikista havainnoista. Prosenttilukujen käyttö on järkevää, mikäli havaintoja on riittävän paljon. SPSS-tilasto-ohjelmassa frekvenssitaulukot saa kätevimmin valinnalla Analyze, Descriptive Statistics, Frequencies... Excelissä on useitakin funktioita, jotka laskevat lukumääriä. Seuraavassa frekvenssit ja suhteelliset frekvenssit on laskettu Excelin pivot-taulukkoon.

- Vedä muuttujaa lääni vastaava kenttäpainike Pudota rivikentät tähän-osaan. - Vedä muuttujaa lääni vastaava kenttäpainike Pudota tieto-osat tähän-osaan -Vedä lääniä vastaava kenttäpainike pivot-taulukkoon, jolloin saat uuden sarakkeen suhteellisia frekvenssejä varten. Taulukon muotoa voi muokata vetämällä hiirellä solua Tiedot (ykköspainike pohjassa) tai käyttämällä automaattista muotoilua.

Fraktiileja käytetään jakauman sijainnin ilmoittamiseen. Esimerkiksi jonkin ammattiryhmän ansiotasoa kuvattaessa ilmoitetaan palkka, jota vähemmän saa 90 % kyseisen ammattiryhmän työntekijöistä. Lasten kasvua seurataan muodostamalla koko ikäryhmän vastaavien muuttujien ala- ja yläkvartiilit. Käyttämällä esimerkiksi ala- ja yläkvartiilia sekä mediaania saadaan jakauman sijainnista melko hyvä kuva. TYYPPIARVO ELI MOODI Kunta-aineiston muuttujille lääni, kuntamuoto ja kieli ei voi laskea keskiarvoa eikä määrittää mediaania. Voidaan ainoastaan todeta, että esimerkiksi suomenkielisiä kuntia on eniten. Suomi on tyypillisin kieli. Tyyppiarvo eli tyypillinen arvo eli moodi, Mo, on arvo, joka esiintyy useimmin. Sen määrittäminen voidaan tehdä myös kvalitatiivisille eli laatueroasteikon muuttujille, joille ei voida määrittää muita tilastollisia tunnuslukuja. Voidaan puhua esimerkiksi tyypillisestä suomalaisesta tai tyypillisestä perheestä, jolloin kuitenkin yleensä yhdistellään monia eri ominaisuuksia, jotka esiintyvät väestössä muita ominaisuuksia useammin. Henkilöä tai perhettä, jolla olisi kaikki tyypilliset ominaisuudet, ei käytännössä ole olemassa. EU:n komission jäsenten ikäjakaumassa (esim. 3.1) on kaksi tyypillisintä arvoa: iät 52 vuotta ja 56 vuotta. Aineisto on kaksimoodinen eli bimodaalinen. Lisäksi kyseinen aineisto on niin pieni, että sattuman vaikutus moodin määräytymiseen on melko suuri. Koska moodi on se muuttujan arvo, joka esiintyy useimmin, se käy ilmi frekvenssijakaumasta suurimman frekvenssin kohdalta. Jos muuttuja saa paljon eri arvoja tai on jatkuva, se on luokiteltava ennen moodin määrittämistä. Luokitellussa aineistossa tyyppiarvona pidetään yleensä sitä luokkaa tai sen luokan keskikohtaa, jonka frekvenssi on suurin. On huomattava, että luokittelu saattaa vaikuttaa moodin määräytymiseen. Esim. 3.6 Esimerkin 2.3 frekvenssijakaumasta käy ilmi, että kunta-aineistossa kyseisellä luokittelulla tyypillisin asuntojen keskimääräinen koko on 90 m 2 99 m 2. Tyyppiarvon etuna on, että se on helppo määrittää ja sen muuttujalle asettamat vaatimukset ovat pienet. Esimerkiksi kaupunginvaltuuston paikkaluku voidaan ilmoittaa tilastona, jossa muuttuja on poliittinen puolue. Tämä muuttuja on laadullinen eikä sen arvoja voida panna esimerkiksi suuruusjärjestykseen. Huono puoli on, että tyyppiarvo kuvaa vain vähän jakauman keskimääräistä sijaintia.

5-8 Tutki oheisen kuvion maasta muuttaneiden lukumääriä eri ajankohtina. Millaista vaihtelua aikasarjassa esiintyy? Näyttääkö kuukausittainen vaihtelu lisääntyvän vai vähenevän? Mihin suuntaan muuttomäärät näyttävät kehittyvän vuositasolla? Maasta muuttaneet kuukausittain vuosina 1995-1999 Lukumäärä 1800 1600 1400 1200 1000 800 600 400 200 0 1995 1996 1997 1998 1999 Joulu Marras Loka Syys Elo Heinä Kesä Touko Huhti Maalis Helmi Tammi 5-9 Avioerojen lukumäärä Suomessa oli kuukausittain vuosina 1995-1999 seuraavan taulukon mukainen (lähde: Tilastokeskus): 1995 1996 1997 1998 1999 Tammikuu 1203 1151 1310 1102 1042 Helmikuu 1083 1142 1072 1085 1089 Maaliskuu 1347 1229 1080 1273 1438 Huhtikuu 1098 1125 1311 1130 1174 Toukokuu 1253 1208 1235 1191 1205 Kesäkuu 1148 991 1016 1088 1156 Heinäkuu 1043 1159 1048 1148 1119 Elokuu 1364 1256 1145 1188 1307 Syyskuu 1131 1152 1231 1189 1080 Lokakuu 1225 1197 1211 1140 1063 Marraskuu 1163 1140 972 1148 1121 Joulukuu 967 1045 973 1095 980 Tarkastele aikasarjaa graafisesti. Minkä tyyppistä vaihtelua sarjassa esiintyy? Tasoita aikasarja liukuvan keskiarvon menetelmällä. Miten määrä näyttää vuositasolla kehittyneen?

Jos likimain normaalisti jakautuneen aineiston keskiarvo (odotusarvo) ja keskihajonta tunnetaan, tiheysfunktion kuvaajan voi piirtää esimerkiksi Excelillä samoin kuin muidenkin funktioiden kuvaajia. Normaalijakaumaan liittyviä todennäköisyyksiä voi laskea määrittämällä tiheysfunktion määrätyn integraalin arvoja. Se on kuitenkin työlästä. Todennäköisyyksiä on myös taulukoitu, mutta kätevintä ne on laskea työvälineohjelmilla kertymäfunktion arvojen avulla. Esim.6.34 Synnyttäjien ikä Suomessa noudattaa likimain normaalijakaumaa. Vuonna 1998 synnyttäjien keskimääräinen ikä oli 29,9 vuotta ja iän keskihajonta 5,3 vuotta (lähde: Stakes). Lasketaan a) todennäköisyys, että satunnaisesti valittu synnyttäjä on iältään korkeintaan 25-vuotias b) todennäköisyys, että satunnaisesti valittu synnyttäjä on yli 40-vuotias c) todennäköisyys, että satunnaisesti valitun synnyttäjän ikä on välillä 25 vuotta... 35 vuotta d) ikä, jota vanhempia on 10 % synnyttäjistä. Seuraavassa todennäköisyydet on laskettu Excelin tilastofunktiolla NORM.JAKAUMA. a) P(x 25 vuotta) = F(25) 0,1776 17,76 % synnyttäjistä on siis 25-vuotiaita tai nuorempia

Tällöin saatiin seuraava tulos: Group Statistics Kolmiulotteinen hahmottaminen Sukupuoli mies nainen Std. Std. Error N Mean Deviation Mean 16 22,31 11,05 2,76 11 25,18 9,56 2,88 Kolmiulotteinen hahmottaminen Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Independent Samples Test Sig. t df t-test for Equality of Means Sig. (2-tail ed) Mean Differ ence Std. Error Differe 95% Confidence Interval of the Difference nce Lower Upper,257,617 -,699 25,491-2,87 4,10-11,32 5,58 -,719 23,56,479-2,87 3,99-11,12 5,38 Ensimmäinen testi (Levene) on varianssitesti. Sen merkitsevyyden (0,617) perusteella voidaan päätellä, että varianssit perusjoukossa ovat likimain yhtä suuret. Tällöin varsinainen T-testi luetaan ylemmältä riviltä. Koska p-arvo (hylkäämisvirheen todennäköisyys) on 0,491, nollahypoteesi jää voimaan. Testin perusteella tyttöjen ja poikien suoriutumista kielellistä valmiutta vaativista tehtävistä voidaan pitää perusjoukossa likimain yhtä hyvänä. Saatu ero keskiarvoissa voi siis johtua sattumasta.