Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... SISÄLLYSLUETTELO... 6 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 8 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA...9 1.2 AIHEESEEN PEREHTYMINEN...9 1.3 AIEMPAAN TUTKIMUKSEEN TUTUSTUMINEN...10 1.4 TUTKIMUSONGELMAN TÄSMENTÄMINEN...11 1. TUTKIMUSMENETELMÄN VALINTA JA LUOTETTAVUUS...12 2. AINEISTO... 14 TEHTÄVIÄ...17 3. AINEISTON TIIVISTÄMINEN... 18 3.1 FREKVENSSIT JA PROSENTIT...18 3.2 KESKILUVUT...24 3.3 ERIKOISEMPIA KESKIARVOJA...2 3.4 HAJONTALUVUT...26 TEHTÄVIÄ...29 4. RISTIINTAULUKOINTI... 30 4.1 RISTIINTAULUKON RAKENTAMINEN...30 4.2 DIKOTOMINEN RISTIINTAULUKKO...32 4.3 RISTIINTAULUKON ANALYSOINTI...33 χ 2 testi... 33 χ 2 testin tilastollinen päättely... 3 Yatesin jatkuvuuskorjain... 36 Fisherin tarkka testi... 37 TEHTÄVIÄ...39. MITTA-ASTEIKOT JA KORRELAATIO... 40.1 LAATUERO- ELI NOMINAALIASTEIKKO...40 Kontingenssikerroin... 41 Phi-kerroin... 41.2 JÄRJESTYS- ELI ORDINAALIASTEIKKO...42 Spearmanin järjestyskorrelaatiokerroin... 42.3 VÄLIMATKA- JA SUHDEASTEIKKO...44 Pearsonin tulomomenttikorrelaatiokertoimen laskeminen... 44 Korrelaatiokertoimen tulkinta... 47 Korrelaation merkitsevyys... 48 Korrelaatiomatriisi... 48 Korrelaatiokertoimen graafinen tulkinta... 49 Anomaliat korrelaatiokertoimessa... 2 6
Korrelaatioita erikoistilanteisiin... 4 Cohenin Kappa...4 Osittaiskorrelaatio...4 TEHTÄVIÄ... 6. KESKIARVOJEN ERON TESTAAMINEN... 6 6.1 MANN-WHITNEYN U-TESTI...7 U-testin laskeminen... 8 U-testin tulkinta... 60 6.2 T-TESTI...62 Otoskeskiarvon vertaaminen annettuun keskiarvoon... 62 Tilastollinen päättely...63 Kahden ryhmän keskiarvon vertailu... 64 t-testi kun ryhmien varianssit ovat eri suuruisia... 66 Tilastollinen päättely...66 t-testi kun varianssit ovat yhtä suuria... 68 Tilastollinen päättely...69 6.3 USEAMMAN RYHMÄN KESKIARVON VERTAILU...70 TEHTÄVIÄ...70 7. LOPUKSI... 71 LÄHTEET... 72 ASIA- JA HENKILÖHAKEMISTO... 73 TAULUKOT... 7 7
Frekvenssipolygoni Frekvenssien graafisessa kuvauksessa käytetään joskus myös frekvanssipolygonia eli frekvenssimonikulmiota (tosin harvemmin kuin histogrammia). Tällöin yhdistetään kunkin luokan luokkakeskus janalla toisiinsa. Polygonin alkupisteenä on alinta luokkaa edeltävä ns. nollaluokka. Ts. polygoni alkaa nollapisteestä. Samoin polygoni loppuu nollapisteeseen. Tällöin loppupisteenä on viimeisen luokan jälkeen tuleva nollaluokka. f 4 3 2 1 0 22 27 32 37 42 47 2 7 Ikäluokkien luokkakeskus Kuvio. Frekvenssipolygoni 3.2 Keskiluvut Keskiarvo eskiluvuilla tarkoitetaan sellaisia lukuja, joilla pyritään ilmaisemaan aineiston informaatio yhdellä ainoalla luvulla, keskiluvulla. Yleisin tunnettu keskiluku on keskiarvo (merkitään x, M tai k.a.) tai ehkä vielä paremmin ilmaisuna aritmeettinen keskiarvo (mean). Aritmeettinen keskiarvo lasketaan summaamalla kaikki arvot yhteen ja jakamalla numeruksella. Näin siis aineiston koeryhmän iän yhteenlaskettu summa on 26+28+29+30+30+32+32+3+3+37+41+42+47+47+2=43 Summa 43 jaetaan numeruksella eli yhteenlaskettavien määrällä 1. Näin ollen koeryhmän keskimääräinen ikä on 43/1=36.2 vuotta. Aritmeettinen keskiarvo kertoo siis kyseisen muuttujan keskimääräisen arvon. 24
Moodi: Se, mitä on eniten Mediaani: Suuruusjärjestyksessä olevan aineiston keskimmäisin arvo Mikäli halutaan tietää, minkä muuttujan arvon frekvenssi on suurin, puhutaan moodista (Mo). Moodi on siis se muuttujan arvo, jota on eniten. Koeryhmän iällä ei ole selkeää yhtä moodia, vaan moodeja oli 4: 30,32,3 ja 47. Luokitellusta aineistosta huomaamme, että ikäryhmä 30-34 -vuotiaat on moodiluokka. Esimerkkimme tapauksessa moodi ei ole kaikkein järkevin keskiluku, mutta joitakin aineistoja se karakterisoi hyvin. Erityisesti silloin, jos aineistossa on joitakin poikkeavia havaintoja, saattaa moodi antaa aineistosta luotettavamman kuvan kuin keskiarvo. Mediaani (Md) on puolestaan järjestetyn aineiston kaikkein keskimmäisin arvo. Toisin sanoen mediaanin yläpuolelle ja alapuolelle jää 0 % havainnoista. Ikä-muuttujan mediaani on 3, sillä tätä nuorempia on 7 ja vanhempia 7 (itse asiassa pitäisi puhua mediaaniluokasta, sillä keskellä on kaksi saman ikäistä hoitajaa; mediaanin laskeminen jätetään tässä tapauksessa kuitenkin tekemättä). Mediaania käytetään harvoin, mutta terminä se on hyvä tietää. Kvalitatiivista aineistoa moodi ja mediaani saattavat kuvata joskus erittäin oivallisesti, mikäli aineisto on järjestetty. 3.3 Erikoisempia keskiarvoja Aritmeettisen keskiarvon lisäksi on olemassa kaksi muutakin keskiarvoa: geometrinen ja harmoninen keskiarvo. Näistä geometrisen keskiarvon tuntemisella saattaa olla käytännöllistä hyötyä. Geometrinen keskiarvo määritellään siten, että lukujen A ja B geometrinen keskiarvo toteuttaa yhtälön: A G = G B Tästä ratkaisemalla saadaan, että G= A*B. Yleisesti geometrinen keskiarvo on n G= x 1 * x 2 * *x n eli geometrinen keskiarvo on lukujen tulojen niin mones juuri kuin tulontekijöitä on yhteensä. Käytännöllinen esimerkki geometrisen keskiarvon käytöstä on suhteellisen osuuden muutoksen keskiarvo. Voisimme olla kiinnostuneita siitä, kuinka paljon koulutuskustannukset ovat nousseet viimeisten kuuden vuoden ai- 2
aikana. Lähestymme ongelmaa kuluttajaindeksin näkökulmasta, nyt vain koulutuskustannusindeksinä. Indeksi lasketaan seuraavasti: Indeksi = 100* Hinta tänä vuonna Hinta perustasovuonna Perustasovuosi on se vuosi, josta lähtien indeksiä lähdetään laskemaan. Oletetaan että vuosi 199 olisi vuosi, josta lähtien kaikkia kiintoisia koulutuskustannuksia lähdetään tarkkailemaan. Esimerkki on kuvitteellinen sovellus Juha Heikkilän Tilastotieteen ABC kirjan (1993, 142-14) esimerkistä. Vuosi Indeksi Suhteellinen muutos edelliseen vuoteen 199 100-1996 107.8 1.0780 1997 11.9 1.071 1998 129.3 1.116 1999 144.8 1.1199 2000 18.3 1.0932 Voidaan päätellä, että vuodesta 199 vuoteen 2000 koulutuskustannukset ovat nousseet 18.3-100 100* = 8.3 % 100 Koulutuskustannusindeksin keskimääräinen vuosittainen kasvu saadaan geometrisen keskiarvon avulla: G = 1.0780*1.071*1.116*1.11991.0932 = 1.83 (eli vuoden 2000 indeksin arvo) = 1.0962 Indeksi siis kasvoi keskimäärin vuosittain 1.0962 kertaiseksi eli 9.62 %. 3.4 Hajontaluvut Varianssi Hajonta ajontaluvuista ehdottomasti tärkein on varianssi (s 2 ) ja tästä johdettu hajonta (s), jotka kuvaavat arvojen vaihtelua keskiarvon ympärillä. Hyvin yksinkertaisella esimerkillä voidaan osoittaa varianssin merkitys keskiarvon tarkkuuden mittana: Oletetaan kaksi erilaista aineistoa, joilla molemmilla on sama keskiarvo. Kyseisiä aineistoja voidaan kuvata tilanteina 1. ja 2. 26