Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4 1. METODOLOGIAN PERUSTEIDEN KERTAUSTA... 6 1.1 KESKEISTEN KÄSITTEIDEN KERTAUSTA... 7 1.2 AIHEESEEN PEREHTYMINEN... 7 1.3 AIEMPAAN TUTKIMUKSEEN TUTUSTUMINEN... 8 1.4 TUTKIMUSONGELMAN TÄSMENTÄMINEN... 9 1. TUTKIMUSMENETELMÄN VALINTA JA LUOTETTAVUUS... 10 2. AINEISTO... 12 3. AINEISTON TIIVISTÄMINEN... 16 3.1 FREKVENSSIT JA PROSENTIT... 16 3.2 KESKILUVUT... 22 3.3 ERIKOISEMPIA KESKIARVOJA... 23 3.4 HAJONTALUVUT... 24 4. RISTIINTAULUKOINTI... 28 4.1 RISTIINTAULUKON RAKENTAMINEN... 28 4.2 DIKOTOMINEN RISTIINTAULUKKO... 30 4.3 RISTIINTAULUKON ANALYSOINTI... 31 χ 2 testi... 31 χ 2 testin tilastollinen päättely... 33 Yatesin jatkuvuuskorjain... 34 Fisherin tarkka testi... 3. MITTA-ASTEIKOT JA KORRELAATIO... 37.1 LAATUERO- ELI NOMINAALIASTEIKKO... 37 Kontingenssikerroin... 38 Phi-kerroin...38.2 JÄRJESTYS- ELI ORDINAALIASTEIKKO... 39 Spearmanin järjestyskorrelaatiokerroin... 39.3 VÄLIMATKA- JA SUHDEASTEIKKO... 41 Pearsonin tulomomenttikorrelaatiokertoimen laskeminen... 41 Korrelaatiokertoimen tulkinta... 43 Korrelaation merkitsevyys... 44 Korrelaatiomatriisi... 4 Korrelaatiokertoimen graafinen tulkinta... 46 Anomaliat korrelaatiokertoimessa... 48 Korrelaatioita erikoistilanteisiin... 0 Cohenin Kappa... 0 Osittaiskorrelaatio... 0 Piste-biseriaalinen korrelaatio... 1 Biseriaalinen korrelaatio... 2 4
Tetrakorinen korrelaatio... 6. KESKIARVOJEN ERON TESTAAMINEN... 7 6.1 MANN-WHITNEYN U-TESTI... 8 U-testin laskeminen... 9 U-testin tulkinta... 61 6.2 T-TESTI... 62 Otoskeskiarvon vertaaminen annettuun keskiarvoon... 63 Kahden ryhmän keskiarvon vertailu... 6 t-testi kun ryhmien varianssit ovat eri suuruisia... 67 t-testi kun varianssit ovat yhtä suuria... 69 6.3 USEAMMAN RYHMÄN KESKIARVON VERTAILU... 71 7. LOPUKSI... 72 LÄHTEET... 73 ASIA- JA HENKILÖHAKEMISTO... 74 TAULUKOT... 76
Indeksi = 100* Hinta tänä vuonna Hinta perustasovuonna Perustasovuosi on se vuosi, josta lähtien indeksiä lähdetään laskemaan. Oletetaan että vuosi 199 olisi vuosi, josta lähtien kaikkia kiintoisia koulutuskustannuksia lähdetään tarkkailemaan. Esimerkki on kuvitteellinen sovellus Juha Heikkilän Tilastotieteen ABC kirjan (1993, 142-14) esimerkistä. Vuosi Indeksi Suhteellinen muutos edelliseen vuoteen 199 100-1996 107.8 1.0780 1997 11.9 1.071 1998 129.3 1.116 1999 144.8 1.1199 2000 18.3 1.0932 Voidaan päätellä, että vuodesta 199 vuoteen 2000 koulutuskustannukset ovat nousseet 18.3-100 100* = 8.3 % 100 Koulutuskustannusindeksin keskimääräinen vuosittainen kasvu saadaan geometrisen keskiarvon avulla: G = 1.0780*1.071*1.116*1.11991.0932 = 1.83 (eli vuoden 2000 indeksin arvo) = 1.0962 Indeksi siis kasvoi keskimäärin vuosittain 1.0962-kertaiseksi eli 9.62 %. 3.4 Hajontaluvut Varianssi Hajonta ajontaluvuista ehdottomasti tärkein on varianssi (s 2 ) ja tästä johdettu hajonta (s), jotka kuvaavat arvojen vaihtelua keskiarvon ympärillä. Hyvin yksinkertaisella esimerkillä voidaan osoittaa varianssin merkitys keskiarvon tarkkuuden mittana: Oletetaan kaksi erilaista aineistoa, joilla molemmilla on sama keskiarvo. Kyseisiä aineistoja voidaan kuvata tilanteina 1. ja 2. 24
Esimerkki keskiarvosta ja hajonnasta Tilanne 1. Tilanne 2. Karkea esimerkki keskiarvosta ja varianssista -3-2 -1 1 2 3-3 -2-1 1 2 3 Tilanteessa 1. on kuvattu 10 havaintoa, joiden keskiarvo on 0. Havainnot ovat keskittyneet tasaisesti nollan ympärille. Varianssi on pieni. Tilanteessa 2. on kuvattu myös kymmenen havaintoa, joiden keskiarvo on myös 0. Havainnot eivät kuitenkaan ole lähelläkään keskiarvoa, vaan varianssi on suuri. Varianssi lasketaan vähentämällä keskiarvo x kustakin arvosta x i, korottamalla saadut luvut toiseen potenssiin ( 2 ), summaamalla kaikki keskipoikkeamat yhteen ja jakamalla (n-1):llä. Kaavamuodossa varianssi on siis seuraava: (Σx) 2 Σ (x i x ) 2 Σx 2 n s 2 = eli toisessa muodossa s 2 = n 1 n 1 Mikäli kyseessä on populaation eli kaikkien tunnettujen alkioiden (esimerkiksi koko Suomen kaikkien sairaanhoitajien ikä) varianssi, laskukaavana käytetään aavistuksen yksinkertaisempaa kaavaa: (Σx) 2 Σ (x i - x ) 2 Σx 2 N σ 2 = eli σ 2 = N N Aineistosta lasketun IKÄ -muuttujan varianssi lasketaan seuraavasti. Taulukoidaan arvo (x x) ja sen neliö. Keskiarvohan jo laskettiin, ja se oli 36.2 vuotta. 2
IKÄ x 2 x- x (x - x ) 2 26 676-10.2 104.04 28 784-8.2 67.24 29 841-7.2 1.84 30 900-6.2 38.44 30 900-6.2 38.44 32 1024-4.2 17.64 32 1024-4.2 17.64 3 122-1.2 1.1 3 122-1.2 1.1 37 1369 0.8 0.64 41 1681 4.8 23.4 42 1764.8 33.64 47 2209 10.8 116.64 47 2209 10.8 116.64 2 2704 1.8 249.64 Σ= 43 Σ= 203 Σ= 878.08 x =36.2 Ikä-muuttujan varianssi on siis 878.4/14=62.743. Toisella kaavalla tietenkin saadaan sama tulos: (203-43*43/1)/14= 62.743. Hajonta on suuri, mikä näkyy myös suurissa poikkeamissa keskiarvosta. Toisin sanoen keskiarvo itsessään on osittain harhaanjohtava suure, joka vaatii rinnalleen hajontamitan kuvaamaan poikkeamia tästä keskiarvosta. Keskihajonta Vaihteluväli Varianssin neliöjuuri on nimeltään keskihajonta (standard deviation). Toisin sanoen ikä-muuttujan keskihajonta on se lukuarvo, joka itsensä kanssa kerrottuna antaa 62.743. Tämä luku on pyöreästi 7.921, sillä 7.921*7.921=62.74. Keskihajonnalla on merkittävä osuus normaalijakauman pistemäärien todennäköisyystarkasteluissa. Muitakin hajontalukuja on olemassa, kuten variaatio- eli vaihteluväli. Vaihteluväli kertoo nimensä mukaisesti pienimmän ja suurimman arvon välin. Sovellusten kannalta kuitenkin ehdottomasti tärkeämpiä ovat varianssi ja hajonta. 26