Sisältö Kvantitatiivinen metodologia verkossa Perusteiden Kertaus Pekka Rantanen Helsingin yliopisto Tilastollinen analyysi Tilastotieteen tavoitteet Kvantitatiivisen tutkimuksen peruskäsitteitä Tilastollisten menetelmien jako Jakauman kuvailu Millä muuttujan mittaustasoilla keskilukuja voidaan laskea Hajontaluvut Millä muuttujan mittaustasoilla hajontalukuja voidaan laskea Analyysin vaiheet ja esimerkki Parametrittomat eli nonparametriset testit Mann Whitney testi Mittaustason ja aineiston jaon vaikutus eri testien käyttöön HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 1/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 2/28 Tilastollinen analyysi Olipa kyseessä kvalitatiivinen tai kvantitatiivinen tutkimus, tilastotiedettä osaava tutkija saa aineistostaan aina enemmän irti kuin tilastotiedettä osaamaton tutkija (Puranen) Kvantitatiivinen tutkimus Kvantitatiivinen tutkimus perustuu numeerisen tiedon keräämiseen ja kerätyn aineiston tilastomatemaattiseen analyysiin Analyysin tavoitteena on kuvata ja havainnollistaa mahdollisimman selkeästi havaintojoukkoa: taulukoimalla, tunnusluvuilla ja graafisesti tehdä yleistyksiä perusjoukkoon otoksen avulla löytää muuttujien välisiä matemaattisesti kuvattavia yhteyksiä, joko kausaalisia tai eikausaalisia testata ja kehittää tieteellisia teorioita ja malleja HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 3/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 4/28 Peruskäsitteitä Mittauksen kohteet ovat tilastoyksikköjä eli havaintoyksikköjä: Yksittäinen henkilö: asiakas, osallistuja, matkustaja, äänestäjä, kuluttaja, työtön, vanhus tai lapsi Organisaatio tai yhteisö: valtio, kansa, perhe, koulu, yritys, yliopisto, sairaala tai sanomalehti Abstraktio, esine, eläin tai kasvi: Asiakassuhde, palvelu, hinta tai ottelutulos Peruskäsitteitä Tilastoyksiköihin liittyvästä asiasta tai ominaisuuden määrästä luodaan muuttuja. Mittaaminen tuottaa havaintoarvon. Kyselytutkimuksessa muuttuja muodostetaan tiettyyn kysymykseen annetuista vastauksista. Esim. sukupuoli, ikä, mielipide, liikevaihto, henkilöstön määrä, koulutus, paikkakunta, jne. Muuttujat jaotellaan taustamuuttujiin (demografiset muuttujat) ja varsinaisiin tutkimusmuuttujiin HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 5/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 6/28
Muuttujista Mittauksen tulokset (esim. kysymysten vastaukset) ovat muuttujan arvoja tietyllä asteikolla Mittaasteikkojen tärkeimmät pääluokat 1. Välimatkaasteikko (scale) ikä 2. Järjestysasteikko (ordinal) koulutus 3. Luokitteluasteikko (nominal) asuinpaikkakunta Muuttujista Mittaasteikkojen luokittelu arvojen tiheyden perusteella Jatkuva muuttuja: palkka, etäisyys, liikevaihto, hinta, pituus, paino Epäjatkuva eli diskreetti muuttuja: lasten lukumäärä, mielipidekyselyiden asteikot Dikotominen eli kaksiarvoinen: muuttuja sukupuoli, dummymuuttuja 0/1 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 7/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 8/28 Populaatio eli perusjoukko on tutkimuksen kohdejoukko. Kokonaistutkimuksessa tutkitaan koko perusjoukko Otantatutkimuksessa perusjoukkoa tutkitaan otannan kautta Otannan perustella voidaan tehdä yleistys perusjoukkoon, koska oikein muodostettu otos on perusjoukon pienoismalli. Tarkasti perusjoukon ominaisuuksia kuvastavaa otosta kutsutaan edustavaksi otokseksi. Edustavuus perustuu satunnaisuuden käyttöön. Otantatutkimus tehdään, koska 1. kokonaistutkimus on liian kallis tai vaivalloinen 2. otannan avulla saadaan useimmiten riittävän tarkka tulos Toisinaan tutkijan on tyydyttävä harkinnanvaraiseen ei satunnaisesti valittavaan näytteeseen Yksinkertainen satunnaisotanta (systematic sample) Arvotaan tilastoyksiköt otokseen, tai sekoitetaan perusjoukko ja valitaan järjestyksessä. HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 9/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 10/28 Systemaattinen eli tasavälinen satunnaisotanta (simple random sampling) Valitaan otantakehikosta aloituskohta ja poimitaan esim. joka viides. Pelkistetyin otantamenetelmä. Ositettu otanta (stratified sampling) Perusjoukon jonkin osaryhmän koko voi olla niin pieni, että yksinkertainen satunnaisotanta ei pysty varmistamaan, että ryhmän edustus toteutuisi otoksessa. Ryväsotanta (cluster sampling) Tavoitteena on vähentää tietojen keruun aiheuttamia kustannuksia ja työmäärää samalla varmistaen, että otos on kuitenkin mahdollisimman edustava. Ryväsotannassa yleistettävyys laskee, mikäli valittavissa ryppäissä havaintoyksikköt ovat samankaltaisia. Pienen osaryhmän osuutta voidaan kasvattaa riittävän mittaustarkkuuden ja vertailtavuuden saavuttamiseksi. HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 11/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 12/28
Tilastollisten menetelmien jako Yhden muuttujan menetelmät (univariate methods) graafinen tarkastelu keskiluvut hajontaluvut Kahden muuttujan menetelmät (bivariate methods) korreaatiot ttesti varianssianalyysi Tilastollisten menetelmien jako Monimuuttujamenetelmiä (multivariate methods) regressioanalyysit kovarianssianalyysit faktorianalyysit ryhmittelyanalyysit erotteluanalyysit rakenneyhtälöt, SEMmallintaminen monitasomallit HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 13/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 14/28 Jakauman kuvailu Millä muuttujan mittaustasoilla keskilukuja voidaan laskea Keskiluvut Moodi (tyyppiarvo) Yleisin arvo, moodeja voi olla useita Mediaani (keskiluku) Järjestetyn joukon keskimmäinen arvo Aritmeettinen = havaintojen summa / havaintojen määrä Geometrinen ja harmoninen = voi käyttää = ei voi käyttää Keskiluku Moodi Mediaani Aritmeettinen Geometrinen ja harmoninen (Tietovaranto) Suhdeasteikko Luokitteluasteikko Muuttujan mittaustaso Välimatka asteikko Järjestyasteikko HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 15/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 16/28 Hajontaluvut Jakauman kuvailu Variaatiosuhde v = 1 (havaintojen määrä moodiluokassa / havaintojen määrä) Vaihteluväli pienimmän ja suurimman muuttujan arvon välin W=["peruskoulu", "korkeakoulu"]. Vaihteluvälin pituus w = x max x min, vähennyslasku Variaatiokerroin Suhteuttaa keskihajonnan aineiston on V = s / x Keskihajonta Lukujen etäisyys aritmeettisesta sta Otoksella jakajana n 1 s = 1 n n i= 1 ( x i x) 2 Geometrinen Harmoninen HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 17/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 18/28
Hajontaluvut (Tietovaranto) Analyysin vaiheet = voi käyttää = ei voi käyttää Variaatiosuhde Vaihteluväli Vaihteluvälin pituus Keskihajonta Variaatiokerroin Välimatkaasteikko Luokitteluasteikko Muuttujan mittaustaso Suhdeasteikko Järjestysasteikko Hajontaluku Muuttujien välisten yhteyksien analyysi jakautuu kahteen peräkkäiseen vaiheeseen 1. Tilastollisen merkitsevyyden tarkastelu Tilastollinen merkitsevyys ilmaisee onko aineistossa oleva yhteys syntynyt sattumalta. 2. Efektikoon suuruuden tarkastelu Mikäli aineistossa oleva yhteys on tilastollisesti merkitsevä, niin tämän jälkeen tulee tarkastella kuinka voimakas yhteys on HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 19/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 20/28 Esimerkkinä rahan heitto a) Kolikkoa heitetään kolme kertaa, jolloin tulokseksi saadaan 2 kruunaa ja 1 klaava. Efektikoko on erittäin suuri, kruunan todennäköisyys on 66 %! Tilastollisen merkitsevyyden tarkastelu sen sijaan osoittaa, että tulosta ei voida yleistää. Tällä otoksella ei voida päätellä kruunan esiintyvän missä tahansa heittosarjassa noin kaksi kertaa klaavaa useammin. Tilastollisen merkitsevyyden tarkastelu estää johtopäätösten tekemisen liian pienestä aineistosta. HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 21/28 Esimerkkinä rahan heitto b) Kolikkoa heitetään 3 000 kertaa. Kruunaa saadaan 1 560 kpl (52 %) ja klaavaa 1 440 kpl (48 %). Efektikoko on hyvin pieni, kruunaa tulee vain 2 prosenttiyksikköä odotettua arvoa enemmän. Tilastollisen merkitsyyden tarkastelu osoittaa, että kruunan ja klaavan osuudet poikkeavat tilastollisesti merkitsevästi odotetusta, p < 0,050. Koska tulos ei mene satunnaisvaihtelun piikkiin, joudumme tarkastelemaan ilmiötä tarkemmin. Ahaa! Kolikko onkin kupera. Tulos on sekä selitettävissä että yleistettävissä perusjoukkoon. HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 22/28 Tilastollinen merkitsevyys Kuinka harvinaisen ilmiön täytyy olla, jotta sen ei ajatella syntyneen sattumalta? 1, 1 %, 10 % Rahanheitto 1 kruunu 0,5 1 = 0,5 2 kruunua 0,5 2 = 0,25 3 kruunua 0,5 3 = 0,125 4 kruunua 0,5 4 = 0,062 5 kruunua 0,5 5 = 0,031 < 0,050 parvon tulkinta 2suuntainen testaus: Ryhmä A, = 3,0 Ryhmä B, = 3,6 Tilastollinen merkitsevyys on p = 0,010 Tulkinta: Mikäli ryhmien A ja B perusjoukkojen t ovat yhtäsuuret (H 0 ), niin tällöin on olemassa 1 %:n todennäköisyys sille, että otannan satunnaisuuden vuoksi ryhmän B on vähintään 0,6 suurempi tai pienempi kuin ryhmän A. HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 23/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 24/28
parvon tulkinta Muuttujien x ja y välillä on korrelaatio r xy = 0,42; p = 0,023; n = 35 Tulkinta: Mikäli perusjoukossa muuttujien x ja y välillä ei ole korrelaatiota, niin tällöin on olemassa 2,3 %:n todennäköisyys sille, että otannan satunnaisuuden vuoksi muuttujien välille saadaan korrelaatio, joka on suurempi kuin 0,42 tai pienempi kuin 0,42. HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 25/28 parvon tulkinta 1suuntainen testaus Mikäli perusjoukossa ei ole korrelaatiota tai jen erotus on nolla, niin tällöin todennäköisyys tapahtumalle r xy > 0,42 on p = 0,024/2 = 0,012 x B x A > 0,6 on p = 0,001/2 = 0,0005 Testauksessa on vahva oletus yhteyden suunnasta. r < 0,42 x B x A < 0,6 r = 0 x A x B = 0 r > 0,42 x B x A > 0,6 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 26/28 Efektikoon mittoja Efektikoko kuvaa yhteyden voimakkuutta. Se on standardoitu riippumattoman muuttujan vaikutuksen (efektin) estimaattori (kokeellinen tutkimusasetelma). Efektikoon raportoiminen mahdollistaa tutkimustuloksien vertailun. Otoskoon yhdistäminen efektikokoon mahdollistaa synteesin (metaanalyysin) tekemisen useista eri tutkimuksista (vrt. kolikon heitto). Cohenin d Keskiarvojen erotus suhteutetaan vertailtavien ryhmien keskihajontaan. Jos tulos on toivotun tai ennustetun suuntainen, niin tällöin d > 0. d = x A x B = 2 2 ( σ A + σ B ) 2 76 52 24 = = 2 2 2 (12 + 12 ) 12 2 Julkaisusarjat vaativat efektikoon raportoinnin. HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 27/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 28/28 Korrelaatio Korrelaatiokertoimet ovat kaikkein tunnetuimpia efektikoon mittoja. Pearson, Spearman, eta, biserial, jne. Korrelaatio (tulomomenttikerroin) on pisteparveen asetetun suoran kulmakerroin, jos muuttujien x ja y hajonnat ovat yhtäsuuret. 1 r xy 1 r= k= y y = r xy x + vakio x = y Suora asetetaan pisteparveen siten, että pisteiden yakselin suuntaisten etäisyyksien = x neliöiden summa minimoituu, PNSmenetelmä. r 2 R 2 η 2 Selitysosuus Korrelaatiolle Regressioanalyysille Varianssianalyysille Selitysosuus ilmaisee kuinka suuren osuuden riippumaton muuttuja selittää riippuvan muuuttujan varianssista. Varianssi (keskihajonnan neliö) selitetyn vaihtelun mittana antaa melko matalia lukuarvoja HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 29/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 30/28
Efektikokovertailu Cohen's Standard d r r² 2.0 0.707 0.500 1.8 0.669 0.448 1.6 0.625 0.390 1.4 0.573 0.329 1.2 0.514 0.265 1.0 0.447 0.200 LARGE 0.8 0.371 0.138 0.7 0.330 0.109 0.6 0.287 0.083 MEDIUM 0.5 0.243 0.059 0.4 0.196 0.038 0.3 0.148 0.022 SMALL 0.2 0.100 0.010 0.1 0.050 0.002 0.0 0.000 0.000 Parametrittomat eli nonparametriset testit Testeillä tutkitaan ovatko jakaumat saman muotoiset ja samassa paikassa Mittaasteikon tulee olla vähintään järjestysasteikollinen. Testit toimivat paremmin välimatkaasteikoisilla muuttujilla, koska tällöin ei yhtä helposti synny sidoksia (samoja arvoja) Perusjoukon ei tarvitse olla normaalijakautunut, joten aineistojen jakaumat voivat olla erittäin vinoja Mikäli jakaumien oletetaan olevan saman muotoiset on kyseessä mediaanitesti. Eiparametrinen testi ei siis merkitse, että testiin ei liittyisi mitään oletuksia. http://www.uccs.edu/~lbecker/psy590/escalc3.htm HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 31/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 32/28 Mann Whitney testi Mann Whitney testi Mann Whitneyn testillä tutkitaan millä todennäköisyydellä kahden riippumattoman ryhmän perusjoukkojen jakaumien muodot ja paikat ovat samat Päällekkäisyyttä tutkitaan järjestämällä yhdistetyt aineistot suuruusjärjestykseen muuttamalla muuttujanarvot järjestysluvuiksi ja laskemalla otoksiin liittyvät järjestyslukujen summat. ja HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 33/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 34/28 Mann Whitney testi ja Järjestyslukujen summia T A ja T B kutsutaan Wilcoxonin testisuureiksi. Niiden jakaumat riippuvat havaintojen lukumääristä n A ja n B. Wilcoxonin testisuureet korvataankin usein nk. Mann Whitneyn testisuureilla. Taulukoiden asemasta käytetään usein testisuureen normaaliapproksimaatiota. (Puranen) Nonparametriset testit Tutkittava nollahypoteesi sisältää sekä jakauman paikan yhtä suuruuden että muodon samanlaisuuden. Käytännössä kuitenkin puhutaan jakauman paikan (so. mediaanin) yhtä suuruuden testaamisesta, vaikka testi reagoi myös muihin poikkeamiin. Mikäli testin tuloksena todetaan, että nollahypoteesi ei voi olla tosi, on syytä miettiä, kuvaako tulos eroja aineistojen jakauman paikassa, vaihtelussa vai muodossa. HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 35/28 HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 36/28
Mittaustason ja aineiston jaon vaikutus eri testien käyttöön (Muhli) Aineiston jako 1 otos 2 riippumatonta otosta k riippumatonta otosta 2 riippuvaa otosta k riippuvaa otosta Luokitteluasteikko χ 2 Binomial Runs McNemar Cochran Järjestysasteikko KolmogorovSmirnov MannWhitney U Moses KolmogorovSmirnov WaldWolfowitz runs KruskalWallis Median Wilcoxon SignedRank Sign Friedman Kendall HY/SVY Kvantitatiivinen metodologia verkossa Perusteiden kertaus Pekka Rantanen 37/28