VALTA9 Kvantitatiiviset tutkimusmenetelmät ja aineistot



Samankaltaiset tiedostot
Kvantitatiiviset tutkimusmenetelmät maantieteessä

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Testejä suhdeasteikollisille muuttujille

Kandidaatintutkielman aineistonhankinta ja analyysi

Sisältö. Perusteiden Kertaus. Tilastollinen analyysi. Peruskäsitteitä. Peruskäsitteitä. Kvantitatiivinen metodologia verkossa

TUTKIMUSOPAS. SPSS-opas

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastollisten aineistojen kerääminen ja mittaaminen

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Ohjeita kvantitatiiviseen tutkimukseen

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Testit järjestysasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

Harjoitus 7: NCSS - Tilastollinen analyysi

Kvantitatiiviset menetelmät

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Sovellettu todennäköisyyslaskenta B

HAVAITUT JA ODOTETUT FREKVENSSIT

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

Kvantitatiiviset menetelmät

SPSS ohje. Metropolia Business School/ Pepe Vilpas

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

MONISTE 2 Kirjoittanut Elina Katainen

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

SISÄLTÖ 1 TILASTOJEN KÄYTTÖ...7 MITÄ TILASTOTIEDE ON?

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Otannasta ja mittaamisesta

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

MTTTP1, luento KERTAUSTA

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

tilastotieteen kertaus

SPSS OPAS. Metropolia Liiketalous

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

MTTTP1, luento KERTAUSTA

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTP1, luento KERTAUSTA

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Perusnäkymä yksisuuntaiseen ANOVAaan

Väliestimointi (jatkoa) Heliövaara 1

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

MTTTP5, luento Luottamusväli, määritelmä

KAHDEN RYHMÄN VERTAILU

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Aki Taanila VARIANSSIANALYYSI

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Regressioanalyysi. Kuusinen/Heliövaara 1

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Osa 2: Otokset, otosjakaumat ja estimointi

Esim. Pulssi-muuttujan frekvenssijakauma, aineisto luentomoniste liite 4

Teema 3: Tilastollisia kuvia ja tunnuslukuja

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Harjoittele tulkintoja

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Aki Taanila TILASTOLLINEN PÄÄTTELY

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Testit laatueroasteikollisille muuttujille

Til.yks. x y z

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Ohjeita kvantitatiiviseen tutkimukseen

Otoskoko 107 kpl. a) 27 b) 2654

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Mat Tilastollisen analyysin perusteet, kevät 2007

IBM SPSS Statistics 21 (= SPSS 21)

Transkriptio:

VALTA9 Kvantitatiiviset tutkimusmenetelmät ja aineistot Kevät 2012 Heikki Paloheimo heikki.paloheimo@uta.fi

Kurssin osiot ja aikataulu Kurssi koostuu kolmesta osasta 1 Luennot 2 Kirja: Alkula - Pöntinen - Ylöstalo: Sosiaalitutkimuksen kvantitatiiviset menetelmät 3 Harjoitustyö Luennot Ma klo 10-12 alkaen 16.1. päättyen 13.2. Ke klo 9-12 alkaen 18.1. päättyen 22.2. Tentti (luennot + kirja) ke 22.2 klo 10-12 Harjoitustyöaiheista sopiminen Ma 20.2. klo 10-12 https://www10.uta.fi/opas/opetusohjelma/marjapuuro.htm?id=11901 Menetelmäopetuksen sähköisiä tietovarantoja Menetelmäopetuksen tietovaranto (MOTV) http://www.fsd.uta.fi/menetelmaopetus Tilastokeskus: Verkkokoulu http://www.stat.fi/tk/tp/verkkokoulu/ SAGE Research Methods Online http://srmo.sagepub.com/ SPSS On-Line Workshop http://calcnet.mth.cmich.edu/org/spss/ Korkeatasoinen matematiikan tietovaranto http://mathworld.wolfram.com/ 1

Tasokasta oheislukemistoa Tilastolliset menetelmät Tarja Heikkilä: Tilastollinen tutkimus. 5. painos, Edita Prima 2004. Pentti Manninen ja Matti Ylén: Tilastollisen päättelyn käytäntö. Tilastotiedettä soveltajille. TI-tutkimuspalvelu 2000. http://mtl.uta.fi/monisteet/tilasto/tilastollisen_paattelyn_kaytanto.pdf Lauri Nummenmaa (2004): Tilastolliset menetelmät. Helsinki: Tammi. Neil Salkind (2011): Statistics for People Who (Think They) Hate Statistics. 4. edition. London: Sage. Surveytutkimuksen menetelmät Alkula, Tapani, Seppo Pöntinen ja Pekka Ylöstalo (1994): Sosiaalitutkimuksen kvantitatiiviset menetelmät. Helsinki. WSOY. Babbie, Earl R. (1990):Survey Research Methods. Belmont, CA.: Wadsworth. Craig Brians, Lars Willnut, Jarol Manheim, Richard Rich (2011): Empirical Political Analysis. Quantitative and Qualitative Research Methods. Eight edition. Boston: Longman.. Rosenberg, Morris (1968): The Logic of Survey Analysis. New York: Basic Books. Kurssin luento-osan rakenne 1. Tilastollisen tutkimusaineiston kerääminen 2. Yhden muuttujan ominaisuuksien kuvaaminen 3. Kahden muuttujan yhteisvaihtelun analyysi 4. Useamman kuin kahden muuttujan analyysi 5. Monimuuttujamenetelmien tutkimusasetelmia 6. Politologisia erityismenetelmiä 2

Erilaiset lähdeaineistotyypit 1. Kysely- ja haastatteluaineistot Tutkijan itse kokoamat aineistot Arkistoidut aineistot 2. Tilastoaineistot Tilastolliset tietokannat Itse kerätyt tilastot 3. Dokumenttiaineistot Erilaiset tekstiaineistot 4. Osallistuva havainnointi http://www.fsd.uta.fi/aineistot/ http://www.stat.fi/tk/tp/verkkokoulu/vk/tlkt/oppitunnit/tlkt04/index.html Haastetteluaineistoja internetissä 1. Yhteiskuntatieteellinen tietoarkisto FSD http://www.fsd.uta.fi/ 2. European Social Survey http://www.europeansocialsurvey.org/ 3. World Values Survey http://www.worldvaluessurvey.org/ 4. Comparative Study of Electoral Systems http://www.cses.org/ 5. Eurobarometer ja European Values Study Löytyy arkistoituna. Leibniz Institute for the Social Sciences http://zacat.gesis.org/webview/ 3

Vaali-, puolue- ym. tietoja valtioittain 1. International Institute for Democracy and Electoral Assistence (IDEA) http://www.idea.int/ 2. Parties and Elections in Europe http://www.parties-and-elections.de/ 3. Comparative Political Data Sets http://www.ipw.unibe.ch/content/team/klaus_armingeon/comp arative_political_data_sets/index_ger.html 4. Governments in Europe Data Archive http://www.erdda.se/gie/links.html 5. Measures of Democracy 1810-2010 http://www.fsd.uta.fi/english/data/catalogue/fsd1289/mef128 9e.html Tutkimuksen arvioinnin tarkistuslista 1. Onko tutkimusongelma esitetty selkeästi? Tunnemmeko tutkimuksen tavoitteet siten, että arvioida sen onnistumista kokonaisuutena? Liittyykö hanke johonkin laajaan poliittiseen teemaan tai ongelmaan? 2. Onko tutkimusyksiköt selkeästi yksilöity, moitteettomasti valittu, ja onko niitä käytetty johdonmukaisesti? 3. Onko tutkimuksessa käytetyt käsitteet täsmennetty selkeästi ja kehitelty asianmukaisesti? Onko käsitteillä identifioitavissa olevia vastineita? 4. Onko selvää, mitä selityksiä testataan? Jos teoriaa käytetään, onko se looginen? Onko käsitteilä identifioitavissa olevia empiirisiä vastineita? 5. Onko teoria sopusoinnussa aihetta käsittelevän kirjallisuuden kanssa? Onko kirjallisuuskatsaus kattava? Käykö tarkasteltavan tutkimuksen suhde aiempaan tutkimukseen selville? 6. Ovatko testattavaksi aiotut hypoteesit selkeästi yksilöity ja asianmukaisesti esitetty? Seuraavatko hypoteesit loogisesti oletetusta teoriasta? Ovatko hypoteesit empiirisesti testattavissa? 7. Jos testataan yhtä useampaa hypoteesia, onko näiden väliset suhteet täsmennetty? Liittyvätkö kaikki hypoteesit selkeästi oletettuun teoriaan? Onko hypoteesien rooli teorian testauksessa tehty selväksi? 8. Ovatko tutkittavat muuttujat selvästi yksilöityjä? Onko tutkittavien variaabeleiden asema (riippuva, riippumaton, väliintuleva) täsmennetty hypoteeseissa? 4

1. Tilastollisen tutkimusaineiston kerääminen 1.1. Havaintojen mittaaminen: Erilaiset mitta-asteikot Mittaasteikko Nominaalieli luokitteluasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatkaasteikko Suhdeasteikko Muuttujatyypin nimi SPSS:ssä Kategorinen muuttuja Ordinaalinen muuttuja Numeerinen muuttuja Numeerinen muuttuja Mittaus Määritetään mihin luokkaan tai tyyppiin havainto kuuluu Havaintoluokat voidaan asettaa järjestykseen Määritetään mihin luokkaan havainto kuuluu. Ilmiötä mitataan tasavälisellä asteikolla. Eri havaintoarvojen suuruuserot voidaan asettaa järjestykseen Havaintoarvon suuruutta mitataan nollapisteeseen verrattuna. Empiiriset relaatiot, jotka määrittävät mittaasteikon ekvivalenssirelaatio R i <=> R j Edellisten lisäksi järjestysrelaatio R i R j Edellisten lisäksi lisäysten järjestysrelaatio 6 (R i, R j ) 6 (R k, R l ) Edellisten lisäksi kiinteä, luonnollinen nollapiste jossa ekvivalenssiluokka R i = 0 Tilastolliset tunnusluvut eri mitta-asteikoilla Mittaasteikko Nominaali- eli luokitteluasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatkaasteikko Suhdeasteikko Keskiluvut Hajontaluvut Riippuvuusluvut moodi entropia kontingenssikerroin mediaani aritmeettinen keskiarvo harmoninen keskiarvo geometrinen keskiarvo variaatioväli kvartiiliväli keskihajonta suhteellisen variaation indeksi järjestyskorrelaatiokertoimet korrelaatiokerroin 5

1.2. Mittausten validiteetti ja reliabiliteetti Validiteetti Validiteetilla tarkoitetaan mitattavan muuttujan kykyä mitata juuri sitä, mitä on tarkoituksin mitata. Muuttuja on tarkasteltavan ominaisuuden validi mittari, jos se esittää ominaisuutta oikein, merkityksellisesti ja tarkoituksenmukaisesti. Reliabiliteetti Reliabiliteetilla tarkoitetaan mittarin kykyä antaa ei-sattumanvaraisia tuloksia. Mittaus on reliaabeli eli luotettava, jos se toistettaessa antaa samasta kohteesta saman (tai lähes saman) mittaustuloksen. Mittaus on harhainen, jos se säännönmukaisesti yliarvioi tai aliarvioi muuttujan todellista arvoa. http://www.fsd.uta.fi/menetelmaopetus/mittaaminen/luotettavuus.html#validiteetti 1.3. Tutkimusyksiköt Tutkimusyksiköt ovat niitä yksikköjä, joita koskevia tietoja datamatriisiin kerätään. Tutkimusyksikön synonyymeinä käytetään mm. termejä analyysin yksikkö ja tapaus, joskus myös englanninkielistä termiä case. Tutkimusongelma määrää sen, minkälaisista tutkimusyksiköistä tietoja kerätään.tutkimusyksiköt voivat olla esim. 1. ihmisyksilöitä tai 2. organisaatioyksikköjä kunta valtio yritys ammattiliitto poliittinen puolue 3. aikayksikköjä 4. yksittäisiä asiakirjoja http://www.fsd.uta.fi/menetelmaopetus/mittaaminen/tilastoyksikko.html 6

1.4. Variaabelit eli muuttujat Jokaisella tutkimusyksiköllä on joitakin tarkastelun kohteena olevia ominaisuuksia. Kutakin tarkasteltavaa ominaisuutta kutsutaan empiirisessä analyysissa muuttujaksi eli variaabeliksi. Tarkasteltavaa ominaisuutta yksittäisellä tutkimusyksiköllä kutsutaan muuttujan arvoksi. Kyseisen ominaisuuden kaikkia mahdollisia ilmenemismuotoja tutkimusyksikköjen joukossa kutsutaan arvoulottuvuudeksi eli variaabeliksi eli muuttujaksi. Muuttujan arvon määrittämistä yksittäisellä tutkimusyksiköllä kutsutaan mittaamiseksi. Operationalisointi Operationalisointi on toimenpide, jossa teoreettisen käsitteen kuvaamista varten laaditaan empiirisesti mitattavissa oleva indikaattori. http://www.fsd.uta.fi/menetelmaopetus/mittaaminen/luotettavuus.html#opera 7

Erilaisia muuttujatyyppejä Tutkimusyksikköinä henkilöt 1. Selitettävä vs. selittävä selitettävä (riippuva, vaste): ilmiö, jota pyritään selittämään selittävä (riippumaton): muuttujat, jotka selittävät selitettävän muuttujan vaihtelua 2. Pysyvyys pysyvä: ei muutu ajan kuluessa tilapäinen: vaihtelee aikojen kuluessa 3. Julkisuus julkiset: tiedot julkisissa rekistereissä yksityiset: tietoja ei ole julkisesti saatavilla 4. Kontekstimuuttujat kuvaavat tutkimusyksikön asemaa yhteisössä tai jossakin tutkimusyksikköä laajemmassa kontekstissa Muuttujatyypit kysely- ja haastattelututkimuksissa 1. Täsmälliset tosiasiatiedot 2. Arvionvaraiset tosiasiatiedot 3. Käyttäytymisen syyt, motiivit 4. Asenteet ja arvot 5. Sosiaaliset suhteet Antti Eskola: Sosiologian tutkimusmenetelmät II, WSOY 1967. Erkki Jyrinki: Kysely ja haastattelu tutkimuksessa. Gaudeamus 1974. 8

Erilaisia muuttujatyyppejä Tutkimusyksikköinä kollektiivit 1. Instituutiomuuttujat päätössäännöt, pelisäännöt, lait 2. Rakenne- ja resurssimuuttujat elinkeinorakenne, taloudellinen vauraus 3. Toimijoiden käyttäytyminen Kvasiekologinen tutkimus Kerätään kollektiiveja koskevia tietoja, joiden avulla pyritään tekemään päätelmiä yksilötason käyttäytymisestä. 1.5. Muuttujamuunnokset 1. Luokittelu 2. Standardisointi 3. Logaritmisointi ja muut matemaattisen funktion mukaan tehdyt muunnokset 4. Yhdistetyt muuttujat Useammasta muuttujasta koottava summamuuttuja Kasautuvat asteikkomittarit (Guttman-skaala) http://www.fsd.uta.fi/menetelmaopetus/muunnokset/muunnokset.html 9

Standardisoitu muuttuja Standardisoitu muuttuja z Muuttuja voidaan standardisoida siten, että standardisoidun muuttujan keskiarvo on 0 ja keskihajonta on 1. z = x x s x Standardisoiduilla muuttujilla on useita käytännöllisiä ominaisuuksia, minkä takia niitä käytetään runsaasti tilastollisessa laskennassa Luokittelu Transform Visual binning SPSS-keittokirja Standardisointi Analyse Descriptives Descriptives Save standardizes values as variables Matemaattiseen funktioon perustuvat muunnokset Transform Compute Functions 10

1.6. Datamatriisi V 1 V 2 V 3 V 4 V k T 1 r 11 r 12 r 13 r 14 r 1k T 2 r 21 r 22 r 23 r 24 r 2k T 3 r 31 r 32 r 33 r 34 r 3k T 4 r 41 r 42 r 43 r 44 r 4k T 5 r 51 r 52 r 53 r 54 r 5k T n r n1 r n2 r n3 r n4 r nk Analyysin yksiköt eli tutkimusyksiköt eli tapaukset (case) T 1... T n Muuttujat eli variaabelit V 1... V k Muuttujan arvot r ij http://www.fsd.uta.fi/menetelmaopetus/mittaaminen/havaintomatriisi.html Tutkimusyksikköjen ja muuttujien lukumäärän suhteen erilaisia tutkimusasetelmia Tutkimusyksikköjä Paljon Muutamia Yksi Vaaligallupit Muuttujia Yksi Muutamia Paljon Mielipidetutkimukset Vertaileva Psykologia tutkimus Tapaustutkimukset 11

Miksi surveytutkimuksessa vältetään tutkimusasetelmia, joissa on vain yksi tapaus tai vain yksi muuttuja? 1. Vain yksi tutkimusyksikkö miksi juuri tietty tutkimusyksikkö, eikä joku/jokin toinen? usealla tutkimusyksiköllä nähdään tutkimusyksikköjen väliset erot 2. Vain yksi muuttuja miksi juuri tietty muuttuja eikä jokin toinen? useaa muuttujaa analysoitaessa voidaan tehdä päätelmiä muuttujien välisistä yhteyksistä SPSS-keittokirja Datamatriisin (havaintoaineiston) tallennus variable view: kirjoita muuttujien ominaisuuksia koskevat tiedot data view: tallenna havaintoaineisto Datamatriisin tulostus analyse reports case summaries 12

1.7. Kokonaistutkimus vs. otantatutkimus Kokonaistutkimus on menetelmä, jossa pyritään mittaamaan muuttujien arvot kaikissa perusjoukkoon kuuluvissa tapauksissa. Perusjoukko eli populaatio on se ihmisten, organisaatioiden tms. joukko, josta halutaan tietoa. Otantatutkimus on menetelmä, jossa tutkimuksen kohteeksi valitaan vain osa perusjoukosta ja valittuun otokseen (näytteeseen) kohdistuvan analyysin perustella tehdään koko perusjoukkoa koskevia päätelmiä. Otos on perusjoukosta otantatutkimusta varten poimittu näyte. Edustava otos on tarkasteltavien ominaisuuksien suhteen perusjoukon pienoiskuva. http://www.fsd.uta.fi/menetelmaopetus/otos/otantamenetelmat.html Otostutkimuksen käsitteitä Otos (probability sample) on perusjoukosta valittu näyte, jossa jokaisella perusjoukon tapauksella on yhtä suuri todennäköisyys tulla valituksi otokseen (satunnaisotanta, systemaattinen otanta) Näyte (non-probability sample) on perusjoukosta harkinnanvaraisesti valittu, perusjoukkoa kuvaamaan tarkoitettu tapausten joukko Kato tarkoittaa sitä, että kaikista mittauksen kohteeksi valituista tapauksista ei ole saatu tietoja. Parametri on perusjoukon jonkin muuttujan arvoa kuvaava tilastollinen tunnusluku, esim. keskiluku tai hajontaluku. Estimaatti on otoksesta laskettu arvio vastaavalle parametrille. Tilastollisen testiteorian avulla testataan estimaattien ominaisuuksia. 13

Otoksen edustavuuden arviointi Otoksen/näytteen edustavuutta arvioitaessa kiinnitetään huomiota seuraaviin asioihin 1. Näytteenottotapa 2. Kato 3. Otoksesta laskettujen jakautumien vertailu populaation tunnettuihin jakautumiin Henkilöaineistoissa esim. sukupuoli- ja ikäjakautumat Parametrit ja estimaatit Parametrit ovat tilastollisesta aineistosta määrätyllä laskukaavalla laskettuja tunnuslukuja esimerkiksi keskiluvut, hajontaluvut ja tilastollista riippuvuutta kuvaavat luvut Parametrien estimaatit Kokonaistutkimuksessa parametrien arvot voidaan täsmällisesti laskea. Otostutkimuksessa vastaavat arvot saadaan laskettua vain otoksesta, mutta tutkija haluaa otoksesta saatujen tietojen perusteella tehdä päätelmiä siitä, minkälaisia kyseisten parametrien arvot siinä perusjoukossa, josta otos on poimittu. Otostutkimuksessa lasketaan parametrien estimaatteja. Ne ovat tilastolliselta kannalta perusteltuja arvioita siitä, kuinka suuri tarkasteltavan parametrin arvo on perusjoukossa tai minkälaiselle vaihteluvälille se määrätyllä todennäköisyydellä sijoittuu. 14

1.8. Tilastollinen testiteoria Otoksesta lasketut estimaatit eli otoksen perusteella lasketut arviot populaation ominaisuuksista eivät koskaan täysin vastaa populaation vastaavaa ominaisuutta eli parametria. Otantavirheellä tarkoitetaan otoksesta lasketun estimaatin ja populaation vastaavan parametrin välistä erotusta. Otostutkimuksessa tutkijan pulmana on, että hän ei tunne perusjoukon parametrin arvoa. Tilastotieteellinen testiteoria pystyy kuitenkin esittämään paljon tietoa otoksista laskettujen estimaattien jakautumista. Näitä jakautumia koskevan tiedon perusteella voidaan tehdä päätelmiä siitä, kuinka luotettavasti otoksesta lasketut estimaatit kuvaavat populaation vastaavaa parametria. http://www.fsd.uta.fi/menetelmaopetus/hypoteesi/testaus.html Kvantitatiivisten ilmiöiden tavallisia jakautumatyyppejä 1. Normaalijakautuma 2. Studentin t-jakautuma 3. χ 2 -jakautuma 4. Binomijakautuma 5. F-jakautuma 15

Normaalijakautuma Normaalijakautuma on yksihuippuinen ja symmetrinen jakautuma. Kuvassa vihreä käyrä esittää standardisoitua normaalijakautumaa, jossa x = 0 ja s = 1 [ z= (X X) / s X ] Standardisoitu normaalijakautuma Jos tarkasteltavan muuttujan arvot jakaantuvat populaatiossa normaalijakautuman tapaan, noin 68 prosenttia tapauksista sijoittuu yhden keskihajonnan etäisyydelle muuttujan keskiarvosta, noin 95 prosenttia kahden keskihajonnan etäisyydelle muuttujan keskiarvosta ja noin 99,7 prosenttia kolmen keskihajonnan etäisyydelle muuttujan keskiarvosta. 16

Standardisoitu normaalijakautuma Monet tilastolliset testit perustuvat standardisoidun normaalijakautuman käyttöön Keskiarvojen erojen testaus Prosenttilukujen luottamusvälien testaus Normaalijakautuma 1. Monet tilastolliset laskukaavat perustuvat oletukseen, että tarkasteltavan muuttujan arvot jakaantuvat populaatiossa normaalijakaantuman tapaan. esim. Pearsonin tulomomenttikorrelaatiokerroin 2. Monet tilastolliset testit perustuvat oletukseen, että tarkasteltava ilmiö on normaalijakaantunut esim. t-testi ja varianssianalyysi keskiarvojen erojen testauksessa Pearsonin tulomomenttikorrelaatiokertoimen käyttöön perustuvat monimuuttujamenetelmät 3. Normaalijakautuma on yksihuippuinen ja symmetrinen jakautuma 4. Normaalijakautumaoletukseen perustuvat testit ja laskukaavat antavat harhaisia tuloksia, jos tarkasteltava aineisto ei olekaan normaalijakautunut 17

Jakautuman normaalisuuden testaus On olemassa tilastollisia testejä, joilla voidaan testata, vastaako muuttujan jakautuma teoreettista normaalijakautumaa (tai jotakin muuta teoreettista jakautumaa). Kolmogorov-Smirnov testi Kolmogorov-Smirnov testi Analyse Nonparametric tests 1-Sample K-S SPSS-keittokirja 18

Vapausasteiden lukumäärä Vapausasteiden lukumäärä v tilastollisessa testiteoriassa tarkoittaa tapausten lukumäärää N vähennettynä niiden parametrien lukumäärällä k, jotka estimoidaan otoksen avulla. v = N k P-arvot tilastollisten testien yhteydessä Ns. nollahypoteesina tilastollisissa testeissä on, että Empiirinen jakautuma ei poikkea teoreettisesta jakautumasta Vertailun kohteena olevat empiiriset jakautumat eivät poikkea toisistaan Vertailun kohteena olevat keskiarvot eivät poikkea toisistaan Muuttujien välillä ei ole tilastollista riippuvuutta Tilastollisen testin p-arvo kertoo tällöin sen, millä todennäköisyydellä nollahypoteesi voidaan hyväksyä. Esim p-arvo 0,05 kertoo, että testin nollahypoteesi voidaan hylätä 5 prosentin erehtymisriskillä 19

2. Yhden muuttujan ominaisuuksien kuvaaminen 1. Frekvenssijakautumat 2. Keskiluvut 3. Muut sijainnin tunnusluvut 4. Hajontaluvut 5. Muuttujamuunnokset 2.1. Frekvenssijakautumat Frekvenssiluvut kuvaavat muuttujan erilaisten arvojen esiintymistiheyttä. Absoluuttinen frekvenssi on lukupari, joka ilmoittaa,kuinka moneen tutkimusyksikköön (T i ) liittyy muuttujan arvo (x i ). Siis (x i, n i ) Suhteellinen frekvenssi on lukupari (x i, n i /N) eli (x i, f i ) missä N on kaikkien tutkimusyksikköjen lukumäärä. Voidaan esittää myös prosenttilukuna (x i, (ni/n)γ100) Frekvenssijakautuma on yhden muuttujan kaikkien arvojen frekvenssilukujen joukko. Jos mittaus on vähintään ordinaaliasteikolla, voidaan esittää kumulatiivinen frekvenssijakautuma. Se on kaikkien lukuparien (x i, F i ) joukko, missä F i on kaikkien niiden tapausten lukumäärä, joissa muuttujan arvo on x i tai vähemmän. 20

Frekvenssijakautumien graafinen kuvaaminen: Pylväsdiagrammi Frekvenssijakautumia voidaan graafisesti kuvata pylväsdiagrammien avulla. Pylväsdiagrammi on graafinen esitys, joka esittää tarkasteltavan muuttujan havaittujen arvojen jakautumista jonkin luokkajaon mukaan suorakaiteiden pinta-alojen avulla. Voidaan käyttää kaikilla mittaasteikoilla. Intervalli- ja suhdeasteikollisilla muuttujilla käytetään tavallisesti luokiteltuja muuttujia. 25 Puolueiden osuus äänistä % vuoden 2007 eduskuntavaaleissa Osuus äänistä % 20 15 10 5 0 KESK KOK SDP VAS VIHR KD RKP PS Muut http://www.stat.fi/tk/tp/verkkokoulu/vk/tlkt/ oppitunnit/tlkt03/tlkt03_02/view.html Frekvenssijakautuman graafinen kuvaaminen Histogrammi Histogrammi on jatkuvaa muuttujaa kuvaava pylväsdiagrammi, jossa pylväät limittyvät kiinni toisiinsa. Äänestysaktiivisuus vuoden 1999 eduskuntavaaleissa ikäryhmittäin 90 80 Äänestysprosentti 70 60 50 40 30 20 10 0 18 19-20 21-22 23-24 25-27 28-30 31-33 34-45 46-55 56-70 71-80 81- Ikäryhmä 21

Frekvenssijakautumien graafinen esittäminen: Frekvenssipolygoni Edellyttää intervalli- tai suhdeasteikollista aineistoa Miesten ja naisten äänestysaktiivisuus ikäryhmittäin eduskuntavaaleissa 1999 100 80 60 40 20 0 18 19-20 21-22 23-24 Äänestysprosentti 25-27 28-30 31-33 34-45 46-55 56-70 71-80 81- Ikäryhmä Miehet Naiset Lähde: Martikainen ja Wass 2001. Testiteoria Prosenttiluvun luottamusväli Jos populaatiosta valitaan suuri määrä otoksia ja jokaisesta otoksesta mitataan ilmiön x esiintymisen yleisyyttä prosenttiosuutena otoksen kaikista havainnoista, saadaan eri otoksista jonkin verran toisistaan poikkeavia prosenttilukuja. 95 % luottamusväli: z 95 = 1,96 99 % luottamusväli: z 99 = 2,58 Luottamusvälin laskukaava 95 % riskitasolla ± 1,96 p(1 p)/n 22

Esimerkki otoksesta lasketun prosenttiluvun luottamusvälin laskemisesta Esimerkki Puolueen kannatus mielipidemittauksessa on 30 %. Otoksen koko on 1000 henkeä. Mille välille puolueen kannatus sijoittuu koko populaatiossa 95 % riskitasolla (5 % erehtymisriskillä). ± 1,96 (0,30 0,70)/1000 = ± 1,96 0,21/1000 = ± 1,96 0,0145 = ± 0,028 joten puolueen kannatus populaatiossa sijoittuu välille 30 ± 2,8 prosenttia Frekvenssijakautuma analyse descriptive statistics frequencies Pylväsdiagrammi graph Legacy Dialogs Bar Frekvenssipolygoni graph Legacy Dialogs Line SPSS-keittokirja 23

Testiteoria Jakautumien samankaltaisuuden testaus Mann-Whitneyn U-testillä testataan sitä, ovatko kaksi vertailun kohteena olevaa jakautumaa samasta populaatiosta. - Nonparametrinen testi - Edellyttää vähintään järjestysasteikollista aineistoa Mann-Whitneyn testissä kumpikin jakautuma järjestetään suuruusjärjestykseen, järjestykseen asetettuja jonoja verrataan keskenään ja testi vertaa, kuinka usein yhteen ryhmään kuuluvat havainnot edeltävät toiseen ryhmään kuuluvia havaintoja SPSS-keittokirja Mann-Whitneyn U-testi Analyse Nonparametrit tests Two independent samples Test type Mann-Whitney U 24

2.2. Keskiluvut Keskiluvut kuvaavat havaintoarvojen keskimääräistä, yleistä, tyypillistä arvoa Eri mittaustasoilla käytettävät keskiluvut Mittaustaso Nominaaliasteikko Ordinaaliasteikko Intervalliasteikko Suhdeasteikko Moodi Moodi Mediaani Sallitut keskiluvut Moodi Mediaani Aritmeettinen keskiarvo Moodi Mediaani Aritmeettinen keskiarvo Harmoninen keskiarvo Geometrinen keskiarvo http://www.fsd.uta.fi/menetelmaopetus/keskiluvut/keskiluvut.html Moodi Moodi (Mo) on se muuttujan arvo tai luokka, jonka frekvenssi on suurin. Esimerkki Hypoteettisessa tutkimusaineistossa henkilöiden siviilisäätyjakautuma on seuraava Naimaton 18 Avoliitossa 16 Naimisissa 57 Eronnut 6 Leski 3 Mo = Naimisissa Käytön edellytykset Moodi on ainoa keskiluku, jota voidaan käyttää kaikilla mittaustasoilla. Yleensä sitä käytetään vain nominaaliasteikollisissa mittauksissa. 25

Mediaani Mediaani (Md) on sellainen luku, että sitä pienempiä ja sitä suurempia muuttujan havaittuja arvoja on yhtä paljon. Mediaani määrätään seuraavalla tavalla. 1. Asetetaan havaintoarvot suuruusjärjestykseen pienimmästä suurimpaan. 2. A) Jos havaintoarvoja on pariton määrä, mediaani on suuruusjärjestykseen asetetuista havainnoista keskimmäinen. B) Jos havaintoarvoja on parillinen määrä, mediaani on suuruusjärjestykseen asetetuista havainnoista kahden keskimmäisen keskiarvo. Käytön edellytykset Mittausten on oltava vähintään järjestysasteikollisia. Aritmeettinen keskiarvo n:n luvun aritmeettinen keskiarvo (m) saadaan laskemalla luvut yhteen ja jakamalla summa lukujen määrällä. 1 m = (x 1 + x 2 + + x n ) n = Σx i n Käytön edellytykset Mittausten on oltava vähintään intervalliasteikollisia 26

Keskilukujen laskeminen analyse descriptive statistics frequencies statistics tai analyse reports case summaries SPSS-keittokirja Testiteoria Keskilukujen merkitsevyyden testaus Keskiarvon keskivirhe Kun samasta populaatiosta poimitaan useita otoksia ja niistä kustakin lasketaan muuttujan X keskiarvo, saadaan otoksesta toiseen vähän toisistaan poikkeavia tuloksia. Tilastotieteen keskeisen raja-arvolauseen perusteella voidaan laskea, kuinka paljon otoksesta laskettu keskiarvo keskimäärin poikkeaa vastaavasta populaation keskiarvosta. Tätä keskimääräistä poikkeamaa nimitetään keskiarvon keskivirheeksi eli keskiarvon keskihajonnaksi σ x σ x σ x = n 27

T-testi Verrataan kahden eri aineiston keskiarvoja otoksen ja populaation keskiarvot: voiko otos olla kyseisestä populaatiosta keskiarvot kahdessa toisistaan riippumattomassa otoksessa: voivatko otokset olla samasta populaatiosta keskiarvot kahdessa toisistaan riippuvassa otoksessa: verrannolliset parit, esimerkiksi koeasetelma, jossa samoilta henkilöistä mitataan sama testisuure ennen ja jälkeen kokeessa annettua vaikutusta (lääke, informaatio tms.) Perustana Studentin t-jakautuma William Sealey Gosset 1908 T-testin laskemisen perusidea Otoskeskiarvon vertaaminen populaatiokeskiarvoon t = otoskeskiarvo populaatiokeskiarvo keskiarvon keskivirhe Kahden riippumattoman otoksen otoskeskiarvojen vertaaminen otoskeskiarvo otoksessa 1 otoskeskiarvo otoksessa 2 t = kahdesta otoksesta laskettu yhdistetty keskiarvon keskivirhe 28

T-testin laskemisen perusidea Keskiarvojen eron testaaminen verrannollisten parien tilanteessa t = havaintoparien erotusten keskiarvo havaintoparien erotusten keskiarvon keskivirhe T-testin käytön edellytykset 1. Kummassakin vertailtavassa ryhmässä tarkasteltavan muuttujan arvot ovat normaalijakautuneita 2. Kummassakin ryhmässä muuttujan varianssit ovat yhtä suuret 3. Kun otoskoko on pieni, kannattaa yleensä käyttää jotakin muuta testiä (esim. Mann-Whitneyn U testi) 29

SPSS-keittokirja Kahden keskiarvon erojen testaaminen t-testi yhden otoksen aineistossa analyse compare means one-sample t-test t-testi kahden riippumattoman otoksen tilanteessa analyse compare means independent samples t-test t-testi kahden riippuvan otoksen tilanteessa (esim. mittaustulokset ennen ja jälkeen kokeen) analyse compare means paired samples t-test 2.3. Muut sijainnin tunnusluvut Kvartiilit 1. Järjestetään vähintään järjestysasteikollisen aineiston havainnot suuruusjärjestykseen. 2. Jaetaan näin saatu järjestetty joukko neljään yhtä suureen osaan. Tällöin alakvartiilin pienemmälle puolelle jää neljäsosa tapauksista ja yläkvartiilin suuremmalle puolelle yksi neljäsosa tapauksista. Desiilit Aineisto jaetaan kymmeneen eri osaan samoin periaattein kuin edellä. 30

2.4. Hajontaluvut Hajontaluvut kuvaavat havaintoarvojen keskittyneisyyttä versus hajaantuneisuutta muuttujan eri arvoihin Muuttujien hajontaa voidaan kuvata mm. seuraavilla tunnusluvuilla. Mitta-asteikko Parametri Merkki Nominaaliasteikko Entropia H Ordinaaliasteikko Variaatioväli W Kvartiiliväli Q 1, Q 3 Intervalliastekko Variaatiovälin pituus w Kvartiilipoikkeama Q Keskietäisyys MD Varianssi σ 2 ja s 2 Keskihajonta σ ja s Suhdeasteikko Suhteellisen variaation indeksi V http://www.fsd.uta.fi/menetelmaopetus/hajontaluvut/hajontaluvut.html Hajontaluvut nominaaliasteikolla Entropia H Entropia on epävarmuutta tai tietämättömyyttä kuvaava tilastollinen mitta. Saa pienimmän arvonsa, jos kaikki tapaukset keskittyvät samaan luokkaan. Saa suurimman arvonsa, jos tapauksen sijoittuminen mihin tahansa arvoluokkaan on yhtä todennäköistä.kasvaa rajatta, jos arvoluokkia tulee lisää ja kaikki tapaukset sijoittuvat eri arvoluokkiin. Erittäin vähän käytetty hajonnan tunnusluku. Nominaaliasteikolla hajontaa tarkastellaan tavallisemmin frekvenssijakautumien avulla. Kybernetiikka ja informaatioteoria Mitä pienempi entropia on suhteessa entropian maksimiarvoon, siitä suurempi on informaatio. 31

Hajontaluvut ordinaaliasteikolla Variaatioväli W on lukupari, jonka lukuina ovat pienin ja suurin luku (x 1, x n ) Kvartiiliväli on alakvartiilin (Q 1 ) ja yläkvartiilin (Q 3 ) muodostama pari (Q 1, Q 3 ) Variaatiovälin pituus w w = x n x 1 Kvartiilipoikkeama Q Q = ½(Q 3 Q 1 ) Hajontaluvut intervalliasteikolla Keskietäisyys (mean deviation) Σ x i x MD = N MD = Muuttujan arvon keskimääräinen etäisyys muuttujan keskiarvosta Varianssi Σ(x i x ) 2 σ 2 = N σ 2 = Muuttujan arvon ja muuttujan keskiarvon neliöityjen erotusten keskiarvo 32

Varianssin laskukaavan havainnollistaminen Varianssin laskukaavassa mitataan havaintoarvojen etäisyyttä muuttujan keskiarvosta samaan tapaan kuin keskietäisyyden kaavassa. Keskietäisyydessä käytettyjen itseisarvojen sijasta Käytetään etäisyyksien neliötä. X 1 X X 2 + X 2 X > 0 ja X 1 X < 0 Mutta lukusuoralla X 2 X = X 1 X MD on näiden itseisarvojen keskiarvo Lukusuoralla myös (X 2 X) 2 = (X 1 X) 2 Varianssi σ 2 = Σ(x i x ) 2 / N on tällöin neliöityjen erotusten keskiarvo Keskihajonta (standard deviation) Varianssi palautetaan alkuperäisen muuttujan mittayksikölle ottamalla siitä neliöjuuri. Näin saadaan keskihajonta σ 2 Keskihajonta (kokonaistutkimuksessa) Σ(x i x ) 2 σ = N Keskihajonta (otostutkimuksessa) s = Σ(x i x ) 2 n 1 33

Harhaton estimaatti Miksi populaatiossa jakajana N, mutta otoksessa n 1? Intuitiivinen todistus Kun suuresta havaintoyksikköjen joukosta (populaatio) poimitaan pieni havaintoyksikköjen joukko (otos), niin tässä pienessä havaintoyksikköjen joukossa muuttujan X hajonta on jonkin verran pienempi kuin siinä suuressa havaintoyksikköjen joukossa, josta havaintoyksikköjen pienempi joukko on valittu. Kun lasketaan otoksesta hajontaparametrin estimaattia, otoksesta saatua raakatulosta on vähän suurennettava, että se olisi populaation hajontaluvun harhaton estimaatti. [Asian tilastotieteellinen todistus esitetään tilastotieteen aineopinnoissa.] Miksi keskihajonta on keskietäisyyttä käytetympi? 1. Neliöityjä etäisyyksiä käytettäessä suuret poikkeamat keskiarvosta painavat osioiden summaa laskettaessa suhteellisesti enemmän kuin itseisarvoja käytettäessä. (vertaa regressioanayysissa käytettävää pienimmän neliösumman menetelmää) 2. Tilastollisissa laskukaavoissa neliöintiin perustuvat kaavat ovat yksinkertaisemmin laskettavia kuin itseisarvoihin perustuvat kaavat 34

Hajontaluvut suhdeasteikolla Suhteellisen variaation indeksi eli variaatiokerroin V V x = s x x Suhteellisen variaation indeksiä käytetään vertailtaessa muuttujien suhteellista hajontaa eri aineistoissa, joissa muuttujien suuruusluokat poikkeavat paljon toisistaan. SPSS-keittokirja Hajonnat tunnusluvut analyse descriptive statistics frequencies statistics 35

SPSS-keittokirja Muuttujan luokittelu uudelleenkoodauksella transform recode into different variable old and new values Muuttujan standardisointi analyse descriptive statistics descriptives save standardized values as variables 36

3. Kahden muuttujan yhteisvaihtelun analyysi 3.1. Tilastollinen riippumattomuus 1. Kaksi muuttujaa ovat toisistaan riippumattomia, jos yhden muuttujan arvoa koskeva tieto ei auta meitä ennustamaan toisen muuttujan arvoa samalla tutkimusyksiköllä. 2. Kaksi muuttujaa ovat toisistaan riippumattomia, jos yhden muuttujan kaikki suhteelliset ehdolliset frekvenssijakautumat ovat samanlaisia, kun aineisto on vakioitu toisen muuttujan suhteen. 3. Kaksi muuttujaa ovat toisistaan riippumattomia, jos yhden arvoparin (x i, y i ) suhteellinen frekvenssi f xiyi on aina yhtä suuri kuin vastaavien suhteellisten marginaalifrekvenssien tulo. P(A B) = P(A) P(B) 4. A ja B ovat kaksi tietyn satunnaisilmiön tapausta. P(A)>0 ja P(B)>0. Sanomme, että B on riippumaton A:sta, jos P(B A) = P(B) Frekvenssitaulu y 1 y 2 x 1 fx 1 y 1 fx 1 y 2 Σfx 1 x 2 fx 2 y 1 fx 2 y 2 Σfx 2 Σfy 1 Σfy 2 N Marginaalijakautumilla tarkoitetaan yhden muuttujan jakautumia frekvenssitaulussa. x:n marginaalijakautuma: Σfx 1, Σfx 2 y:n marginaalijakautuma: Σfy 1, Σfy 2 Ehdollisilla jakautumilla tarkoitetaan yhden muuttujan (x tai y) sellaisia jakautumia, jotka on vakioitu toisen muuttujan suhteen. Esim. sarake y 1 kuvaa x:n ehdollista jakautumaa ehdolla y = y 1 Kaksiulotteista frekvenssijakautumaa, joka koostuu lukupareista [(x i, y i ), f ij )] nimitetään frekvenssitauluksi. 37

Frekvenssitaulu Esimerkki riippumattomien muuttujien tapauksesta y 1 y 2 x 1 12 28 40 x 2 18 42 60 30 70 100 y 1 y 2 x 1 0,3 0,7 1,00 x 2 0,3 0,7 1,00 y 1 y 2 x 1 0,4 0,4 x 2 0,6 0,6 1,0 1,0 y:n suhteelliset ehdolliset jakautumat, kun aineisto on vakioitu x:n suhteen. x:n suhteelliset ehdolliset jakautumat, kun aineisto on vakioitu y:n suhteen. Muuttujan suhteelliset ehdolliset frekvenssijakautumat ovat samanlaisia, joten muuttujat ovat tilastollisesti toisistaan riippumattomia. Frekvenssitaulu Esimerkki riippuvien muuttujien tapauksesta y 1 y 2 x 1 1 0 3 0 4 0 x 2 5 0 1 0 6 0 6 0 4 0 1 0 0 y 1 y 2 x 1 0, 2 5 0, 7 5 1, 0 0 x 2 0, 8 3 0, 1 6 1, 0 0 y 1 y 2 x 1 0, 1 6 0, 7 5 x 2 0, 8 3 0, 2 5 1, 0 0 1, 0 0 y:n suhteelliset ehdolliset frekvenssijakautumat, kun aineisto on vakioitu x:n suhteen x:n suhteelliset ehdolliset frekvenssijakautumat, kun aineisto on vakioitu y:n suhteen Muuttujan ehdolliset frekvenssijakautumat eivät ole samanlaisia. Muuttujat ovat tilastollisesti toisistaan riippuvia. 38

Tilastollisen riippumattomuuden määritelmä 3: Arvoparin suhteellinen frekvenssi = vastaavien marginaalifrekvenssien tulo y 1 y 2 x 1 0,12 0,28 0,40 x 2 0,18 0,42 0,60 0,30 0,70 1,00 fx 1 y 1 : 0,3x0,4 = 0,12 fx 1 y 2 : 0,7x0,4 = 0,28 fx 2 y 1 : 0,3x0,6 = 0,18 fx 2 y 2 : 0,7x0,6 = 0,42 Tilastollisen taulun osat 1. Otsikko 2. Taulukkopää eli sarakeotsikot: kuvaavat, mitä tietoja kultakin sarakkeelta löytyy 3. Etusarake eli riviotsikot: kuvaavat, mitä tietoja kultakin riviltä löytyy 4. Varsinainen taulu 5. Alaviitteet 6. Lähde http://www.stat.fi/tk/tp/verkkokoulu/vk/tlkt/oppitunnit/tlkt03/tlkt03_01/view.html 39

3.2. Erilaisia kahden muuttujan välisiä relaatioita Symmetriset relaatiot Jos xry niin yrx Muuttujien välillä on tilastollinen riippuvuus, mutta kumpikaan ei kausaalisesti aiheuta toista. Muuttujat voivat olla 1. saman käsitteen/ilmiön vaihtoehtoisia indikaattoreita 2. yhteisen syyn aiheuttamia tai 3. tilastollinen riippuvuus voi olla pelkästään sattumanvaraista Epäsymmetriset relaatiot 1. Kahden tapahtuman väliset syy-seuraus suhteet 2. Dispositio (asenteet, kyvyt, tavat, arvot) ja sen ilmentymä konkreettisessa tilanteessa persoonallisuus R responssi 3. Tutkimusyksikön pysyvä ominaisuus ja dispositio sukupuoli R asenne 4. Tutkimusyksikön pysyvä ominaisuus ja behavioraalinen ilmentymä konkreettisessa tilanteessa sukupuoli R responssi 5. Yksilön asema yhteiskunnassa R responssi luokka-asema R responssi organisaatiojäsenyys R responssi 6. Instituutio ja sen vaikutus yksilöiden toimintaan 40

Kausaalinen relaatio Kausaalisen suhteen edellytykset 1. x (syy) ja y (seuraus) ovat loogisesti toisistaan riippumattomia 2. x edeltää ajallisesti y:tä tai ei ainakaan tule y:n jälkeen 3. x:n ja y:n samanaikainen tai peräkkäinen esiintyminen ei ole minkään kolmannen tekijän (z) aikaansaama Resiprookkirelaatiot Kaksisuuntainen kausaalinen vaikutus (feedback) X Y Esimerkki Miten väkivaltarikosten määrä vaikuttaa kotitalouksien hallussa olevien käsiaseiden määrään? Miten kotitalouksien hallussa olevien käsiaseiden määrä vaikuttaa väkivaltarikosten määrään? Empiirisen tutkimuksen kannalta hankalia Aikasarja-analyysi resiprookkirelaatioiden tutkimuksessa X t1 Y t1 X t2 Y t2 X t3 Y t3 41

3.3. Tilastollisten selitysten suhde yhteiskuntatieteellisiin selityksiin 1. Tilastollinen selitys 2. Yhteiskuntatieteellinen selitys 3.4. Kahden muuttujan tilastollisen riippuvuuden mittaamistapoja 1. Ristiintaulukointi ja rivi- tai sarakeprosenttijakautumien erojen vertailu 2. Kahden muuttujan tilastollista riippuvuutta kuvaavat korrelaatiokertoimet Kontingenssikerroin C ja Cramerin V (laatueroasteikolla mitattu aineisto) Spearmanin järjestyskorrelaatiokerroin ja Kendallin Tau (järjestysastekolla mitattu aineisto) Pearsonin tulomomenttikorrelaatiokerroin r (intervalliasteikolla mitattu aineisto) 3. Ryhmäkeskiarvojen erojen vertailu 4. Kahden muuttujan varianssianalyysi 42

3.4.1. Frekvenssijakautumien erojen vertailu 1. Frekvenssitaulut ovat yksinkertaisia välineitä tilastollisen riippuvuuden selvittämiseksi 2. Analysoidaan tilastollisen riippumattomuuden määritelmässä tarkoitettuja suhteellisia ehdollisia frekvenssijakautumia 3. Laatueroasteikko riittää 4. On informatiivinen menetelmä 5. Muuttujien välistä tilastollista riippuvuutta voidaan analysoida χ 2 -testillä Kolmogorov-Smirnow -testillä SPSS-keittokirja Kahden muuttujan frekvenssitaulun laskeminen eli ristiintaulukointi analyse descriptive statistics crosstabs 43

Testiteoria χ 2 -testi 1. Nollahypoteesina (H 0 ) on, että muuttujien välillä ei ole tilastollista riippuvuutta. 2. Kun kummankin muuttujan frekvenssijakautumat tunnetaan, voidaan tilastollisen riippumattomuuden määritelmän 3 perusteella laskea teoreettinen frekvenssitaulu, joka vastaa hypoteesia H 0 χ 2 = Σ χ 2 -testin laskukaava (O ij E ij ) 2 E ij missä Oij = tapausten lukumäärä frekvenssitaulun i:nnen rivin j:nnellä sarakkeella Eij = Ehdon H 0 täyttävä teoreettinen frekvenssiluku taulun i:nnen rivin j:nnellä sarakkeella v = (r 1)(k 1) missä r = taulukon rivien lukumäärä k = taulukon sarakkeiden lukumäärä http://www.fsd.uta.fi/menetelmaopetus/r istiintaulukointi/khii2.html 3.4.2. Korrelaatiokertoimet Mitta-asteikko Parametri Merkki Nominaaliasteikko Kontingenssikerroin Cramerin V C V Järjestysasteikko Spearmanin järjestyskorrelaatiokerroin ρ Kendallin Tau τ Intervalliasteikko Pearsonin tulomomenttikorrelaatio- r kerroin 44

Kontingenttikerroin: laskukaava χ 2 C = N + χ 2 missä χ 2 on χ 2 -testin χ 2 -arvo Kontingenttikertoimen ominaisuuksia 1. Kontingenssikerroin ei voi saada negatiivisia arvoja, joten sen avulla ei voi päätellä riippuvuuden suuntaa. 2. Kontingenssikertoimien keskinäinen vertailu ei ole mielekästä, mikäli ne perustuvat erikokoisiin taulukoihin. 3. Suurin arvo, jonka kontingenssikerroin voi saavuttaa, on aina pienempi kuin 1. Lisäksi taulukoille, joiden rivi- ja sarakemäärät ovat yhtä suuret, suurin arvo on ( 1)/. Esimerkiksi taulukolle, jossa on kaksi saraketta ja kaksi riviä suurin saavutettavissa oleva kontingenssikertoimen arvo on siis (2 1)/2 = 0.71. Taulukossa, jonka koko on 10 riviä ja 10 saraketta suurin saavutettavissa oleva kontingenssikertoimen arvo on 0,95. 4. Kontingenssikerroin ei ole vertailukelpoinen järjestyskorrelaatiokertoimien eikä Pearsonin korrelaatiokertoimen kanssa. 45

Cramerin V Laskukaava χ 2 V = N (k 1) missä χ 2 = χ 2 -testin χ 2 -arvo ja k = joko rivien tai sarakkeiden lukumäärä: pienempi niistä Cramerin V:n ominaisuuksia 1. Cramerin V ei voi saada negatiivisia arvoja, joten sen avulla ei voi päätellä riippuvuuden suuntaa. 2. Cramerin V:n teoreettinen vaihteluväli on 0 1. Arvon 1 se voi kuitenkin saada vain jos taulukon rivimarginaalifrekvenssijakaurtuma = taulukon sarakemarginaalifrekvenssijakautuma. 46

SPSS-keittokirja Analyse Descriptive statistics Crosstabs Statistics Contingency coefficient Cramer s V Spearmanin ρ (rho) Merkitään muuttujien arvoja järjestyssijoilla Verrataan sarjojen järjestyssijoja Laskukaava 6ΣD i 2 ρ = 1 N(N 1) missä D = X ja Y muuttujien järjestyssijojen erotus havainnolla i N = tarkasteltavien arvoparien lukumäärä Kaava perustuu matemaattiseen sarjateoriaan - Jos sarjat ovat järjestyssijoiltaan identtiset, ρ = 1 - Jos sarjat ovat järjestyssijoiltaan täysin käänteiset, ρ = -1 - Vaihteluväli (-1, 1) Järjestyskorrelaatiota kannattaa käyttää myös intervalliasteikollisissa mittauksissa silloin kun muuttujien yhteisjakautumat eivät täytä multinormaalisuuden vaatimusta. 47

Pearsonin tulomomenttikorrelaatiokerroin r Varianssi s x 2 = Σ (x i x) 2 N Kovarianssi C xy = Σ (x i x) (y i y) N Pearsonin tulomomenttikorrelaatiokerroin (jatkoa) Standardisoitu kovarianssi = Pearsonin tulomomenttikorrelaatiokerroin (r) C xy r = s x s y = Σ(x i x) (y i y) N Σ(x i x) 2 Σ (y i y) 2 N N = Σ(x i x) (y i y) Σ(x i x) 2 (y i y) 2 48

Korrelaatiokertoimen osoittajan tulosumman määräytyminen y y II + + III x I IV x I neljännes (x i x) > 0 ja (y i y) > 0 joten (x i x ) (y i y) > 0 II neljännes (x i x) < 0 ja (y i y) > 0 joten (x i x ) (y i y) < 0 III neljännes (x i x) < 0 ja (y i y) < 0 joten (x i x ) (y i y) > 0 IV neljännes (x i x) > 0 ja (y i y) < 0 joten (x i x ) (y i y) < 0 Korrelaatioita 49

Multinormaalijakautuma Pearsonin tulomomenttikorrelaatiokertoimen käyttö edellyttää, että tarkasteltava kahden muuttujan jakautuma on multinormaalijakautuma. Poikkeavan tapauksen vaikutus korrelaatiokertoimeen 50

Otoskoon ja tilastollisesti merkitsevän (p< 0,05) korrelaation yhteys (Pearsonin tulomomenttikorrelaatiokerroin) Korrelaatiokerroin analyse correlate bivariate Sirontakuvio graph legacy dialogs scatter SPSS-keittokirja 51

Testiteoria 3.4.3. Keskilukujen erojen vertailu Nominaali- ja ordinaaliasteikolla testataan yleensä sitä, voidaanko kahden jakautuman katsoa tulevan samasta perusjoukosta χ 2 -testi Kolmogorov-Smirnow -testi Jos riippumaton muuttuja on kategorinen muuttuja ja riippuva muuttuja on numeerinen muuttuja kahden ryhmän keskiarvon eroa voidaan testata t-testillä useamman kuin kahden ryhmän keskiarvojen eroa voidaan testata varianssianalyysilla Varianssianalyysi Kysymyksenasettelu Varianssianalyysin voidaan ajatella olevan eräänlainen riippumattomien otosten t-testin yleistys tilanteeseen, jossa vertailtavia ryhmiä on useampi kuin kaksi. Varianssianalyysi antaa vastauksen kysymykseen, onko tarkastelun kohteena olevissa ryhmissä ainakin yksi ryhmä, jonka keskiarvo muuttujalla Y eroaa jonkin toisen ryhmän vastaavasta keskiarvosta, ts. vertailtavien ryhmien joukossa on ainakin kaksi ryhmää, joiden keskiarvot eroavat toisistaan. http://www.fsd.uta.fi/menetelmaopetus/varianssi/anova.html 52

Varianssianalyysi Käytön edellytykset Selitettävä muuttuja numeerinen Selittävä muuttuja kategorinen Kussakin ryhmässä muuttujan arvojen tulee olla normaalijakautunut Varianssianalyysi Laskentaperiaatteen perusidea Selitettävän muuttujan Y varianssi jaetaan kahteen komponenttiin Ryhmien välinen varianssi Ryhmien sisäinen varianssi F-testi Ryhmien välinen varianssi F = Ryhmien sisäinen varianssi Voidaan laskea myös Eta 2 Ryhmien välinen varianssi Eta 2 = Kokonaisvarianssi 53

SPSS-keittokirja Analyse Compare means One-Way ANOVA Tai vaihtoehtoisesti Analyse General linear models Univariate Dependent variable Fixed factor 3.5. Regressioanalyysi Tarkastellaan kahden muuttujan välistä korrelaatiota sirontakuviona.nyt voimme kysyä, minkälainen suora parhaiten kuvaa kyseistä pisteparvea. Näin saatua suoraa voidaan käyttää kahden muuttujan välisen tilastollisen riippuvuuden kuvaajana. Regressioanalyysi on menetelmä, jolla etsitään kahden muuttujan parvidiagrammia parhaiten kuvaava suora. Regressioanalyysin laskentatapa on sellainen, että se edellyttää a priori toisen muuttujan määrittelemistä selittäväksi (riippumattomaksi) muuttujaksi ja toisen muuttujan määrittämistä selitettäväksi (riippuvaksi) muuttujaksi. http://www.fsd.uta.fi/menetelmaopetus/regressio/analyysi.html 54

Sirontakuvioesimerkki Työmarkkinasuhteiden keskittyneisyys 1980 7 6 5 4 3 2 1 F USA J NL D CND CH NZ IRL AUS UK I S SF 0 0 20 40 60 80 100 Ammatillinen järjestäytymisaste 1980 A N B DK http://www.stat.uiuc.edu/courses/stat100/java/guess/ppapplet.html Regressioanalyysi Muuttujan variaation jakaminen selitettyyn ja selittämättömään variaatioon y y y i y y i ý i ý i y x missä y i = muuttujan y arvo tapauksella i y = muuttujan y keskiarvo ý i = muuttujan ennustettu (suoralle sijoittuva) arvo tapauksella i y:n variaatio keskiarvoonsa nähden jaetaan kolmeen osaan (y i y) kokonaisvariaatio (ý i y) selitetty variaatio (y i ý i ) selittämätön variaatio (jäännös, residuaali) (y i y) = (ý i y) + (y i ý i ) Myös Σ(y i y) = Σ(ý i y) + Σ(y i ý i ) Voidaan osoittaa, että myös Σ(y i y) 2 = Σ(ý i y) 2 + Σ(y i ý i ) 2 55

Pienimmän neliösumman menetelmä Y a 1 yksikkö b Regressiosuoran yhtälö ratkaistaan pienimmän neliösumman menetelmällä. Tässä menetelmässä minimoidaan jäännösneliösumma Σ(y i ý) 2 Tuloksena on regressiosuora Y = a + bx Y = a + bx X missä a = vakio b= regressiokerroin (suoran kulmakerroin) Regressiokertoimen merkitsevyyden testaus Variaation lähde Neliösumma Vapausasteet Varianssi Selitetty Σ(ý i y) 2 1 Σ(ý i y) 2 Jäännös Σ(y i ý i ) 2 n 2 Σ(y i ý i ) 2 Kokonais Σ(y i y) 2 n 1 1 n 2 H 0 : b = 0 F = selitetty varianssi jäännösvarianssi 56

Regressiosuoran luottamusväli Poikkeavan tapauksen vaikutus regressiokertoimeen 57

Determinaatiokerroin selitetty neliösumma r 2 = koko neliösumma Korrelaatiokertoimen neliö eli determinaatiokerroin: Kuvaa sitä, kuinka monta prosenttia selitettävän muuttujan (y) varianssista voidaan tilastollisesti selittää selittävän muuttuja (x) varianssilla. Milloin käytämme korrelaatiokerrointa, milloin taas regressioanalyysia Korrelaatiokerroin on symmetrinen kuvaus muuttujien välisen tilastollisen riippuvuuden voimakkuudesta Korrelaatiokertoimen avulla kuvataan sitä, kuinka vahva tilastollinen riippuvuus on. Korrelaatiokertoimen neliö (determinaatiokerroin) antaa yleiskuvan siitä, kuinka suuri osa toisen muuttujan vaihtelusta voidaan tilastollisesti selittää toisen muuttujan vaihtelulla. Regressioanalyysi on epäsymmetrinen kuvaus muuttujien välisestä tilastollisesta riippuvuudesta Regressioanalyysin avulla pyritään selittämään (tai ennustamaan) selitettävän muuttujan arvoa, kun tunnemme selittävän muuttujan arvon 58

Regressioesimerkki täydellisen korrelaation tilanteessa Y 12 10 8 6 4 2 0 0 4 8 12 16 20 24 X Y = 0,5X X = 2Y r = 1,00 Regressioesimerkki ei-täydellisen korrelaation tilanteessa Y 25 20 15 10 5 0 0 5 10 15 20 25 X Y = -0,11 + 0,82X X = 3,30 + 0,85Y r = 0.83 59

Regressioesimerkki nollakorrelaation tilanteessa 100 50 Y 0-150 -100-50 0 50 100 150-50 -100-150 X Y = 5,37 + 0,003X X = -1,95 + 0,004Y r = 0,004 Kahden muuttujan lineaarinen regressioanalyysi analyse regression linear SPSS-keittokirja Kahden muuttujan lineaarinen regressioanalyysi sirontakuvioon sovitettuna graph legacy dialogs scatter simple scatter» define Kaksoisnäpäyttämällä kuviota ohjelma siirtyy kuvaeditointitilaan (chart editor). Valitse: Add fit line at total 60

4. Useamman kuin kahden muuttujan analyysi 4.1. Elaboraatio Elaboraatio Tarkastellaan, miten kolmannet muuttujat vaikuttavat kahden alkuperäisen muuttujan väliseen suhteeseen. Kausaalianalyysi Elaboroidaan muuttujien välisiä kausaalisia suhteita ja mallinnetaan muuttujien väliset kausaaliset suhteet. Lazarsfeldilainen elaboraatiomenetelmä Tukeudutaan tilastollisen riippumattomuuden määritelmään 2 eli analysoidaan suhteellisia ehdollisia frekvenssijakautumia. 1. Ensin analysoidaan alkuperäisten muuttujien välisiä tilastollisia riippuvuuksia. 2. Sitten aineisto vakioidaan jonkin kolmannen muuttujan luokissa. 3. Tämän jälkeen tutkitaan, onko alkuperäisten muuttujien välillä tilastollisia riippuvuuksia, kun aineisto on vakioitu kolmannen muuttujan suhteen. Paul Felix Lazarsfeld (1901 1976) 61

Elaboroinnissa esiin tulevia muuttujien välisiä relaatiotyyppejä Relaatiotyyppien nimitykset Morris Rosenbergin (1968) mukaan ja Alkula Pöntinen Ylöstalon (1994) mukaan Rosenberg [Alkula ym.] 1. Ulkopuoliset muuttujat (extraneous variable) [Selitys] 2. Komponenttimuuttujat (component variable) 3. Edeltävät muuttujat (antecedent variable) 4. Väliintulevat muuttujat (intervening variable) [Tulkinta] 5. Peittäjämuuttujat (suppressor variable) 6. Kääntäjämuuttujat (distorter variable) 7. Ehdolliset relaatiot (conditional relation) [Täsmennys] 4.2. Ulkopuoliset muuttujat (selitys) Z X Y missä = muuttujien välinen kausaalinen vaikutus = muuttujien välinen tilastollinen riippuvuus ilman kausaalista yhteyttä; näennäiskorrelaatio (spurious correlation) Esimerkki X = palomiesten lukumäärä Y = vahinkojen suuruus z = tulipalon suuruus 62

4.3. Komponenttimuuttujat X Y X on yleiskäsite, joka voidaan jakaa erilaisiin komponentteihin Esimerkki Yhteiskuntaluokka voidaan jakaa komponentteihin 1. koulutus 2. tulot 3. varallisuus 4. ammatti: erityisesti työn itsenäisyys ja aseman johtavuus 4.4. Edeltävät muuttujat Z X Y missä X = riippumaton (selittävä) muuttuja Y = riippuva (selitettävä) muuttuja Z = edeltävä muuttuja Jos Z on edeltävä muuttuja, seuraavien ehtojen täytyy olla voimassa: 1. Kaikkien muuttujien (X,Y,Z) täytyy olla tilastollisesti toisistaan riippuvia 2. Kun aineisto vakioidaan riippumattoman muuttujan (X) suhteen, tilastollinen riippuvuus Z:n ja Y:n välillä häviää. 3. Kun aineisto vakioidaan edeltävän muuttujan (Z) suhteen, tilastollinen riippuvuus X:n ja Y:n välillä ei häviä. 63

Edeltävän muuttujan elaborointi: Esimerkki 1 Kiinnostus politiikkaa kohtaan ja vaalikampanjan seuraaminen Eduskuntavaalitutkimus 2003 (FSD1260) - Kiinnostus politiikkaa kohtaan (X) - Vaalikampanjan seuraaminen (Y) - Politiikan näkyvyys nuoruuden kasvuympäristössä (Z) Edeltävän muuttujan elaborointi: Esimerkki 2 Kiinnostus politiikkaa kohtaan ja vaalikampanjan seuraaminen Eduskuntavaalitutkimus 2011 (FSD2653) - Kiinnostus politiikkaa kohtaan (X) - Vaalikampanjan seuraaminen (Y) - Henkilön koulutus (Z) 64

4.5. Väliintulevat muuttujat (tulkinta) Alkuperäinen tilastollinen riippuvuus X Y missä X = riippumaton (selittävä) muuttuja Y = riippuva (selitettävä) muuttuja Elaboraation avulla voidaan löytää väliin tuleva muuttuja X Z Y missä Z = väliintuleva muuttuja Elaboraatio Väliintulevan muuttujan tapauksessa kaikkien kolmen muuttujan (X,Y,Z) välillä on oltava tilastollinen riippuvuus. Jos Z on väliintuleva muuttuja ja aineisto vakioidaan Z:n suhteen, tilastollinen riippuvuus X:n ja Y:n välillä häviää. Väliintulevan muuttujan elaborointi: Esimerkkejä Emile Durheim: Itsemurha (1897) - siviilisääty (X) - itsemurha-alttius (Y) - lasten olemassaolo (Z) Naisten siviilisääty ja työstä poissaolo - Siviilisääty (X) - Poissaolo työstä (Y) - Kotitöiden määrä (Z) Siviilisääty ja äänestysaktiivisuus Eduskuntavaalitutkimus 2011 (FSD2653) - Siviilisääty (X) - Äänestysaktiivisuus (Y) - Henkilöllä on alle kouluikäisiä lapsia (Z) 65

Vakiointi kolmannen muuttujan suhteen poistaa korrelaation Sironkakuvioesimerkki Y 111 11111 111111 11 22 222222 222222 222 X 4.6. Peittäjämuuttujat Peittäjämuuttuja on muuttuja, joka peittää alkuperäisten muuttujien välisen tilastollisen riippuvuuden. Tutkija olettaa muuttujan X vaikuttavan muuttujaan Y. Empiirisessä analyysissa muuttujien välillä ei kuitenkaan ole tilastollista riippuvuutta. 66

Peittäjämuuttujat + X Z Y Tai X Z + Y Peittäjämuuttujan elaborointi X:n ja Y:n välillä ei ole tilastollista riippuvuutta. Vakioidaan aineisto kolmannen muuttujan (Z) suhteen. Jos muuttujat X ja Y ovat tilastollisesti toisistaan riippuvia, kun aineisto on vakioitu Z:n suhteen, Z on peittäjämuuttuja. Alkuperäisten muuttujien välillä on riippuvuus, joka löydetään vasta kun aineisto on vakioitu peittäjämuuttujan suhteen. 67

Peittäjämuuttujan elaborointi: Esimerkkejä Ammatillisen järjestäytymisen vaikutus työtaisteluihin (Paloheimo 1984; 1990) - ammatillinen järjestäytymisaste (X) - työtaisteluissa menetetyt työpäivät (Y) - työmarkkinasuhteiden keskittyneisyys (Z) Henkilöaineistossa iän ja koulutuksen vaikutukset ovat usein vastakkaissuuntaisia - Ikä (X) - Kiinnostus politiikkaa kohtaan (Y) - Koulutus (Z) Vakiointi kolmannen muuttujan suhteen paljastaa korrelaation Sirontakuvioesimerkki Y 11 1111 22 11111 2222 1111 22222 1122222 11222 X 68