Kyselytutkimuksen mittarit ja menetelmät



Samankaltaiset tiedostot
Ellei tutkijalla ole käsitystä mittauksensa validiteetista ja reliabiliteetista, ei johtopäätöksillä

Otannasta ja mittaamisesta

Sisällys. Alkusanat Johdanto Kyselytutkimus Kirjan rakenne ja sisältö... 14

805306A Johdatus monimuuttujamenetelmiin, 5 op

pitkittäisaineistoissa

- _FAKTORIMALLI_2: 8DIM_7_lisafaktoria_ / Tehdään mittausmalli hyvinvoinnille

pitkittäisaineistoissa

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

Teema 3: Tilastollisia kuvia ja tunnuslukuja

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Kvantitatiiviset menetelmät

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Perusnäkymä yksisuuntaiseen ANOVAaan

Kvantitatiiviset menetelmät

Sovellettu todennäköisyyslaskenta B

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

MONISTE 2 Kirjoittanut Elina Katainen

Harjoittele tulkintoja

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

11. laskuharjoituskierros, vko 15, ratkaisut

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Seurantalaskimen simulointi- ja suorituskykymallien vertailu (valmiin työn esittely) Joona Karjalainen

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

I. Ristiintaulukointi Excelillä / Microsoft Office 2010

Yleistetyistä lineaarisista malleista

Laskuharjoitus 9, tehtävä 6

HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET

Johdantoa. Jokaisen matemaatikon olisi syytä osata edes alkeet jostakin perusohjelmistosta, Java MAPLE. Pascal MathCad

Soveltuvan menetelmän valinta. Kvantitatiiviset menetelmät. Faktorianalyysi. Faktorianalyysi. Faktorianalyysin perusidea.

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Testejä suhdeasteikollisille muuttujille

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Ihminen ja tekniikka seminaari Käyttäjäkokemuksen kvantitatiivinen analyysi

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Harjoitus 9: Excel - Tilastollinen analyysi

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Jatkuvat satunnaismuuttujat

Testit järjestysasteikollisille muuttujille

Graph. COMPUTE x=rv.normal(0,0.04). COMPUTE y=rv.normal(0,0.04). execute.

Osa 2: Otokset, otosjakaumat ja estimointi

3.3 Paraabeli toisen asteen polynomifunktion kuvaajana. Toisen asteen epäyhtälö

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

805306A Johdatus monimuuttujamenetelmiin, 5 op

Christina Gustafsson. Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 22 for Windows Osa 3

Teema 8: Parametrien estimointi ja luottamusvälit

LIITE 1 VIRHEEN ARVIOINNISTA

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tilastollinen päättely II (MAT22003), kevät 2018

A = a b B = c d. d e f. g h i determinantti on det(c) = a(ei fh) b(di fg) + c(dh eg). Matriisin determinanttia voi merkitä myös pystyviivojen avulla:

Kandidaatintutkielman aineistonhankinta ja analyysi

Väitöskirjan kirjoittaminen ja viimeistely

Mustat joutsenet pörssikaupassa

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

MONIMUUTTUJAMENETELMISTÄ RAKENNEYHTÄLÖMALLINNUKSEEN MUUTTUJIEN NORMAALISUUS. Statistics

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollinen päättely II (MAT22003), kevät 2019

TUTKIMUSOPAS. SPSS-opas

Mittaamisen maailmasta muutamia asioita. Heli Valkeinen, erikoistutkija, TtT TOIMIA-verkoston koordinaattori

Otanta-aineistojen analyysi (78136, 78405) Kevät 2010 TEEMA 3: Frekvenssiaineistojen asetelmaperusteinen analyysi: Perusteita

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

HAVAITUT JA ODOTETUT FREKVENSSIT

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tuloperiaate. Oletetaan, että eräs valintaprosessi voidaan jakaa peräkkäisiin vaiheisiin, joita on k kappaletta

PSY181 Psykologisen tutkimuksen perusteet, kirjallinen harjoitustyö ja kirjatentti

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

SELVITTÄJÄN KOMPETENSSISTA

1 Kannat ja kannanvaihto

Matematiikan tukikurssi

Regressioanalyysi. Kuusinen/Heliövaara 1

Mittaustekniikka (3 op)

Määrällisen aineiston esittämistapoja. Aki Taanila

LIITE 1 VIRHEEN ARVIOINNISTA

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto Aineiston kuvaus Riippuvuustarkastelut...4

Matematiikan tukikurssi

Monitasomallit koulututkimuksessa

Nollasummapelit ja bayesilaiset pelit

SEM1, työpaja 2 ( )

Transkriptio:

Kimmo Vehkalahti Kyselytutkimuksen mittarit ja menetelmät Kustannusosakeyhtiö Tammi Helsinki

Sisällys Alkusanat.......................... 7 Johdanto. Kyselytutkimus..................... Kirjan rakenne ja sisältö............... 4 Mittaus ja tiedonkeruu 7. Johdatteleva esimerkki................ 7. Kyselylomake mittausvälineenä........... 0.. Ulottuvuudet................. 0.. Osiot ja mittarit.................. Avoimet ja suljetut osiot........... 4. Mittauksen taso.................... 7.. Luokittelu................... 7.. Järjestäminen................. 0.. Mittaaminen................. 4.4 Mittauksen luotettavuus................ 40.4. Validiteetti.................. 4.4. Reliabiliteetti................. 4.5 Tiedonkeruu...................... 4.5. Perusjoukko ja otos.............. 4.5. Kokonaistutkimus ja rekisterit........ 45.5. Näyteaineistot................ 46.6 Kyselylomake tiedonkeruuvälineenä......... 47

Aineiston esikäsittely 5. Aineistoon tutustuminen............... 5. Yhden muuttujan tarkastelu.............. 5.. Jakaumat................... 5.. Tunnusluvut................. 54.. Kuvat..................... 6. Muunnokset...................... 64.4 Kahden muuttujan tarkastelu............. 67.4. Taulukot................... 68.4. Kuvat..................... 7.4. Tunnusluvut................. 77.5 Muokkaukset..................... 8 4 Aineiston tiivistäminen 87 4. Tilastollinen malli................... 87 4. Mittausmalli...................... 9 4. Faktorianalyysi.................... 9 4.. Oletukset................... 94 4.. Faktoreiden tulkinta............. 96 4.. Mittausmallin rakennevaliditeetti....... 00 4.4 Mitta-asteikko..................... 06 4.4. Faktoripisteet................. 09 4.4. Summamuuttujat............... 4.4. Mitta-asteikon reliabiliteetti......... 6 5 Havaintojen vertailu 5. Mittauskehikko.................... 5.. Vertailuperuste................ 5.. Tulosasteikko................. 5. Regressioanalyysi................... 4 5.. Oletukset................... 4 5.. Selittäjien valinta............... 8 5.. Taustamuuttujat ja ennustevaliditeetti.... 5..4 Luokitellut selittäjät............. 4 5. Regressiodiagnostiikka................ 4 5.. Jäännösvaihtelu................ 4 5.. Vaikutusvaltaisuus ja poikkeavuus...... 48 4

6 Aineiston ryhmittely 5 6. Hierarkkinen ja visuaalinen ryhmittely........ 5 6. Moniulotteinen skaalaus............... 59 6. Medoidiryhmittely.................. 66 7 Ryhmien visualisointi 7 7. Hajontakuvan yleistyksiä............... 7 7. Erotteluanalyysi.................... 75 7. Korrespondenssianalyysi............... 8 7.. Kahden muuttujan taulukko......... 8 7.. Kahden muuttujan kuva........... 86 7.. Burtin matriisi................ 89 7..4 Usean muuttujan kuva............ 9 A Ohjelmistot ja dokumentointi 95 A. Ohjelmistot...................... 95 A.. Survo ja SPSS................ 96 A.. Aineiston perustaminen........... 99 A.. Dokumentoiva työskentelytapa........ 0 A. Kuvien ja tulosteiden työkaavioita.......... 0 Lähteet ja kirjallisuus Kuvat, esimerkit, tulosteet ja taulukot 5 Hakemisto 9 5

Mittaamisesta ja faktorianalyysista Kimmo Vehkalahti yliopistonlehtori, soveltavan tilastotieteen dosentti Helsingin yliopisto, matematiikan ja tilastotieteen laitos http://www.helsinki.fi/people/kimmo.vehkalahti Kvantitatiiviset tutkimusmenetelmät -kurssi Tilastokeskus syksy 007 Tiivistelmä Käyn lyhyesti läpi moniulotteisen mittaamisen peruskäsitteet sekä tarkastelen aidon tutkimusaineiston kanssa puuttuvien tietojen hallintaa ja korvaamista sekä faktorianalyysin suorittamista Survo- ja SPSS-ohjelmistoilla. Perusteellisemmin käsittelen aihepiiriä tekeillä olevassa oppikirjassani työnimeltään Kyselytutkimuksen mittarit ja menetelmät, joka ilmestyy näillä näkymin syksyllä 008. Sisältö Moniulotteinen mittaaminen. Mittauskehikko............................ Mittauksen laatu.......................... Faktorianalyysi. Survo................................. SPSS................................ 6 Viitteet ja lähteet

Moniulotteinen mittaaminen. Mittauskehikko Mittausmalli Mitta-asteikko ε τ x u Tulosasteikko Vertailuperuste ε τ x u z y ε x τ k u m z s y q ε p x p Vehkalahti, Puntanen ja Tarkkonen (007); Tarkkonen ja Vehkalahti (005); Vehkalahti (000); Tarkkonen (987) tutkimuksen suuntaviivat suunnittelusta analyyseihin perusta mittauksen laadun johdonmukaiseen arviointiin Mittausmalli. Mitä ilmiötä tutkitaan? Montako ulottuvuutta siinä on?. Millä ilmiötä mitataan mahdollisimman hyvin? Mitta-asteikko Mitta-asteikko on osioiden eli mitattujen muuttujien yhdistelmä. Esimerkkejä: faktoripisteet, summamuuttujat, indeksit jne. Tulosasteikko Tulosasteikkoja tuottavat erilaiset tilastolliset monimuuttujamenetelmät, esimerkiksi regressioanalyysi. Näin mittaaminen ja menetelmät kytkeytyvät luonnollisella tavalla toisiinsa. Toisinaan jatkotarkasteluissa voidaan hyödyntää myös suoraan ensimmäisen tason mittaasteikkoja. Vertailuperuste Vertailuperuste on mittausmallin ulkopuolella määritelty kriteeri, jota tarvitaan kun vastaajia vertaillaan toisiinsa erilaisilla asteikoilla, esimerkiksi järjestelemällä ja ryhmittelemällä tai laatimalla selitys- ja ennustemalleja.

. Mittauksen laatu Validiteetti ja reliabiliteetti Epävarmuutta tilastolliseen tutkimukseen tuovat sekä tiedonkeruu että mittaaminen. Molempiin on syytä kiinnittää huomiota. Tilastotiede on perinteisesti keskittynyt tiedonkeruuseen, etenkin otantaan, mutta läheskään aina ei käytännössä ole edes kyse otannasta. Mittaaminen kuuluu sen sijaan kuvaan otannasta riippumattakin. Mittauksen osalta on arvioitava kahta asiaa, tässä järjestyksessä:. validiteetti: mitataanko oikeaa asiaa? ehdottomasti ensisijainen mittauksen laatukriteeri kytkeytyy vahvasti ilmiön sisältöä koskevaan teoriaan mittauskehikon puitteissa arvioitavissa: mittausmallin rakennevaliditeetti mitta-asteikon ennustevaliditeetti. reliabiliteetti: onko mittaus riittävän tarkkaa? määritelmä: todellisen vaihtelun osuus koko vaihtelusta kuvaa mitta-asteikon tarkkuutta (tai luotettavuutta) kiinnostavaa vain mikäli validiteetti riittävän hyvä Reliabiliteetin arviointi Reliabiliteetin arviointiin vaikuttavat sekä mitta-asteikosta että mittausmallista tehtävät oletukset. yleisin arviointitapa: Cronbachin alfa (Cronbach, 95) vakiintunut 50 vuoden aikana rutiinikäyttöön useilla aloilla ristiriita: tutkimuksen ei pitäisi olla rutiinia! 00 vuotta vanha oletus yksiulotteisesta mallista (Spearman, 904) ristiriita: reaalimaailman ilmiöt ovat moniulotteisia! ongelma: reliabiliteetin (jopa karkea) aliarviointi parempi vaihtoehto: Tarkkosen rho (Vehkalahti ym., 007, 006; Tarkkonen ja Vehkalahti, 005; Vehkalahti, 000; Tarkkonen, 987) lähtökohta: moniulotteisuus ja mittauskehikko ei liian tiukkoja oletuksia: hyvä sovellettavuus haaste: tunnetuksi tekeminen vielä alussa uusin tutkimus (Lucke, 005; ten Berge ja Soĉan, 004) korostaa nyt moniulotteisuutta

Faktorianalyysi Faktorianalyysin taustaoletuksista, historiasta yms. keskustellaan luennolla (ks. myös materiaaliin sisältyvä monimuuttujamenetelmien monisteeni). Tässä menen suoraan asiaan käyttäen kahta ohjelmistoa, jotka ovat Survo (Mustonen, 00, 99) ja SPSS (SPSS Inc., 007). Lisää tietoa näistä löytyy mm. Google-haulla verkosta tai esim. julkaisuista Mustonen (007) ja Boslaugh (005). Tässä käsiteltävä aineisto on VTM Maarit Valtarin meneillään olevasta väitöskirjatutkimuksesta, joka koskee suomalaisten naisten käsityksiä heidän omasta ulkonäöstään. Maarit on ystävällisesti antanut aineiston käyttööni näille kursseille sekä tekeillä olevaan kirjaani. Huomautan, että tässä yhteydessä Maaritin aineiston perusteella esittämiini tuloksiin on syytä suhtautua varauksellisesti, sillä ne ovat minun aikaansaannoksiani ja toimivat enemmänkin teknisinä esimerkkeinä. Todelliset tutkimustulokset on parasta katsastaa aikanaan Maaritin väitöskirjasta. Ennen faktorianalyysia on aineistoon syytä perehtyä kunnolla, korjata mahdolliset virheet ja paikata mahdollisuuksien mukaan puuttuvat tiedot. Esimerkki alkaa suoraan paikkausvaiheesta.. Survo Tarkastellaan tietojen puuttuvuutta analyysiin valituissa mittareissa:

Oletuksena tilastolliset ohjelmistot jättävät pois kaikki havainnot, joissa on yksikin puuttuva tieto ( listwise deletion ). Yleensä tämä johtaa liian helposti datan tuhlaamiseen. Pelkkää tyhjää ei kuitenkaan kannata mennä korvaamaan yhtä hyvin voisi sitten generoida koko aineiston satunnaislukujen avulla. Esimerkissä sovellettu päätössääntö on melko tyypillinen, joskin tiukempiakin sääntöjä saatetaan soveltaa. Regressiomenetelmään pohjautuva puuttuvien tietojen korvaus on kehittyneempi tapa kuin pelkkä keskiarvolla korvaaminen, koska se ottaa huomioon muidenkin muuttujien arvot kuin sen, josta tietoja puuttuu. Se, kuten mikään muukaan menetelmä, ei kuitenkaan ole mikään automaatti vaan siihen liittyy tiettyjä oletuksia. 4

Survossa analyysien tulostukset tulevat samaan tilaan kuin komennot, joilla ne aikaansaadaan. Tulostukset ovat kompakteja; niissä on vain oleellisin. Koko faktorianalyysin tulostus pitkine muuttujien selityksineen mahtuu kokonaan tähän: Mukana ovat myös muuttujien lyhyet nimet sekä niiden kommunaliteetit (sarake Sumsqr), faktorien voimakkuudet (rivi Sumsqr) ja näiden summat, joista yhteisvaihtelua kuvaava summa 6.64 on juuri laskettu kosketuslaskennalla. Lataukset on järjestetty hierarkisesti ja korostettu varjomerkeillä, jotka näkyvät Survon toimituskentässä eri väreinä. Koko tulostus saadaan yhdellä /LOADFACT-komennolla sen jälkeen kun faktorianalyysi on suoritettu vaiheittain:. korrelaatiomatriisin laskeminen valituista muuttujista. faktorointi (oletuksena suurimman uskottavuuden menetelmällä), faktoria. rotaatio (oletuksena varimax, mutta myös graafinen rotaatio mahdollinen) 5

Lopuksi nimetään faktorit ja lasketaan niitä vastaavat mitta-asteikot eli faktoripistemäärät:. SPSS Tehdään samat vaiheet SPSS:llä. Pelkillä valikkojen klikkailulla ei pärjää pitkälle: työvaiheiden toistaminen on tuskallista eikä myöhemmin pysty palauttamaan mieleen miten työt on tehty. Niinpä työkaaviot on syytä tallettaa Syntax Editorin avulla. Tämä tapahtuu useimmiten niin, että valikkovalintojen jälkeen painetaan OK-painikkeen sijasta nappia Paste. Silloin saadaan vastaava esitys SPSS:n komentokielellä. Toisinaan (mm. Recode, Compute) syntaksia on nopeampi kirjoittaa käsin tai kopioida ja muokata kuin avata yhtäkään valikkoa. Tässä siis tarkastellaan aluksi tietojen puuttuvuutta analyysiin valituissa mittareissa: 6

Tehdään pari taulukkoa ja rajataan aineisto em. päätössäännön mukaan. Sen jälkeen korvataan loput puuttuvat tiedot regressioimputoinnilla. Count nc * Datan keräysvuosi Crosstabulation nc Total korvataan on kaikki Datan keräysvuosi 997 005 Total 0 4 50 0 45 7 496 Count ng * Datan keräysvuosi Crosstabulation ng Total jää pois korvataan on kaikki Datan keräysvuosi 997 005 Total 4 7 8 59 05 464 7 496 Count nq * Datan keräysvuosi Crosstabulation nq Total jää pois korvataan on kaikki Datan keräysvuosi 997 005 Total 6 7 0 6 7 480 7 496 nc * Datan keräysvuosi Crosstabulation nq * Datan keräysvuosi * ng * nc Crosstabulation Count Count nc Total Count ng Total Count nq Total korvataan on kaikki Datan keräysvuosi 997 005 Total 0 4 50 0 45 7 496 ng * Datan keräysvuosi Crosstabulation jää pois korvataan on kaikki Datan keräysvuosi 997 005 Total 4 7 8 59 05 464 7 496 nq * Datan keräysvuosi Crosstabulation jää pois korvataan on kaikki Datan keräysvuosi 997 005 Total 6 7 0 6 7 480 7 496 nc korvataan on kaikki ng jää pois korvataan on kaikki jää pois korvataan on kaikki nq Total nq Total nq Total nq Total nq Total nq Total jää pois on kaikki korvataan on kaikki jää pois korvataan on kaikki on kaikki korvataan on kaikki jää pois korvataan on kaikki Datan keräysvuosi 997 005 Total 0 0 0 0 5 0 0 0 4 4 0 6 6 0 8 4 9 4 4 4 6 85 48 9 89 48 nc korvataan on kaikki nq * Datan keräysvuosi * ng * nc Crosstabulation Count SPSS:n imputointialgoritmi on hieman eri kuin Survon, mutta periaate on sama. Tästä kuitenkin johtuvat pienet numeeriset erot faktorianalyysin tulostuksissa. Eroilla ei ole käytännössä mitään merkitystä. ng jää pois korvataan on kaikki jää pois nq Total nq Total nq Total nq Total jää pois on kaikki korvataan on kaikki jää pois korvataan on kaikki on kaikki Datan keräysvuosi 997 005 Total 0 0 7 0 0 5 0 0 0 4 4 0 6 6

Faktorianalyysin syntaksi on aika hurjan näköinen johtuen muuttujien määrästä ja siitä että ne tulevat luetelluiksi nimeltä, vieläpä kahteen kertaan: Syntaksin perustana ovat valikossa Data Reduction Factor tehdyt valinnat, joita on runsaasti. Käyn ne tässä läpi vaihe vaiheelta. Ensin valitaan muuttujat. Kannattaa ehkä säätää SPSS näyttämään valintalokeroissa muuttujien lyhyet nimet (kuten olen tässä tehnyt), sillä lokerot ovat ahtaita, eikä niiden leveyttä voi säädellä. Alareunassa on viisi painiketta, joista jokainen avaa uuden valintaikkunan. Käydään seuraavaksi läpi jokainen niistä järjestyksessä vasemmalta oikealle, ennen kuin painetaan Paste-nappulaa. 8

Perustunnuslukuja on tarkasteltava jo aiemmin, tässä se on liian myöhäistä. Rotatoimaton ratkaisu tai kommunaliteettien alkuarvot kiinnostavat tuskin koskaan. Suurimman uskottavuuden menetelmä on syytä valita, ja erityisesti on syytä välttää SPSS:n oletuksena (psykometriikan historiasta kumpuavista syistä) tarjoamaa pääkomponenttianalyysia, johon myös Scree plot -kuva liittyy: On tyydyttävä varimax-rotaatioon (graafista ei ole). Vinorotaatiot ovat hyvin harvoin suositeltavia. Yleensä ne kannattaa unohtaa, eikä ainakaan lähteä kokeilemaan, ellei tiedä mistä on kysymys. Lopuksi pyydetään vielä faktoripisteet talteen regressiomenetelmällä ja tulosmatriisi järjestettynä: Oleellisin tulos koko faktorianalyysista on rotatoitu faktorimatriisi. Kokonaiskuvan hahmottaminen sen avulla on kuitenkin varsin hankalaa. Matriisi vie paljon tilaa (tässäkin se leviää alunperin kolmelle sivulle, jotka olen väkisin survonut samalle sivulle pienemmässä koossa). Taulukkoa SPSS:ssä editoimalla sarakkeita voi hiirellä venytellä, mutta se on erittäin hankalaa ja turhauttavaa. Sellaisia työvaiheita pitää välttää viimeiseen asti, koska niiden toistettavuus on olematon. Kommunaliteetit ovat aivan erillään omana taulukkonaan (jätin ne pois tästä). Kyseisessä taulukossa muuttujat ovat kaiken lisäksi eri järjestyksessä kuin faktorimatriisissa, joten niitä ei saa millään järkevästi yhdistettyä (eräs opiskelija teki joskus sitä varten makron Excelissä). Myös faktorien voimakkuudet tulevat omaan erilliseen karsinaansa (jätin senkin pois). Tässä ollaan siis pelkkien faktorilatausten varassa. Ne on järjestetty vähän samaan tapaan kuin Survossa, tosin latausten itseisarvojen mukaan, jolloin positiiviset ja negatiiviset lataukset ovat sekaisin. Korostuksia kuten lihavointeja ei ole. Niitä voisi lisäillä hiirellä, mutta siihen pätee sama kuin edellä: toistettaessa tämä työvaihe jouduttaisiin maalailut tekemään käsin uudelleen. Oletuksena SPSS esittää pienimmät lataukset (joilla ei edes ole mitään merkitystä) rumassa (niin sanotussa tieteellisessä) muodossa, jolloin numeeriset sarakkeet leviävät vielä entisestään. Kannattaa säätää tämä toiminto pois päältä (kuten olen tässä tehnyt), sillä se on tilastollisissa tarkasteluissa aivan turha. 9

Pidän ulkonäöstäni juuri sellaisena kuin se on. Olen tyytyväinen ulkonäkööni. Vaatteet näyttävät hyvältä päälläni. Kehoni on seksuaalisesti viehättävä. Pidän siitä mille näytän ilman vaatteita. En pidä ulkonäöstäni. Olen kaunis nainen. Laittautumattakin näytän hyvälle. Olen ruma. Olen aina ollut tyytyväinen omaan ulkonäkööni. En ole fyysisesti viehättävä Olen naisellinen. Olen aina hyvännäköinen ajankohdasta ja tilanteesta riippumatta. En pidä kehostani. Olen fyysisesti hyvässä kunnossa. Ulkonäköni vastaa sisäistä minääni. En mielelläni käy yleisillä rannoilla ulkonäköni takia. Joudun tekemään suhteettoman paljon ollakseni kulttuurimme ihanteiden mukainen. Median (television ja mainosten) esittämä naiskuva vähentää tyytyväisyyttäni omaa ulkonäköäni kohtaan. Ulkonäköni takia olen jättänyt osallistumatta joihinkin tilaisuuksiin tai tapahtumiin. En osallistu mielelläni iltamenoihin ulkonäköni takia. Ulkonäköni kertoo millainen ihminen minä olen. Yritän olla mahdollisimman huomaamattoman näköinen. Rotated Factor Matrix a Factor.795 -.078 -.058.774 -.0 -.07.77.0 -.8.697.90.008.690.007 -.089 -.680 -.008.05.6.75.059.595 -.05.009 -.59 -.08 -.07.577 -.068 -.5 -.55 -.097.00.58.7.006.507.068 -. -.49.4.05.489.079 -.0.478.06 -.006 -.467.08.060 -.45.45.45 -.4.8.59 -.64.094.09 -.45.04.05.99.76 -.045 -.68 -. -.7 Suhtautumiseni ulkonäkööni vaihtelee: Toisinaan olen -.45.5.75 tyytyväisempi, toisinaan tyytymättömämpi. Käytän yleensä paljon aikaa itseni "laittamiseen" -.07.679 -.056 ennen ulos lähtöäni. Extraction Method: Maximum Likelihood. Rotation Method: Varimax with Kaiser Normalization. Yritän aina parantaa ulkonäköäni. Käytän paljon aikaa ulkonäköni katseluun ja tutkimiseen. Tarkastan ulkonäköni peilistä aina, kun se on mahdollista. Ulkonäköni on tärkeä osa minua. Minulle on tärkeätä, että näytän aina hyvälle. Nautin siitä, kun ihmiset katsovat minua. Ostan vaatteita, joissa näytän mahdollisimman hyvälle. Pyrin herättämään huomiota ulkonäölläni. Katson aina, miltä näytän, ennekuin lähden "ihmisten ilmoille". Pukeudun mielelläni seksikkäästi. Käytän hyvin vähän kauneudenhoitotuotteita. Meikattuna olen tyytyväisempi ulkonäkööni. Silloin, kun koen itseni viehättäväksi, olen myös halukkaampi seksuaaliseen kanssakäymiseen. Tiedän, jos olen "huonosti laitettu". Käytän yleensä vaatteita, jotka ovat helppokäyttöisiä välittämättä siitä, mille ne näyttävät. Harrastan liikuntaa pitääkseni vartaloni "kunnossa". Pyrin pukeutumaan niin, etteivät "heikot kohtani" näy. Kiinnitän erityistä huomiota hiuksiini (kampaukseen, leikkaukseen ja/tai väriin). Rotated Factor Matrix a Factor -.05.656 -.06 -.099.6 -.075.07.594 -.00.68.576.0.68.566.005.44.56.07.5.544.094.48.5.08.059.56.00.79.469.05.0 -.464.056 -.084.460.070 -.064.49.0 -.06.4.055 -.048 -.78 -.080.8.58 -.05 -.46.40.9.074.5.00 Miellyttävästä ulkonäöstä on hyötyä. -.088.06.0 Olen suunnitellut plastiikkakirurgille -.86.95.06 menemistä. Hyvännäköiset ihmiset pärjäävät elämässään -.74.86.47 paremmin. Hyvännäköiset ihmiset ovat suositumpia. -.0.85.6 Elämässä pärjääminen ei ole ulkonäöstä kiinni..78 -.86.007 Extraction Method: Maximum Likelihood. Rotation Method: Varimax with Kaiser Normalization. Page Rotated Factor Matrix a Factor Naisia koskevat ulkonäkövaatimukset ovat -.07.07.787 vahvoja ja kovia. Hoikkuutta ja nuoruutta ihannoiva kulttuuri on naisille liikaa paineita -.0.0.76 aiheuttava. Kulttuurissamme ihannoidaan nuoria ja -.045.06.688 hoikkia naisia. Ihmisen ulkonäkö on kulttuurissamme liian -.07 -.076.65 arvostetussa asemassa. Naisten ulkonäöllä on meidän kulttuurissamme enemmän merkitystä kuin miesten. -.050.4.56 Extraction Method: Maximum Likelihood. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 5 iterations. 0

Viitteet ja lähteet Sarah Boslaugh (005). An Intermediate Guide to SPSS Programming: Using Syntax for Data Management. SAGE, Thousand Oaks. L. J. Cronbach (95). Coefficient alpha and the internal structure of tests. Psychometrika, 6, 97 4. Joseph F. Lucke (005). The α and the ω of congeneric test theory: An extension of reliability and internal consistency to heterogeneous tests. Applied Psychological Measurement, 9, 65 8. Seppo Mustonen (99). Survo, An Integrated Environment for Statistical Computing and Related Areas. Survo Systems, Helsinki. Seppo Mustonen (00). SURVO MM: käyttöympäristö tekstin ja numeerisen tiedon luovaan käsittelyyn. http://www.survo.fi. Seppo Mustonen (007). Survo Crossings. CSCnews /007, sivut 0. http://www.csc.fi/csc/julkaisut/cscnews/edelliset_numerot/cscnews_007. C. Spearman (904). The proof and measurement of association between two things. American Journal of Psychology, 5, 7 0. SPSS Inc. (007). SPSS Inc. http://www.spss.com. L. Tarkkonen ja K. Vehkalahti (005). Measurement errors in multivariate measurement scales. Journal of Multivariate Analysis, 96, 7 89. Lauri Tarkkonen (987). On Reliability of Composite Scales. Statistical Studies 7, Suomen Tilastoseura, Helsinki. Jos M. F. ten Berge ja Gregor Soĉan (004). The greatest lower bound to the reliability of a test and the hypothesis of unidimensionality. Psychometrika, 69, 6 6. Kimmo Vehkalahti (000). Reliability of Measurement Scales. Statistical Research Reports 7, Suomen Tilastoseura, Helsinki. Kimmo Vehkalahti, Simo Puntanen ja Lauri Tarkkonen (006). Estimation of reliability: a better alternative for Cronbach s alpha. Reports on Mathematics 40, Matematiikan ja tilastotieteen laitos, Helsingin yliopisto. http://mathstat.helsinki.fi/reports/preprint40.pdf. Kimmo Vehkalahti, Simo Puntanen ja Lauri Tarkkonen (007). Effects of measurement errors in predictor selection of linear regression model. Computational Statistics & Data Analysis. In press, http://dx.doi.org/0.06/j.csda.007.05.005.

Kimmo Vehkalahti Monimuuttujamenetelmät tekeillä ollut uusi versio viimeinen painos lokakuu 007

Alkusanat Käsillä oleva materiaali jäi viime talven aikana lopullisesti työstövaiheeseen hyvästä syystä: olen kirjoittamassa uutta oppikirjaa, enkä enää jatka tämän monisteen päivittämistä. Kirjani työnimi on Kyselytutkimuksen mittarit ja menetelmät, ja sen on tarkoitus ilmestyä vuonna 008. Valtaosa tässä olevasta materiaalista on suoraan vuonna 00 Metlan (Metsäntutkimuslaitos) kurssille tekemästäni monisteesta, jonka laitoin samana vuonna verkkoon saataville. Monisteesta on tullut varsin suosittu, ehkä siksi että näistä asioista on edelleen kirjoitettu melko vähän suomeksi. Onkin ollut mukava huomata, että monet ovat löytäneet monisteeni verkosta ja hyödyntäneet sitä opinnäytetöissään. Ehdin syksyllä 006 aloittaa monisteen mittaamista ja faktorianalyysia koskevan osan uudistamisen, mutta loppuosa on yhä entisessä muodossaan aivan sellaisenaan. Tarkoitukseni on ollut monipuolistaa esimerkkejä ja lisätä tarkempia viittauksia eri ohjelmistoihin. Esimerkkien ekologiapainotus juontaa juurensa Metlan ohella vuosina 995 00 pitämiini monimuuttujamenetelmien kursseihin Helsingin yliopiston maatalous-metsätieteellisessä tiedekunnassa. Sittemmin kiinnostukseni kohteiksi ovat muodostuneet enemmänkin yhteiskunta- ja käyttäytymistieteiden sovellukset. Erityiskiitokset lausun jo tässä vaiheessa Pekka Niemiselle L A TEX-neuvoista. Ryhtyessäni päivittämään monistetta päätin tehdä työn edelleen Survolla, mutta nyt hyödyntäen sen L A TEX-liittymää, jolloin dokumentin rakenteen, viittausten ym. hallinta on vielä helpompaa. Olen hyödyntänyt tätä Survon ja L A TEX:in yhteispeliä myös viimeaikaisissa artikkeleissani [, ] hyvällä menestyksellä, joten ajattelin kokeilla, miten homma sujuu vähän laajemmassa yhteydessä. Näyttää sujuvan hyvin, joten tulen kirjoittamaan myös koko kirjan tällä tekniikalla. Monisteen ja tulevan kirjan sisältöä koskevia ehdotuksia ja muuta palautetta luen aina mielelläni, joten lähetä ihmeessä sähköpostia (Kimmo.Vehkalahti@helsinki.fi). 4.0.007/KV http://www.helsinki.fi/people/kimmo.vehkalahti ii

Sisältö Alkusanat ii Mittaaminen ja aineiston esikäsittely. Mittausmalli ja mitta-asteikko........................... Esimerkki: fyysinen suorituskyky................... Faktorianalyysi 5. Faktorointi.................................... 5. Rotaatio..................................... 6. Faktoripistemäärät............................... 7.4 Reliabiliteetti.................................. 8.5 Jatkotarkasteluja................................ 0.6 Kirjallisuutta.................................. iii

Johdanto Tämä moniste on alunperin tarkoitettu oheismateriaaliksi sovelluspainotteiselle monimuuttujamenetelmien kurssille. Olen pitänyt useita sellaisia kursseja joko useamman viikon kestävänä periodiopetuksena yliopistolla tai päivän jaksoina mm. eri tutkimuslaitoksissa. Itseopiskeluun materiaalista lienee hyötyä lähinnä niille, jotka tuntevat aihepiiriä jo entuudestaan tai haluavat kerrata aiemmin oppimaansa. Kurssin aikana tulee tyypillisesti esille arviolta kaksinkertainen määrä tietoa rivien välistä sekä osallistujien kysymysten ja keskustelujen innoittamana. Monisteeseen olen pyrkinyt tiivistämään ydinkohtia keskeisimmiksi katsomistani asioista, joita ovat: moniulotteisten ilmiöiden ja etäisyyksien mittaaminen keskeiset tilastolliset monimuuttujamenetelmät faktorianalyysi pääkomponenttianalyysi erotteluanalyysi ryhmittelymenetelmät moniulotteinen skaalaus korrespondenssianalyysi menetelmien yleiset oletukset ja rajoitukset menetelmille ominaiset graafiset tarkastelut Lähestyn näitä asioita soveltajan näkökulmasta esitellen taustalla olevaa tilastotieteen teoriaa tarpeen mukaan. Tärkeintä on oppia valitsemaan kuhunkin tutkimustilanteeseen sopivia menetelmiä ja käyttämään niitä tarkoituksenmukaisesti sekä tulkitsemaan tilastollisten ohjelmien antamia tulostuksia järkevästi. Tilastotieteen perusasiat ja -käsitteet kuten mitta-asteikot, keskiarvo, hajonta, korrelaatio, frekvenssijakauma, ristiintaulukko, hypoteesien testaus jne. on syytä hallita etukäteen. Vaikka materiaalissa onkin viittauksia eri tilastollisiin ohjelmistoihin, ei kurssilla varsinaisesti opeteta minkään niiden käyttöä. Käytännön hyödyn kannalta onkin varsin oleellista osata itsenäisesti käyttää jotakin tarkoitukseen sopivaa ohjelmistoa, joita ovat esimerkiksi Survo, SPSS, R, SAS, S-Plus, Stata, Statistica, Systat ja Matlab.

Luku Mittaaminen ja aineiston esikäsittely Kvantitatiivinen tutkimus perustuu mittaamiseen, ja tutkimusten johtopäätökset nojaavat mittausten tilastolliseen analysointiin. Mikäli mittausten laatuun ei kiinnitetä tarpeeksi huomiota, mittausvirheet vaikuttavat liiaksi lopputuloksiin. Tällöin eivät hyvätkään menetelmät pelasta tilannetta. Sama ongelma esiintyy niin luonnon- kuin yhteiskunta- ja käyttäytymistieteissä.. Mittausmalli ja mitta-asteikko Mittausten laadun arviointi on siis tärkeää kaikessa tieteellisessä tutkimuksessa. Ensisijalla ovat erilaiset validiteettitarkastelut, mutta tärkeää on myös mittarin tekninen tarkkuus, jota arvioidaan reliabiliteetin avulla. Asialliset reliabiliteettitarkastelut edellyttävät mittausmallin estimointia ja riittävän yleistä mitta-asteikkoa. Mittausmallin tärkeä erikoistapaus on faktorianalyysimalli, johon perehdytään luvussa. Monet sovellustilanteet kannattaa hahmotella Kuvan. mittauskehikon (measurement framework) mukaisesti. Mittausmallin (measurement model) avulla spesifioidaan faktoreiden τ,τ,...,τ k ja mitattujen muuttujien x,x,...,x p väliset yhteydet ottaen huomioon, että kuhunkin mittaukseen liittyy mittausvirhe (measurement error), jota merkitään symboleillaε,ε,...,ε p. Tavoitteena on luoda uusia muuttujia eli asteikkoja (measurement scales), jotka kuvaavat teoreettisia faktoreita mahdollisimman hyvin ja sisältävät samalla mahdollisimman vähän mittausvirheistä johtuvaa vaihtelua... Esimerkki: fyysinen suorituskyky Tarkastellaan esimerkkinä fyysistä suorituskykyä olettaen että se koostuu ainakin kolmesta komponentista: nopeus, voima ja kestävyys. Käytetään mittarina kymmenottelua ja aineistona vuoden 97 maailman 48 parhaan urheilijan saavuttamia lajipisteitä. Valitaan analyysiin lajimuuttujat ja lasketaan niiden keskiarvot, hajonnat ja korrelaatiot. Tarkistetaan keskiarvot ja hajonnat sekä täydellisten havaintojen lukumäärät muuttujittain.

.. Mittausmalli ja mitta-asteikko Measurement model Measurement scale ε τ x u Second order scale Validity criteria ε τ x u z y ε x τ k u m z s y q ε p x p Kuva.. Mittauskehikon elementit (ks. []). Means, standard deviations and number of observations in KYMMEN: mean stddev N 00m 88.88 59.0 48 00 m juoksu (pisteet) Pituush 840.88 50.79 48 Pituushyppy Kuula 740.77 6.88 48 Kuulantyöntö Korkeus 805.854 64.805 48 Korkeushyppy 400m 8.500 49.80 48 400 m juoksu Aidat 85.875 54.05 48 0 m aidat Kiekko 747.458 6.8 48 Kiekonheitto Seiväs 900.7 6.04 48 Seiväshyppy Keihäs 760.0 6.97 48 Keihäänheitto 500m 554.65 76.67 48 500 m juoksu Mikäli havaintoarvoja puuttuu, koko havainto jää käsittelyjen ulkopuolelle (ns. listwise deletion -periaate). Siis vain täydelliset havainnot kelpuutetaan. Toinen, parittaisiin tietoihin perustuva korrelaatioiden laskentamenetelmä voi antaa hyvin harhaisia tuloksia, joten sen käyttö ei ole suositeltavaa. Tiedon puuttumisen syyt pitää selvittää. Puuttuminen ei ole välttämättä satunnaista. Se voi olla systemaattista jonkin muun asian suhteen. Tiedon puuttuminen voi myös johtua siitä ettei kaikkia tietoja ole ollut tarkoituskaan mitata kaikilta havaintoyksiköiltä. Aidosti puuttuvia tietoja ei mikään korvaa, mutta eri asteisia paikkauksia voi olla mahdollista tehdä ja saada jonkin verran vältettyä havaintojen täydellistä menettämistä. Usein käytännössä sovellettu keskiarvolla korvaaminen on melko alkeellista, ja sitä pitäisi

4 Luku. Mittaaminen ja aineiston esikäsittely välttää jos parempia menetelmiä on käytettävissä. Parhaat keinot perustuvat regressioestimointiin, ja ovat hyvinkin tehokkaita. Tässä aineistossa havainnot ovat täydellisiä, joten paikkausta ei tarvita. Vilkaistaan korrelaatiomatriisia: 00m Pituus Kuula Korkeu 400m Aidat Kiekko Seiväs Keihäs 500m 00m.000 0.7-0.08-0.4 0.456 0.6 0.04 0.055-0. -0.9 Pituush 0.7.000-0.04-0.00 0. 0.98 0.0 0.06 0.54-0.07 Kuula -0.08-0.04.000 0.6-0.04 0.086 0.77-0.04 0.0-0.446 Korkeus -0.4-0.00 0.6.000-0.9-0.09 0.7-0.8 0.50-0.46 400m 0.456 0. -0.04-0.9.000 0.76-0.45 0.007-0.05 0.0 Aidat 0.6 0.98 0.086-0.09 0.76.000 0.048-0.07-0.48-0.5 Kiekko 0.04 0.0 0.77 0.7-0.45 0.048.000-0.8 0.6-0.574 Seiväs 0.055 0.06-0.04-0.8 0.007-0.07-0.8.000-0.9 0.0 Keihäs -0. 0.54 0.0 0.50-0.05-0.48 0.6-0.9.000-0.065 500m -0.9-0.07-0.446-0.46 0.0-0.5-0.574 0.0-0.065.000 Korrelaatioistakin näkyy jo yhtä ja toista, esim. suurin korrelaatio (0.77) on kiekonheiton ja kuulantyönnön välillä. Korrelaatiomatriisi on kuitenkin vain lähtökohta useille monimuuttujamenetelmille; siitä ei pidä tehdä liian pitkälle meneviä päätelmiä. Varsinkaan ei kannata tuijottaa yksittäisten korrelaatioiden tilastollisiin merkitsevyyksiin (jotka edellä on kuitenkin automaattisesti korostettu yleissilmäilyn helpottamiseksi). Merkitsevyyksiä ei pidä ylipäätään ottaa liian vakavasti. On muistettava että tilastollinen merkitsevyys riippuu otoskoosta: suurilla aineistoilla kaikki on tilastollisesti merkitsevää (significant) vaikkei välttämättä käytännössä lainkaan merkittävää (notable, remarkable). Kun muuttujia on enemmän, lukujen silmäilykin käy äkkiä hankalaksi. Vaikka keskiarvot, hajonnat ja korrelaatiot (ns. tyhjentävät otossuureet) tiivistävätkin jo aineiston tietoa melkoisesti, ei se kuitenkaan riitä vielä mihinkään. Tarvitaan menetelmiä joilla informaatiota survotaan tästä huomattavasti tiiviimmäksi paketiksi. [Tähän tulee lisää aineiston esikäsittelystä, vaiheesta joka käytännössä voi usein viedä jopa enemmän aikaa kuin varsinainen analysointi.]

Luku Faktorianalyysi Faktorianalyysin (factor analysis, FA) perustana on tilastollinen malli, jossa ajatellaan havaittujen muuttujien riippuvuusrakenteen ilmentävän varsinaisen mielenkiinnon kohteena olevia piilomuuttujia joita ei voi suoraan havaita. Näitä niin sanottuja latentteja muuttujia kutsutaan tässä yhteydessä faktoreiksi. Faktorianalyysi on eräs vanhimmista tilastollisista menetelmistä. Se sai alkunsa käyttäytymistieteiden puolella, mutta muotoutui sittemmin täysin yleiseksi tilastolliseksi monimuuttujamenetelmäksi, jota voidaan soveltaa mitä moninaisimmilla aloilla.. Faktorointi Faktorianalyysi on usein jo tutkimuksen alkuvaiheessa sovellettu menetelmä, jolla saadaan tarkasteltavien muuttujien määrä realistisemmaksi. Samalla saadaan erotettua todellinen vaihtelu satunnaisesta mittausvirhevaihtelusta, mikä antaa mahdollisuuden arvioida mm. uusien muuttujien reliabiliteettia ja mittauksen keskivirhettä. Näin jatkoanalyysit voidaan tehdä muuttujilla joista on puhdistettu mittausvirheiden vaikutus. Oikean faktoriluvunkmäärääminen on olennaisen tärkeää. Sitä ei saa antaa ohjelman (korrelaatiomatriisin ominaisarvojen perusteella) "keksiä"vaan sen on oltava tutkijan vastuulla. Tutkijanhan parhaiten luulisi tietävän, minkälaista ja miten moniulotteista ilmiötä on mallintamassa! Ennakkokäsityksen mukaan tutkittava ilmiö on (ainakin) kolmiulotteinen, joten faktoroidaan korrelaatiomatriisi sen mukaisesti käyttäen faktorilukuna kolmea. Sovelletaan suurimman uskottavuuden (maximum likelihood) faktorointimenetelmää. Se on käytännössä suositeltavin. Muita asiallisia vaihtoehtoja ovat lähinnä pääakselimenetelmä (principal axes) tai yleistetty pienimmän neliösumman menetelmä (generalized least squares). Historiallisista syistä monissa ohjelmissa esiintyy vaihtoehtona (jopa oletuksena) tässä yhteydessä pääkomponenttianalyysi (principal components), mutta se ei ole sama asia kuin faktorianalyysi, joten sitä pitää osata tietoisesti välttää, jos haluaa tehdä kunnollista faktorianalyysia. Muut mahdollisesti tarjolla olevat vaihtoehdot kuten esim. alfa-faktorointi yms. ovat jäänteitä psykometriikan historiasta, ja ne on syytä jättää sinne. Tehdään siis faktorointi kolmella faktorilla edellä olevasta korrelaatiomatriisista. 5

6 Luku. Faktorianalyysi Factor analysis: Maximum Likelihood (ML) solution Factor matrix F F F h^ 00m -0.98 0.875 0.76 0.886 Pituush -0.06 0.6-0. 0.08 Kuula -0.456-0. 0.654 0.7 Korkeus -0.44-0.50-0.06 0.75 400m 0.00 0.67 0.05 0.47 Aidat -0.7 0.8 0.058 0.5 Kiekko -0.58-0.0 0.56 0.745 Seiväs 0.06 0.5-0.45 0.07 Keihäs -0.064-0.54-0.058 0.07 500m 0.997 0.004 0.04 0.995. Rotaatio Tulkinnan selkiyttämiseksi suoritetaan saadulle faktorimatriisille ortogonaalinen Varimaxrotaatio ja otetaan lopputulos esille siten että tulkinnan perusteet ovat selvästi näkyvissä. Tavoitteena on ns. yksinkertainen rakenne (simple structure). Asiaa voisi lähestyä tarkemminkin graafisen rotaation avulla. F F F Sumsqr Kuula 0.8-0.60-0. 0.7 Kuulantyöntö Kiekko 0.79-0. -0.74 0.745 Kiekonheitto 00m 0.08 0.778-0.59 0.886 00 m juoksu (pisteet) 400m -0.5 0.64 0.064 0.47 400 m juoksu Korkeus 0.6-0.509 0.00 0.75 Korkeushyppy 500m -0.45 0.55 0.90 0.995 500 m juoksu Pituush -0.069 0.056-0.7 0.08 Pituushyppy Aidat 0.060 0.0-0.88 0.5 0 m aidat Seiväs -0.55 0.00-0.089 0.07 Seiväshyppy Keihäs 0.06-0.66 0.06 0.07 Keihäänheitto Sumsqr.58.54.5 4.469 Faktorit näyttäisivät löytyvän ennakkokäsityksen mukaisesti järjestyksessä F: kestävyys, F: nopeus, F: voima (taulukon järjestys perustuu faktoreiden voimakkuuksiin eli pystysuunnassa laskettuihin latausten neliösummiin). Siis esim. kuulantyöntö ja kiekonheitto latautuvat kolmannelle faktorille, jossa suurin negatiivinen korrelaatio on 500 metrin juoksulla. Tulkinta on varsin selvä: voimalajeissa menestyvät ovat isokokoisina vaikeuksissa kestävyysjuoksussa. Havainnollistetaan rotatoitua faktoriratkaisua graafisesti piirtämällä faktoriavaruuden dimensiot pareittain vastakkain. Muuttujat esiintyvät faktoriavaruudessa vektoreina, jotka kuvaavat vastaavia faktorilatauksia eli korrelaatioita faktorien ja muuttujien välillä.

.. Faktoripistemäärät 7 00m 400m Kiekko Kuula Kiekko Kuula F Aidat Pituush Seiväs Kiekko Kuula Keihäs Korkeus 500m F 00m Aidat Korkeus Keihäs Pituush Seiväs 400m 500m F Korkeus KeihäsAidat 00m Pituush Seiväs 400m 500m F F F. Faktoripistemäärät Kuva.. Faktoriavaruuden dimensiot pareittain. Havaintomatriisin tasolle palataan estimoimalla faktoreittain havaintokohtaiset arvot eli ns. faktoripistemäärät (factor scores). Tämä tapahtuu regressiomenetelmällä, sillä faktorianalyysin perusyhtälöä ei voi ratkaista yksikäsitteisesti faktoreiden suhteen. Lasketaan aluksi tarvittava painokerroinmatriisi. Kertoimet ovat pieniä, koska muuttujien saamat arvot ovat suuria. Vakiotermillä (Constant) aikaansaadaan keskistys, eli faktoripistemäärien keskiarvot tulevat olemaan nollia. Factor score coefficients /// % % % Constant -7.990-8.8-4.48 00m -0.00 0.04 0.00 Pituush -0.000 0.000-0.0006 Kuula 0.000 0.006 0.0089 Korkeus 0.000-0.00 0.0000 400m -0.0007 0.00-0.0004 Aidat -0.000 0.0007 0.000 Kiekko 0.007 0.00 0.0080 Seiväs -0.000-0.000-0.0009 Keihäs 0.000-0.0005-0.000 500m 0.04 0.007 0.000 Lasketaan sitten uudet faktoripistemuuttujat (kestäv,nopeus,voima) alkuperäisten lineaarikombinaatioina, siis painotettuina summina, joiden painot määräytyvät faktorianalyysin perusteella. Tällaiset muuttujat ovat monesta syystä suositeltavampia kuin ns. summamuuttujat, joissa muuttujille annetaan painoja 0 ja osittain mielivaltaisesti. Nyt kullekin urheilijalle on saatu kymmenen lajipisteen sijasta kolme arvoa, jotka kuvaavat fyysisen suorituskyvyn eri dimensioita, kestävyyttä, nopeutta ja voimaa. Kukin muuttujista on asteikko dimension ääripäästä toiseen. Sinänsä lukuarvot ovat anonyymejä, vaihdellen nollan molemmin puolin. Parhaat urheilijat eri dimensioilla ovat Ghesquir (kestävyys), Bennett (nopeus) ja Zigert (voima).

8 Luku. Faktorianalyysi Nimi kestäv nopeus voima Skowrone -0.478 0.68-0.06 Hedmark -.57-0..5 Le_Roy -.876-0.055 0.580 Zeilbaue -0.04 0.049 0.98 Zigert -0.067 0.68.5 Bennett 0.50.869 -.4 Blinjaje 0.84.04.79 Katus -0.46 0.406 0.4 Berendse.566 0.409.0 Gorbacho 0.669 0.568 0.97 Kiseljev -0.79 0.7 0.5 Gough -0. -.40.97 Sherbati 0.55 0.776 -.70 Ghesquir.758-0.98 0.974 Avilov 0.486 -.785-0.9... (loput jätetty tästä pois) Faktoripistemäärät eivät korreloi keskenään. Tämä on jatkotarkasteluja silmälläpitäen hyödyllinen ominaisuus, esim. regressioanalyysi on mukavampaa korreloimattomilla selittäjillä. Keskiarvot ovat siis nollia ja hajonnat suunnilleen ykkösen suuruisia, eli faktoripistemäärät vastaavat melko tarkalleen standardoituja muuttujia. Means, std.devs and correlations of KYMMEN N=48 Variable Mean Std.dev. kestäv -0.000000 0.9879 nopeus -0.000000 0.9460 voima -0.000000 0.89647 Correlations: kestäv nopeus voima kestäv.0000 0.00-0.0705 nopeus 0.00.0000-0.0606 voima -0.0705-0.0606.0000 Yleinen (ns. keskeiseen raja-arvolauseeseen perustuva) totuus on, että kun lasketaan yhteen erilaisia muuttujia, saadaan jotain enemmän tai vähemmän normaalijakaumaa muistuttavaa. Niinpä ei ole yllätys, että faktoripistemäärien jakaumat ovat selkeästi normaalisia, vaikkei havaintoja ole kuin 48..4 Reliabiliteetti Näin saatujen uusien faktoripistemuuttujien reliabiliteetit ovat varsin korkeita: 0.96, 0.88 ja 0.8. Näiden ja ao. muuttujien varianssien avulla voidaan laskea, että mittauksen keskivirheet ovat vastaavasti n. 0., 0. ja 0.4. Täten tiedetään miten tarkoista asteikoista nyt

.4. Reliabiliteetti 9 kestäv nopeus voima p=0.7 p=0.66 p=0.66 Kuva.. Faktoripistemuuttujien jakaumat normaalijakaumasovituksineen. muodostetuissa faktoripisteissä on kysymys, ja esim. erilaisissa vertailutilanteissa voidaan arvioida, ylittääkö havaittu ero mittausvirheestä johtuvan vaihtelun. Cronbachin alfa [] on yleisesti käytetty reliabiliteettiestimaattori, joka saisi jäädä jo historiaan. Tässä se antaa peräti negatiivisen tuloksen, mikä on täysin absurdia, kun luvun pitäisi kuvata todellisen vaihtelun ja mittausvirhevaihtelun sisältämän kokonaisvaihtelun välistä suhdetta (ja olla siten aina jotain ei-negatiivista). Moniulotteisille mitta-asteikoille kehitetty Tarkkosen rho [, 4, 5, 6] toimii kuten pitääkin. Mikäli yhdisteltäsiin muuttujia laskemalla kolmen faktoripistemuuttujan sijasta niiden suora summa, olisi summa-asteikon reliabiliteetti vain luokkaa 0.6 eli todella huono. On tosin huomattava, että juuri yhteispisteitähän tässä lajissa käytännössä lasketaan, mutta tutkimuskäyttöön sellaisesta muuttujasta ei taida olla. /RELIAB CORR.M,AFACT.M,MSN.M, Reliabilities of measurement scales by Tarkkonen s method, which supersedes Cronbach s alpha (see RELIAB? for more information) Factor images Factor scores E E E E 0.95 0.90 0.960 0.960 0.88 0.80 0.884 0.884 0.878 0.878 0.89 0.89 Unweighted sum of all items E E Cronbach s alpha 0.6 0.40-0.48 E: measurement errors are uncorrelated (assumed in factor model) E: measurement errors may correlate (more general model) To test the assumptions of the model, see the residual matrices below: /MATSHOW RCOV.M ##.### / Residual covariances /MATSHOW RCORR.M ##.### / Residual correlations Estimoidun kolmen faktorin ratkaisun rakennevaliditeettia voidaan myös näiden tarkastelujen perusteella kyseenalaistaa. Puolella lajeista on alhainen kommunaliteetti, mikä

0 Luku. Faktorianalyysi näkyi itse asiassa jo faktorimatriisista: F F F Sumsqr Korkeus 0.6-0.509 0.00 0.75 Korkeushyppy Pituush -0.069 0.056-0.7 0.08 Pituushyppy Aidat 0.060 0.0-0.88 0.5 0 m aidat Seiväs -0.55 0.00-0.089 0.07 Seiväshyppy Keihäs 0.06-0.66 0.06 0.07 Keihäänheitto Kyseisille lajeille on yhteistä se että ne liittyvät tekniikkaan tai motoriikkaan. Tarkastellaan vielä faktorimallin jäännöskorrelaatiomatriisia: Residual_correlations /// 00m Pituu Kuula Korke 400m Aidat Kiekk Seivä Keihä 500m 00m.00-0.04-0.0-0.0-0.00-0.0 0.0 0.0-0.0-0.00 Pituush -0.04.00-0.0 0.05 0.4 0.4 0.0 0.0 0.9 0.00 Kuula -0.0-0.0.00-0.04 0.0 0.07 0.00-0.00-0.09-0.00 Korkeus -0.0 0.05-0.04.00 0.0 0.09 0.04-0.09 0.0 0.00 400m -0.00 0.4 0.0 0.0.00 0.0-0.0-0.09 0.0 0.00 Aidat -0.0 0.4 0.07 0.09 0.0.00-0.07-0.0-0.0-0.00 Kiekko 0.0 0.0 0.00 0.04-0.0-0.07.00-0.00 0. 0.00 Seiväs 0.0 0.0-0.00-0.09-0.09-0.0-0.00.00-0. -0.00 Keihäs -0.0 0.9-0.09 0.0 0.0-0.0 0. -0..00 0.00 500m -0.00 0.00-0.00 0.00 0.00-0.00 0.00-0.00 0.00.00 Faktorimallin mukaisesti tämän matriisin tulisi olla diagonaalinen, eli lävistäjän ulkopuolella pitäisi olla vain nollaa. Nyt residuaalien korrelaatiot osoittavat että osa vaihtelusta on jäänyt mittausvirheiden puolelle, ja mallia modifioimalla sitä voitaisiin siirtää todellisen vaihtelun puolelle. Käytännössä tämä tarkoittaisi faktorilukumäärän nostamista. Malliin tarvittaisiin yksi tai kaksi tekniikkafaktoria, käsien ja jalkojen taidoille erikseen..5 Jatkotarkasteluja Eksploratiivisen faktorianalyysin puitteissa on aivan sallittua kehittää analyysia alkuperäistä konseptia moniulotteisemmaksi aineiston antaman informaation valossa. Tiukempi lähestymistapa eli ns. konfirmatorinen faktorianalyysi edellyttää enemmän ilmiöön liittyvää teoriaa ja tarkoittaa faktorirakenteeseen liittyvien hypoteesien testaamista tätä aiempaa tietämystä vasten. Eksploratiivinen työskentelytapa on käytännössä yleisemmin sovellettu. Faktorianalyysin yleistys useiden mittausmallien välisten suhteiden tutkimiseen tunnetaan puolestaan nimellä rakenneyhtälömallit (structure equation models, SEM), josta käytetään myös usein nimitystä LISREL-mallit (samannimisen ohjelmiston perusteella). Tietynlaista konfirmatorista työskentelytapaa edustaa myös transformaatioanalyysi, jolla voidaan vertailla faktorirakenteita toisiinsa, esim. eri tutkimusten, ajankohtien tms. välillä. Suoraan vertailuja ei pidä mennä tekemään, sillä rotaatiosta johtuen identtisetkin rakenteet voivat näyttää erilaisilta. Transformaatioanalyysin kehitti alunperin Ahmavaara

.6. Kirjallisuutta jo 950-luvulla [7]. Mustonen johti myöhemmin ns. symmetrisen transformaatioanalyysin mallin [8], ks. myös []. Kansainvälisesti menetelmää ei tunneta transformaatioanalyysin nimellä, mutta lähelle sitä tulee ns. Procrustes-rotaatio [9], jota faktorianalyysin yhteydessä ovat esittäneet mm. Schönemann [0] ja Cliff []. Erona transformaatioanalyysiin on, ettei Procrustes-rotaatiossa kiinnitetä huomiota poikkeamiin sen jälkeen kun ratkaisut lähimmäksi tuova rotaatio on löydetty. Juuri poikkeamat ovat kuitenkin mielenkiintoisia, sillä ne kertovat mistä mahdolliset rakenne-erot johtuvat. Mm. kulttuurierot kyselytutkimuksissa, joissa lomake on huolellisesti käännätetty toiselle kielelle, paljastuvat armotta. Edellä esitetty esimerkki sopii faktorianalyysin periaatteiden esittämiseen, mutta todellisuudessa aineiston pitäisi olla kooltaan suurempi. Hyötysuhdekin jää vaatimattomaksi, jos alunperin kymmenestä muuttujasta saadaan ulotteisuus tiivistettyä viiteen. Myös havaintojen suhteen aineisto on kovin pieni. Suurimman uskottavuuden estimointi on vakaammalla pohjalla, kun estimoitavia parametreja kohti on enemmän havaintoja. Tyypillisempiä aineistokokoja faktorianalyysissa ovatkin sellaiset, joissa muuttujia on 0 50 ja havaintoja 00 000. Yleisiä suosituksia on mahdotonta antaa. Mittaustarkkuuskin vaikuttaa asiaan: mitä karkeammilla mittareilla mitataan, sitä enemmän olisi oltava havaintoja. Pienemmilläkin aineistoilla voidaan toimia, mutta tulokset jäävät helposti hatarammiksi. Havaintoja on joka tapauksessa oltava enemmän kuin muuttujia. Tämä pätee moniin muihinkin menetelmiin. SAS:issa faktorianalyysi tehdään proseduurilla FACTOR. Faktorointimenetelmä pitää muistaa valita eksplisiittisesti, sillä oletuksena tehdään pääkomponenttianalyysi. Asiallisia reliabiliteettitarkasteluja ei vielä ole SAS:issa yleisessä käytössä, mutta ne on verrattain helppo ohjelmoida esim. SAS:in matriisikielellä (IML). Juha-Pekka Perttola on tilastotieteen pro gradu -työssään [] näyttänyt mallia, miten näitä asioita voidaan lähestyä SAS-ympäristössä. SPSS:n valikoissa faktorianalyysi löytyy kohdasta Data Reduction. Tarjolla on lukuisia optioita, joskin monet niistä täysin turhia. SAS:in tapaan oletuksena tarjotaan tehtäväksi pääkomponenttianalyysia. Reliabiliteettitarkastelut rajoittuvat toistaiseksi Cronbachin alfojen laskeskeluun summamuuttujille. Parempia vaihtoehtoja on tarkoitus laatia SPSS:n komentokielen avulla..6 Kirjallisuutta Monimuuttujamenetelmistä on valtavasti kirjallisuutta (joskaan ei paljoakaan suomeksi). Tulen täydentämään tämän monisteen kirjallisuusluetteloa myöhemmin, mutta kannattaa tutustua kotisivuiltani löytyvään kirjallisuusluetteloon, jossa suuri osa teoksista koskee monimuuttujamenetelmiä. Sivun osoite on http://www.helsinki.fi/people/kimmo.vehkalahti/hylly.html

Kirjallisuutta [] Kimmo Vehkalahti, Simo Puntanen, and Lauri Tarkkonen. Effects of measurement errors in predictor selection of linear regression model. Computational Statistics & Data Analysis, 007. http://dx.doi.org/0.06/j.csda.007.05.005. [] Kimmo Vehkalahti, Simo Puntanen, and Lauri Tarkkonen. Estimation of reliability: a better alternative for Cronbach s alpha. Reports on Mathematics 40, Department of Mathematics and Statistics, University of Helsinki, Helsinki, Finland, 006. http://mathstat.helsinki.fi/reports/preprint40.pdf. [] L. J. Cronbach. Coefficient alpha and the internal structure of tests. Psychometrika, 6:97 4, 95. [4] L. Tarkkonen and K. Vehkalahti. Measurement errors in multivariate measurement scales. Journal of Multivariate Analysis, 96:7 89, 005. [5] Kimmo Vehkalahti. Reliability of Measurement Scales. Number 7 in Statistical Research Reports. Finnish Statistical Society, Helsinki, Finland, 000. [6] Lauri Tarkkonen. On Reliability of Composite Scales. Number 7 in Statistical Studies. Finnish Statistical Society, Helsinki, Finland, 987. [7] Yrjö Ahmavaara. Transformation analysis of factorial data. Ph.D. Thesis, Annales Academiæ Scientiarum Fennicæ, Series B 88, 954. [8] Seppo Mustonen. Symmetrinen transformaatioanalyysi [Symmetric transformation analysis, in Finnish]. Report 4, Social Research Institute of Alcohol Studies, Helsinki, Finland, 966. [9] J. R. Hurley and R. B. Cattell. Procrustes program: producing direct rotation to test a hypothesised factor structure. Behavioral Science, 7:58 6, 96. [0] P. H. Schönemann. A generalized solution of the orthogonal Procrustes problem. Psychometrika, : 0, 966. [] N. Cliff. Orthogonal rotation to congruence. Psychometrika, : 4, 966. [] Juha-Pekka Perttola. Saslatex-kompendiumi yleisen reliabiliteettiestimaattorin laskemiseen. Pro gradu, Matematiikan ja tilastotieteen laitos, Helsingin yliopisto, 006.

Monimuuttujamenetelmät / Kimmo Vehkalahti Tämä luentomoniste on alunperin tarkoitettu oheismateriaaliksi n. 5 tunnin mittaiselle sovelluspainotteiselle monimuuttujamenetelmien kurssille. Olen pitänyt useita sellaisia kursseja joko useamman viikon kestävänä periodiopetuksena yliopistolla tai parin päivän jaksona erilaisissa tutkimuslaitoksissa. Itseopiskeluun materiaalista lienee hyötyä lähinnä niille, jotka tuntevat aihepiiriä jo entuudestaan tai haluavat kerrata aiemmin oppimaansa. Kurssin aikana tulee tyypillisesti esille arviolta kaksinkertainen määrä tietoa "rivien välistä", joten tämä esitys ei ole eikä yritäkään olla mitenkään tyhjentävä. Lisäksi kurssilaiset voivat tuoda omia kysymyksiään ja eri alojen sovellustilanteita käsiteltäviksi ja keskusteltaviksi. Näin jokainen kurssi on aina hieman erilainen. Tähän monisteeseen olenkin pyrkinyt tiivistämään vain keskeisimpiä asioita. Kurssin ydinkohtia: moniulotteisten ilmiöiden ja etäisyyksien mittaaminen keskeiset tilastolliset monimuuttujamenetelmät menetelmien yleiset oletukset ja rajoitukset menetelmille ominaiset graafiset tarkastelut Käsiteltäviä menetelmiä: faktorianalyysi pääkomponenttianalyysi erotteluanalyysi ryhmittelymenetelmät moniulotteinen skaalaus korrespondenssianalyysi Asioita lähestytään soveltajan näkökulmasta. Taustalla olevaa tilastotieteen teoriaa esitellään tarpeen mukaan. Tärkeintä on oppia valitsemaan tilanteeseen sopivia menetelmiä ja käyttämään niitä tarkoituksenmukaisesti sekä tulkitsemaan ohjelmien antamia tulostuksia oikealla tavalla. Tilastotieteen perusasiat ja -käsitteet on hyvä hallita etukäteen. Myöskään ohjelmien käyttöä ei kurssilla opeteta, joten käytännön hyötyä ajatellen jonkin tarkoitukseen sopivan ohjelmiston (esimerkiksi Survo, SAS, SPSS, S-Plus, SYSTAT) hallinta on suotavaa. Kurssin aikana asioita havainnollistetaan Survon Windows-version SURVO MM avulla (ks. www.survo.fi). Kirjallisuutta: Flury, B. (997). A First Course in Multivariate Statistics. Springer-Verlag, New York. Hair, J. F., Anderson, R. E., Tatham, R. L., & Black, W. (998). Multivariate Data Analysis. 5th ed., Prentice Hall. Krzanowski, W. J. (000). Principles of Multivariate Analysis (revised edition). Oxford University Press. Mustonen, S. (995). Tilastolliset monimuuttujamenetelmät. Survo Systems, Helsinki. Ranta, E., Rita, H., & Kouki, J. (99). Biometria - tilastotiedettä ekologeille (. painos). Yliopistopaino, Helsinki. Monistetta saa vapaasti kopioida kotisivultani ja käyttää ei-kaupallisiin tarkoituksiin. Sivumennen sanoen niin tekstin kirjoittamisen, aineistojen analyysit, laskutoimitukset ja kuvien piirtämiset kuin ulkoasun viimeistelynkin olen tehnyt Survolla. Sen ansiosta moniste syntyikin nopeasti, vain parissa päivässä ennen Metsäntutkimuslaitoksella keväällä 00 pitämääni kurssia. Kaikki palaute on tervetullutta! Kimmo Vehkalahti http://www.helsinki.fi/people/kimmo.vehkalahti/ Kimmo.Vehkalahti@helsinki.fi