Sisällysluettelo. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5



Samankaltaiset tiedostot
Sisällysluettelo. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Perusnäkymä yksisuuntaiseen ANOVAaan

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Lauri Tarkkonen: Erottelu analyysi

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

805306A Johdatus monimuuttujamenetelmiin, 5 op

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

MATHM Hypermedian jatko-opintoseminaari

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

TKMS7a-f/LRS20a-f/MAS2/KVS2/TMS82a-f/JOM/TJM/YRM Monimuuttujamenetelmien soveltaminen taloustieteissä. Tentti

Metsämuuronen: Tilastollisen kuvauksen perusteet ESIPUHE... 4 SISÄLLYSLUETTELO METODOLOGIAN PERUSTEIDEN KERTAUSTA AINEISTO...

TUTKIMUSOPAS. SPSS-opas

, Määrälliset tutkimusmenetelmät 2 4 op

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

Usean selittävän muuttujan regressioanalyysi

2. Aineiston kuvailua

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Teema 3: Tilastollisia kuvia ja tunnuslukuja

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Kandidaatintutkielman aineistonhankinta ja analyysi

Frequencies. Frequency Table

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Lauri Tarkkonen: Kappa kerroin ja rinnakkaisten arvioitsijoiden yhdenmukaisuus

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Harjoittele tulkintoja

II Tilastollisen aineiston ja analyysin edellytysten tarkistaminen

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Summamuuttujat, aineiston pilkkominen ja osa-aineiston poiminta 1

Kuvapankki Imagebank Independent

Luonnollisten lukujen laskutoimitusten määrittely Peanon aksioomien pohjalta

MTTTP5, luento Luottamusväli, määritelmä

Toimialan ja yritysten uudistuminen

Epäyhtälön molemmille puolille voidaan lisätä sama luku: kaikilla reaaliluvuilla a, b ja c on voimassa a < b a + c < b + c ja a b a + c b + c.

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Syksyn aloituskampanjat lippukunnissa

Matematiikan tukikurssi 3.4.

MONIMUUTTUJAMENETELMISTÄ RAKENNEYHTÄLÖMALLINNUKSEEN MUUTTUJIEN NORMAALISUUS. Statistics

ARVIOINTIPERIAATTEET

A130A0650-K Tilastollisen tutkimuksen perusteet 6 op Tentti / Anssi Tarkiainen & Maija Hujala

Johdatus L A TEXiin. 6. Omat komennot ja lauseympäristöt Markus Harju. Matemaattiset tieteet

VIIKON VINKKI: Kannattaa tutustua ensin koko tehtävänantoon ja tehdä tehtävä vasta sitten.

Johdatus diskreettiin matematiikkaan Harjoitus 7,

I Keskiarvot ja hajonnat muuttujista 3-26 niin, että luokittelevana muuttujana on muuttuja 2 eli sukupuoli

Moodle HOPS-työskentelyn tukena

HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET

Huomaathan, että ohjeessa olevat näytöistä otetut kuvat voivat poiketa sinun koulutuksesi vastaavien sivujen kuvista.

Harjoitus 7: NCSS - Tilastollinen analyysi

Maisema-arkkitehtuurin perusteet 1A, syksy 2015 Pinnanmuodot-tehtävään ArcMap-ohjeet

SPSS ohje. Metropolia Business School/ Pepe Vilpas

Sisällysluettelo SISÄLLYSLUETTELO...6 LYHYT SANASTO VASTA-ALKAJILLE JOHDATUS PARAMETRITTOMIIN MENETELMIIN...9

Kolme pientä opinto-ohjaajaa ja suuren suuri lukio

SPSS* - tilastoanalyyttinen ohjelma, vrs 9.0

Tutkimuksen suunnittelu / tilastolliset menetelmät. Marja-Leena Hannila Itä-Suomen yliopisto / Terveystieteiden tdk

Windows Live SkyDrive - esittely

Tytöt LVI-alalla - Perusraportti

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

b6) samaan perusjoukkoon kohdistuu samanaikaisesti useampia tutkimuksia.

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

monissa laskimissa luvun x käänteisluku saadaan näyttöön painamalla x - näppäintä.

Ohje hakulomakkeen täyttämiseen yliopistohaku.fi -palvelussa

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Kvantitatiiviset tutkimusmenetelmät maantieteessä

4 Riippuvuus 1. Esimerkki 4. Korrelaation laskeminen SPSS-ohjelmalla rajatusta aineistosta

MAA10 HARJOITUSTEHTÄVIÄ

Sisällysluettelo LUKU I METODOLOGIAN PERUSTEET IHMISTIETEISSÄ ESIPUHE...III ESIPUHE KIRJAN TOISEEN PAINOKSEEN... VIII SISÄLLYSLUETTELO...

Matematiikan tukikurssi

- Kommentoi koodisi. Koodin kommentointiin kuuluu kuvata metodien toiminta ja pääohjelmassa tapahtuvat tärkeimmät toiminnat. Esim.

805306A Johdatus monimuuttujamenetelmiin, 5 op

pitkittäisaineistoissa

TILASTOKATSAUS 4:2016

Mobiiliturva Palvelun käyttöönotto

2.2 Täydellinen yhtälö. Ratkaisukaava

Yleistetyistä lineaarisista malleista

SEM1, työpaja 2 ( )

Käyttöjärjestelmät: Virtuaalimuisti

Matematiikan tukikurssi

SPSS* - tilastoanalyyttinen ohjelma

KiVa Koulu tilannekartoituskysely 2016 sivu 1/31. KiVa Koulu tilannekartoituskysely 2016 sivu 2/31. KiVa Koulu tilannekartoituskysely 2016 sivu 3/31

Rakennetaan eliöiden sukupuu

Opetussuunnitelma uudistui mikä muuttui? Tietoja Linnainmaan koulun huoltajille syksy 2016

TIKKAKOSKEN ALUEEN VARHAISKASVATUSSUUNNITELMA

Luento 6. June 1, Luento 6

Kuusamon kaupungin ohjeistus PALVELUSETELI- JA OSTOPALVELUJÄRJESTELMÄN KÄYTTÖÖN

IV-kuntotutkimushanke_tutkijat

Kesäkuu Synkka Tuote Pakkaushierarkia yksittäin ja monipakkauksissa myytäville tuotteille

KELAN INDUKTANSSI VAASAN YLIOPISTO TEKNILLINEN TIEDEKUNTA SÄHKÖTEKNIIKKA. Miika Manninen, n85754 Tero Känsäkangas, m84051

Lisää segmenttipuusta

805306A Johdatus monimuuttujamenetelmiin, 5 op

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Rohkeus uudistua ja kasvaa. Uskallus uudistua, rohkeus rikkoja rajoja SMTS Helmiseminaari

Jousen jaksonaikaan vaikuttavat tekijät

Monivalintamuuttujien käsittely

Identifiointiprosessi

Lue ohjeet huolellisesti ennen laitteen käyttöä.

String-vertailusta ja Scannerin käytöstä (1/2) String-vertailusta ja Scannerin käytöstä (2/2) Luentoesimerkki 4.1

Transkriptio:

Sisällysluettelo ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5 SISÄLLYSLUETTELO... 6 LYHYT SANASTO VASTA-ALKAJILLE... 7 1. MONIMUUTTUJAMENETELMÄT IHMISTIETEISSÄ... 9 1.1 MONIMUUTTUJA-AINEISTON ERITYISPIIRTEITÄ... 10 1.2 AINEISTON ALUSTAVA TARKASTELU... 13 1.2.1. Korrelaatio ja käyräviivainen yhteys... 13 1.2.2 Outlierit... 14 1.2.3 Normaalisuus... 16 1.2.4 Multikollineaarisuus ja singulaarisuus... 17 1.3 KIRJAN RAKENTEESTA... 18 2. HAVAINTOJEN... 19 2.1 EROTTELU- JA LUOKITTELUANALYYSI (DA)... 19 2.1.1 Missä tilanteessa toimii parhaiten...20 2.1.2 Rajoitukset ja oletukset... 20 2.1.3 Lyhyesti teoriasta ja käsitteistä... 20 2.1.4 Lisätestit ja jatkoanalyysit... 25 2.1.5 Tekninen suoritus SPSS-ympäristössä ja tulkinta... 25 2.2 RYHMITTELYANALYYSI (CA)... 37 2.2.1 Missä tilanteessa toimii parhaiten...37 2.2.2 Rajoitukset ja oletukset... 37 2.2.3 Lyhyesti teoriasta ja käsitteistä... 37 2.2.4 Lisätestit ja jatkoanalyysit... 40 2.2.5 Tekninen suoritus SPSS-ympäristössä ja tulkinta... 40 2.3 ANSWERTREE -ANALYYSI (ATA)... 45 2.3.1 Missä tilanteessa toimii parhaiten...45 2.3.2 Rajoitukset ja oletukset... 45 2.3.3 Lyhyesti teoriasta ja käsitteistä... 46 2.3.4 Lisätestit ja jatkoanalyysit... 51 2.3.5 Tekninen suoritus SPSS-ympäristössä ja tulkinta... 51 3. LOPUKSI... 57 LIITE A. AINEISTOSSA KÄYTETYT ALKUPERÄISET MUUTTUJAT... 58 LIITE B. MATRIISILASKENNASTA KEVYESTI... 61 LÄHTEET... 64 ASIA- JA HENKILÖHAKEMISTO... 66 METODOLOGIA-SARJAN KIRJOITTAJASTA... 71 6

puosalla aineistoa voidaan testata, kuinka hyvin erottelu- ja luokittelufunktiot toimivat muilla kuin analyysissa mukana olleilla havainnoilla. 2.1.4 Lisätestit ja jatkoanalyysit Muiden monimuuttujamenetelmien tapaan myös erotteluanalyysissa on oleellista tarkistaa, pitävätkö mallin oletukset paikkaansa. Kovarianssimatriisien yhtäsuuruutta voidaan tutkia Boxin M-testillä. Valitettavasti M-testi on herkkä multinormaalisuusoletuksen rikkoutumiselle ja suurille otosko oille, mistä syystä se saattaa hylätä yhtäsuuruusoletuksen liian herkästi. Myös Log-determinantti (eli determinantin logaritmi) tutkii ryhmien välisiä kovarianssirakenteita. Kuvassa 5.1 havainnollistimme kahden muuttujan muodostamaa erotteluavaruutta ja havaitsimme, että havainnot muodostavat eräänlaisia ellepsejä havaintoavaruuteen. Jos lisäämme avaruuteen vielä yhden muuttujan, havainnot ovat ikään kuin amerikkalaisen jalkapallon muotoisessa rykelmässä. Vaikkemme visuaalisesti tiedäkään, miltä 5 tai useampiulotteinen avaruus näyttää, Log-determinantti mittaa noiden soikiopallojen sisään jäävien alkioiden tiheyttä, ts. sitä, mikä on ellipsoidin sisään jäävien alkioiden suhteellinen osuus. Tietenkin voimme tarkastella myös yksittäisten muuttujien variansseja yksisuuntaisella varianssianalyysilla. Levenen testi mittaa varianssien yhtäsuuruutta 14. Jos muuttujien variansseissa on tilastollisesti merkitseviä eroja, voidaan muuttujat muuntaa standardoiduiksi muuttujiksi, jolloin varianssiksi tulee 1 ja keskiarvoksi 0. Tämä muunto käy SPSS-ohjelmistossa helpoiten Analyze Descriptives Descriptive Statistics - komennolla 15. Erotteluanalyysi on herkkä outliereille. Näitä poikkeavia havaintoja voidaan etsiä esimerkiksi boxplot -kuvalla (ks. luku 1.2.2). Havainnoille voidaan laskea ns. kanoniset muuttujat samaan tapaan kuin pääkomponentti-, faktori- tai regressioanalyysissa laskettiin faktoripisteet tai ennustearvot. Kanonisten muuttujien avulla voidaan havainnollistaa havaintojen sijoittumista eri erottelijoille esimerkiksi sirontakuvioiden (Scatter-plot) avulla, mikäli erottelufunktioita on enemmän kuin yksi. 2.1.5 Tekninen suoritus SPSS-ympäristössä ja tulkinta Erotteluanalyysilla haluamme tutkia, voidaanko motiivien avulla erotella toisistaan erilaisia harrastusryhmiä ja toisaalta luokitella eri harrastusryhmiin kuuluvia harrastajia oikeisiin harrastusryhmiin löytyneiden erottelufunktioiden perusteella. Tutkittuja harrastusryhmiähän oli kahdeksan taulukon 2.1 mukaisesti urheiluharrastuksesta kirjoittamisharrastukseen. Motiiveina käsitellään 11 motiivien dimensiota, jotka edustivat Madsenin tarveluokituksen eri alueita. Motiivit oli laskettu yhdistäen summaamalla osioita. Summaamisen jälkeen summamuuttujat standardoitiin, että ne olisivat yhteismitallisia (ks. tarkemmin Metsämuuronen 1995). Mukaan tulevat muuttujat olivat seuraavat: 14 Katso tarkemmin SPSS aloittelevan tutkija käytössä, Metodologia-sarja 5. 15 Katso tarkemmin SPSS aloittelevan tutkijan käytössä. 25

Taulukko 2.1 Erotteluanalyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa HARA Harrastusalue 1=urheiluharrastus 2=kuvataideharrastus 3=musiikkiharrastus 4=luontoharrastus 5=käsityöharrastus 6=matematiikkaharrastus 7=kieliharrastus 8=kirjallisuusharrastus Ryhmittelevä muuttuja KONTST Kontaktimotiivi, standardoitu VALTAST Valtamotiivi, standardoitu SUORST Suoritusmotiivi, standardoitu HYÖTYST Hyötymotiivi, standardoitu OMAEHTS Omaehtoisuusmotiivi, standardoitu T UTELST Uteliaisuusmotiivi, standardoitu MIELIKST Mielikuvutusmotiivi, standardoitu LIIKST Liikunnan tarve, standardoitu KOKEST Kokemusten tarve, standardoitu LUOMST Luomisen tarve, standardoitu JÄNNST Jännityksen tarve, standardoitu Perusnäkymä Erottelu- ja luokitteluanalyysi alkaa valinnoilla Analyze Classify Discriminant Valinnat Erotteluanalyysissa voidaan tehdä viidenlaisia valintoja: voidaan valita muuttuja, jonka perusteella tehdään ristiinvalidointi (Select ), määrätä tunnuslukuja, kertoimia ja tulostettavia matriiseja (Statistics), määrittää analyysimenetelmiä (Method) ja luokitteluanalyysiin liittyviä valintoja (Classification) sekä tallentaa analyysituloksia (Save). Muuttujien valinta voidaan tehdä joko pakotetusti (Enter independents together) tai askeltavasti (Use stepwise method). Valitaan päävalikosta askeltava menettely, sillä ei ole teoriaa tai kokemusta siitä, mitkä motiividimen- 26

sioista todella olisivat erotteluanalyysin kannalta oleellisia tekijöitä; askeltava menettely karsii muuttujien joukosta erottelun kannalta epäoleelliset tekijät pois. Mikäli halutaan kuten suotavaa olisi, jos aineistoa on riittävästi ristiinvalidoida aineisto eli luoda erottelufunktio vain osalla aineistoa ja testata lopuilla, toimivatko funktiot myös muilla kuin koulutushavainnoilla, tarvitaan muuttuja, joka kertoo, mitkä havainnot kouluttavat ja mitkä testaavat erottelufunktiot. Tätä varten luotiin dataan uusi muuttuja nimeltä CROSSV50. Tässä muuttujassa havainto saa arvon 1, kun halutaan sen kuuluvan koulutusryhmään ja 0, kun halutaan sen kuuluvan testiryhmään. Muuttujaa rakennettaessa on ensin luotu apumuuttuja RANDOM, jossa kullekin havainnolle on tuotettu satunnaisluku väliltä 0-1. Sitten on Analyze Descriptives Frequencies -valinnalla etsitty mediaaniarvo. Mediaaniarvon perusteella on tehty muuttujamuunnos siten, että mikäli satunnaisluku on ollut suurempi kuin mediaani, havainto saa arvon 1, muussa tapauksessa se saa arvon 0. Näin siis puolet aineistosta käytetään mallin rakentamiseen. SPSS:n erotteluanalyysissa mallin testaamiseen käytetään kuitenkin koko aineistoa, eli sekä arvon 1 että arvon 0 saaneet havainnot ovat testiryhmässä. Tätä uutta muuttujaa CROSSV50 hyödynnetään päänäkymän Select-muuttujana. Select-näppäimen painaminen aktivoi päävalikkoon uuden osan, johon lisätään kyseinen muuttuja ja annetaan Valuekomennolla se arvo (eli tässä tapauksessa arvo 1), joka ohjaa valitsemaan koulutusaineiston käyttöön. Teemme seuraavat valinnat oletusten lisäksi: Select>> Selection Variable: CROSSV50 Value: 1 [Valitaan muuttuja ja sen arvo, jonka avulla aineisto jaetaan ristiinvalidointiosiin.] Statistics Descriptives: Box s M Function Coefficient: Unstandardized Matrices: Within-Groups correlation [Testataan soveltuuko korrelaatiomatriisi erotteluanalyysiin, valitaan standardoimattomat kertoimet ja halutaan tietää, muinka suuret korrelaatiot ryhmien välillä on.] Method Oletusarvot [Oletuksena on, että teemme analyysin käyttäen Wilksin Lambda-kriteeriä.] Classification Prior Probabilities: Compute from group sizes Display: Summary table Plots: Combined-groups, Separate-Groups, Territorial map [Haluamme painottaa havaintoja niiden ryhmien koon suhteessa pienet ryhmät saavat vähemmän painoarvoa. Haluamme tulostuksiin yhteenvetotaulukon sekä kuvia, joissa on kukin ryhmä erikseen kahden ensimmäisen erottelijan suhteen kuvattuna.] 27

Tulokset ja niiden tulkinta Tulosten tulkinta alkaa kuvailemalla aineisto: Analysis Case Processing Summary Unweighted Cases Valid Excluded Missing or out-of-range group codes At least one missing discriminating variable Both missing or out-of-range group codes and at least one missing discriminating variable Unselected Total Total N Percent 350 48,3 8 1,1 0,0 0,0 366 50,6 374 51,7 724 100,0 Havaintojen kokonaismäärä kuvaava taulu (Analysis Case Processing Summary) kertoo, että mukana on 350 havaintoa 724:stä, joiden avulla luodaan erottelufunktiot. Loput 374 ja mallituksessa mukana olleet havainnot muodostavat joukon, jolla aineisto lopulta luokitellaan. Havaintojen määriä ryhmissä kuvaavasta taulusta (Group Statistics) mukaan on otettu vain osa tulostukseen. Havaitsemme, että esimerkiksi liikuntaharrastuksesta (HARA-muuttujan luokka 1) mukaan on tullut 81 havaintoa ja kuvataideharrastuksesta 56. Ohjelmistoa on pyydetty painottamaan (Weighted) havaintoja ryhmän lukumäärän suhteessa. Näin tehden mallissa otetaan huomioon se, että tietyistä ryhmistä saattaa olla mukana vain joitakin havaintoja; näiden ryhmien painoarvo ei ole yhtä suuri kuin niiden ryhmien, joista mukana on paljon havaintoja. Pooled Within-Groups Matrices Correlation KONTST VALTAST SUORST HY TYST OMAEHTST UTELST MIELIKST LIIKST KOKEST LUOMST JNNST KONTST VALTAST SUORST HY TYST OMAEHTST UTELST MIELIKST LIIKST KOKEST LUOMST JNNST 1,000,257,361,261,281,106,256,255,503,344,256,257 1,000,201,163 -,015,017,218,136,344,219,205,361,201 1,000,407,547,242,315,281,566,509,257,261,163,407 1,000,484,352,286,106,468,405,118,281 -,015,547,484 1,000,352,311,134,453,441,116,106,017,242,352,352 1,000,353 -,009,309,242,108,256,218,315,286,311,353 1,000,146,469,483,240,255,136,281,106,134 -,009,146 1,000,388,117,225,503,344,566,468,453,309,469,388 1,000,506,400,344,219,509,405,441,242,483,117,506 1,000,171,256,205,257,118,116,108,240,225,400,171 1,000 Seuraavassa taulussa (Pooled Within-Groups Matrices) on esitetty muuttujien välinen korrelaatiomatriisi. Näin siis esimerkiksi kontaktimotiivi (KONTST) korreloi valtamotiivin (VALTAST) kanssa 0.257:n verran. Korrelaatiot on laskettu normaalista poikeavalla tavalla, mistä syystä arvot saattavat erota tavallisesta Pearsonin tulomomenttikorrelaatiokertoimesta. Ensin on laskettu varianssit ja kovarianssit kussakin ryhmässä. Tämän jälkeen varianssit 28