Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

Samankaltaiset tiedostot
Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

, Määrälliset tutkimusmenetelmät 2 4 op

Frequencies. Frequency Table

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Usean selittävän muuttujan regressioanalyysi

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Perusnäkymä yksisuuntaiseen ANOVAaan


1. REGRESSIOMALLIN SYSTEMAATTISEN OSAN MUOTO

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

805306A Johdatus monimuuttujamenetelmiin, 5 op

Lumipallo regressioanalyysista. Logistinen regressioanalyysi. Soveltuvan menetelmän valinta. Regressioanalyysi. Logistinen regressioanalyysi I

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Yleistetyistä lineaarisista malleista

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Menestyminen valintakokeissa ja todennäköisyyslaskussa

Kvantitatiivinen genetiikka moniste s. 56

Sisällysluettelo ESIPUHE KIRJAN 1. PAINOKSEEN...3 ESIPUHE KIRJAN 2. PAINOKSEEN...3 SISÄLLYSLUETTELO...4

Kvantitatiiviset menetelmät

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Prospektiteoreettinen näkökulma

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Regressioanalyysi. Kuusinen/Heliövaara 1

2. Aineiston kuvailua

SPSS-perusteet. Sisältö

Christina Gustafsson. Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 22 for Windows Osa 3

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

2. Tietokoneharjoitukset

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Opiskelija viipymisaika pistemäärä

Sisällysluettelo ESIPUHE... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO JOHDANTO TILASTOLLISEEN PÄÄTTELYYN TODENNÄKÖISYYS...

MONIMUUTTUJAMENETELMISTÄ RAKENNEYHTÄLÖMALLINNUKSEEN MUUTTUJIEN NORMAALISUUS. Statistics

Teema 10: Regressio- ja varianssianalyysi

Harjoitukset 4 : Paneelidata (Palautus )

Johdatus regressioanalyysiin. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Harjoitus 9: Excel - Tilastollinen analyysi

Mat Tilastollisen analyysin perusteet, kevät 2007

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

tujien (prediktorien) painotettua yhdistelmää ennustettaessa yhtä selitettävää muuttujaa (kriteeri).

Suhtautuminen Sukupuoli uudistukseen Mies Nainen Yhteensä Kannattaa Ei kannata Yhteensä

1. Tutkitaan tavallista kahden selittäjän regressiomallia

ATH-koulutus: R ja survey-kirjasto THL ATH-koulutus / Tommi Härkänen 1

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Viherseinien efekti Tilastoanalyysi

A250A0050 Ekonometrian perusteet Tentti

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

Ilmoittaudu Weboodissa klo (sali L4) pidettävään 1. välikokeeseen!

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Dynaamiset regressiomallit

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Mat Tilastollisen analyysin perusteet, kevät 2007

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

MTTTP1, luento KERTAUSTA

MTTTP5, luento Luottamusväli, määritelmä

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Kvantitatiiviset tutkimusmenetelmät maantieteessä

TUTKIMUSOPAS. SPSS-opas

Korrelaatiokertoinen määrittely 165

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Laskennallinen data-analyysi II

HAVAITUT JA ODOTETUT FREKVENSSIT

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

voidaan hylätä, pienempi vai suurempi kuin 1 %?

SPSS ohje. Metropolia Business School/ Pepe Vilpas

2.1. Tehtävänä on osoittaa induktiolla, että kaikille n N pätee n = 1 n(n + 1). (1)

Ohjeita kvantitatiiviseen tutkimukseen

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Kolmannen ja neljännen asteen yhtälöistä

vkp 4*(1+0)/(32-3)-1= vkp 2*(1+0)/(32-3)=

SELVITTÄJÄN KOMPETENSSISTA

Sovellettu todennäköisyyslaskenta B

Sisällysluettelo. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5

Identifiointiprosessi

BIOSTATISTIIKKAA ESIMERKKIEN AVULLA. Kurssimoniste (luku 5) Janne Pitkäniemi. Helsingin Yliopisto Kansanterveystieteen laitos.

MTTTP1, luento KERTAUSTA

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Verkostoanalyysi yritysten verkostoitumista tukevien EAKRhankkeiden arvioinnin menetelmänä. Tamás Lahdelma ja Seppo Laakso

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Sisällysluettelo LUKU I METODOLOGIAN PERUSTEET IHMISTIETEISSÄ ESIPUHE...III ESIPUHE KIRJAN TOISEEN PAINOKSEEN... VIII SISÄLLYSLUETTELO...

2.2 Muunnosten käyttöön tutustumista

Transkriptio:

Sisällysluettelo ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...5 SISÄLLYSLUETTELO... 6 LYHYT SANASTO VASTA-ALKAJILLE... 7 1. MONIMUUTTUJAMENETELMÄT IHMISTIETEISSÄ... 9 1.1 MONIMUUTTUJA-AINEISTON ERITYISPIIRTEITÄ... 10 1.2 AINEISTON ALUSTAVA TARKASTELU... 13 1.2.1. Korrelaatio ja käyräviivainen yhteys... 13 1.2.2 Outlierit... 14 1.2.3 Normaalisuus... 16 1.2.4 Multikollineaarisuus ja singulaarisuus... 17 1.3 KIRJAN RAKENTEESTA... 18 2.... 20 2.1 PERINTEINEN (RA)... 21 2.1.1 Missä tilanteessa toimii parhaiten...21 2.1.2 Rajoitukset ja oletukset... 22 2.1.3 Lyhyesti teoriasta ja käsitteistä... 22 2.1.4 Lisätestit ja jatkoanalyysit... 29 2.1.5 Tekninen suoritus SPSS-ohjelmistolla ja tulkinta... 32 2.2 LOGISTINEN (LRA)... 40 2.2.1 Missä tilanteessa toimii parhaiten...40 2.2.2 Rajoitukset ja oletukset... 41 2.2.3 Lyhyesti teoriasta ja käsitteistä... 42 3.2.4 Lisätestit ja jatkoanalyysit... 47 3.2.5 Tekninen suoritus SPSS-ohjelmistolla ja tulkinta... 48 2.3 KANONINEN KORRELAATIO (CC)... 56 2.3.1 Missä tilanteessa toimii parhaiten...56 2.3.2 Rajoitukset ja oletukset... 56 2.3.3 Lyhyesti teoriasta ja käsitteistä... 57 2.3.4 Lisätestit ja jatkoanalyysit... 60 2.3.5 Tekninen suoritus SPSS-ympäristössä ja tulkinta... 60 3. LOPUKSI... 67 LIITE A. AINEISTOSSA KÄYTETYT ALKUPERÄISET MUUTTUJAT... 68 LIITE B. MATRIISILASKENNASTA KEVYESTI... 60 LÄHTEET... 63 ASIA- JA HENKILÖHAKEMISTO... 65 6

Joissain tapauksissa havaitsemme, että residuaalit eivät olekaan homoskedastisia selitettävän muuttujan suhteen. Huomaamme, että myös selitettävää muuttujaa saatetaan joutua korjaamaan ja muuntamaan. Mainitut nyrkkisäännönomaiset muunnokset soveltuvat myös tähän tapaukseen. Mainittujen muunnosten lisäksi on olemassa myös sofistikoidumpi tapa etsiä oikeaa muunnosta. Box-Cox -muunnoksella voidaan etsiä sitä Y-muuttujan potenssia, joka toisi parhaan mahdollisen korjauksen heteroskedastiseen tilanteeseen. Mikäli nimittäin Y:n potenssi on 1, ei muunnosta tarvita, mutta jos Y:n potenssi olisi esimerkiksi ½, tarvittaisiin neliöjuurimuunnos. Box ja Cox esittivät (1964), että parasta potentiaalista potenssia voidaan etsiä mallittamalla Y:n potenssin Y (1-b) parametri b (Slope). Jo aiemmin mainittuja muunnoksia vastaavat eri b:n arvot seuraavasti: b:n Kaavan Suositeltava arvo potenssi muunnos -1 2 neliöön korottaminen (Y 2 ) 0 1 ei muunnosta (Y) ½ ½ neliöjuuri ( Y) 1 0 logaritmi (LOG(Y) tai LN(Y)) 1½ -½ käänteisluku ja neliöjuuri (1/Y 2 ) 2-1 käänteisluku (1/Y) SPSS-ohjelmistossa ei pystytä suoraan laskemaan tätä teknistä muunnosehdotusta, mutta samaa ideaa käyttäen pystytään muunnosta arvioimaan ns. Spead-versus-level -kuvalla. Tämä tapahtuu Analyze-valikon Descriptives-alavalikon Explore-valinnan avulla. Riippuviksi muuttujiksi (Dependent List) valitaan malliin mukaan tulleet selittävät muuttujat. Nämä tekijät asetetaan selitettävää muuttujaa (Factor List) vastaan. Plots-valinnasta valitaan Spread vs. Level with Levene Test -kuva ja siellä erityisesti Power estimation. Kuvan alareunaan tulee aineiston pohjalta laskettu Y:n potenssin b-arvo (Slope) sekä ehdotettu muunnos (Power for transformation). Harvoin ehdotettu muunnos on kuitenkaan juuri täsmälleen edeltäneen taulukon mukainen. Muunnosta kokeillaan sillä potenssilla, joka lähinnä vastaa taulukon arvoa. Jos siis ehdotettu muunnoksen potenssi on 0.189, voidaan kokeilla logaritmimuunnosta, sillä 0.189 on lähempänä nollaa kuin puolta. Uudella muunnetulla muuttujalla tehdään joko edellä kuvattu Spread-versus-level -kuva tai tavallinen histogrammi ja tarkistetaan, olisiko nyt ehdotettu muunnoksen potenssi lähellä arvoa 1 eli ettei tarvittaisi muunnosta. Ennustearvo, residuaalit ja ristiinvalidointi Lisäanalyysina voidaan laskea ennustearvo (Predicted value). Kyseistä arvoa voidaan hyödyntää esimerkiksi ennustettaessa muiden kuin otoksessa tai laskelmissa mukana olleiden havaintojen arvoja. Lisäanalyysina voidaan tehdä analyyseja myös residuaaleille. Voimme pyrkiä selittämään sitä, miksi osa havainnoista ei esimerkiksi saavuta ennustearvoa (residuaalit ovat negatiivisia) ja osa saa ennustetta paremman arvon (residuaalit positiivisia). Ristiinvalidoinnissa (Cross-validation) enkä kolmasosa tai jopa puolet havainnoista otetaan mallin rakentamiseen ja malli testataan lopuilla. On nimittäin niin, että tekninen mallittaminen pystyy kyllä löytämään hyvän mallin jopa liian hyvän mallin siihen aineistoon, joka oli mukana analyysissa. Emme vain tiedä, miten luotu malli ennustaa niitä havaintoja, jotka eivät ole mukana itse analyysissa. Yleinen tapa tutkia mallin hyvyyttä tai toimivuutta onkin ottaa mukaan analyysiin vain osa havainnoista ja tutkia mallin osuvuutta lopuilla havainnoilla. Tämä vaatii kuitenkin huomattavan määrän havaintoja. 31

2.1.5 Tekninen suoritus SPSS-ohjelmistolla ja tulkinta Tarkoituksemme on regressioanalyysin avulla selvittää, millä sitoutumiseen liittyvillä tekijöillä voidaan selittää sitä, että kyselyyn vastaaja kokee olevansa taitava oman alansa harrastajana. Korrelaatiomatriisin perusteella mukaan on valittu vain sellaisia tekijöitä, jotka korreloivat taitotason kanssa (Taulukko 21). Yleisesti ottaen korrelaatiot eivät ole korkeita (vaihtelevat välillä 0.29-0.50), mikä indikoi sitä, että mallin selitysaste ei tule olemaan korkea. Koska otoskoko on kohtuullinen (n. 700), korrelaatiot eroavat nollasta tilastollisesti merkitsevästi. Ennen regressioanalyysia on tutkittu muuttujien jakaumia ja havaittu, että erityisesti kaikki selittävät muuttujat ovat voimakkaasti vinoja. Kaikille selittäville muuttujille on tehty logaritmimuunnokset. Muuttujat AIK ja VUO ovat voimakkaasti painottuneita pieniin arvoihin, joten niille on tehty suora luonnollinen logaritmointi. Logaritmointia varten muuttuja pitää olla positiivinen; koska jotkut vastaajista olivat harrastaneet vain vähän aikaa (vuosina 0) ja toisaalta jotkut ilmoittivat käyttävänsä 0 tuntia viikossa harrastukseensa, on muutujiin ensin lisätty 1. Muuttuja MER puolestaan on painottuu suuriin arvoihin, joten se on ensin käännetty ja sitten otettu luonnollinen logaritmi. Näillä muunnoksilla pyritään siihen, että jakaumat olisivat normaalimmat, eikä jälkikäteen tarvitsisi tehdä muunnoksia residuaalien heteroskedastisuuden tai poikkeavien havaintojen vuoksi. Taulukko 2.1 Analyysiin mukaan tulevat muuttujat Mja selite Merkitys mallissa Korrelaatio Y:n kanssa TAI Itse koettu taitotaso Y LOGMER Harrastuksen koettu merkityksellisyys X -.29 (logaritmimuunnos [LN(6-MER)]) LOGAIK Harrastukseen käytetty aika kuukaudessa X.29 (logaritmimuunnos [LN(AIK+1)]) LOGVUO Harrastuksen kesto vuosina (logaritmimuunnos [LN(AIK+1)]) X.50 Perusnäkymä SPSS-ympäristössä regressioanalyysi alkaa valinnoilla Analyze Regression Linear Regressioanalyysin päävalikko näyttää seuraavalta: 32

Valinnat Muistamme, että regressioanalyysi voidaan tehdä usealla eri menettelyllä. Oletuksena SPSSohjelmistossa on, että halutaan tehdä pakotettu mallitus (Method-valinnan vaihtoehto Enter). Nut valitaan kuitenkin askeltava eli Stepwise-menettely, sillä käytössä ei ole teoriaa, joka väittäisi, juuri kyseiset valitut selittävät muuttujat muodostaisivat taitotason. Aiemmin jo todettiin, että on varmempaa kokeilla erilaisia regressiomenettelyjä luotettavimman tuloksen löytämiseksi. Päävalikossa on muuttujien ja regressiomenettelyn lisäksi valittavana neljä erilaista seikkaa, joilla voidaan vaikuttaa analyysin sisältöön ja laajuuteen: Statistics, Plots, Save ja Options. Tehdään oletusten lisäksi seuraavat valinnat: Statistics R squared change, Collinearity diagnostics Residuals: Casewise Diagnostics [Haluamme tutkia multikollineaarisuutta ja pyrimme löytämään outliereita.] Plots Produce all Partial plot Valitaan kuvat: Y:SDRESID [Standardoitut residuaalit] X:ZPRED [Ennustearvo] ja Y:ZPRED [Ennustearvo] X:DEPENDNT[Selitettävä muuttuja Y] Standardized Residual plots: Normal probability plot [Voimme graafisesti tarkastella, ovatko residuaalit normaalisia.] Save Predicted: Standardized Residuals: Studentized, Studentized deleted Distance: Mahalanobis, Cook s, Leverage value Influence statistics: DfFit [Saamme hyvän käsityksen mallin oletusten toteutumisesta.] Options [Annamme oletusten olla voimassa. Täällä määrätään millä sisäänotto- ja ulosheittokriteereillä muuttujia käsitellään askeltavassa valinnassa.] Tulokset ja niiden tulkinta Seuraavassa käymme läpi regressioanalyysin tulokset tilanteessa, että meillä on kolme selittävää muuttujaa ja yksi selitettävä muuttuja. Regressiomenetelmänä käytetään tässä askeltavaa menettelyä (Stepwise). Logistisen regression yhteydessä luvussa 3.2 teemme pakotetun mallituksen. Taulujen selitykset eivät oleellisesti poikkea erilaisia regressiomenettelyjä käytettäessä. Halukas lukija voi konsultoida esimerkiksi SPSS-manuaalia (1999a, 205-230) saadakseen laajemman kuvan erilaisista tulkintavaihtoehdoista. 33

Variables Entered/Removed a Model 1 2 3 Variables Entered LOGVUO, LOGMER, LOGAIK, Variables Removed a. Dependent Variable: TAI Method Ensimmäinen taulu kertoo, missä järjestyksessä muuttujat on otettu mukaan malliin (Variables Entered/Removed). Osoittautuu, että kaikki mukaan valitut muuttujat ovat tilastollisessa mielessä hyviä selittäjiä tätähän olimme tietenkin varmistaneet valitsemalla mukaan muuttujia, jotka korreloivat muuttujan TAI kanssa. SPSS-ohjelmisto käsittelee kaikkia löytämiään erilaisia regressiomalleja erillisinä malleina (Model); viimeinen malli numero 3 on siis TAI = C(vakio) + β 1 LOGVUO + β 2 LOGMER + β 3 LOGAIK+ε. Method -sarakkeessa kerrataan, millä sisäänottokriteerillä (F-testin p-arvo 0.05) ja poisheittokriteerillä (p 0.1) menettely on toiminut. Model Summary d Model 1 2 3 Change Statistics Adjusted Std. Error of R Square R R Square R Square the Estimate Change F Change df1 df2 Sig. F Change,616 a,379,378,701,379 440,547 1 722,000,637 b,406,405,685,027 33,317 1 721,000,643 c,414,411,682,007 8,913 1 720,003 a. Predictors: (Constant), LOGVUO b. Predictors: (Constant), LOGVUO, LOGMER c. Predictors: (Constant), LOGVUO, LOGMER, LOGAIK d. Dependent Variable: TAI Mallien hyvyyttä kuvataan mallien yhteenveto -taulukossa (Model Summary). Jokaisessa mallissa on mukana vakiotermi (Constant) sekä erinäinen joukko muita muuttujia. R-sarake (multippelikorrelaatiokerroin) kertoo selittävien muuttujien muodostaman muuttujajoukon ja selitettävän muuttujan välisen yhteiskorrelaation. Tätä tärkeämpi on kuitenkin multippelikorrelaatiokertoimen neliö R 2 (R Square), joka kertoo mallin selitysasteen eli sen, kuinka monta prosenttia muuttujat yhdessä selittävät TAI-muuttujasta. Nyt kaikki kolme tekijää selittävät taitotasosta yhteensä vain n. 40 % (tarkalleen 41.4 %), mitä ei voi pitää kovin suurena osuutena. Koetusta taitotasosta jää siis selittymättä 59.6 %. Otoskoolla ja selittäjien määrällä korjattu R 2 (Adjusted R Square) on hieman pienempi (koko mallille 0.411) kuin korjaamaton. Olimme lisäksi pyytäneet R:n muutosta koskevia tietoja. Taulun loppuosa kertoo, että muuttujien lisääminen on tilastollisessa mielessä vakuuttavasti R 2 :n arvoa kasvattavaa. Vaikka viimeisen AIK-muuttujan lisääminen ei kasvata selitysastetta kuin 0.7 %, on muutos kuitenkin tilastollisesti merkitsevä (p = 0.003). 34