54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):



Samankaltaiset tiedostot
Perusnäkymä yksisuuntaiseen ANOVAaan

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3


Aki Taanila VARIANSSIANALYYSI

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Tulkitse tulokset. Onko muuttujien välillä riippuvuutta? Jos riippuvuutta on, niin millaista se on?

KAHDEN RYHMÄN VERTAILU

TUTKIMUSOPAS. SPSS-opas

Kandidaatintutkielman aineistonhankinta ja analyysi

, Määrälliset tutkimusmenetelmät 2 4 op

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

1. Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Kvantitatiiviset tutkimusmenetelmät maantieteessä

Ennen seuraavia tehtäviä tarkista, että KUNNAT-aineistossasi on 12 muuttujaa ja 416 tilastoyksikköä.

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Mat Tilastollisen analyysin perusteet, kevät 2007

Aki Taanila TILASTOLLINEN PÄÄTTELY

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Christina Gustafsson. Tilastollinen tietojenkäsittely STAT2100 IBM SPSS Statistics 22 for Windows Osa 3

MTTTP5, luento Luottamusväli, määritelmä

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

USEAN RYHMÄN VERTAILU

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Ohjeita kvantitatiiviseen tutkimukseen

2. Aineiston kuvailua

Yleistetyistä lineaarisista malleista

TESTINVALINTATEHTÄVIEN VASTAUKSET

USEAN MUUTTUJAN REGRESSIOMALLIT JA NIIDEN ANA- LYYSI

Tavanomaisten otostunnuslukujen, odotusarvon luottamusvälin ja Box ja Whisker -kuvion määritelmät: ks. 1. harjoitukset.

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

MONIMUUTTUJAMENETELMISTÄ RAKENNEYHTÄLÖMALLINNUKSEEN MUUTTUJIEN NORMAALISUUS. Statistics

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Aki Taanila TILASTOLLINEN PÄÄTTELY

Kvantitatiiviset menetelmät

Usean selittävän muuttujan regressioanalyysi

MTTTP1, luento KERTAUSTA

KURSSIKYSELYAINEISTO: HUOM! Aineiston tilastoyksikkömäärä 11 on kovin pieni oikean tilastotieteen tekemiseen, mutta Harjoitteluun se kelpaa kyllä!

Harjoitus 9: Excel - Tilastollinen analyysi

4.2 Useampi selittävä muuttuja (kertausta)

voidaan hylätä, pienempi vai suurempi kuin 1 %?

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

HAVAITUT JA ODOTETUT FREKVENSSIT

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Muuttujien väliset riippuvuudet esimerkkejä

IBM SPSS Statistics 21 (= SPSS 21)

Harjoitus 7: NCSS - Tilastollinen analyysi

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

MTTTP1, luento KERTAUSTA

Leikkijunan kunto toimiva ei-toimiva Työvuoro aamuvuoro päivävuoro iltavuoro

Sisällysluettelo ESIPUHE 1. PAINOKSEEN... 3 ESIPUHE 2. PAINOKSEEN... 3 SISÄLLYSLUETTELO... 4

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

3. a) Mitkä ovat tilastolliset mitta-asteikot? b) Millä tavalla nominaaliasteikollisen muuttujan jakauman voi esittää?

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Puheentutkimuksen tilastoanalyysin perusteet. 8. luento. Pertti Palo

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Korrelaatiokertoinen määrittely 165

Sisällysluettelo 6 VARIANSSIANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

SPSS ohje. Metropolia Business School/ Pepe Vilpas

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Regressioanalyysi. Kuusinen/Heliövaara 1

ARVIOINTIPERIAATTEET

Sovellettu todennäköisyyslaskenta B

Harjoittele tulkintoja

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Testejä suhdeasteikollisille muuttujille

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Sisällysluettelo 6 REGRESSIOANALYYSI. Metsämuuronen: Monimuuttujamenetelmien perusteet SPSS-ympäristössä ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON...

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

SPSS OPAS. Metropolia Liiketalous

805306A Johdatus monimuuttujamenetelmiin, 5 op

Harjoitukset 4 : Paneelidata (Palautus )

Til.yks. x y z

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Transkriptio:

Tilastollinen tietojenkäsittely / SPSS Harjoitus 5 Tarkastellaan ensin aineistoa KUNNAT. Kyseessähän on siis kokonaistutkimusaineisto, joten tilastollisia testejä ja niiden merkitsevyystarkasteluja ei tarvita. 54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös): Tehtävässä 30 havaittiin, että muuttujien tulotaso ja koulutus välinen korrelaatiokerroin oli sen verran suuri, että muuttujien välillä voidaan katsoa olevan vahvaa positiivista lineaarista riippuvuutta. Muodosta nyt yhden selittäjän lineaarinen regressiomalli (Analyze Regression - Linear), jossa selität tulotaso-muuttujan (Dependent) vaihtelua koulutus-muuttujan (Independent) avulla. Tulkitse mallisi tulokset: Mikä on mallin selitysaste (= Model Summary taulukossa, R Square)? Millainen on malli? (Regressiokertoimet = Coefficients-taulukon B-sarake) ^ tulotaso = x koulutus Mallin tulkinta: 55. Muodosta vastaava regressiomalli kuin tehtävässä 54, mutta käytä vain Länsi-Suomen läänin kuntia (Linear-proseduurissa Selection Variable Rule ). Tulkitse tulokset. Millainen on malli? = x Eroavatko mallit toisistaan paljon? Tarkastellaan sitten aineistoa kyselya. Nyt on kyseessä otanta-aineisto, joten tilastollista päättely varten testejäkin käytetään. 56. Yhden selittäjän lineaarisen regression lisäksi tutkaillaan mallin sopivuutta ja tilastollista merkitsevyyttä: Harjoituksissa 4 havaittiin, että kaikkien määrällisten muuttujien (pituus, paino, kengännumero, vaaksan pituus) välillä on tilastollisesti erittäin merkitsevää lineaarista riippuvuutta. Muodosta

paras yhden selittäjän lineaarinen regressiomalli, jolla selitetään kengännumeron vaihtelua (Mikä muuttuja korreloikaan eniten kengännumeron kanssa?). Tutki myös muodostamasi mallin jäännösten eli residuaalien (e i = y i ŷ i ) jakaumaa kuvien avulla, jotka saat Linear-proseduurin Plots-lisävalinnoilla Histogram ja Scatter > X: ZPRED ja Y:ZRESID Tulkitse mallisi tulokset: Millainen on malli? = x Ovatko regressiokertoimet tilastollisesti merkitseviä (= Coefficients-taulukon Sig-sarake)? Mallin tulkintaa: Miltä residuaalit vaikuttavat: Onko residuaalien jakauma normaalijakauma? Onko residuaalien keskiarvo 0? Onko residuaalien varianssi samanlainen eri ennustearvoilla (=homoskedastisuus)? 57. Muodostetaan laadullisesta muuttujasta dummy-muuttuja. Muodostetaan sellainen kahden selittäjän lineaarinen regressiomalli, jossa selittäjinä on yksi määrällinen ja yksi laadullinen muuttuja: Muodosta ns. dummy-muuttuja eli apumuuttujan sukupuolesta siten, että dummy-muuttujan arvo on 1, jos kyseessä on mies ja 0, jos kyseessä on nainen (esim. Transform-Recode Into Different Variables). Tee uusi malli kengännumeron selittämiseen niin, että lisäät pituuden lisäksi regressiomalliin selittäjäksi dummy-muuttuja. Tulkitse mallisi tulokset. Millainen on malli? = x x Ovatko regressiokertoimet tilastollisesti merkitseviä (= Coefficients-taulukon Sig-sarake)? Miten malli tulkitaan? Entäs residuaalit?

58. Tehdään selvitys siitä, onko yksisuuntaisen varianssianalyysin oletukset kunnossa. Tehdään yksisuuntainen varianssianalyysi, jotta voidaan vertailla kolmessa (tai useammassa) ryhmässä laskettuja määrällisen muuttujan keskiarvoja populaatioissakin: Tarkoitus olisi testata yksisuuntaisella varianssianalyysillä, onko kengännumeron keskiarvot yhtä suuret eri kotipaikoista kotoisin olevilla opiskelijoilla. Ensin pitäisi kuitenkin tarkistaa, onko kengännumeron jakauman olla normaalijakauma (tai edes symmetrinen) kussakin ryhmässä, jotta varianssianalyysi antaisi luotettavan tuloksen keskiarvojen eroista. Millainen on kengännumeron jakauma eri kotipaikkaryhmissä? 1 : 2 : 3: Ja koska varianssianalyysin oletukset ovat kunnossa, niin muodosta yksisuuntainen varianssianalyysi (Compare Means One-way Anova), jossa vertailet opiskelijoiden kengännumeron (Dependent) keskiarvoja kotipaikka-muuttujan eri luokissa (Factor). Vielä pitäisi tarkistaa, että kussakin ryhmässä kengännumeron varianssin on sama (valinta Option Statistics - Homogeneity of Variance Test). Tulosta näkyviin kuva (Options Means plot), jossa esitetään kengännumeron keskiarvot kotipaikkaryhmissä sekä taulukkoesitys ryhmien perustunnusluvuista (Options Statistics-Descriptives). Tulkitse analyysin tulokset. Jos keskiarvoilla on eroa, tutki tarkemmin Post Hoc lisävalinnalla (esim. Tukeyn testillä), mitkä ryhmät ovat samankaltaisia. otoskeskiarvot ovat: otoskeskihajonnat ovat: tilastoyksiköitä on Varianssitestissä H 0 : 1 2 = 2 2 = 3 2 ja H1 : ainakin yksi i 2 eroaa muista Levenen varianssitestissä F-testisuureen arvo on, ja sen p-arvo on, hyväksytään/hylätään merkitsevyystasolla eli variansseja voidaan pitää. Varianssianalyysissä H 0 : µ 1 = µ 2 = µ 3 ja H 1 :. ANOVA-taulukon F-testisuureen arvo on, ja sen p-arvo on, hyväksytään/hylätään merkitsevyystasolla eli keskiarvoja voidaan pitää. Post Hoc testituloksia:

59. Tehdään Mann-Whitneyn U-testi kahden ryhmän vertailemiseksi, koska kahden riippumattoman otoksen keskiarvotestin oletukset eivät ole kunnossa: Painoindeksi suhteuttaa painon ja pituuden, ja se voidaan laskea jakamalla paino (kiloina) pituuden (metreinä) neliöllä. Muodosta painoindeksimuuttuja (Transform-Compute Variable) Tutki, millainen on painoindeksin jakauma miesten joukossa. Entä naisten joukossa? Ja valitse tämän jälkeen sellainen testi, jonka avulla voit testata, onko opiskelijamiesten painoindeksi jakaumaltaan samanlainen kuin opiskelijanaisilla (Analyze Nonparametric Tests Legacy Dialog 2 Independent Samples). (Kahden riippumattoman otoksen keskiarvotesti ei siis käy. Miksi?) Tulkitse tuloksesi. Tee aiheesta vielä laatikko-viikset-kuvio. Testissä H 0 : painoindeksijakaumat ovat sijainneiltaan samanlaiset miehillä ja naisilla H 1 : painoindeksijakaumat eivät ole sijainneiltaan samanlaiset miehillä ja naisilla. Mann-Whitneyn-testisuureen arvo on, ja sen p-arvo on, hyväksytään/hylätään 60. Tehdään Kruskal-Wallisin H-testi usean ryhmän vertailemiseksi, koska varianssianalyysin oletukset eivät ole kunnossa: Tarkoitus olisi testata, onko opiskelijoiden painon jakauma samanlainen eri vuosina. Tutki ensin, millainen on painon jakauma eri vuosina. Jatka sitten sopivalla testillä, jotta voit testata, onko vuosittainen painojakauma samanlainen. (Varianssianalyysi ei käy. Miksi?) Tulkitse tuloksesi. Muodosta aiheesta vielä laatikko-viiksetkuvio. Testissä H 0 : painojakaumat ovat sijainneiltaan samanlaiset eri vuosina ja H 1 : painojakaumat eivät ole sijainneiltaan samanlaiset eri vuosina. Kruskal-Wallisin testisuureen arvo on, ja sen p-arvo on, hyväksytään/hylätään

Tarkastellaan vielä aineistoa kyselyb. 61. Aineiston tiivistäminen tekemällä keskiarvomuuttuja: Tiivistetään aineistoa: aineiston kaksi muuttujaa: Suomeen pitäisi rakentaa lisää ydinvoimaa ja Nykyisten ydinvoimaloiden toimilupia pitäisi rajoittaa mittaavat opiskelijan suhtautumista ydinvoimaan. Muodostetaan näiden muuttujan arvoista keskiarvomuuttuja /jos se on järkevää/. Ensin: käännä ensin toimiluparajoitus-muuttuja päinvastaiseen muotoon, tekemällä uusi muuttuja Nykyisten ydinvoimaloiden toimilupia EI pitäisi rajoittaa seuraavasti: vanha arvo uusi arvo 1 5 2 4 3 3 4 2 5 1 Sitten: tutki Cronbachin alfa tunnusluvulla, ovatko Suomeen pitäisi ja Nykyisten EI pitäisi yhteismitallisia (Analyze Scal -Reliablity Analysis). Ja lopuksi muodosta keskiarvomuuttuja (Transform-Compute Variable) (jos Cronbachin alfa on suurempi kuin 0.6) laskemalla yhteen muuttujien Suomeen pitäisi ja Nykyisten EI pitäisi arvot ja jakamalla summa luvulla 2 (koska kaksi termiä on yhteenlaskussa mukana). Aineistoon muodostui siis keskiarvomuuttuja (kohdellaan määrällisenä, vaikka alkuperäiset muuttujat ordinaaliasteikkoa), jonka arvo on pieni, jos opiskelija suhtautuu positiivisesti ydinvoimaan. Arvo on suuri silloin, kun opiskelija suhtautuu negatiivisesti ydinvoimaan. 62. Käytä edellisen tehtävän tuloksena saatua keskiarvomuuttujaa, kun tutkit ja testaat, ovatko eri vuosien opiskelijat suhtautuneet ydinvoimaan samalla tavalla.