Teema 10: Regressio- ja varianssianalyysi

Samankaltaiset tiedostot
Data-analyysi II. Sisällysluettelo. Simo Kolppo [Type the document subtitle]

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501


Perusnäkymä yksisuuntaiseen ANOVAaan

Regressioanalyysi. Vilkkumaa / Kuusinen 1

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Regressioanalyysi. Kuusinen/Heliövaara 1

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Yleistetyistä lineaarisista malleista

Teema 5: Ristiintaulukointi

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitus 9: Excel - Tilastollinen analyysi

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi. Luento 3

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Teema 3: Tilastollisia kuvia ja tunnuslukuja

Frequencies. Frequency Table

Sovellettu todennäköisyyslaskenta B

Johdatus regressioanalyysiin. Heliövaara 1

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

Näistä standardoiduista arvoista laskettu keskiarvo on nolla ja varianssi 1, näin on standardoidulle muuttujalle aina.

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

1. PÄÄTTELY YHDEN SELITTÄJÄN LINEAARISESTA REGRESSIOMALLISTA

Tilastollisten menetelmien perusteet II TILTP3 Luentorunko

Harjoittele tulkintoja

Teema 9: Tilastollinen merkitsevyystestaus

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Mat Tilastollisen analyysin perusteet, kevät 2007

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Todennäköisyyden ominaisuuksia

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

HAVAITUT JA ODOTETUT FREKVENSSIT

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Korrelaatiokertoinen määrittely 165

voidaan hylätä, pienempi vai suurempi kuin 1 %?

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Kvantitatiiviset menetelmät

1. Tutkitaan tavallista kahden selittäjän regressiomallia

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Väliestimointi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

MTTTP1, luento KERTAUSTA

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Kvantitatiivinen genetiikka moniste s. 56

SPSS-perusteet. Sisältö

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Viisi tähteä alle 150 eurolla 14 kaupungissa

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

MTTTP1, luento KERTAUSTA

Harjoitukset 4 : Paneelidata (Palautus )

OHJ-7600 Ihminen ja tekniikka -seminaari, 4 op Käyttäjäkokemuksen kvantitatiivinen analyysi Luento 2

RISTIINTAULUKOINTI JA Χ 2 -TESTI

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Dynaamiset regressiomallit

Estimointi. Otantajakauma

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

MTTTP5, luento Luottamusväli, määritelmä

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Ohjeita kvantitatiiviseen tutkimukseen

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kvantitatiiviset tutkimusmenetelmät maantieteessä

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

1. Tilastollinen malli??

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

pisteet Frekvenssi frekvenssi Yhteensä

ProCom: Aamu kattojen yllä. Käytännön esimerkkejä ulkoisen tiedon hyödyntämisestä

Testejä suhdeasteikollisille muuttujille

MTTTP1, luento KERTAUSTA

Kandidaatintutkielman aineistonhankinta ja analyysi

1. USEAN SELITTÄJÄN LINEAARINEN REGRESSIOMALLI JA OSITTAISKORRELAATIO

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

1. Normaalisuuden tutkiminen, Bowmanin ja Shentonin testi, Rankit Plot, Wilkin ja Shapiron testi

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Mat Tilastollisen analyysin perusteet, kevät 2007

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Transkriptio:

Teema 1: Regressio- ja varianssianalyysi Regressioanalyysi lienee t-testin ohella maailman eniten käytetty tilastollinen menetelmä. Sitä sivuttiin jo alustavasti Teemassa 4. Varianssianalyysi liittyy useallakin tavalla regressioanalyysiin, ja on toisaalta t-testin yleistys silloin kun vertaillaan useampaa kuin kahta ryhmää. Menetelmät kietoutuvat siis vahvasti toisiinsa. Aivan lopuksi täydennetään aiempia ristiintaulukoita koskevia tarkasteluja χ -riippumattomuustestillä (luetaan khi-toiseen ). Esimerkkejä hajontakuvista simuloiduilla aineistoilla Mieleenpalautus Teemasta 4, nyt mukana regressiosuorat: Kuva 1 N=15 Kuva N=5 Kuva 3 N=15 Kuva 4 N=16 Kuva 5 N=1 Kuva 6 N= Kuva 7 N=15 Kuva 8 N=15

Regressioanalyysin asetelma Regressioanalyysissa on kysymys riippuvuuden mallintamisesta, kun riippuvuus on lineaarista. Kuten Teema 4:n yhteydessä todettiin, äskeisistä vain kuvat 1 ja ovat selvästi tämän oletuksen mukaisia. Näissä yksinkertaisissa tilanteissa vastaavissa regressiomalleissa on vain yksi selittäjä (kuvissa vaaka-akselille piirretty muuttuja, jota kutsutaan usein x-muuttujaksi). Yleisesti mallissa voi olla useita selittäjiä, mutta vain yksi selitettävä (y-muuttuja). Kuvassa 8 selittäjä on diskreetti, mikä ei sinänsä haittaa, kunhan sen luokilla on selvä järjestys. Muut kuvat ovat regressioanalyysin kannalta enemmän tai vähemmän kyseenalaisia: kuvat 3 ja 7: selitettävä muuttuja liian diskreetti kuvat 4 ja 6: riippuvuus aivan epälineaarista kuva 5: poikkeava havainto rikkoo lineaarisuuden Perehdytään nyt regressioanalyysin käsitteistöön vähän tarkemmin. Regressioanalyysin perusteet Lineaarinen regressiomalli voidaan esittää lyhyesti muodossa y = β + β 1 x 1 + β x + + β k x k + ε, jossa y on selitettävä muuttuja, x 1, x,..., x k ovat selittäjiä, ε on satunnainen mallivirhe ja β, β 1,..., β k ovat regressiokertoimia, joiden arvot estimoidaan otoksen perusteella. Joka selittäjällä on oma regressiokerroin. Niiden estimaatit toimivat painokertoimina, kun x:istä muodostetaan sovite (tai ennuste) ŷ. Tavoitteena on siis selittää (tai ennustaa) y vain x:ien avulla. Kerrointa β kutsutaan mallin vakiotermin kertoimeksi, jonka käytännön merkitys on yleensä melko vähäinen. Tulkinnat koskevat pääosin estimoituja regressiokertoimia ˆβ 1, ˆβ,..., ˆβ k. Satunnaisvaihtelusta johtuen ŷ (x:ien painotettu summa) ei ole (käytännössä koskaan) aivan sama kuin y. Mitä lähempänä se on, sitä korkeampi on selitysaste (ks. Teema 4).

Regressioanalyysin perusteet (jatkoa) Regressioanalyysia käytetään paljon valitettavasti myös väärin. Elleivät menetelmän oletukset päde (edes jollain tavalla), eivät tulokset tai johtopäätöksetkään voi olla kovin ihmeellisiä. Sama pätee tietenkin kaikkiin tilastollisiin menetelmiin. Regressiomallin tärkeimmät oletukset koskevat mallivirhettä ε. Siitä oletetaan yleensä, että ε N(, σ ), mikä tarkoittaa että mallivirhe tuo regressiomalliin vain satunnaista, samansuuruista vaihtelua nollan molemmin puolin. Sen oletetaan siis noudattavan normaalijakaumaa, mikä on monissa sovelluksissa luonteva oletus. Regressioanalyysiin liittyy monenlaisia testaustilanteita, joissa käytetään mm. t-testiä. Jos normaalijakaumaoletus ei päde, testeistä tehdyt johtopäätökset menettävät luotettavuuttaan. Mallivirhe on satunnaismuuttuja eikä sellaisenaan havaittavissa, mutta oletusten voimassaoloa tutkitaan mallin jäännöstermin eli residuaalin (y:n ja ŷ:n erotuksen) avulla. Esimerkki: Prices and Earnings, BigMac (Survo) Tietoja 7 maasta ja kaupungista vuodelta 6 (ks. Teema 4) Kilo riisiä 4 3 1 Hajontakuva maiden ostovoimasta 1 3 4 5 6 7 8 9 1 Big Mac Hajontakuvia voi toki piirtää kumminpäin hyvänsä. Tutkitaan nyt tilannetta toisinpäin ja selitetään BigMac-indeksiä riisi-indeksillä: Linear regression analysis: Data BIGMAC6, Regressand BigMac N=7 Variable Regr.coeff. Std.dev. t p Rice.98.3763 8.47. constant.4914 4.367544.55.38 Variance of regressand BigMac=557.73849 df=69 Residual variance=76.6671 df=68 R=.7147 R^=.518

Esimerkki jatkuu: tulkitaan tulostusta Tulosteesta nähdään, että BigMac-indeksistä 51 % selittyy riisi-indeksillä (Rice), loppu satunnaisvaihtelulla: Variable Regr.coeff. Std.dev. t p Rice.98.3763 8.47. constant.4914 4.367544.55.38 Residual variance=76.6671 df=68 R=.7147 R^=.518 Rice-muuttujan regressiokertoimen estimaatti on ˆβ 1 =, eli kun Rice kasvaa yhden yksikön, BigMac kasvaa kaksi yksikköä. Tämä relaatio on nähtävissä myös kuvasta (vaikka se onkin toisinpäin). Yksikkönähän molemmissa muuttujissa on minuutti (työaikaa). Kertoimen ˆβ 1 estimoitu hajonta (eli keskivirhe) on.37. Kerroin jaettuna keskivirheellään on t-testisuure (vrt. Teema 9) 8.47. Hypoteesi H : β 1 = kaatuu selvästi (vapausasteita on df=68), joten kerroin poikkeaa nollasta (tilastollisesti merkitsevästi). Vakiotermin kerroin on ˆβ =.. Sillä on mallissa oma tehtävänsä, vaikkei se olekaan tilastollisesti merkitsevä (p=.38). Esimerkki jatkuu: lisätään toinen selittäjä Lisätään malliin toiseksi selittäjäksi ruokakorin keskimääräistä hintaa kuvaava Basket (kotitalouden ruokamenot/kk, US$): Variable Regr.coeff. Std.dev. t p Rice 1.3144.69971 4.897. Basket -.749.17947-4.15. constant 4.84683 1.543 4.64. Residual variance=3.877776 df=67 R=.781 R^=.699 Selitysaste paranee ja on nyt 61 %. Molemmat selittäjät ovat merkitseviä, mutta Rice menettää painoarvoaan ( ˆβ 1 = 1.3). Vapausasteet vähenevät, kun estimoidaan yksi parametri lisää (β ). Basket:in estimoitu kerroin ˆβ =.7 on lukuna pieni, koska muuttujan arvot ovat vastaavasti suurehkoja lukuja. Regressiomalleissa muuttujat voivat olla eri mittayksiköissä ja eri suuruusluokkaa. Vakiotermikin nousee tilastollisesti merkitseväksi, vaikkei sillä edelleenkään ole sen ihmeellisempää merkitystä.

Esimerkki jatkuu: lisätään kolmas selittäjä Lisätään malliin vielä lomapäivien määrää kuvaava Vacdays, jota on tarkasteltu aiemmissa harjoituksissa: Variable Regr.coeff. Std.dev. t p Rice 1.16663.7937 4.357. Basket -.77837.185-4.31. Vacdays -.45943.3319-1.361.178 constant 55.8178 13.768 4.. Residual variance=1.64444 df=66 R=.7878 R^=.66 Selitysaste paranee edelleen, mutta se ei ole ihme, sillä näin käy vaikka malliin lisättäisiin mitä tahansa selittäjiä. Selitysaste ei sellaisenaan olekaan riittävä peruste hyvälle mallille. Huomaa, että Rice menettää taas painoarvoaan ja vapausasteet vähenevät yhdellä, kun β 3 estimoidaan aineistosta. Vacdays-selittäjän ottamiselle malliin ei kuitenkaan ole perusteluja, sillä sen estimoitu kerroin ˆβ 3 =.45 ei ole merkitsevä (p=.178). Hypoteesi H : β 3 = jää voimaan, ja näin ollen Vacdays voidaan pudottaa pois ja palata aiempaan, suppeampaan malliin. Esimerkki jatkuu: vaihdetaan kolmas selittäjä Otetaan Vacdays:in tilalle malliin muuttuja Bread, joka kuvaa sitä, kuinka kauan pitää työskennellä voidakseen ostaa kilon leipää: Variable Regr.coeff. Std.dev. t p Rice.8165.6413 3.886. Basket -.6346.1383-4.766. Bread.8617.15148 7.858. constant 8.61589 7.844347 3.648. Residual variance=117.417887 df=66 R=.8936 R^=.7985 Nyt selitysaste nousee selvästi, miltei 8 %:iin. Kaikki selittäjät ovat merkitseviä. On aika katsastaa mallia hieman syvemmältä. Piirretään muutama diagnostiikkakuva, jotta voidaan tutkia miten regressiomallin oletukset toteutuvat tämän mallin osalta: selitettävä muuttuja vastaan mallin sovite sovite vastaan residuaali (ns. jäännösvaihteludiagrammi) residuaalin normaalisuus (ns. todennäköisyyspaperikuva) residuaalin normaalisuus (histogrammi, normaalijakauma)

Diagnostiikkakuva 1: selitettävä ja sovite 1 9 Sovite 8 7 6 5 4 3 1 1 3 4 5 6 7 8 9 1 BigMac Mitä paremmin pisteet asettuvat suoralle, sitä lähempänä mallin antama sovite on selitettävää muuttujaa. Diagnostiikkakuva : sovite ja residuaali 3 Nairobi Lima Residuaali 1-1 - -3 Sofia Bogotá Zürich Mumbai Geneva Oslo Bucharest Mexico Jakarta City London Copenhagen Bratislava Kiev Seoul Buenos Aires Caracas Tokyo Lisbon Prague Budapest Dublin Istanbul Santiago de Chile Luxembourg Johannesburg Amsterdam ParisDubai Warsaw New Toronto Vienna Nicosia Brussels Bangkok York Madrid Los Angeles Montreal Helsinki Barcelona Taipei Lyon Moscow Athens Sydney Auckland Milan Stockholm Singapore Sao Paulo Rio de Delhi Janeiro Frankfurt Münich Berlin Rome Tallinn Vilnius Kuala Lumpur Hong Kong Chicago Miami Manama Riga Shanghai Beijing Ljubljana 1 3 4 5 6 7 8 9 1 Sovite Tässä ei saisi näkyä mitään systemaattista, mutta nyt ilmenee että mallissa on vaikeuksia. Aineiston heterogeenisuus tuo ongelmia. Jäännösvaihtelu ei ole satunnaista. Malli on lievästi harhainen. Manila

Diagnostiikkakuva 3: residuaali todennäköisyyspaperilla.999.99.9.5.1.1.1-3 - -1 1 3 Residuaali Todennäköisyyspaperikuvassa pystyakselilla ovat normaalijakauman kertymäfunktion arvot. Mitä paremmin pisteet kuvautuvat suoraksi, sitä paremmin empiirinen jakauma vastaa normaalijakaumaa. Diagnostiikkakuva 4: residuaalin histogrammi 18 15 1 9 6 3-3 - -1 1 3 Residuaali Teema 9:stä tutussa χ -yhteensopivuustestissä p=.37, joten residuaaleja voidaan pitää normaalisti jakautuneina. Oletus mallivirheen normaalisuudesta jää siis voimaan.

Esimerkki päättyy: johtopäätökset Näin rakennettu malli on kohtuullisen hyvä, mutta lievä harhaisuus olisi hyvä saada korjattua, joko paremmilla selittäjävalinnoilla tai mahdollisilla regressiodiagnostisilla keinoilla kuten muunnoksilla. Malliin liittyvä normaalijakaumaoletus näyttäisi pitävän paikkansa, joten t-testeihin perustuva päättely on perusteltua. Sisällölliset tulkinnat on tässä jätetty vähemmälle huomiolle, ja saatuun malliin onkin syytä suhtautua enemmänkin teknisenä esimerkkinä regressiomallin laatimisesta. Huomaa jälleen, miten kurssilla aiemmin opitut asiat ja käsitteet (jakaumat, parametrit, estimointi, testit, p-arvot jne.) sekä erilaiset merkintätavat tulivat luontevasti käyttöön. 1 Tästä olisi hyvä jatkaa pidemmällekin, mutta sitä ei tämän kurssin 1 puitteissa tehdä. Siirrytään sen sijaan toiseen esimerkkiin. 8 6 4 Esimerkki: ESS ja mediaseuranta (SPSS) 8 - [a1] Kuinka Tarkastellaan ESS-aineistoa katsomiseen paljon yhteensä ja tavallisina käytätte siitä arkipäivinä aikaa television valittua kolmea muuttujaa: 4 6 Mean =3,85 Std. Dev. =1,89 N =54 1 1 1 15 1 8 6 4 Mean =3,85 Std. Dev. =1,89 N =54 Mean =1,76-4 6 8 - Std. Dev. =1,13 4 6 8 N =54 [a1] Kuinka paljon yhteensä käytätte aikaa television [a3] Kuinka paljon yhteensä käytätte aikaa radion - katsomiseen tavallisina arkipäivinä 4 6 8 kuunteluun tavallisina arkipäivinä [a5] Kuinka paljon yhteensä käytätte aikaa sanomalehtien lukemiseen tavallisina arkipäivinä Muodostetaan 1 summamuuttuja : 1 1 5 8 6 4 Descriptive Statistics Std. N Minimum Maximum Mean Deviation [a1] Kuinka paljon 8 yhteensä käytätte aikaa television katsomiseen 54 7 3.85 1.89 tavallisina arkipäivinä 6 [a3] Kuinka paljon yhteensä käytätte aikaa radion kuunteluun 54 7 3.1.67 tavallisina arkipäivinä 4 [a5] Kuinka paljon yhteensä käytätte aikaa sanomalehtien 54 7 1.76 1.13 lukemiseen tavallisina arkipäivinä Mean =3,1 Std. Dev. =,67 54.33 N =54 6.67.911 1.1945-4 6 Valid [a3] N Kuinka (listwise) paljon yhteensä käytätte aikaa 54 radion 8 kuunteluun tavallisina arkipäivinä 15 1 5 Mean =3,1 Std. Dev. =,67 N =54-4 6 8 [a5] Kuinka paljon yhteensä käytätte aikaa sanomalehtien lukemiseen tavallisina arkipäivinä [a1] Kuinka paljon yhteensä käytätte aikaa television katsomiseen tavallisina arkipäivinä 6[a3] Kuinka paljon yhteensä käytätte aikaa radion kuunteluun tavallisina arkipäivinä [a5] Kuinka paljon yhteensä käytätte aikaa sanomalehtien 4lukemiseen tavallisina arkipäivinä Valid N (listwise) Descriptive Statistics Page 1 Mean =1,76 Std. Dev. =1,13 N =54 N Minimum Maximum Mean Std. Deviation 54 7 3.85 1.89 54 7 3.1.67 54 7 1.76 1.13 54.33 6.67.911 1.1945 54 Mean =,91 Std. Dev. =1,195 N =54,, 4, 6,

Esimerkki jatkuu: ESS ja mediaseuranta Laaditaan regressiomalli, jossa selitetään mediaseurannan aktiivisuutta vastaajan sukupuolella ja iällä. Ikää käytetään mallissa jatkuvana muuttujana ( syntymävuosi), ja sukupuoli on koodattu 1=mies, =nainen. Tulostus alkaa yhteenvedolla: Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1.37 a.17.13 1.1317 a. Predictors: (Constant), Sukupuoli (1=mies, =nainen), Ikä (vuosina) b. Dependent Variable: Selitysaste ei ole kovin kaksinen (n. 11 %). Samaa luokkaa on myös ANOVA b korjattu selitysaste, joka laajemmissa malleissa rankaisee liioista Sum of selittäjistä Model ja on Squares siksi hieman df parempi Mean SquaremallinF hyvyyden Sig. mitta. 1 Regression 76.538 38.69 9.93. a Residual 641.16 51 1.8 Selitysasteen Total neliöjuurta 717.7 merkitään 53 usein (myös edellä olevissa Survon tulosteissa) a. Predictors: (Constant), symbolilla Sukupuoli R ja(1=mies, kutsutaan =nainen), yhteiskorrelaatiokertoimeksi. Ikä (vuosina) Nimi tulee b. siitä, Dependent että kyseessä Variable: on y:n ja ŷ:n korrelaatiokerroin. Jos selittäjiä on vain yksi, R on sama kuin y:n ja x:n tavallinen korrelaatiokerroin. a Unstandardized Standardized Model B Std. Error Beta t Sig. 1 (Constant) Model Summary.7 b.3 11.159. Ikä (vuosina)..3.317 7.518. Sukupuoli (1=mies, Adjusted R Std. Error of Model =nainen) R R Square -.19 Square the.11 Estimate -.79-1.878.61 1.37 a. Dependent Variable: a.17.13 1.1317 a. Predictors: (Constant), Sukupuoli (1=mies, =nainen), Ikä (vuosina) Esimerkki jatkuu: ESS ja mediaseuranta b. Dependent Variable: Seuraava tuloslaatikko on otsikoitu lyhenteellä ANOVA, joka johtuu varianssianalyysia tarkoittavista sanoista ANalysis Of VAriance. 4 oikeastaan saman lineaarisen mallin ilmentymiä). Tässä kohtaa on kysymys 3 Histogram ANOVA b Sum of Model Squares df Mean Square F Sig. 1 Regression Dependent 76.538 Variable: 38.69 9.93. a Residual 641.16 51 1.8 5 Total 717.7 53 a. Predictors: (Constant), Sukupuoli (1=mies, =nainen), Ikä (vuosina) Varianssianalyysi liittyy läheisesti regressioanalyysiin (nämä menetelmät ovat b. Dependent Variable: siitä, miten regressioanalyysi on yleisesti a onnistunut: paljonko y-muuttujan () vaihtelusta selittyy mallin avulla ja paljonko jää selittämättä. Nämä tiedot esitetään perinteisesti tässä näkyvänä varianssitauluna, joka Model 1 (Constant) Ikä (vuosina) 1 osamäärinä Sukupuoli saatavista (1=mies, varianssitermeistä (Mean Square). Varianssien suhteena =nainen) a. Dependent Variable: H : -3β 1 = - β = -1 = β k =, 1 Regression Standardized Residual Unstandardized Standardized B Std. Error Beta t Sig..7.3 11.159...3.317 7.518. koostuu kumpaakin osuutta kuvaavista neliösummista, vapausasteista ja näiden -.19.11 -.79-1.878.61 saadaan F -testisuure, joka testaa (todella skeptistä!) hypoteesia 3 Mean =-1,9E-15 Std. Dev. =,998 N =54 siis että kaikkien selittäjien (paitsi vakion) regressiokertoimet olisivat nollia. Testin p-arvon perusteellahistogram ainakin yksi kertoimista poikkeaa nollasta, ts. mallin selittäjävalinta ei ole aivan pielessä (vaikka selitysaste onkin melko vähäinen). Dependent Variable: Page 1

a. Predictors: (Constant), Sukupuoli (1=mies, =nainen), Ikä (vuosina) Sum of Squares df Mean Square F Sig. b. Dependent Variable: Model 1 Regression 76.538 38.69 9.93. Esimerkki jatkuu: ESS ja mediaseuranta a Residual 641.16 ANOVA b 51 1.8 Model 1 Total Sum of 717.7 53 Squares df Mean Square F Sig. a. Predictors: Regression (Constant), 76.538 Sukupuoli (1=mies, 38.69 =nainen), 9.93 Ikä (vuosina). a b. Dependent Residual Variable: 641.16 51 1.8 Kiinnostavin Total 717.7osa 53 tulostuksesta on yleensä seuraava laatikko: a. Predictors: (Constant), Sukupuoli (1=mies, =nainen), Ikä (vuosina) b. Dependent Variable: a Unstandardized Standardized Model UnstandardizedB Standardized Std. Error Beta t Sig. Model 1 (Constant) B Std. Error.7 Beta.3 t Sig. 11.159. 1 (Constant) Ikä (vuosina).7.3..3 11.159.317. 7.518. Ikä (vuosina) Sukupuoli (1=mies,..3.317 7.518. Sukupuoli =nainen) (1=mies, -.19.11 -.79-1.878.61 =nainen) -.19.11 -.79-1.878.61 a. Dependent a. Dependent Variable: Variable: Analyysia täydentävät kaksi diagnostista kuvaa (vrt. Survon kuvat): 5 4 3 1-3 5 4 3 1-3 Histogram Dependent Variable: - -1 1 Regression Standardized Residual - -1 1 Regression Standardized Residual Normal P-P Plot of Regression Standardized Residual Histogram Dependent Variable: 3 Expected Cum Prob 1,,8,6,4, Mean =-1,9E-15 Std. Dev. =,998 N, =54, Dependent Variable: 3,,4,6 Observed Cum Prob Tulkintoihin palataan tarkemmin harjoituksissa. Mean =-1,9E-15 Std. Dev. N =54 =,998,8 1, Page 1 Esimerkki jatkuu: ESS ja mediaseuranta Page 1 Äskeisen kaltaisia tilanteita on yhteiskuntatieteissä tyypillistä tutkia myös varianssianalyysilla. Luokitellaan seuraavassa ikä (karkeasti) ryhmiin 15-34 -vuotiaat, 35-54 -vuotiaat ja yli 54-vuotiaat. Jos ikäryhmiä olisi vain kaksi, niitä voitaisiin vertailla t-testillä. Sen yleistys useamman ryhmän vertailuun tunnetaan nimellä yksisuuntainen varianssianalyysi. Tutkittavana muuttujana on Page edelleen mediaseurannan aktiivisuus. Descriptives Aluksi saadaan ryhmiä kuvaavia tunnuslukuja ja luottamusvälejä: 15-34 35-54 55- Total 95% Confidence Interval for Std. Mean N Mean Deviation Std. Error Lower Bound Upper Bound 158.5865 1.7499.855.4176.7554 176.6913 1.13865.8583.519.867 17 3.4373 1.18463.986 3.579 3.6166 54.911 1.1945.531.855 3.146 Descriptives

Descriptives Esimerkki jatkuu: ESS ja mediaseuranta Sum of Squares df Mean Square F Sig. Between Groups 7.14 36.17 8.5. Within Groups 645.486 51 1.88 Total 717.7 53 F-testin perusteella eroja Multiple oncomparisons selvästi havaittavissa. Tarkemmin erot paljastuvat vasta monivertailutesteillä: Dependent Variable: Tukey HSD Seuraavaksi Minimum tulee Maximum varianssitaulu, joka muistuttaa hyvin paljon 15-34.33 5.33 regressioanalyysin 35-54.33 5.67 yhteydessä nähtyä vastaavaa esitystä. Tässä 55-.67 6.67 kysymys Total on.33 ryhmien 6.67 välisen ja ryhmien sisäisen vaihtelun suhteesta. Kiinnostuksen kohteena on nimenomaan ryhmien välinen vaihtelu, ANOVA ts. miten suuria eroja ikäryhmien välillä on havaittavissa. Mean Difference 95% Confidence Interval (I) ikäryhm (J) ikäryhm (I-J) Std. Error Sig. Lower Bound Upper Bound 15-34 35-54 -.1479.144.677 -.397.1876 55- -.8576*.1543. -1.1456 -.5559 35-54 15-34.1479.144.677 -.1876.397 55- -.74597*.16. -1.39 -.459 55-15-34.8576*.1543..5559 1.1456 35-54.74597*.16..459 1.39 *. The mean difference is significant at the.5 level. Esimerkki päättyy: ESS ja mediaseuranta Varianssianalyysin (joskus hieman harhaanjohtavalta tuntuva) nimi tulee siis y-muuttujan varianssin hajottamisesta erilaisiin osiin, mutta mielenkiinto keskittyy ryhmien keskiarvojen vertailuun. Tuloksia on usein tapana visualisoida keskiarvoprofiileilla: Mean of 3,5 3,5 3, Page 1,75,5 15-34 35-54 ikäryhm 55- Varianssianalyysillakin voidaan tutkia useita muuttujia sekä niiden yhdysvaikutuksia, mutta näihin asioihin ei tässä perehdytä.

Riippuvuustarkasteluja ristiintaulukoista Kurssin osallistujien ikäjakauma tiedekunnittain (ks. Teema 5) (lähde: WebOodi/KV) Ikä (vuotta) Tiedekunta 17 3 7 8 3 33 46 yht. Valtiotieteellinen 13 6 1 13 8 Matem. luonnontiet. 47 3 9 6 9 Muut tiedekunnat 49 7 3 4 83 yhteensä 8 119 33 3 43 Tästä tarkasteltiin ehdollisia jakaumia, reunajakaumia ja erilaisia %-jakaumia. Teeman 6 harjoituksissa puolestaan tarkasteltiin taulukkoa, jonka sarakeluokittelijana oli sukupuoli. Sen avulla tutkittiin ehdollista todennäköisyyttä ja riippumattomuutta. Nämä käsitteet ovat perustana, kun otetaan mukaan vielä riippumattomuuden arviointiin tarkoitettu tilastollinen testi. Riippumattomuuden arviointi χ -testillä Ovatko äskeisen taulukot rivi- ja sarakeluokittelijat toisistaan riippumattomia, ts. ovatko ikäjakaumat tiedekunnittain samanlaisia (kun keskitytään lähinnä kahteen kurssin kannalta suurimpaan tiedekuntaan ja samastetaan muut yhdeksi kategoriaksi)? Muodollisemmin on kyse seuraavasta hypoteesin testauksesta: H : Ikäjakaumat ovat samat tiedekunnasta riippumatta. H 1 : Ikäjakaumissa on eroja tiedekunnittain. Testaus tapahtuu χ -testillä, jonka erästä muotoa käytettiin jo ohimennen Teemassa 9 empiiristen ja teoreettisten jakaumien yhteensopivuuden testaukseen. Tässä testi johtaa p-arvoon.64, joten H jää voimaan. Ikäjakaumissa ei ole eroja tiedekunnittain. Miten se ilmenee? Tutkitaan tarkemmin eikä tyydytä vain yhteen lukuun.

χ -testi: odotetut ja havaitut frekvenssit Diskreetin jakauman yhteensopivuustesteissä (nopat, lotto) verrattiin havaittuja frekvenssejä pistetodennäköisyyksien mukaisiin odotettuihin frekvensseihin. Samoin tehdään nyt. Odotetut frekvenssit vastaavat H :n mukaista riippumatonta tilannetta, joten ne seuraavat aivan suoraan reunajakaumista. Esimerkiksi taulukon ensimmäisen solun arvo saadaan laskemalla 8 8 43 = 18.99. Ohessa luvut on pyöristetty: Ikä (vuotta) Tiedekunta 17 3 7 8 3 33 46 yht. Valtiotieteellinen 19. 67.3 18.7 13. 8 Matem. luonnontiet. 5. 7. 7.5 5.3 9 Muut tiedekunnat 47. 4.5 6.8 4.7 83 yhteensä 8 119 33 3 43 χ -testi: kontribuutiot päättelyn tukena Odotettuja ja havaittuja frekvenssejä verrataan toisiinsa laskemalla niiden neliöidyt erotukset suhteessa odotettuihin frekvensseihin. Jokaista taulukon solua kohti saadaan kyseistä eroa kuvaava luku. Näitä lukuja kutsutaan toisinaan χ -kontribuutioiksi: Ikä (vuotta) Tiedekunta 17 3 7 8 3 33 46 yht. Valtiotieteellinen.7.4.9..78 Matem. luonnontiet..49.3.9.11 1.18 Muut tiedekunnat.9.5.1.11.58 yhteensä.65.97.7. 4.54 Korostetut luvut kertovat suurimmat erot (vrt. taulukot). Mukana ovat myös χ -kontribuutioiden rivi- ja sarakesummat. Kokonaissumma 4.54 on χ -testisuure, jonka vapausasteet (degrees of freedom) ovat df = (rivien lkm 1) (sarakkeiden lkm 1), kun summarivejä ei oteta mukaan, siis (3 1)(4 1) = 6. Testin p-arvo saadaan χ -jakauman kertymäfunktiosta tai taulukosta.

χ -testi: kevään 8 vastaava taulukko Vertailun vuoksi tarkastellaan myös tilannetta, jossa ikäjakaumat eroavat tiedekunnittain (huomaa, että myös luokittelut eroavat edellä esitetyistä): Kevään 8 kurssin osallistujien ikäjakauma tiedekunnittain (lähde: WebOodi/KV) Ikä (vuotta) Tiedekunta 18 3 7 8 3 33 6 yht. Valtiotieteellinen 86 43 6 1 147 Matem. luonnontiet. 46 33 7 16 Muut tiedekunnat 35 8 5 4 7 yhteensä 167 14 31 3 35 Tässä tilanteessa testi johtaa p-arvoon.3, joten H hylätään. Ikäjakaumissa on eroja tiedekunnittain. Mitä nuo erot ovat? χ -testi: odotetut ja havaitut frekvenssit Tehdään vastaavat tarkastelut kuin edellä: Odotetut frekvenssit vastaavat H :n mukaista riippumatonta tilannetta, joten ne seuraavat aivan suoraan reunajakaumista. Esimerkiksi taulukon ensimmäisen solun arvo saadaan laskemalla 167 147 35 = 75.5. Ikä (vuotta) Tiedekunta 18 3 7 8 3 33 6 yht. Valtiotieteellinen 75.5 47. 14. 1.4 147 Matem. luonnontiet. 54.5 33.9 1.1 7.5 16 Muut tiedekunnat 37. 3. 6.9 5.1 7 yhteensä 167 14 31 3 35

χ -testi: kontribuutiot päättelyn tukena Lasketaan χ -kontribuutiot ja -testisuure: (86 75.5) 75.5 + (43 47) 47. + + (4 5.1) 5.1 = 1.45 +.35 + +.4 = 19.6 Kerätään luvut taulukkoon (vastaavasti kuin edellä): Ikä (vuotta) Tiedekunta 18 3 7 8 3 33 6 yht. Valtiotieteellinen 1.45.35 4.59.5 6.63 Matem. luonnontiet. 1.3. 9.67.3 11.5 Muut tiedekunnat.11 1.7.51.4 1.9 yhteensä.87 1.44 14.77.51 19.6 Korostetut luvut kertovat, miksi H hylätään (vrt. taulukot). χ -testin visualisointi: korrespondenssianalyysi Taulukoiden visualisointiin erikoistunut monimuuttujamenetelmä on nimeltään korrespondenssianalyysi. Tarkastellaan äskeisiä taulukoita vielä sen avulla: Kevät 8: Correspondence analysis on data JK8K: Rows=3 Columns=4 Canonical Eigen- Chi^ Cumulative correlation value percentage 1.311.534 17.3646554 88.61.89.69.3645 1..63 19.5973 (df=6 P=.3657) Syksy 8: Correspondence analysis on data JK8S: Rows=3 Columns=4 Canonical Eigen- Chi^ Cumulative correlation value percentage 1.899.81 3.589317 71.8.563.3 1.7855915 1..113 4.53746 (df=6 P=.64347) 8-3 M-L 3-7 Valt 33-6 18- Valt Muut 17-8-3 33-46 3-7 M-L Muut Lisää aiheesta: Kyselytutkimuksen mittarit ja menetelmät (luku 7).