Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Samankaltaiset tiedostot
Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 5: Jakaumaoletuksien. testaaminen

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

10. laskuharjoituskierros, vko 14, ratkaisut

Testejä suhdeasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Mat Sovellettu todennäköisyyslasku A

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Mat Tilastollisen analyysin perusteet, kevät 2007

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Testit laatueroasteikollisille muuttujille

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

Testit järjestysasteikollisille muuttujille

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

2. TILASTOLLINEN TESTAAMINEN...

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

5.7 Uskottavuusfunktioon perustuvia testejä II

Yleistetyistä lineaarisista malleista

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

031021P Tilastomatematiikka (5 op) viikko 5

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Tilastollinen aineisto Luottamusväli

Lohkoasetelmat. Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

riippumattomia ja noudattavat samaa jakaumaa.

Sovellettu todennäköisyyslaskenta B

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Lohkoasetelmat. Kuusinen/Heliövaara 1

Estimointi. Vilkkumaa / Kuusinen 1

Tilastollisia peruskäsitteitä ja Monte Carlo

Mat Tilastollisen analyysin perusteet, kevät 2007

MTTTP5, luento Luottamusväli, määritelmä

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

11. laskuharjoituskierros, vko 15, ratkaisut

Estimointi. Otantajakauma

1. Nollahypoteesi on, että teksti on kirjoitettu lyhyemmällä murteella. Mahdollisiavaihtoehtojaonvainyksieliettäteksti

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Testaa onko myrkkypitoisuus eri ryhmissä sama. RATK. Lasketaan kaikkien havaintoarvojen summa: k T i = = 486.

Mat Tilastollisen analyysin perusteet, kevät 2007

Regressioanalyysi. Vilkkumaa / Kuusinen 1

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

tilastotieteen kertaus

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

6.1.2 Yhdessä populaatiossa tietyn tyyppisten alkioiden prosentuaalista osuutta koskeva päättely

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

dx=5&uilang=fi&lang=fi&lvv=2014

Sovellettu todennäköisyyslaskenta B

2. Keskiarvojen vartailua

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Johdatus tilastotieteeseen Yhteensopivuuden, homogeenisuuden ja riippumattomuuden testaaminen. TKK (c) Ilkka Mellin (2004) 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

HAVAITUT JA ODOTETUT FREKVENSSIT

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Transkriptio:

Tilastollisen analyysin perusteet Luento 10:

Sisältö

Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta ryhmästä (esimerkiksi vastavalmistuneet diplomi-insinöörit eri maakunnissa). Havaintojen oletetaan noudattavan jokaisessa ryhmässä normaalijakaumaa. Jokaisesta ryhmästä poimitaan toisistaan riippumattomat yksinkertaiset satunnaisotokset. Varianssianalyysissä (ANOVA, analysis of variance) testataan ryhmäkohtaisten yhtäsuuruutta (esimerkiksi diplomi-insinöörien kuukausipalkan odotusarvon yhtäsuuruutta eri maakunnissa).

MANOVA Ryhmäkohtaisten yksiulotteisten sijaan voidaan myös testata odotusarvovektorien samuutta (MANOVA, multivariate analysis of variance). Esimerkiksi voidaan testata vastavalmistuneiden diplomi-insinöörien kuukausipalkan ja viikottaisten ylityötuntien odotusarvon yhtäsuuruutta eri maakunnissa.

multifactor ANOVA Perusjoukko voidaan jakaa ryhmiin myös useamman tekijän perusteella (multifactor ANOVA), joista osa voi olla jatkuvia (ANCOVA, analysis of covariance). Esimerkiksi vastavalmistuneet diplomi-insinöörit voidaan jakaa ryhmiin sekä sukupuolen mukaan että asuinpaikan perusteella.

multifactor MANOVA Voidaan myös tarkastella tilannetta, jossa odotusarvo on moniulotteinen ja ryhmiin jako tapahtuu usean muuttujan suhteen (multifactor MANOVA, MANCOVA). Esimerkiksi voidaan testata vastavalmistuneiden diplomi-insinöörien kuukausipalkan ja viikottaisten ylityötuntien odotusarvon yhtäsuuruutta sukupuolen mukaan ja eri maakunnissa.

ANOVA Tällä kurssilla tarkastellaan tilannetta, jossa perusjoukko on jaettu ryhmiin yhden tekijän suhteen ja tarkasteltava odotusarvo on yksiulotteinen.

Varianssianalyysi Olkoot x 1j, x 2j,..., x nj j satunnaismuuttujan x j havaitut arvot, j {1,..., k}. Oletetaan, että havaintopisteet x 1j, x 2j,..., x nj j ovat riippumattomia, samoin jakautuneita ja tulevat normaalijakaumasta N(µ j, σ 2 ), j {1,..., k}. (Tarkastelun kohteena on siis k kappaletta riippumattomia satunnaisotoksia yksiulotteisista normaalijakaumista, joilla on sama varianssi.) Oletetaan vielä, että tarkasteltavat k otosta ovat toisistaan riippumattomia. Nollahypoteesi H 0 : µ 1 = µ 2 = = µ k. Vaihtoehtoinen hypoteesi H 1 : Ainakin kaksi odotusarvoista µ j eroaa toisistaan.

Varianssianalyysi Varianssianalyysissä tutkitaan eroavatko kahden tai useamman ryhmän keskiarvot tilastollisesti merkitsevästi toisistaan. Käytännössä varianssianalyysi perustuu siihen, että kokonaisvarianssi jaetaan kahteen osaan. Näistä ensimmäinen mittaa ryhmäkeskiarvojen välistä hajontaa ja toinen ryhmien sisäistä hajontaa. Jos nämä kaksi varianssia eivät eroa kovinkaan paljon toisistaan, on todennäköistä, että eri ryhmien saamat keskiarvot ovat peräisin samankaltaisesta jakaumasta. Tällöin niiden välillä ei ole tilastollisesti merkitsevää eroa. Jos taas nämä kaksi varianssia eroavat toisistaan tarpeeksi, nollahypoteesi voidaan hylätä. Varianssianalyysissä samuuden mittaaminen perustuu siis siihen, että ryhmien välistä varianssia verrataan ryhmien sisäiseen varianssiin. Tästä juontuukin n nimi varianssianalyysi.

Varianssianalyysi Muodostetaan otoksista ryhmäkeskiarvot x j = 1 n j n j i=1 x ij ja yhdistetyn otoksen keskiarvo x = 1 n n k j x ij, j=1 i=1 missä n = k j=1 n j.

Varianssianalyysi Tarkastellaan kokonaisneliösummaa n k j SST = (x ij x) 2, j=1 i=1 ryhmien välistä vaihtelua kuvaavaa ryhmäneliösummaa n k j k SSG = ( x j x) 2 = n j ( x j x) 2 j=1 i=1 j=1 ja ryhmien sisäistä vaihtelua kuvaavaa jäännösneliösumma SSE = n k j (x ij x j ) 2 = j=1 i=1 k (n j 1)sj 2, j=1 missä sj 2 = 1 nj n j 1 i=1 (x ij x j ) 2. Nyt kokonaisneliösumma SST = SSG + SSE.

Varianssianalyysi F testisuure F = n k SSG k 1 SSE. Jos nollahypoteesi pätee, niin testisuure noudattaa Fisherin F jakaumaa parametrein (k 1) ja (n k). n k Testisuureen normaaliarvo on n k 2, koska nollahypoteesin pätiessä E[F ] = n k n k 2. Suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. (Huomattavan pieniäkin testisuureen arvoja saattaa joskus esiintyä sattuman vuoksi tai siksi että yleinen hypoteesi ei päde.) Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

F -jakauma Juttua F -jakaumasta, tsekkaa Wolfram MathWorld ja Wikipedia. Kuva: Eri parametrein piirreettyjä F-jakaumia

Numeerinen esimerkki varianssianalyysista Keksimarkkinoille on Kallen supersuklaisten herkkukeksien ja Panun pahanmakuisten unelmasuklaaprinsessakeksien lisäksi tullut suosittu uutuuskeksi Staran suklaalla signeeratut tähtikeksit. Tutkimusryhmä on ottanut tavoitteekseen selvittää eroavatko keksien suklaapitoisuuksien odotusarvot toisistaan. Tutkimukseen valittiin satunnaisesti kustakin keksilajista kymmenen keksiä. Tarkkojen tieteellisten mittausten jälkeen eri keksien suklaapitoisuudet kerättiin alla olevaan taulukkoon.

Kalle Panu Stara 0.111 0.109 0.119 0.123 0.107 0.124 0.109 0.103 0.125 0.120 0.104 0.117 0.115 0.098 0.111 0.112 0.110 0.120 0.117 0.101 0.118 0.110 0.115 0.116 0.119 0.099 0.122 0.116 0.111 0.119 Taulukko: Keksien suklaapitoisuudet grammoina.

Otosten ryhmäkeskiarvoiksi saadaan x 1 = 0.1152, x 2 = 0.1057 ja x 3 = 0.1191 ja yhditetyn otoksen keskiarvoksi x = 0.1133. Otosvariansseiksi saadaan s1 2 = 2.173333 10 5, s2 2 = 3.134444 10 5 ja s3 2 = 1.654444 10 5. Kokonaisneliösumma n k j 10 10 SST = (x ij x) 2 = (x 1i 0.1133) 2 + (x 2i 0.1133) 2 j=1 i=1 + 10 i=1 ryhmäneliösumma SSG = k n j ( x j x) 2 = j=1 ja jäännösneliösumma SSE = i=1 i=1 (x 3 i 0.1133) 2 = 0.001576667, 3 10( x j 0.1133) 2 = 0.0009500667 j=1 k (n j 1)sj 2 = 9(2.173333 10 5 +3.134444 10 5 +1.654444 10 5 ) j=1 = 0.0006265999.

Testin arvoksi saadaan F = n k k 1 SSG SSE = 27 2 0.0009500667 0.0006265999 = 20.46904. Nollahypoteesin pätiessä testisuure noudattaa F -jakaumaa parametrein (2) ja (27). Yksisuuntaiseksi kriittiseksi arvoksi saadaan 5% merkitsevyystasolla 3.354 < 20.46904, joten nollahypoteesi voidaan hylätä.

Jos F testillä päädytään hylkäämään nollahypoteesi samuudesta, niin varianssianalyysi jatkuu ryhmittelyllä, jossa selvitetään missä ryhmissä erot ovat tilastollisesti merkitseviä.

Tarkastellaan samuutta/eroavuutta pareittain. Tarkasteltavia pareja on yhteensä c = k(k 1) 2 kappaletta. Ensimmäisenä ajatuksena mieleen tulee tarkastella pareja esim. t testeillä tai tarkastelemalla erotuksien µ j µ s luottamusvälejä. Olkoon β todennäköisyys sille, että H 0 hylätään erheellisesti yksittäisessä testissä ja olkoon α todennäköisyys sille, että H 0 hylätään erheellisesti ainakin yhdessä testissä, kun testeja tehdään c kpl. Tällöin α cβ. Tämän vuoksi, jos yhdistettyyn vertailuun halutaan riskitaso α, niin vertailut on suoritettava riskitasolla β = α c.

Usean testin ongelma yleisesti Tarkastellaan tilannetta, jossa testataan jotakin nollahypoteesia H 0 usealla toisistaan riippumattomalla testillä. Tällöin, jos β on todennäköisyys sille, että H 0 hylätään erheellisesti yksittäisessä testissä niin tästä seuraa, että todennäköisyys sille, että H 0 hylätään erheellisesti ainakin yhdessä testissä, kun testeja tehdään c kpl on 1 (1 β) c. Jos testit eivät ole toisistaan riippumattomia, niin voidaan kuitenkin sanoa että todennäköisyys sille, että H 0 hylätään erheellisesti ainakin yhdessä testissä on pienempi tai yhtä suuri kuin cβ.

α tason Muodostetaan erotuksien µ j µ s luottamusvälit 1 ( x j x s ) ± t n k,β/2 s + 1, n j n s missä ja missä s 2 = 1 n k n k j (x ij x j ) 2, j=1 i=1 β = α c. Nollahypoteesi odotusarvojan µ j ja µ s samuudesta hylätään, jos nolla ei kuulu tälle luottamusvälille.

Yksisuuntaisessa varianssianalyysissä oletetaan, että ryhmäkohtaiset varianssit ovat yhtäsuuret. Tätä oletusta on syytä tarkastella erikseen.

Olkoot x 1j, x 2j,..., x nj j satunnaismuuttujan x j havaitut arvot, j {1,..., k}. Oletetaan, että havaintopisteet x 1j, x 2j,..., x nj j ovat riippumattomia, samoin jakautuneita ja tulevat normaalijakaumasta N(µ j, σ 2 j ), j {1,..., k}. Oletetaan vielä, että tarkasteltavat k otosta ovat toisistaan riippumattomia. Nollahypoteesi H 0 : σ 2 1 = σ2 2 = = σ2 k. Vaihtoehtoinen hypoteesi H 1 : Ainakin kaksi variansseista σ 2 j eroaa toisistaan.

Olkoon ja Olkoon s 2 = 1 n k s 2 j = 1 n j 1 n k j (x ij x j ) 2, j=1 i=1 n j (x ij x j ) 2. i=1 B = Q h, missä ja Q = (n k) ln s 2 h = 1 + 1 ( ( 3(k 1) k j=1 k (n j 1) ln sj 2 j=1 1 n j 1 ) 1 ). n k

suure B = Q h. Jos nollahypoteesi pätee, niin testisuure noudattaa suurilla otoksilla likimain χ 2 jakaumaa vapausastein (k 1). Testisuureen normaaliarvo on k 1, koska nollahypoteesin pätiessä E[B] = k 1. Suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni. Jos Bartletin testi johtaa yhtäsuuruus -oletuksen hylkäämiseen, tulee varianssianalyysin antamaan tulokseen suhtautua kriittisesti.

Numeerinen esimerkki stä Tarkastellaan edellisen esimerkin tilannetta ja tutkitaan eroavatko suklaapitoisuuksien varianssit toisistaan. Kalle Panu Stara 0.111 0.109 0.119 0.123 0.107 0.124 0.109 0.103 0.125 0.120 0.104 0.117 0.115 0.098 0.111 0.112 0.110 0.120 0.117 0.101 0.118 0.110 0.115 0.116 0.119 0.099 0.122 0.116 0.111 0.119 Taulukko: Keksien suklaapitoisuudet grammoina.

Otoskeskiarvot olivat x 1 = 0.1152, x 2 = 0.1057 ja x 3 = 0.1191. Lasketaan yhdisteen varianssi s 2 = 1 n k n k j (x ij x j ) 2 = 1 10 27 [ (x 1i x 1 ) 2 + j=1 i=1 i=1 10 i=1 (x 2i x 2 ) 2 + = 1 (0.0001956 + 0.0002821 + 0.0001489) = 2.320741 10 5 27 Otosten varianssit s1 2 = 2.173333 10 5, s2 2 = 3.134444 10 5 ja s3 2 = 1.654444 10 5. Olkoot Q = (n k) ln s 2 10 i=1 k (n j 1) ln sj 2 = 27 ln s 2 (9 ln s1+9 2 ln s2+9 2 ln s3) 2 j=1 (x 3i x 3 ) 2 ] ja = 0.9313196 1 ( h = 1+ ( 3(k 1) k j=1 1 n j 1 ) 1 ) 1 = 1+ 1/27) = 1.049383 n k 6 (1/3

Testin arvoksi saadaan B = Q h = 0.9313196 1.049383 = 0.8874928. Nollahypoteesin vallitessa testisuure noudattaa χ 2 -jakaumaa vapausastein k 1 = 2. Testin p arvo on selvästi suurempi kuin 0.05. Nollahypoteesi samuudesta jätetään voimaan. Huomioi kuitenkin se, että otoskoot eivät ole huisin suuria!

J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. P. Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. I. Mellin: Tilastolliset t, http://math.aalto.fi/opetus/sovtoda/materiaali.html.