Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10:

Sisältö

Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta ryhmästä (esimerkiksi vastavalmistuneet diplomi-insinöörit eri maakunnissa). Havaintojen oletetaan noudattavan jokaisessa ryhmässä normaalijakaumaa. Jokaisesta ryhmästä poimitaan toisistaan riippumattomat yksinkertaiset satunnaisotokset. Varianssianalyysissä (ANOVA, analysis of variance) testataan ryhmäkohtaisten yhtäsuuruutta (esimerkiksi diplomi-insinöörien kuukausipalkan odotusarvon yhtäsuuruutta eri maakunnissa).

MANOVA Ryhmäkohtaisten yksiulotteisten sijaan voidaan myös testata odotusarvovektorien samuutta (MANOVA, multivariate analysis of variance). Esimerkiksi voidaan testata vastavalmistuneiden diplomi-insinöörien kuukausipalkan ja viikottaisten ylityötuntien odotusarvon yhtäsuuruutta eri maakunnissa.

multifactor ANOVA Perusjoukko voidaan jakaa ryhmiin myös useamman tekijän perusteella (multifactor ANOVA), joista osa voi olla jatkuvia (ANCOVA, analysis of covariance). Esimerkiksi vastavalmistuneet diplomi-insinöörit voidaan jakaa ryhmiin sekä sukupuolen mukaan että asuinpaikan perusteella.

multifactor MANOVA Voidaan myös tarkastella tilannetta, jossa odotusarvo on moniulotteinen ja ryhmiin jako tapahtuu usean muuttujan suhteen (multifactor MANOVA, MANCOVA). Esimerkiksi voidaan testata vastavalmistuneiden diplomi-insinöörien kuukausipalkan ja viikottaisten ylityötuntien odotusarvon yhtäsuuruutta sukupuolen mukaan ja eri maakunnissa.

ANOVA Tällä kurssilla tarkastellaan tilannetta, jossa perusjoukko on jaettu ryhmiin yhden tekijän suhteen ja tarkasteltava odotusarvo on yksiulotteinen.

Varianssianalyysi Olkoot x 1j, x 2j,..., x nj j satunnaismuuttujan x j havaitut arvot, j {1,..., k}. Oletetaan, että havaintopisteet x 1j, x 2j,..., x nj j ovat riippumattomia, samoin jakautuneita ja tulevat normaalijakaumasta N(µ j, σ 2 ), j {1,..., k}. (Tarkastelun kohteena on siis k kappaletta riippumattomia satunnaisotoksia yksiulotteisista normaalijakaumista, joilla on sama varianssi.) Oletetaan vielä, että tarkasteltavat k otosta ovat toisistaan riippumattomia. Nollahypoteesi H 0 : µ 1 = µ 2 = = µ k. Vaihtoehtoinen hypoteesi H 1 : Ainakin kaksi odotusarvoista µ j eroaa toisistaan.

Varianssianalyysi Varianssianalyysissä tutkitaan eroavatko kahden tai useamman ryhmän keskiarvot tilastollisesti merkitsevästi toisistaan. Käytännössä varianssianalyysi perustuu siihen, että kokonaisvarianssi jaetaan kahteen osaan. Näistä ensimmäinen mittaa ryhmäkeskiarvojen välistä hajontaa ja toinen ryhmien sisäistä hajontaa. Jos nämä kaksi varianssia eivät eroa kovinkaan paljon toisistaan, on todennäköistä, että eri ryhmien saamat keskiarvot ovat peräisin samankaltaisesta jakaumasta. Tällöin niiden välillä ei ole tilastollisesti merkitsevää eroa. Jos taas nämä kaksi varianssia eroavat toisistaan tarpeeksi, nollahypoteesi voidaan hylätä. Varianssianalyysissä samuuden mittaaminen perustuu siis siihen, että ryhmien välistä varianssia verrataan ryhmien sisäiseen varianssiin. Tästä juontuukin n nimi varianssianalyysi.

Varianssianalyysi Muodostetaan otoksista ryhmäkeskiarvot x j = 1 n j n j i=1 x ij ja yhdistetyn otoksen keskiarvo x = 1 n n k j x ij, j=1 i=1 missä n = k j=1 n j.

Varianssianalyysi Tarkastellaan kokonaisneliösummaa n k j SST = (x ij x) 2, j=1 i=1 ryhmien välistä vaihtelua kuvaavaa ryhmäneliösummaa n k j k SSG = ( x j x) 2 = n j ( x j x) 2 j=1 i=1 j=1 ja ryhmien sisäistä vaihtelua kuvaavaa jäännösneliösumma SSE = n k j (x ij x j ) 2 = j=1 i=1 k (n j 1)sj 2, j=1 missä sj 2 = 1 nj n j 1 i=1 (x ij x j ) 2. Nyt kokonaisneliösumma SST = SSG + SSE.

Varianssianalyysi F testisuure F = n k SSG k 1 SSE. Jos nollahypoteesi pätee, niin testisuure noudattaa Fisherin F jakaumaa parametrein (k 1) ja (n k). n k Testisuureen normaaliarvo on n k 2, koska nollahypoteesin pätiessä E[F ] = n k n k 2. Suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. (Huomattavan pieniäkin testisuureen arvoja saattaa joskus esiintyä sattuman vuoksi tai siksi että yleinen hypoteesi ei päde.) Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni.

F -jakauma Juttua F -jakaumasta, tsekkaa Wolfram MathWorld ja Wikipedia. Kuva: Eri parametrein piirreettyjä F-jakaumia

Numeerinen esimerkki varianssianalyysista Keksimarkkinoille on Kallen supersuklaisten herkkukeksien ja Panun pahanmakuisten unelmasuklaaprinsessakeksien lisäksi tullut suosittu uutuuskeksi Staran suklaalla signeeratut tähtikeksit. Tutkimusryhmä on ottanut tavoitteekseen selvittää eroavatko keksien suklaapitoisuuksien odotusarvot toisistaan. Tutkimukseen valittiin satunnaisesti kustakin keksilajista kymmenen keksiä. Tarkkojen tieteellisten mittausten jälkeen eri keksien suklaapitoisuudet kerättiin alla olevaan taulukkoon.

Kalle Panu Stara 0.111 0.109 0.119 0.123 0.107 0.124 0.109 0.103 0.125 0.120 0.104 0.117 0.115 0.098 0.111 0.112 0.110 0.120 0.117 0.101 0.118 0.110 0.115 0.116 0.119 0.099 0.122 0.116 0.111 0.119 Taulukko: Keksien suklaapitoisuudet grammoina.

Otosten ryhmäkeskiarvoiksi saadaan x 1 = 0.1152, x 2 = 0.1057 ja x 3 = 0.1191 ja yhditetyn otoksen keskiarvoksi x = 0.1133. Otosvariansseiksi saadaan s1 2 = 2.173333 10 5, s2 2 = 3.134444 10 5 ja s3 2 = 1.654444 10 5. Kokonaisneliösumma n k j 10 10 SST = (x ij x) 2 = (x 1i 0.1133) 2 + (x 2i 0.1133) 2 j=1 i=1 + 10 i=1 ryhmäneliösumma SSG = k n j ( x j x) 2 = j=1 ja jäännösneliösumma SSE = i=1 i=1 (x 3 i 0.1133) 2 = 0.001576667, 3 10( x j 0.1133) 2 = 0.0009500667 j=1 k (n j 1)sj 2 = 9(2.173333 10 5 +3.134444 10 5 +1.654444 10 5 ) j=1 = 0.0006265999.

Testin arvoksi saadaan F = n k k 1 SSG SSE = 27 2 0.0009500667 0.0006265999 = 20.46904. Nollahypoteesin pätiessä testisuure noudattaa F -jakaumaa parametrein (2) ja (27). Yksisuuntaiseksi kriittiseksi arvoksi saadaan 5% merkitsevyystasolla 3.354 < 20.46904, joten nollahypoteesi voidaan hylätä.

Jos F testillä päädytään hylkäämään nollahypoteesi samuudesta, niin varianssianalyysi jatkuu ryhmittelyllä, jossa selvitetään missä ryhmissä erot ovat tilastollisesti merkitseviä.

Tarkastellaan samuutta/eroavuutta pareittain. Tarkasteltavia pareja on yhteensä c = k(k 1) 2 kappaletta. Ensimmäisenä ajatuksena mieleen tulee tarkastella pareja esim. t testeillä tai tarkastelemalla erotuksien µ j µ s luottamusvälejä. Olkoon β todennäköisyys sille, että H 0 hylätään erheellisesti yksittäisessä testissä ja olkoon α todennäköisyys sille, että H 0 hylätään erheellisesti ainakin yhdessä testissä, kun testeja tehdään c kpl. Tällöin α cβ. Tämän vuoksi, jos yhdistettyyn vertailuun halutaan riskitaso α, niin vertailut on suoritettava riskitasolla β = α c.

Usean testin ongelma yleisesti Tarkastellaan tilannetta, jossa testataan jotakin nollahypoteesia H 0 usealla toisistaan riippumattomalla testillä. Tällöin, jos β on todennäköisyys sille, että H 0 hylätään erheellisesti yksittäisessä testissä niin tästä seuraa, että todennäköisyys sille, että H 0 hylätään erheellisesti ainakin yhdessä testissä, kun testeja tehdään c kpl on 1 (1 β) c. Jos testit eivät ole toisistaan riippumattomia, niin voidaan kuitenkin sanoa että todennäköisyys sille, että H 0 hylätään erheellisesti ainakin yhdessä testissä on pienempi tai yhtä suuri kuin cβ.

α tason Muodostetaan erotuksien µ j µ s luottamusvälit 1 ( x j x s ) ± t n k,β/2 s + 1, n j n s missä ja missä s 2 = 1 n k n k j (x ij x j ) 2, j=1 i=1 β = α c. Nollahypoteesi odotusarvojan µ j ja µ s samuudesta hylätään, jos nolla ei kuulu tälle luottamusvälille.

Yksisuuntaisessa varianssianalyysissä oletetaan, että ryhmäkohtaiset varianssit ovat yhtäsuuret. Tätä oletusta on syytä tarkastella erikseen.

Olkoot x 1j, x 2j,..., x nj j satunnaismuuttujan x j havaitut arvot, j {1,..., k}. Oletetaan, että havaintopisteet x 1j, x 2j,..., x nj j ovat riippumattomia, samoin jakautuneita ja tulevat normaalijakaumasta N(µ j, σ 2 j ), j {1,..., k}. Oletetaan vielä, että tarkasteltavat k otosta ovat toisistaan riippumattomia. Nollahypoteesi H 0 : σ 2 1 = σ2 2 = = σ2 k. Vaihtoehtoinen hypoteesi H 1 : Ainakin kaksi variansseista σ 2 j eroaa toisistaan.

Olkoon ja Olkoon s 2 = 1 n k s 2 j = 1 n j 1 n k j (x ij x j ) 2, j=1 i=1 n j (x ij x j ) 2. i=1 B = Q h, missä ja Q = (n k) ln s 2 h = 1 + 1 ( ( 3(k 1) k j=1 k (n j 1) ln sj 2 j=1 1 n j 1 ) 1 ). n k

suure B = Q h. Jos nollahypoteesi pätee, niin testisuure noudattaa suurilla otoksilla likimain χ 2 jakaumaa vapausastein (k 1). Testisuureen normaaliarvo on k 1, koska nollahypoteesin pätiessä E[B] = k 1. Suuret testisuureen arvot viittaavat siihen, että nollahypoteesi H 0 ei päde. Nollahypoteesi H 0 hylätään, jos p arvo on kyllin pieni. Jos Bartletin testi johtaa yhtäsuuruus -oletuksen hylkäämiseen, tulee varianssianalyysin antamaan tulokseen suhtautua kriittisesti.

Numeerinen esimerkki stä Tarkastellaan edellisen esimerkin tilannetta ja tutkitaan eroavatko suklaapitoisuuksien varianssit toisistaan. Kalle Panu Stara 0.111 0.109 0.119 0.123 0.107 0.124 0.109 0.103 0.125 0.120 0.104 0.117 0.115 0.098 0.111 0.112 0.110 0.120 0.117 0.101 0.118 0.110 0.115 0.116 0.119 0.099 0.122 0.116 0.111 0.119 Taulukko: Keksien suklaapitoisuudet grammoina.

Otoskeskiarvot olivat x 1 = 0.1152, x 2 = 0.1057 ja x 3 = 0.1191. Lasketaan yhdisteen varianssi s 2 = 1 n k n k j (x ij x j ) 2 = 1 10 27 [ (x 1i x 1 ) 2 + j=1 i=1 i=1 10 i=1 (x 2i x 2 ) 2 + = 1 (0.0001956 + 0.0002821 + 0.0001489) = 2.320741 10 5 27 Otosten varianssit s1 2 = 2.173333 10 5, s2 2 = 3.134444 10 5 ja s3 2 = 1.654444 10 5. Olkoot Q = (n k) ln s 2 10 i=1 k (n j 1) ln sj 2 = 27 ln s 2 (9 ln s1+9 2 ln s2+9 2 ln s3) 2 j=1 (x 3i x 3 ) 2 ] ja = 0.9313196 1 ( h = 1+ ( 3(k 1) k j=1 1 n j 1 ) 1 ) 1 = 1+ 1/27) = 1.049383 n k 6 (1/3

Testin arvoksi saadaan B = Q h = 0.9313196 1.049383 = 0.8874928. Nollahypoteesin vallitessa testisuure noudattaa χ 2 -jakaumaa vapausastein k 1 = 2. Testin p arvo on selvästi suurempi kuin 0.05. Nollahypoteesi samuudesta jätetään voimaan. Huomioi kuitenkin se, että otoskoot eivät ole huisin suuria!

J. S. Milton, J. C. Arnold: Introduction to Probability and Statistics, McGraw-Hill Inc 1995. R. V. Hogg, J. W. McKean, A. T. Craig: Introduction to Mathematical Statistics, Pearson Education 2005. P. Laininen: Todennäköisyys ja sen tilastollinen soveltaminen, Otatieto 1998, numero 586. I. Mellin: Tilastolliset t, http://math.aalto.fi/opetus/sovtoda/materiaali.html.