1 Johdatus varianssianalyysiin

Transkriptio

1 Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A Johdatus varianssianalyysiin 1.1 Milloin varianssianalyysiä käytetään? Varianssianalyysi on tilastotieteellinen menetelmä, jonka avulla voidaan tutkia kerätyn aineiston pohjalta, vaikuttaako luokittelutai järjestysasteikolla määritellyn selittävän muuttujan arvo numeerisen selitettävän muuttujan keskimääräisiin arvoihin. Varianssianalyysissä selittäviä muuttujia voi olla yksi tai useampia, joidenka vaikutusta yhden selitettävän muuttujan keskimääräisiin arvoihin analyysissä tarkastellaan. Merkitään selitettävää muuttujaa Y :llä. Varianssianalyysissä voi olla p kappaletta selittäviä muuttujia X 1, X 2,..., X p, joidenka arvot voivat vaikuttaa muuttujan Y keskimääräisiin arvoihin. Selittävät muuttujat X 1, X 2,..., X p ovat luonteeltaan luokittelutai järjestysasteikollisia, eli jokainen muuttuja X 1, X 2,..., X p voi saada arvokseen kahta tai useampaa eri arvoa. Varianssianalyysissä selittävien muuttujien X 1, X 2,..., X p oletetaan olevan lähtökohtaisesti kontroloitavissa eli tutkija itse voi määritellä tutkimusasetelmansa mukaan, mitä arvoja selittävät muuttujat X 1, X 2,..., X p täsmällisesti saavat. Selittäviä muuttujia X 1, X 2,..., X p kutsutaan myös faktoreiksi (tekijöiksi, jotka asetettavien arvojensa (arvoja kutsutaan usein luokiksi tai käsittelyiksi perusteella jakavat alkuperäisen populaation pienempiin osapopulaatiohin. Varianssianalyysissä täten tutkitaan vaihtelevatko selitettävän muuttujan Y keskimääräiset arvot selittävien muuttujien X 1, X 2,..., X p luokkien määrittämissä osapopulaatioissa. Selitettävä muuttuja Y (vastemuuttuja on varianssianalyysissä satunnainen eli sen arvot voivat riippua selittävien muuttujien X 1, X 2,..., X p arvojen lisäksi satunnaisesti myös muista mittaamattomista tekijöistä ja satunnaisvirheistä. Selitettävä muuttuja Y ei ole tutkijan kontroloitavissa vaan on satunnaismuuttuja, jolla on oma todennäköisyysjakaumansa. Klassisesti varianssianalyysissä oletetaan, että Y on numeerinen jatkuva muuttuja mittaustarkkuus pois lukien. Lisäksi yleensä oletetaan, että Y noudattaa myös normaalijakaumaa. Alla on esitetty esimerkkejä tutkimustilanteissa, missä varianssianalyysiä voidaan käyttää tutkimusongelman ratkaisemisessa hyväksi. Esimerkki 1.1. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Tutkimusryhmä mittasi jokaisen valmistajan neljästä eri tabletista rautapitoisuudet ja sai seuraavan aineiston: Tabletti A Tabletti B Tabletti C

2 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 2 Mikä on tässä tutkimuksessa selittävä muuttuja X? Mitä arvoja se voi saada? Entä mitä arvoja selitettävä muuttuja Y saa? Mikä on tässä tutkimuksessa havaintoyksikkö? Esimerkki 1.2. Yhdysvalloissa tutkimusryhmä tutki eroaako geenimuunnellun riisin taimenen (ANU843 kuivapaino ei-muunnellun riisin kuivapainosta. Erityisesti tutkimusryhmä tutki kuinka kemialliset käsittelyt (F10, NH4Cl ja NH4NO3 vaikuttavat riisin kuivapainoon geenimuunnellun ja ei-muunnellun tilanteensa. Lisäksi koeviljelmät tehtiin kahdelle eri peltolohkolle. Alla on osa tutkimuksen aineistosta. kuivapaino lajike kasittely lohko wt F wt F wt F wt NH4Cl wt NH4Cl wt NH4Cl ANU843 F ANU843 F ANU843 F ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO3 2 Mitkä muuttujat ovat tässä tutkimuksessa selittäviä muuttujia X 1, X 2,..., X p? Mitä arvoja ne voi saada? Entä minkälaisia arvoja selitettävä muuttuja Y saa? Mikä on tässä tutkimuksessa havaintoyksikkö? Varianssianalyysissä pyritään selvittämään vaihtelevatko selitettävän muuttujan Y osapopulaatiokeskiarvot selittävien muuttujien X 1, X 2,..., X p arvojen määrittämien osapopulaatioiden kesken. Koska osapopulaatiokeskiarvot vastaavat satunnaismuuttujan Y odotusarvoja määritellyissä osapopulaatiossa, varianssianalyysissä arvioidaan vaihtelisivatko satunnaismuuttujan Y tuntemattomat odotusarvot selittävien muuttujien X 1, X 2,..., X p arvojen perusteella. Täten nimi varianssianalyysi voi olla hieman harhaanjohtava. Perinteisessä varianssianalyysissä ei tutkita vaihtuuko selitettävän muuttujan hajonta selittävien muuttujien arvojen perusteella, vaan varianssianalyysissä nimenomaan tarkastellaan odotusarvojen mahdollista muutosta. 1.2 Normaalijakauma ja normaalijakauman muunnokset Varianssianalyysissä selitettävän satunnaismuuttujan Y oletetaan usein noudattavan normaalijakaumaa. Normaalijakauma on tilastotieteessä eniten käytetty todennäköisyysjakauma. Tässä luvussa kerrataan yleisesti normaalijakauman perusominaisuudet ja normaalijakaumasta johdettavissa olevien χ 2, t ja F -jakaumien perusteet.

3 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 3 Satunnaismuuttuja Y :n sanotaan noudattavan normaalijakaumaa Y N(µ, σ 2, jos Y :n tiheysfunktio f Y (y on muotoa f Y (y = 1 1 (y µ 2 2πσ 2 e 2 σ 2. (1.1 Voidaan osoittaa, että normaalijakauman tilanteessa satunnaismuuttuja Y :n odotusarvo E(Y on muotoa E(Y = ja varianssi Var(Y on muotoa Var(Y = y f Y (ydy = (y E(Y 2 f Y (ydy = y 1 1 (y µ 2 2πσ 2 e 2 σ 2 dy = µ, (1.2 (y µ (y µ 2 2πσ 2 e 2 σ 2 dy = σ 2. (1.3 Täten siis jos odotusarvoon ja varianssiin liittyvien parametrien µ ja σ 2 arvot ovat tiedossa, satunnaismuuttujaan Y liittyvät todennäköisyysväittämät voidaan täysin laskea. Tosin normaalijakauman kertymäfunktiolla P (Y y = F Y (y = y f Y (tdt, (1.4 ei varsinaisesti ole suljetun muodon ratkaisua, mutta numeerisilla menetelmillä todennäköisyyksille P (Y y (kertymäfunktiolle F Y (y saadaan laskettua hyvin tarkat arviot. Normaalijakaumalla on tärkeä lineaarinen ominaisuus, eli jos Y N(µ, σ 2, niin silloin lineaarinen muunnos X = ay + b (1.5 noudattaa normaalijakaumaa X N(aµ + b, a 2 σ 2, missä a ja b ovat joi333tain tunnettuja vakioita. Erityisesti jos satunnaismuuttujalle Y N(µ, σ 2 tehdään muunnos Z = 1 σ Y µ σ = Y µ, (1.6 σ niin silloin satunnaismuuttuja Z noudattaa normaalijakaumaa Z N(0, 1. Normaalijakaumaa Z N(0, 1 kutsutaan standardoiduksi normaalijakaumaksi. Lineaarisen muunnosominaisuuden takia mikä tahansa satunnaismuuttujaan Y N(µ, σ 2 liittyvä todennäköisyysväittämä P (y 1 Y y 2 voidaan laskea standardoidun satunnaismuuttujan Z N(0, 1 avulla, koska ( y1 µ P (y 1 Y y 2 = P Y µ y 2 µ σ σ σ ( y1 µ = P Z y 2 µ σ = F Z ( y2 µ σ σ F Z ( y1 µ σ. (1.7 Todennäköisyysväittämien laskemisesta helpottaa myös ominaisuus, että normaalijakauma on symmetrinen jakauma odotusarvon suhteen. Eli esim. satunnaismuuttujalle

4 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 4 Z N(0, 1 on täten voimassa esimerkiksi seuraavat todennäköisyydet P (Z < 1.96 = P (Z > 1.96 = Varianssianalyysissä yleensä on käytettävissä aineiston keräämisen jälkeen n kappaletta havaintoja muuttujasta Y. Muuttujan Y havaittuja arvoja merkitään pikku y:llä: y 1, y 2,..., y n. Nyt voidaan ajatella, että havaitut arvot y 1, y 2,..., y n ovat realisaatioita satunnaismuuttujista Y 1, Y 2,..., Y n, joista jokaisen satunnaismuuttujan Y i, i = 1, 2,..., n, oletetaan noudattavan normaalijakaumaa Y i N(µ i, σ 2. Varianssianalyysissä oletetaan, että havaintoyksikön i odotusarvo E(Y i = µ i riippuu mahdollisesti selittävien muuttujien X 1, X 2,..., X p asetetuista arvoista x i1, x i2,..., x ip, eli µ i = µ(x i1, x i2,..., x ip. Toisaalta satunnaismuuttujien Y i varianssien Var(Y i oletetaan olevan varianssianalyysissä riippumattomia selittävistä muuttujista ja siten saman suuruisia kaikille havainnoille i, eli Var(Y i = σ 2. Varianssianalyysissä parametrit µ i ja σ 2 ovat kuitenkin tuntemattomia, joidenka arvoja pyritään arvioimaan eli estimoimaan kerätyn aineiston perusteella. Varianssianalyysissä jokaisen havainnon i oletetaan yleensä olevan riippumaton toisista havainnoista. Täten havaittujen realisaatioiden y 1, y 2,..., y n taustalla olevien satunnaismuuttujien Y 1, Y 2,..., Y n oletetaan olevan toisistaan riippumattomia. Koska normaalisti jakautuneiden satunnaismuuttujien lineaariset muunnokset ovat normaalisti jakautuneita, riippumattomille satunnaismuuttujille Y 1, Y 2,..., Y n tehty lineaarinen muutos W = a 1 Y 1 + b 1 + a 2 Y 2 + b a n Y n + b n, a 1,..., a n ja b 1,..., b n vakioita, (1.8 noudattaa normaalijakaumaa W N(µ W, σw 2, missä µ W = a 1 µ 1 + b 1 + a 2 µ 2 + b a n µ n + b n, (1.9 σ 2 W = a 2 1σ 2 + a 2 2σ a 2 nσ 2. (1.10 Esimerkki 1.3. (a Oletetaan, että satunnaismuuttuja Y noudattaa normaalijakaumaa Y N(2, 4. Laske todennäköisyys P ( 1 Y 3. (b Oletetaan, että satunnaismuuttujat Y 1, Y 2 noudattavat normaalijakaumaa N(2, 4 ja satunnaismuuttujat Y 3, Y 4 normaalijakaumaa N(4, 1. Jos lisäksi oletetaan, että Y 1, Y 2, Y 3, Y 4 ovat toisistaan riippumattomia, niin mitä jakaumaa satunnaismuuttuja noudattaa? W = Y 1 + Y 2 2 Y 3 + Y 4 2 Normaalisti jakautuneiden satunnaismuuttujien erilaisilla muunnoksilla voidaan muodostaa uusia hyödyllisiä satunnaismuuttujia ja jakaumia. Varianssianalyysin kannalta hyödyllisiä muunnosjakaumia ovat χ 2, t ja F -jakaumat. Jos satunnaismuuttujat Z 1, Z 2,..., Z m noudattavat jokainen standardoitua normaalijakaumaa Z i N(0, 1 ja ovat toisistaan riippumattomia, niin silloin satunnaismuuttujan Q = Z Z Z 2 m (1.11

5 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 5 sanotaan noudattavan χ 2 -jakaumaa vapausastein (engl. degrees of freedom df = m, eli Q χ 2 m. Lisäksi jos Z N(0, 1 ja Z riippumaton satunnaismuuttujista Z 1, Z 2,..., Z m, niin silloin suhde t = Z Q m (1.12 noudattaa Studentin t-jakaumaa vapausastein df = m. Studentin t-jakauma on ominaisuuksiltaan lähellä standardoitua normaalijakaumaa. Itse asiassa kun vapausasteet m > 50, niin Studentin t-jakaumalla ja standardoidulla normaalijakaumalla on käytännössä enää hyvin vähän eroa. Hypoteesien testauksen suhteen F -jakauma on puolestaan varianssianalyysissä tärkein jakauma. Jos satunnaismuuttujat Q 1 ja Q 2 ovat toisistaan riippumattomia ja noudattavat χ 2 -jakaumia Q 1 χ 2 m 1 ja Q 2 χ 2 m 2, niin silloin suhde F = Q 1 m 1 Q 2 m 2 (1.13 noudattaa F -jakaumaa vapausastein df 1 = m 1 ja df 2 = m 2. Kun Studentin t-jakaumaa df = m noudattava satunnaismuuttuja korotetaan toiseen, niin silloin muunnos t 2 t 2 = Z Q m 2 (1.14 itse asiassa noudattaa F -jakaumaa vapausastein df 1 = 1, df 2 = m. F -jakauma saa aina arvoja, jotka ovat suurempi tai yhtä suuri kuin nolla. Eri vapausastein jakauman muoto vaihtelee. Seuraavassa on piirretty F -jakauman tiheysfunktion kuvaajia eri vapausasteilla. Kun F -jakaumaa käytetään hyväksi hypoteesin testauksessa päättelyn tekemiseen, yleensä kiinnostuksen kohteena on löytää sellainen luku F, jolle on voimassa todennäköisyys P (F df1,df2 F = α, missä α on testin valittu riskitaso esim. α = Täten siis F - jakauman tilanteessa kiinnostuksen kohteena on usein tietää, minkälaisia todennäköisyyksiä jakauman oikea häntäosuus saa df1=2,df2=30 df1=6,df2= x

6 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 6 Esimerkki 1.4. (a Oletetaan, että satunnaismuuttuja t noudattaa Studentin t-jakaumaa vapausastein df = 2. Arvioi, mitä on todennäköisyys P (t 2. (b Oletetaan, että satunnaismuuttuja F noudattaa F -jakaumaa vapausastein df 1 = 3, df 2 = 12. Arvioi, mikä on sellainen luku F, että voimassa P (F F = Parametrien estimoiminen Varianssianalyysissä havaittujen selitettävän muuttujan arvojen y 1, y 2,..., y n oletetaan siis olevan realisaatioita satunnaismuuttujista Y 1, Y 2,..., Y n, joista jokaisen satunnaismuuttujan Y i, i = 1, 2,..., n, oletetaan puolestaan noudattavan normaalijakaumaa Y i N(µ i, σ 2. Toisaalta parametrit µ i ja σ 2 ovat tuntemattomia, joidenka arvoja pyritään arvioimaan eli estimoimaan havaittujen arvojen y 1, y 2,..., y n perusteella. Jotta havaittujen arvojen perusteella voitaisiin muodostaa arvioita parametreistä µ i ja σ 2, tarvitaan jokin kriteeri, jonka perusteella parametrien estimaatit muodostetaan. Odotusarvojen estimoimiseen voidaan käyttää pienimmän neliösumman menetelmää. Tarkastellaan tässä luvussa pienemmän neliösumman estimointimenetelmää tilanteessa, missä satunnaismuuttujien Y 1, Y 2,..., Y n oletetaan noudattavan normaalijakaumaa N(µ, σ 2. Nyt siis jokaisen Y i :n odotusarvon oletetaan olevan sama tuntematon µ, jonka arvoa estimoidaan havaintojen y 1, y 2,..., y n avulla. Varianssianalyysissä tämä vastaa oikeastaan tilannetta, missä selittävillä muuttujilla X 1, X 2,..., X p ei olisi vaikusta odotusarvoihin µ i tai vaihtoehtoisesti, että havainnot i olisi valittu vain jostain selittävien muuttujien luokkien määrittämästä yhdestä osapopulaatiosta. Seuraavissa luvuissa tarkastellaan sitten tarkemmin odotusarvojen estimoimista pienimmän neliösumman menetelmän perusteella yleisemmissä tilanteissa. Odotusarvon µ pienimmän neliösumman estimaatti ˆµ on ratkaisu seuraavaan minimointiongelmaan: arg min µ n (y i µ 2. (1.15 i=1 Eli siis piste-estimaatti ˆµ on se arvo, joka µ:n suhteen minimoi estimointi kriteerinä käytettävän neliösumman n i=1 (y i µ 2. Voidaan osoittaa, että havaintojen otoskeskiarvo ȳ on itse asiassa odotusarvon µ pienimmän neliösumman estimaatti ˆµ = ȳ. Pienimmän neliösumman estimaatti ˆµ johdetaan havaittujen arvojen y 1, y 2,..., y n avulla. Sen jälkeen kun estimaatiksi on saatu johdettua otoskeskiarvo ˆµ = ȳ = y i n i=1, voidaan alkaa miettiä, minkälaisen arvon piste-estimaatti ˆµ olisi saanut, jos havaituksi ar- n voiksi olisikin saatu jotkut toiset realisaatiot y 1, y 2,..., y n. Jatkamalla ajatusta siitä, että havaituiksi realisaatioiksi oltaisiin voitu saada mikä tahansa satunnaismuuttujien

7 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 7 Y 1, Y 2,..., Y n realisaatio, niin merkintää ˆµ voidaan käyttää kuvaamaan myös satunnaismuuttujista Y 1, Y 2,..., Y n riippuvaa satunnaismuuttujaa ˆµ = Ȳ = n i=1 Y i n = Y 1 + Y Y n. (1.16 n Kun merkintää ˆµ kohdellaan satunnaismuuttujana, kutsutaan sitä odotusarvon µ pienimmän neliösumman piste-estimaattoriksi. Vastaavasti kun ˆµ:n arvo lasketaan havaittujen arvojen y 1, y 2,..., y n perusteella, kutsutaan sitä odotusarvon µ pienimmän neliösumman piste-estimaatiksi. Piste-estimaattorin ominaisuudessa ˆµ = Ȳ on siis itsessään satunnaismuuttuja ja normaalijakauman ominaisuuksien takia ˆµ noudattaa myös normaalijakaumaa ˆµ N (µ, σ2. (1.17 n Täten E(ˆµ = µ eli ˆµ = Ȳ on odotusarvon µ harhaton estimaattori. Harhattomuuden lisäksi pienimmän neliösumman estimaattorilla ˆµ on muitakin hyviä ominaisuuksia. Yksi tärkeimmistä ominaisuuksista on se, että pienimmän neliösumman estimaattori ˆµ on myös suurimman uskottavuuden estimaattori normaalijakauman tilanteessa. Suurimman uskottavuuden estimaatit (engl. maximum likelihood estimates saadaan muodostettua logaritmoidun uskottavuusfunktion maksimoinnin perusteella. Normaalijakauman tilanteessa satunnaismuuttujien Y i logaritmoitu uskottavuusfunktio l(µ, σ 2 = log(l(µ, σ 2 on muotoa ( n n l(µ, σ 2 = log(l(µ, σ 2 = log f Yi (y i = log (f Yi (y i = n log i=1 ( 1 2πσ i=1 n ( (yi µ 2. (1.18 i=1 σ 2 Suurimman uskottavuuden menetelmällä voidaan siis samanaikaisesti muodostaa estimaatit molemmille tuntemattomille parametreille µ ja σ 2. Parametrien µ ja σ 2 suurimman uskottavuuden estimaatit µ ja σ 2 ovat ratkaisuja yhtä aikaiseen maksimointiongelmaan n ( (yi µ 2 arg max l(µ, σ2 = arg max µ,σ 2 µ,σ 2 ( 1 n log 1 2πσ 2 2 i=1 σ 2. (1.19 Kaavasta (1.19 on suhteellisen helppo huomata, että odotusarvon suurimman uskottavuuden estimaatti µ on se arvo, joka minimoi neliösumman n i=1 (y i µ 2 µ:n suhteen. Eli odotusarvon µ suurimman uskottavuuden estimaatti on sama kuin edellä tarkasteltu pienimmän neliösumman estimaatti µ = ˆµ = ȳ. Lisäksi voidaan osoittaa, että varianssin σ 2 suurimman uskottavuuden estimaatti σ 2 on muotoa σ 2 = n i=1 (y i µ 2 n = n i=1 (y i ȳ 2. (1.20 n

8 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 8 Kun estimaatin σ 2 kaavassa realisaatiot y i korvataan satunnaismuuttujilla Y i, varianssin σ 2 suurimman uskottavuuden estimaattori on muotoa σ 2 = n i=1 (Y i Ȳ 2. (1.21 n Varianssianalyysissä klassisesti oletetaan siis, että satunnaismuuttujien Y i varianssit Var(Y i ovat saman suuruisia kaikille havainnoille i, eli Var(Y i = σ 2. Parametrin σ 2 estimaattorina voidaan käyttää yllä tarkasteltua suurimman uskottavuuden estimaattoria σ 2. Suurimman uskottavuuden estimaattori σ 2 ei kuitenkaan ole varianssin σ 2 harhaton estimaattori, koska E( σ 2 = (n 1σ2. Täten, erityisesti pienillä otoksilla, varianssin n σ 2 estimaattorina voidaan käyttää otosvarianssia ˆσ 2 = s 2 = n i=1 (Y i Ȳ 2, (1.22 n 1 joka on varianssin σ 2 harhaton estimaattori. Piste-estimaatti ˆσ 2 on täten havaituista arvoista laskettu otosvarianssi s 2 = n i=1 (y i ȳ 2 n 1. Esimerkki 1.5. Leipomo toimittaa kauppiaalle päivittäin limppuja. Kauppias punnitsi 6 päivän aikana kunakin päivänä satunnaisesti valitseman limpun ja sai limppujen painoiksi (grammoina alla olevat arvot: 803, 790, 815, 770, 810, 800. Oletetaan, että satunnaisesti valitun limpun paino noudattaa normaalijakaumaa N(µ, σ 2. Muodosta aineiston perusteella sopivat piste-estimaatit limppujen painon odotusarvolle µ ja varianssille σ 2. Muodosta aineiston perusteella 95 % luottamusväliestimaatti limppujen painon odotusarvolle µ.

9 Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A Yksisuuntainen varianssianalyysi 2.1 Tutkimusasetelma ja -hypoteesit Yksisuuntaisessa varianssianalyysissa tarkastellaan yhden luokittelutai järjestysasteikollisen selittävän muuttujan X vaikutusta selitettävän muuttujan Y populaatiokeskiarvoihin. Selittävän muuttujan X voidaan olettaa saavan k kappaletta erilaisia arvoja x j, (j = 1, 2,..., k. Koodataan selittävän muuttujan X saamat arvot x j numeroiksi x 1 = 1, x 2 = 2,..., x k = k. Selittävän muuttujan X perusteella kokonaispopulaatio voidaan täten jakaa arvojen x 1 = 1, x 2 = 2,..., x k = k perusteella k:n eri osapopulaatioon. Yksisuuntaisessa varianssianalyysissa jokaisesta osapopulaatiosta j = 1, 2,..., k poimitaan satunnaisesti n j havaintoyksikköä, joista sitten mitataan selitettävän muuttujan Y toteutunut arvo. Täten selitettävän muuttujan Y havaittuja arvoja voidaan merkitä seuraavasti: y ij =muuttujan Y i:nes havaittu arvo osapopulaatiosta j, kun i = 1, 2,..., n j, j = 1, 2,..., k. Havaittu aineisto siten muodostuu selitettävän muuttujan arvoista X = 1 : y 11, y 21,..., y n1 1, X = 2 : y 12, y 22,..., y n2 2,. X = k : y 1k, y 2k,..., y nk k. Aineiston havaittujen arvojen y ij voidaan ajatella nyt olevan realisaatioita satunnaismuuttujista Y ij. Yksisuuntaisessa varianssianalyysissa aineiston takana olevista satunnaismuuttujista Y ij tehdään klassisesti seuraavat oletukset: 1. satunnaismuuttujat Y ij noudattavat normaalijakaumia Y ij N(µ j, σ satunnaismuuttujat Y ij ovat toisistaan riippumattomia kaikilla i = 1, 2,..., n j ja j = 1, 2,..., k. Yksisuuntaisessa varianssianalyysissa oletetaan siis, että selitettävän muuttujan Y odotusarvot ovat erisuuria osapopulaatioissa j, mutta populaatiovarianssi σ 2 on sama jokaisessa osapopulaatiossa j. Parametrit µ 1, µ 2,..., µ k ja σ 2 ovat tuntemattomia, joita yksisuuntaisessa varianssianalyysissa estimoidaan havaittujen arvojen y ij avulla.

10 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 2 Päätutkimusongelmana yksisuuntaisessa varianssianalyysissa on testata, onko osapopulaatioiden odotusarvot µ j samoja jokaisen osapopulaation j tapauksessa. Yksisuuntaisessa varianssianalyysissa hypoteesit ovat muotoa H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k. (2.1a (2.1b Jos H 0 hypoteesi hyväksytään, selittävän muuttujan X ei katsota vaikuttavan selitettävän muuttujan Y populaatiokeskiarvoihin. Jos taas H 0 hypoteesi hylätään, selittävällä muuttujalla X katsotaan olevan vaikutusta selitettävän muuttujan Y keskimääräisiin arvoihin. Satunnaismuuttujien Y ij riippumattomuus- ja normaalijakaumaoletus Y ij N(µ j, σ 2 usein kirjoitetaan rakennemalliesityksenä M X : Y ij = µ j + ε ij, (2.2 missä termejä ε ij kutsutaan mallin M X satunnaisiksi virhetermeiksi, joidenka oletetaan olevan toisistaan riippumattomia ja noudattavan normaalijakaumaa ε ij N(0, σ 2 kaikilla i = 1, 2,..., n j ja j = 1, 2,..., k. Rakennemalliesitys M X on toinen tapa esittää havaitun aineiston alla olevat oletukset ja erittäin käyttökelpoinen tapa erityisesti myöhemmin usean selittävän muuttujan tilanteessa. Mikäli päätutkimusongelman H 0 hypoteesi hyväksytään, eli µ 1 = µ 2 = = µ j, niin silloin satunnaismuuttujien Y ij voidaan katsoa noudattavan mallia M 0 : Y ij = µ + ε ij, (2.3 missä nyt siis jokaiselle osapopulaatiolle j on voimassa yhteinen odotusarvo µ. Nyt hypoteesit (2.1a ja (2.1b voidaankin esittää rakennemallien M 0 ja M X avulla, eli hypoteeseja (2.1a ja (2.1b vastaa seuraavat malleihin M 0 ja M X liittyvät hypoteesit: H 0 : Rakennemalli M 0 on voimassa, H 1 : Rakennemalli M X on voimassa. (2.4a (2.4b Jos päätutkimusongelman H 0 hypoteesi hylätään, niin silloin ollaan usein kiinnostuneita selvittämään, minkä osapopulaatioiden j suhteen odotusarvot µ j eroavat toisistaan. Toisin sanoen ollaan kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ 1 µ 2, µ 1 µ 2, µ 1 µ 3,...,µ 1 µ k, µ 2 µ 3, µ 2 µ 4,...,µ 2 µ k,. µ k 1 µ k, eroavat nollasta. Parittaista vertailua voidaan tehdä testaamalla eroaako erotukset nollasta, tai muodostamalla luottamusväliestimaatteja odotusarvoerotuksille µ j µ j ja tutkia, kuuluuko nolla muodostetulle luottamusvälille. Jos siis nolla ei kuulu odotusarvoerotukselle µ j µ j muodostetulle luottamusvälille, odotusarvojen µ j ja µ j voidaan katsoa eroavan toisistaan.

11 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Koesuunnittelu ja täydellisesti satunnaistettu koe Koesuunnittelun tilanteessa oletetaan, että tutkija voi täysin kontroloida, minkä selittävän muuttujan X arvon j kukin käytössä oleva havaintoyksikkö i saa. Eli koesuunnittelutilanteessa tutkijalla voidaan ajatella olevan käytössä yhteensä n kappaletta havaintoyksiköitä, ja koesuunnittelun avulla tutkija päättää mihinkä osapopulaatioon j kukin havaintoyksikkö i sijoitetaan. Koesuunnittelussa tärkeitä yleisiä periaatteita on kokeiden toistaminen (engl. replication ja satunnaistaminen (engl. randomization. Kokeiden toistamisella tarkoitetaan kokeen toistamista samoissa olosuhteissa uudestaan. Tämä tarkoittaa, että selitettävästä muuttujasta Y saadaan havaittuja arvoja enemmän kuin yksi samojen kontroloitujen olosuhteiden vallitessa. Kokeen toistaminen mahdollistaa selitettävän muuttujan Y satunnaisuuden paremman arvioimisen. Satunnaistamisella puolestaan tarkoitetaan havaintoyksiköiden i sijottamista osapopulaatioihin j satunnaisesti. Satunnaistamisella pyritään poistamaan ei-kontrolloitavissa olevien muuttujien systemaattinen vaikutus selitettävän muuttujan Y arvoihin. Seuraavassa on esitetty yksisuuntaiseen varianssianalyysiin liittyviä esimerkkejä koesuunnittelutilanteista. (a Kasvinjalostus Oy haluaa selvittää, mikä heidän kolmesta eri mallasohralajikkeesta soveltuu parhainten viljelyyn kuivissa olosuhteissa. Tutkimuksen tekoon Kasvinjalostus Oy:llä on käytössä yhteensä 30 tasalaatuista peltoalaa ja lajikkeen soveltavuutta kuiviin olosuhteisiin mitataan satomäärän kg/ha mukaan. Koesuunnittelun avulla on tarkoitus päättää mitä lajiketta viljellään mihinkin peltoalueeseen. (b Tutkimusryhmä haluaa selvittää, pitääkö sanonta "Koira on ihmisen paras ystävä" paikkaansa. Erityisesti tutkimusryhmä haluisi tutkia, kuinka koiran läsnäolo vaikuttaa sellaisten henkilöiden stressitasoon stressaavien työsuoritusten tilanteesta, jotka omistavat koiran. Tutkimusryhmä on suunnitellut palkkaavansa 45 sellaista henkilöä, joilla on oma koira. Tämän jälkeen henkilöt on tarkoitus jakaa 3 ryhmään: kontrolliryhmään, jotka tekevät stressaavia työsuorituksia yksinään, kaveri-ryhmään, jotka tekevät stressaavia työsuorituksia hyvän ystävän läsnäollessa ja koira-ryhmään, jotka tekevät stressaavia työsuorituksia oman koiran läsnäollessa. Stressaavaksi työsuoritukseksi tutkimusryhmä on valinnut tilastotieteen harjoitustehtävien teon ja harjoitustehtävien aiheuttamaa stressitasoa tutkimusryhmä on ajatellut mitata henkilöiden harjoitustehtävien teon aikaisen maksimaalisen sykkeen perusteella. Laajasti ajateltuana kaikki edellä mainittu on jo koesuunnittelua, ja suppeasti ajateltuna, koesuunnittelun avulla voidaan päättää, kuinka 45 henkilöä valitaan tutkimukseen ja kuinka henkilöt jaetaan kolmeen eri ryhmään. Yhden selittävän muuttujan tilanteessa koesuunnittelu on suhteellisen yksinkertaista. Ehdottoman tärkeää on kuitenkin pitää huolta siitä, että jokaisesta selittävän muuttujan tasosta j saadaan havaintoja selitettävän muuttujan Y suhteen. Yhden selittävän muuttujan tilanteessa koesuunnittelun ensimmäinen vaihe on päättää, kuinka mon-

12 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 4 ta havaintoyksikkö kuhunkin selittävän muuttujan määrittämään osapopulaatioon sijoitetaan. Havaintojen lukumäärillä osapopulaatioille j pitää siis olla voimassa n = n 1 + n n k. Yleisin tapa on suunnitella kokeet niin, että havaintoyksiköitä kiintiöidään sama määrä jokaiselle selittävän muuttujan X luokalle j: n 1 = n 2 = = n k = n k. Yhden selittävän muuttujan tilanteessa koesuunnittelussa pitää yhdistää n 1 kappaletta arvoja 1, n 2 kappaletta arvoja 2,..., n k kappaletta arvoja k havaintoyksiköihin, joita on yhteensä n kappaletta. Koejärjestelyä kutsutaan täydellisesti satunnaistetuksi kokeeksi jos arvot 1, 2,..., k toistoineen n 1, n 2,..., n k yhdistetään käytössä oleviin havaintoyksiköihin täysin satunnaisesti. Täydellisesti satunnaistetusta kokeesta saatujen havaittujen arvojen y ij voidaan sitten katsoa realisoituneen rakennemallista missä ε ij N(0, σ 2. M X : Y ij = µ j + ε ij, (2.5 Esimerkki 2.1. Tarkastellaan 4:n eri viljalajikkeen A,B,C,D vaikutusta satomääriin kun käytössä on 12 tasalaatuista peltoaluetta kokeiden tekemiseen. Kuinka järjestät viljelykset? 2.3 Parametrien estimoiminen Tarkastellaan seuraavaksi tuntemattomien parametrien estimoimista rakennemallien M X ja M 0 tilanteessa. Rakennemallissa M X : Y ij = µ j + ε ij, ε ij N(0, σ 2, (2.6 parametrien µ j, j = 1,..., k, pienimmän neliösumman estimaatit ˆµ j saadaan ratkaisuina minimointiongelmaan Koska siis min µ j j=1 arg min µ j n k j (y ij µ j 2 = min µ 1 i=1 n 1 i=1 n k j (y ij µ j 2. (2.7 j=1 i=1 (y i1 µ min µ k n k i=1 (y ik µ k 2, (2.8 niin estimaatti ˆµ j, kaikille j = 1,..., k, on yhtä kuin osapopulaation j otoskeskiarvo ˆµ j = ˆµ j MX = ȳ j = nj i=1 y ij n j. (2.9

13 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 5 Merkintä ˆµ j MX selventää, että nyt ollaan estimoitu mallin M X parametria µ j. Odotusarvon µ j pienimmän neliösumman estimaattori ˆµ j on täten muotoa ˆµ j = Ȳj = nj i=1 Y ij n j. (2.10 ja siten noudattaa normaalijakaumaa ˆµ j N (µ j, σ2. (2.11 Nyt siis estimaattorin ˆµ j varianssi on muotoa Var(ˆµ j = σ2 n j. Koska σ 2 on tuntematon, niin myös estimaattorin ˆµ j varianssi on tuntematon. Varianssia Var(ˆµ j voidaan estimoida kunhan σ 2 :lle ollaan saatu muodostettua mielekäs estimaatti. Pienimmän neliösumman estimaattori ˆµ j = ȳ j on myös odotusarvon µ j suurimman uskottavuuden estimaattori. Rakennemallien M X tilanteessa logaritmoitu uskottavuusfunktio on muotoa ( k n j l(µ j, σ 2 = log(l(µ j, σ 2 = log f Yij (y ij = n log j=1 i=1 n j ( 1 2πσ 2 1 2σ 2 n k j (y ij µ j 2, (2.12 ja siten odotusarvojen µ j, j = 1,..., k suurimman uskottavuuden estimaatit saadaan minimoimalla neliösummaa k nj j=1 i=1 (y ij µ j 2. j=1 i=1 Varianssin Var(Y ij = σ 2 suurimman uskottavuuden estimaatti σ M 2 X tilanteessa on puolestaan muotoa rakennemallin M X σ 2 M X = k nj j=1 i=1 (y ij ˆµ j 2. (2.13 n avulla seu- Estimaatti σ M 2 X raavasti: voidaan esittää myös osapopulaatioiden j otosvarianssien s 2 j σ 2 M X = k j=1 nj i=1 (y ij ˆµ j 2 n = k j=1 (n j 1s 2 j. (2.14 n Varianssin σ 2 suurimman uskottavuuden estimaattori rakennemallissa M X on siis muotoa k nj σ M 2 j=1 i=1 X = (Y ij ˆµ j 2. (2.15 n Estimaattori σ M 2 X ei ole varianssin σ 2 harhaton estimaattori, koska E ( σ M 2 X = n k n σ2. Täten varianssin σ 2 harhaton estimaattori rakennemallissa M X on muotoa ˆσ 2 M X = k nj j=1 i=1 (Y ij ˆµ j 2. (2.16 n k

14 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 6 Huom! Huomaa merkintöjen ˆσ 2 M X ja σ 2 M X pieni mutta tärkeä ero. Harhattoman estimaattorin Var(Y ij = ˆσ M 2 X avulla saadaan sitten muodostettua estimaattorin ˆµ j varianssille harhaton estimaattori Var(ˆµ j = ˆσ2 M X n j. (2.17 Estimaattien ˆµ j ja ˆσ M 2 X avulla voidaan odotusarvolle µ j muodostaa myös luottamusväliestimaatteja rakennemallin M X tilanteessa. Yksittäisen odotusarvon µ j 100(1 α prosentin luottamusväli on muotoa ] ˆσ M [ˆµ j t α/2 Var(ˆµ j ; ˆµ j + t α/2 Var(ˆµ j = ˆµ 2 j t X ˆσ M 2 α/2 ; ˆµ j + t X α/2, n j missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys kun t noudattaa Studentin t-jakaumaa vapausastein n k. n j (2.18 P (t > t α/2 = α/2, (2.19 Vastaavasti t-testisuureen avulla voidaan testata yksittäisellle odotusarvolle µ j asetettuja testejä. Esimerkiksi testattaessa yksittäiselle odotusarvolle µ j hypoteeseja H 0 : µ j = 0, H 1 : µ j 0, (2.20a (2.20b testaus voidaan suorittaa testisuureen t j = ˆµ j Var(ˆµ j = ˆµ j ˆσ M 2 X n j (2.21 avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t j hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p j hav = 2 P (t > t j hav, (2.22 missä t noudattaa t-jakaumaa vapausastein n k. H 0 hypoteesi voidaan hylätä, jos on voimassa p j hav < α, missä α testin valittu riskitaso. Yleisemmin yksittäiselle odotusarvolle µ j asetettuja hypoteeseja H 0 : µ j = c j, H 1 : µ j c j, (2.23a (2.23b missä c j on itse asetettu vakio, voidaan suorittaa testisuureen t j = ˆµ j c j Var(ˆµ j = ˆµ j c j ˆσ M 2 X n j (2.24

15 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 7 avulla, joka noudattaa Studentin t-jakaumaa vapausastein df = n k kun H 0 on tosi. Rakennemallin M 0 : Y ij = µ + ε ij, ε ij N(0, σ 2, (2.25 ollessa tosi, odotusarvon µ estimaattori on koko otoksesta laskettua otoskeskiarvo ˆµ = ˆµ M0 = Ȳ. Varianssin σ2 suurimman uskottavuuden estimaattori on rakennemallin M 0 tilanteessa muotoa σ 2 M 0 = ja harhaton estimaattori on muotoa k j=1 nj i=1 (Y ij ˆµ 2, (2.26 n ˆσ 2 M 0 = k nj j=1 i=1 (Y ij ˆµ 2. (2.27 n 1 Esimerkki 2.2. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Alla on seuraavasta aineistosta esitetty estimoinnin tuloksia rakennemallien M X ja M 0 tilanteissa. > tabletti<-read.table("tabletti.txt", header=true, sep="\t", dec="." > tabletti y x A A A A B B B B C C C C > malli1<-lm(y~x-1,data=tabletti > summary(malli1 Call: lm(formula = y ~ x - 1, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t xa e-14 *** xb e-14 *** xc e-13 *** ---

16 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 8 Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 4930 on 3 and 9 DF, p-value: 8.724e-15 > malli0<-lm(y~1,data=tabletti > summary(malli0 Call: lm(formula = y ~ 1, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 11 degrees of freedom (a Mitä ovat mallin M X tilanteessa odotusarvojen µ j pienimmän neliösumman estimaatit? (b Mitä ovat mallin M X tilanteessa varianssin σ 2 estimaatit ˆσ 2 M X ja σ 2 M X? (c Testataan olisiko tablettien B odotusarvo µ 2 yhtä kuin nolla, eli testataan hypoteeseja H 0 : µ 2 = 0, H 1 : µ 2 0. Mikä hypoteeseihin liittyvä t-testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05? (d Mitä on mallin M 0 tilanteessa odotusarvon µ pienimmän neliösumman estimaatti? (e Mitä ovat mallin M 0 tilanteessa varianssin σ 2 estimaatit ˆσ 2 M 0 ja σ 2 M 0?

17 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Mallin parametrisoiminen uudelleen Rakennemallin M X tilanteessa havaintojen y ij oletetaan olevat realisaatioita mallista M X : Y ij = µ j + ε ij, ε ij N(0, σ 2. (2.28 Rakennemalli M X voidaan kuitenkin parametrisoida uudelleen monella tapaa. Tässä luvussa tarkastellaan kahta usein käytettyä parametrisointia: kontrolliluokka tyylistä parametrisointia ja keskiarvoero tyylistä parametrisointia. Kontrolliluokka tyylisessä parametrisoinnissa voidaan ajatella niin, että selittävän muuttujan X yksi arvo on ns. kontrolliluokka tai lähtöluokka, johonka muiden luokkien odotusarvoja selitettävän muuttujan suhteen halutaan verrata. Olkoon selittävän muuttujan X arvo k nyt kontrolliluokka. Tällöin arvon k tilanteessa havaintojen y ik ajatellaan tulevan mallista X = k : Y ik = β 0 + ε ik. Muiden X:n luokkien tilanteessa malliin lisätään oma parametri β j, j = 1, 2,..., k 1, mikä kuvaa odotusarvon muutosta luokassa j = 1, 2,..., k 1 verrattuna kontrolliluokkaan k. Tällöin siis X:n arvojen 1, 2,..., k 1 tilanteessa havaintojen katsotaan muodostuvan malleista X = 1 : Y i1 = β 0 + β 1 + ε i1, X = 2 : Y i2 = β 0 + β 2 + ε i2,. X = k 1 : Y ik 1 = β 0 + β k 1 + ε ik 1. Kontrolliluokka tyylisessä parametrisoinnissa rakennemalli M X voidaan esittää muodossa M Xβ : Y ij = β 0 + β j + ε ij, ε ij N(0, σ 2, β k = 0. (2.29 Mallin M Xβ tilanteessa parametrien β 0, β 1,..., β k 1 pienimmän neliösumman estimaattorit ovat muotoja ˆβ 0 = ˆµ k = Ȳk, ˆβ 1 = ˆµ 1 ˆµ k = Ȳ1 Ȳk, ˆβ 2 = ˆµ 2 ˆµ k = Ȳ2 Ȳk,. ˆβ k 1 = ˆµ k 1 ˆµ k = Ȳk 1 Ȳk, (2.30a (2.30b (2.30c (2.30d ja täten normaalistijakautuneiden estimaattoreiden ˆβ 0, ˆβ 1,..., ˆβ k 1 varianssit ovat muo-

18 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 10 toa Var( ˆβ 0 = Var(Ȳk = σ2 n k, Var( ˆβ 1 = Var(Ȳ1 Ȳk = σ2 n 1 + σ2 n k, Var( ˆβ 2 = Var(Ȳ2 Ȳk = σ2 n 2 + σ2 n k,. Var( ˆβ k 1 = Var(Ȳk 1 Ȳk = σ2 n k 1 + σ2 n k. (2.31a (2.31b (2.31c (2.31d tilanteessa yksisuuntaisen varianssianalyysin päätutkimusongel- Parametrisoinnin M Xβ maa H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k, (2.32a (2.32b vastaa rakennemallin M Xβ parametreihin β 1,..., β k 1 liittyvät hypoteesit H 0 : β 1 = β 2 = = β k 1 = 0, H 1 : β 1 β 2 β k 1 0. (2.33a (2.33b Näiden hypoteesien testaamisen palataan seuraavassa luvussa. Parametrisointi kontrolliluokan avulla on kuitenkin erityisen hyödyllinen tilanteissa, kun halutaan verrata tietyn (yhden luokan j eroavuutta kontrolliluokasta k, j k. Tällöin siis rakennemallin M X hypoteesit H 0 : µ j = µ k, j k (2.34a H 1 : µ j µ k, (2.34b vastaavat mallin M Xβ hypoteeseja H 0 : β j = 0, j k (2.35a H 1 : β j 0. (2.35b Yllä olevia hypoteeseja voidaan nyt sitten testata testisuureen t j = ˆβ j = Var( ˆβ j ˆσ 2 M X n j ˆβ j + ˆσ2 M X n k (2.36 avulla, joka noudattaa Studentin t-jakaumaa vapausastein df = n k kun H 0 on tosi. Vastaavasti yksittäisen parametrin β j 100(1 α prosentin luottamusväli on muotoa [ ] ˆβ j t α/2 Var( ˆβ j ; ˆβ j + t α/2 Var( ˆβ j ˆσ M 2 X = ˆβj t α/2 ˆσ 2 M X n j + ˆσ2 M X n k ; ˆβ j + t α/2 n j + ˆσ2 M X n k, (2.37

19 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 11 missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys P (t > t α/2 = α/2. R- ohjelmisto oletusarvoisesti parametrisoi mallin kontrolliluokan avulla. Rakennemallin M X parametrisointi uudestaan malliksi M Xβ ei vaikuta mitenkään σ 2 estimaattien arvoihin, eli ˆσ 2 M X = ˆσ 2 M Xβ ja σ 2 M X = σ 2 M Xβ. Esimerkki 2.3. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia kontrolliluokkamallilla M Xβ. Tällöin saadaan seuraavanlaisia estimointituloksia mallille M Xβ. > options(contrasts=c("contr.sas", "contr.poly" > mallib<-lm(y~x,data=tabletti > summary(mallib Call: lm(formula = y ~ x, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** xa e-05 *** xb e-05 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 9 DF, p-value: 2.015e-05 (a Miten lasketaan tablettien B odotusarvon µ 2 estimaatti parametrisoinnin M Xβ tilanteessa? (b Testaa, eroaako tablettien B odotusarvo µ 2 testaa hypoteeseja tablettien C odotusarvosta µ 3, eli H 0 : µ 2 = µ 3, H 1 : µ 2 µ 3. Mikä on hypoteeseihin liittyvä t-testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05?

20 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 12 Parametrisoitaessa rakennemalli puolestaan keskiarvoero tyylisesti, rakennemalli esitetään muodossa M Xγ : Y ij = µ + γ j + ε ij, ε ij N(0, σ 2, (2.38 missä γ j on jokaisen osapopulaation j oma parametri suhteessa koko populaation odotusarvoon µ. Nyt siis osapopulaation j odotusarvo µ j on esitetty rakennemallissa M Xγ muodossa µ j = µ + γ j, j = 1, 2,..., k, (2.39 ja täten yksisuuntaisen varianssianalyysin päätutkimusongelma H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k, (2.40a (2.40b vastaa rakennemallin M Xγ parametrisoinnin tilanteessa hypoteeseja H 0 : γ 1 = γ 2 = = γ k = 0, H 1 : γ 1 γ 2 γ k 0. (2.41a (2.41b Useimmissa oppikirjoissa yksisuuntainen varianssianalyysimalli esitetään nimenomaan keskiarvoerotusmallin M Xγ avulla. Mallin M Xγ parametrisoinnin avulla nähdään heti, että malli M Xγ eroaa mallista M 0 juuri parametrien γ j verran. Myöhemmin kurssin aikana useamman ulottuvuuden rakennemallit esitetäänkin juuri keskiarvoero tyylisesti. Rakennemalli M Xγ on kuitenkin odotusarvojen suhteen yliparametrisoitunut malli. Eli kun todellisuudessa on k kappaletta tuntemattomia odotusarvoja µ j, niin mallissa M Xγ on k+1 kappaletta tuntemattomia parametreja µ, γ 1,..., γ k liittyen odotusarvojen mallintamiseen. Yliparametrisoinnista seuraa, että kaikkia parametreja µ, γ 1,..., γ k ei voida yksikäsitteisesti estimoida ellei aseteta joitain lisäehtoja parametrien γ 1,..., γ k rakenteelle. Usein miten yliparametrisoinnista ei ole mitään haittaa, koska kiinnostuksen kohteena olevat estimoitavat suureet pystytään yleensä estimoimaan yksikäsitteisesti, vaikkakin alla olevassa mallissa M Xγ on alunperin liian paljon parametreja. Esimerkiksi tuntemattoman erotuksen µ j µ j, j j, estimoimista vastaa rakennemallin M Xγ tilanteessa erotuksen µ j µ j = µ + γ j (µ + γ j = γ j γ j, j j, (2.42 estimoiminen. Täten erotuksen γ j γ j pienimmän neliösumman estimaattori on muotoa ˆγ j ˆγ j = Ȳj Ȳj, (2.43 ja siksi on voimassa ˆγ j ˆγ j N (γ j γ j, σ2 + σ2. (2.44 n j n j Eli jos esimerkiksi halutaan testata (yksittäistä hypoteeseja H 0 : γ j γ j = 0, j j (2.45a H 1 : γ j γ j 0, (2.45b

21 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 13 niin testisuure t j,j = ˆγ j ˆγ j = Var(ˆγ j ˆγ j ˆγ j ˆγ j ˆσ 2 M X n j + ˆσ2 M X n j (2.46 noudattaa Studentin t-jakaumaa vapausastein df = n k kun H 0 on tosi. Vastaavasti yksittäisen erotuksen γ j γ j 100(1 α prosentin luottamusväli on muotoa ] [ˆγ j ˆγ j t α/2 Var(ˆγ j ˆγ j ; ˆγ j ˆγ j + t α/2 Var(ˆγ j ˆγ j = ˆγ j ˆγ j t α/2 ˆσ 2 M X n j + ˆσ2 M X ˆσ M 2 ; ˆγ j ˆγ j + t X α/2 n j n j + ˆσ2 M X n j, (2.47 missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys P (t > t α/2 = α/2. Mikäli kuitenkin yksittäisille parametreille γ j halutaan muodostaa yksikäsitteiset estimaatit, täytyy parametrien γ 1,..., γ k rakenteelle asettaa jokin lisäehto. Jos koejärjestely on tasapainoinen, eli n 1 = n 2 = = n k, niin silloin usein käytetty lisäehto on muotoa γ 1 + γ γ k = 0. (2.48 Tässä tilanteessa (ei siis aina yleisesti parametrien µ, γ 1,..., γ k pienimmän neliösumman estimaattorit ovat muotoa ˆµ = Ȳ, (2.49a ˆγ 1 = Ȳ1 Ȳ, ˆγ 2 = Ȳ2 Ȳ, (2.49b (2.49c. ˆγ k = Ȳk Ȳ. (2.49d Rakennemallin M X parametrisointi uudestaan malliksi M Xβ ei edelleenkään vaikuta mitenkään σ 2 estimaattien arvoihin, eli ˆσ 2 M X = ˆσ 2 M Xβ = ˆσ 2 M Xγ ja σ 2 M X = σ 2 M Xβ = σ 2 M Xγ. Esimerkki 2.4. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia keskiarvoeromallilla M Xγ. Tällöin saadaan seuraavanlaisia estimointituloksia mallille M Xγ. > options(contrasts=c("contr.sum", "contr.poly" > mallig<-lm(y~x,data=tabletti > summary(mallig Call: lm(formula = y ~ x, data = tabletti

22 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 14 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-16 *** x *** x ** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 9 DF, p-value: 2.015e-05 (a Miten lasketaan tabletteihin A, B ja C liittyvien parametrien γ 1, γ 2, γ 3 estimaatit parametrisoinnin M Xγ tilanteessa? (b Testaa, eroaako tablettien B odotusarvo µ 2 testaa hypoteeseja tablettien C odotusarvosta µ 3, eli H 0 : γ 2 γ 3 = 0, H 1 : γ 2 γ 3 0. Mikä on hypoteeseihin liittyvä t-testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05? 2.5 Hypoteesin testaus Yksisuuntaisen varianssianalyysin päätutkimusongelmana on siis tutkia, onko selitettävän muuttujan Y odotusarvot µ j samoja jokaisen selittävän muuttujan X määrittämän osapopulaation j tapauksessa. Rakennemallin M X tilanteessa päätutkimusongelma vastaa hypoteesien H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k, (2.50a (2.50b testaamista. Rakennemallien M Xβ ja M Xγ tilanteessa päätutkimusongelman hypoteesit ovat siis muotoa H 0 : β 1 = β 2 = = β k 1 = 0, H 1 : β 1 β 2 β k 1 0, (2.51a (2.51b ja H 0 : γ 1 = γ 2 = = γ k = 0, H 1 : γ 1 γ 2 γ k 0. (2.52a (2.52b

23 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 15 Rakennemallien suhteen päätutkimusongelma vastaa hypoteesien testaamista. H 0 : Rakennemalli M 0 on voimassa, (2.53a H 1 : Rakennemalli M X on voimassa (eli M Xβ tai M Xγ voimassa, (2.53b Johdetaan seuraavaksi testisuure, jonka perusteella yllä olevat päätutkimusongelmaan liittyvät hypoteesit voidaan testata. Testaus perustuu malleista M 0 ja M X laskettujen varianssin σ 2 suurimman uskottavuuden estimaattoreiden σ 2 M 0 ja σ 2 M X ominaisuuksiin. Muista, että on voimassa σ 2 M X = σ 2 M Xβ = σ 2 M Xγ. Päätutkimusongelman testaaminen perustuu σ 2 M 0 ja σ 2 M X estimaattoreiden erotuksen σ 2 M 0 σ 2 M X (2.54 suuruuteen. Varianssitermi σ 2 kuvaa siis selitettävän muuttujan Y satunnaisen vaihtelun suuruutta ja estimaattorit σ M 2 0 ja σ M 2 X estimoivat tätä arvoa mallien M 0 ja M X tilanteissa. Jos estimoitu varianssi σ M 2 0 on huomattavasti suurempi mallin M 0 tilanteessa verrattuna mallin M X estimaattiin σ M 2 X, niin se kuvaa sitä, että koko populaation odotusarvon µ osittaminen osapopulaatioiden odotusarvoihin µ j vähentää estimoitua satunnaista vaihtelua mallissa M X malliin M 0 verrattuna. Täten siis selittävän muuttujan X vaikutuksesta arvioitu satunnaisuuden määrä pienenee selitettävässä muuttujassa Y. Jos arvioidun satunnaisuuden määrän pieneminen on huomattavaa, katsotaan, että selittävä muuttuja X vaikuttaa selitettävän muuttujan Y odotusarvoihin ja sitä kautta tehdään päätelmä, että selittävällä muuttujalla X on vaikutusta selitettävän muuttujan Y keskimääräisiin arvoihin. Yleisesti on voimassa σ M 2 0 σ M 2 X. Silloin kun H 0 hypoteesi on totta, niin σ M 2 0 = σ M 2 X. Täten mitä suurempi on estimoitu erotus σ M 2 0 σ M 2 X, sitä enemmän on osoitusta, että mallin M X tilanteessa selittämättömän satunnaisvaihtelun suuruus on pienempi malliin M 0 verrattuna. Pienemmän satunnaisvaihtelun katsotaan sitten johtuvan odotusarvon µ j eroavuudesta osapopulaatioissa j ja siten H 0 hypoteesi hylätään kunhan estimoitu erotus σ M 2 0 σ M 2 X on "riittävän" suuri. Kun erotusta σ M 2 0 σ M 2 X jaetaan estimaattorilla σ M 2 X ja saatua osamäärää vielä kerrottaan termillä n k, saadaan testisuure k 1 ( σ 2 M0 σ 2 ( M F = X n k = ( σ2 M 0 σ M 2 X /k 1, σ M 2 X k 1 σ M 2 (2.55 X /n k joka noudattaa F -jakaumaa vapausastein df 1 = k 1 ja df 2 = n k kun H 0 hypoteesi on tosi. Yksisuuntaisessa varianssianalyysissa päätutkimusongelman testaus perustuu siis kaavan (2.55 testisuureen. Päättelyn kannalta testisuureen erotus σ M 2 0 σ M 2 X on täysin määrävä tekijä. Muut tekijät ovat testisuureessa vain sen takia, että testisuure saadaan noudattamaan tunnettua jakaumaan H 0 hypoteesin ollessa tosi. Tässä tapauksessa tunnettu jakauma on F -jakauma. Kun testisuureen havaittu arvo F hav on laskettu aineistosta, testin havaittu p-arvo (merkitsevyystaso saadaan todennäköisyydestä p hav = P (F > F hav. (2.56

24 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 16 Jos testin riskitasoksi valitaan esimerkiksi α = 0.05, niin H 0 hypoteesi hylätään jos p hav < Muuten H 0 jää voimaan. Kaavan (2.55 testisuureella on seuraavia esitysmuotoja F = ( σ2 M 0 σ M 2 X /k 1 σ M 2 X /n k = ( k n j j=1 i=1 (Y ij ˆµ 2 n ( k n j j=1 i=1 (Y ij ˆµ j 2 n k n j j=1 i=1 (Y ij ˆµ j 2 n /n k /k 1 (2.57a (2.57b missä = ( k nj j=1 ( k i=1 (Y ij Ȳ 2 k j=1 j=1 nj i=1 (Y ij Ȳj 2 /k 1 nj i=1 (Y ij Ȳj 2 /n k (2.57c = (SSE M 0 SSE MX /k 1 (2.57d SSE MX /n k = SSR M 0 M X /k 1 SSE MX /n k = MSR M 0 M X (2.57e MSE MX k j=1 = n j(ȳj Ȳ 2 /k 1, ˆσ M 2 (2.57f X SSE M0 = SSE MX = n k j (Y ij Ȳ 2 (2.58a j=1 i=1 n k j (Y ij Ȳj 2 (2.58b j=1 i=1 SSR M0 M X = SSE M0 SSE MX = k n j (Ȳj Ȳ 2 j=1 (2.58c MSE MX = SSE MX /n k = ˆσ M 2 X (2.58d k MSR M0 M X = SSR M0 M X /k 1 = n j (Ȳj Ȳ 2 /k 1. (2.58e Termejä SSE ja SSR kutsutaan virheneliösummaksi (engl. sum of squares for error ja regressioneliösummaksi (engl. sum of squares for regression. Näistä käytetään myös mm. lyhenteitä SS Error ja SS T reatment. Vastaavasti termejä MSE ja MSR kutsutaan virhekeskineliöksi (engl. mean square for error ja regressiokeskineliöksi (engl. mean square for regression. Näistä käytetään puolestaan myös mm. lyhenteitä MS Error ja MS T reatment. Yksisuuntaisen varianssianalyysin tulokset esitetään yleensä ohjelmistoissa alla olevan taulukon tyylisesti. Degrees of freedom Sum of squares Mean square F-value p-value X: df 1 SSR M0 M X MSR M0 M X F hav p hav Residuals: df 2 SSE MX MSE MX j=1

25 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 17 Esimerkki 2.5. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia rakennemalleilla M X ja M 0. Tällöin saadaan seuraavanlaisia estimointituloksia. > malli1<-lm(y~x-1,data=tabletti > summary(malli1 Call: lm(formula = y ~ x - 1, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t xa e-14 *** xb e-14 *** xc e-13 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 4930 on 3 and 9 DF, p-value: 8.724e-15 > malli0<-lm(y~1,data=tabletti > summary(malli0 Call: lm(formula = y ~ 1, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 11 degrees of freedom Testaa tulosten avulla hypoteeseja H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k. (2.59a (2.59b Mikä hypoteeseihin liittyvä F -testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05?

26 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 18 Esimerkki 2.6. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia kontrolliluokkamallilla M Xβ. Tällöin saadaan seuraavanlaisia estimointituloksia mallille. > options(contrasts=c("contr.sas", "contr.poly" > mallib<-lm(y~x,data=tabletti > summary(mallib Call: lm(formula = y ~ x, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** xa e-05 *** xb e-05 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 9 DF, p-value: 2.015e-05 > anova(mallib Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F x e-05 *** Residuals Signif. codes: 0 *** ** 0.01 * Etsi tulostuksista arvot (a SSR M0 M X ja MSR M0 M X, (b SSE MX ja MSE MX, (c F hav ja p hav.

27 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Parittainen vertailu Jos yksisuuntaisessa varianssianalyysissa päätutkimusongelman H 0 hypoteesi hylätään, niin silloin ollaan usein kiinnostuneita selvittämään, minkä osapopulaatioiden j suhteen selitettävän muuttujan Y odotusarvot µ j eroavat toisistaan. Toisin sanoen ollaan kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ 1 µ 2, µ 1 µ 2, µ 1 µ 3,...,µ 1 µ k, µ 2 µ 3, µ 2 µ 4,...,µ 2 µ k,. µ k 1 µ k, eroavat nollasta. Parittaisten vertailujen tekemiseen on kehitetty useita eri menetelmiä. Tarkastellaan tässä kohtaa kolmea suhteellisen yksinkertaista ja tutun oloista parittaisen vertailun menetelmää nimeltään: least signicant dierence -testi (LSD, Bonferronin t-testi ja Tukey's honest signicant dierence -menetelmä (HSD. LSD-testauksessa itse asiassa jokaiselle mahdolliselle tuntemattomalle odotusarvojen erotukselle µ j µ j, j j, tehdään hypoteesien H 0 : µ j µ j = 0, yksittäiselle parille j j, (2.60a H 1 : µ j µ j 0, yksittäiselle parille j j, (2.60b testaus riskitasolla α käyttäen hyväksi t-testisuuretta t j = ˆµ j ˆµ j = Var(ˆµ j ˆµ j ˆµ j ˆµ j ˆσ 2 M X n j + ˆσ2 M X n j. (2.61 Testeistä saatujen havaittujen arvojen t j hav perusteella lasketaan jokaiseen testiin liittyvät havaitut p-arvot p j hav = 2 P (t > t j hav, jotka sitten listataan. LSD-testaus ei siis varsinaisesti tuo mitään uutta analyysiin ja on vain yksittäisten t-testien listaus. Täten LSD-testauksella saadut havaitut p-arvot kuvaavat vain, onko yksittäinen erotus µ j µ j nollasta poikkeava riskitasolla α. Varsinaisesti kuitenkin parittaisessa testauksessa haluttaisiin testata riskitasolla α, että löytyykö vähintään yhtä paria µ j µ j, jolle yksittäinen hypoteesi H 0 : µ j µ j = 0 ei ole voimassa. Bonferronin t-testi on yksinkertainen (konservatiivinen menetelmä, jolla yhtä aikaisia parittaisia vertailuja voidaan testata valitulla riskitasolla α. Bonferronin t-testauksessa lasketaan yksittäiset t-testisuureen arvot t j hav samalla kaavalla (2.61 kuin LSD-testauksessa. Jos m on tehtävien parittaisten vertailujen µ j µ j lukumäärä, niin Bonferronin testauksessa tavallisesti lasketuille havaituille p-arvoille p j hav tehdään seuraavat muutokset b j hav = { m p j hav, jos voimassa m p j hav 1, 1, jos voimassa m p j hav > 1. (2.62

28 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 20 Nyt yksittäinen parin µ j µ j voidaan katsoa eroavan nollasta riskitasolla α, jos lasketulle arvolle b j hav on voimassa b j hav < α. Tukeyn HSD-menetelmä on puolestaan lähtökohtaisesti tarkoitettu tilanteisiin, missä eri luokkien j otoskoot n j ovat samoja. Tukeyn HSD-menetelmässä erotuksen µ j µ j katsotaan poikkeavan nollasta riskitasolla α, jos erotukselle µ j µ j muodostettu Tukeyn luottamusväliestimaatti ˆµ j ˆµ j q α/2 2 ˆσ 2 M X n j + ˆσ2 M X n j ; ˆµ j ˆµ j + q α/2 2 ˆσ 2 M X n j + ˆσ2 M X n j (2.63 ei sisällä arvoa 0. Tukeyn luottamusväliestimaatissa luku q α/2 on sellainen arvo, jolle on voimassa todennäköisyys P (Q k,n k > q α/2 = α/2, missä puolestaan Q k,n k on satunnaismuuttuja, joka noudattaa studentized range -jakaumaa ryhmäarvolla k ja vapausastein df = n k. Yleisesti ottaen jonkin satunnaismuuttujan Q r,df sanotaan noudattavan studentized range -jakaumaa ryhmäarvolla r ja vapausastein df, jos satunnaismuuttuja Q r,df on määritelty muunnoksena Q r,df = max(y 1, Y 2,..., Y r min(y 1, Y 2,..., Y r ˆσ 2, (2.64 missä Y 1, Y 2,..., Y r N(µ, σ 2 ja ˆσ 2 = r i=1 (Y i Ȳ 2 df. Esimerkki 2.7. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia kontrolliluokkamallilla M Xβ. Tällöin saadaan seuraavanlaisia parittaisia vertailuja aineistolle. > options(contrasts=c("contr.sas", "contr.poly" > mallib<-lm(y~x,data=tabletti > summary(mallib Call: lm(formula = y ~ x, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** xa e-05 *** xb e-05 *** --- Signif. codes: 0?***? 0.001?**? 0.01?*? 0.05?.? 0.1?? 1 Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 9 DF, p-value: 2.015e-05 > pairwise.t.test(y,x,p.adj="none"

29 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 21 Pairwise comparisons using t tests with pooled SD data: y and x A B B C 1.2e e-05 P value adjustment method: none > pairwise.t.test(y,x,p.adj="bonf" Pairwise comparisons using t tests with pooled SD data: y and x A B B 1 - C 3.6e e-05 P value adjustment method: bonferroni > TukeyHSD(aov(mallib Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = mallib $x diff lwr upr p adj B-A C-A C-B Mitkä parittaisista eroista näyttäisi merkitseviltä ja mitkä eivät?

30 Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A Kaksisuuntainen varianssianalyysi 3.1 Tutkimusasetelma ja -hypoteesit Kaksisuuntaisessa varianssianalyysissa tarkastellaan kahden luokittelutai järjestysasteikollisen selittävän muuttujan X 1 ja X 2 vaikutusta selitettävän muuttujan Y populaatiokeskiarvoihin. Selittävien muuttujien X 1 ja X 2 voidaan olettaa saavan k ja l kappaletta erilaisia arvoja x 1j, (j = 1, 2,..., k, ja x 2h, (h = 1, 2,..., l. Koodataan selittävän muuttujan X 1 saamat arvot x 1j numeroiksi x 11 = 1, x 12 = 2,..., x 1k = k ja selittävän muuttujan X 2 saamat arvot x 2h numeroiksi x 21 = 1, x 22 = 2,..., x 2l = l. Selittävien muuttujien X 1 ja X 2 perusteella kokonaispopulaatio voidaan täten jakaa arvojen x 1j ja x 2h perusteella k l:n eri osapopulaatioon. Merkitään x 1j ja x 2h arvojen määrittämää osapopulaatio jh:llä. Kaksisuuntaisessa varianssianalyysissa jokaisesta osapopulaatiosta jh poimitaan satunnaisesti n jh havaintoyksikköä, joista sitten mitataan selitettävän muuttujan Y toteutunut arvo. Täten selitettävän muuttujan Y havaittuja arvoja voidaan merkitä seuraavasti: y ijh =muuttujan Y i:nes havaittu arvo osapopulaatiosta jh, kun i = 1, 2,..., n jh, j = 1, 2,..., k, h = 1, 2,..., l. Havaittu aineisto siten muodostuu selitettävän muuttujan arvoista X 1 = 1 ja X 2 = 1 : y 111, y 211,..., y n11 11, X 1 = 2 ja X 2 = 1 : y 121, y 221,..., y n21 21, X 1 = k ja X 2 = 1 : y 1k1, y 2k1,..., y nk1 k1, X 1 = 1 ja X 2 = 2 : y 112, y 212,..., y n12 12, X 1 = 1 ja X 2 = l : y 11l, y 21l,..., y n1l 1l,.. X 1 = k ja X 2 = l :. y 1kl, y 2kl,..., y nkl kl. Aineistossa olevien havaittujen arvojen y ijh voidaan ajatella nyt olevan realisaatioita satunnaismuuttujista Y ijh. Varianssianalyysissa satunnaismuuttujien Y ijh oletetaan noudattavan normaalijakaumaa. Kaksisuuntaisen varianssianalyysin päätutkimusongelma on tutkia, minkälaisesta rakennemallista havaittujen arvojen y ijh voidaan katsoa olevan realisaatioita.

31 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 2 Esimerkki 3.1. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Tutkimusryhmä mittasi jokaisen valmistajan neljästä eri tabletista rautapitoisuudet. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Tutkimusryhmä käsitteli puolet tableteista HCl liuoksella ja puolet HNO 3 liuoksella ja saivat seuraavan aineiston: Tabletti A Tabletti B Tabletti C HCl HCl HNO HNO Mitkä muuttujat ovat tässä tutkimuksessa selittäviä muuttujia? Mikä voisi olla tutkimuksen tavoite? Kaksisuuntaisen varianssianalyysin tilanteessa voidaan määritellä kilpailevia rakennemalleja, joiden perusteella havaintojen y ijh voidaan katsoa muodostuvan. Seuraavassa on esitetty kaksisuuntaiseen varianssianalyysiin liittyviä kilpailevia malleja keskiarvoero parametrisoinnin avulla: M 0 : Y ijh = µ + ε ijh, (3.1a M X1 : Y ijh = µ + γ j + ε ijh, (3.1b M X2 : Y ijh = µ + τ h + ε ijh, (3.1c M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh, (3.1d M X1 X 2 : Y ijh = µ + γ j + τ h + ω jh + ε ijh. (3.1e Jokaisessa yllä olevassa mallissa termejä ε ijh kutsutaan kyseisen mallin satunnaisiksi virhetermeiksi, joidenka oletetaan olevan toisistaan riippumattomia ja noudattavan normaalijakaumaa ε ijh N(0, σ 2 i = 1, 2,..., n jh, j = 1, 2,..., k, h = 1, 2,..., l. (3.2 Termit µ, γ j, τ h, ω jh ovat satunnaismuuttujien Y ijh odotusarvoihin E(Y ijh liittyviä (odotusarvoja mallintavia tuntemattomia parametreja. Kaksisuuntaisessa varianssianalyysissa oletetaan siis, että selitettävän muuttujan Y odotusarvot ovat mahdollisesti erisuuria osapopulaatioissa jh, mutta populaatiovarianssi σ 2 on sama jokaisessa osapopulaatiossa jh. Parametrit µ, γ j, τ h, ω jh ovat tuntemattomia, joita kaksisuuntaisessa varianssianalyysissa estimoidaan havaittujen arvojen y ijh avulla. Yllä olevia rakennemalleja voidaan tulkita seuraavanlaisesti. Malli M 0 : Kumpikaan selittävistä muuttujista X 1 ja X 2 ei vaikuta selitettävän muuttujan Y odotusarvoihin. Malli M X1 : Malli M X2 : Vain muuttuja X 1 vaikuttaa selitettävän muuttujan Y odotusarvoihin. Vain muuttuja X 2 vaikuttaa selitettävän muuttujan Y odotusarvoihin.

32 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 3 Päävaikutusmalli M X1 X 2 : Yhdysvaikutusmalli M X1 X 2 : Muuttujilla X 1 ja X 2 on omaa vaikutusta selitettävän muuttujan Y odotusarvoihin. Muuttujilla X 1 ja X 2 on oman vaikutuksen lisäksi yhdysvaikutusta selitettävän muuttujan Y odotusarvoihin. Jokainen yllä esitetty rakennemalli on muodoltaan sellainen, että yksittäisen havainnon i odotusarvo voi enintään riippua koko osapopulaation jh yhteisestä odotusarvosta. Rakennemallit siis mallintavat, kuinka satunnaismuuttujien Y ijh odotusarvot E(Y ijh = µ jh muodostuvat selittävien muuttujien X 1 ja X 2 määrittämissä osapopulaatioissa jh. Esimerkiksi päävaikutusmallin M X1 X 2 tilanteessa E(Y ijh = µ jh on muotoa µ jh = µ + γ j + τ h. (3.3 Yllä olevat mallit on esitetty hierarkisessa järjestyksessä. Mallissa M 0 kumpikaan muuttujista X 1 ja X 2 ei vaikuta selitettävän muuttujan Y odotusarvoihin, eli ei ole hyötyä jakaa populaatiota osapopulaatioihin jh, jos tämä malli kuvaa parhainten havaittujen arvojen y ijh muodostumista. Mallit M X1 ja M X2 ovat yhden selittävän muuttujan malleja ja siten niiden tarkasteluun pätee yksisuuntaisen varianssianalyysin teoria. Päävaikutusmalli M X1 X 2 ja yhdysvaikutusmalli M X1 X 2 ovat varsinaisia kahden selittävän muuttujan malleja. Päävaikutusmallissa M X1 X 2 kummallakin selittävällä muuttujalla X 1 ja X 2 on oma vaikutuksensa odotusarvoihin µ jh. Päävaikutusmallin M X1 X 2 voi nähdä (ainakin teoriassa mallina, missä on yhdistetty yksisuuntaiset varianssianalyysimallit M X1 ja M X2 yhteen. Yhdysvaikutusmallissa M X1 X 2 selittävien muuttujien arvot x 1j ja x 2h voivat yhdessä vielä joko lisätä tai vähentää odotusarvon µ jh tasoa siitä, mihinkä päävaikutusmallin perusteella odotusarvon µ jh taso määräytyisi. Täten yhdyvaikutusmallin M X1 X 2 tilanteessa odotusarvot µ jh voivat olla vapaasti millä tahansa tasolla jokaisen osapopulaation jh tapauksessa. Alla oleva kuvio vielä selventää päävaikutusmallin M X1 X 2 ja yhdysvaikutusmallin M X1 X 2 eroja tilanteessa, missä k = 3 ja l = 2. Päävaikutusmalli Yhdysvaikutusmalli x2=2 x2=2 Odotusarvo Odotusarvo x2=1 x2=1 x1=1 x1=2 x1=3 x1=1 x1=2 x1=3 Päätutkimusongelmana kaksisuuntaisessa varianssianalyysissa on tutkia esimerkiksi hypoteesin testaamisen avulla, mikä malleista M 0, M X1, M X2, M X1 X 2, M X1 X 2 parhainten kuvaa havaintojen y ijh muodostumista. Valittu malli sitten kuvaa, kuinka selittävät muuttujat X 1 ja X 2 vaikuttavat selitettävän muuttujan Y odotusarvoihin.

33 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 4 Mallin valinnassa voidaan edetä hierarkisesti niin, että ensiksi verrataan mallia M 0 malleihin M X1, M X2. Jos selittävät muuttujat X 1 ja X 2 ovat yksisuuntaisen varianssianalyysin perusteella merkitseviä muuttujia, niin sitten voidaan verrata malleja M X1, M X2 päävaikutusmalliin M X1 X 2 ja lopulta mahdollisesti päävaikutusmallia yhdysvaikutusmalliin M X1 X 2. Usein kaksisuuntaista varianssianalyysia käytetään tilanteissa, missä muuttujien X 1 ja X 2 katsotaan lähtökohtaisesti vaikuttavan selitettävän muuttujan Y odotusarvoihin. Tällöin tutkimusongelmaksi tulee vertailla päävaikutusmallia yhdysvaikutusmalliin. Tätä tutkimusongelmaa voidaan ratkoa testaamalla hypoteeseja H 0 : Rakennemalli M X1 X 2 on voimassa, (3.4a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.4b Kaksisuuntaista varianssianalyysia käytetään usein tilanteissa, missä toinen selittävistä muuttujista on varsinainen selittävä muuttuja, jonka vaikutusta selitettävän muuttujan Y arvoihin halutaan tutkia ja toinen muuttuja on niin sanottu kiusatekijä, jonka tiedetään vaikuttavan Y :n, vaikka sen vaikutuksesta ei sinällään olla kiinnostuneita. Jos merkitään kiusatekijää X 1 muuttujalla ja varsinaista muuttujaa X 2, niin silloin tutkimusongelmana on vertailla, mikä malleista M X1, M X1 X 2, M X1 X 2 parhainten kuvaa havaittujen arvojen y ijh realisoitumista. Tällaisessa tilanteessa kiusatekijä X 1 pidetään rakennemallissa mukana riippumatta sen tilastollisesta merkittävyydestä ja täten malli M X1 on tällaisessa tilanteessa usein lähtökohtamalli. Sen jälkeen kun päätutkimusongelman mukainen mallin valinta on suoritettu, ollaan usein kiinnostuneita selvittämään, minkä osapopulaatioiden jh suhteen odotusarvot µ jh eroavat toisistaan. Toisin sanoen ollaan esimerkiksi kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ jh µ j h eroavat nollasta. Parittaista vertailua voidaan tehdä testaamalla eroaako erotukset nollasta, tai muodostamalla luottamusväliestimaatteja odotusarvoerotuksille µ jh µ j h ja tutkia, kuuluuko nolla muodostetulle luottamusvälille. Jos siis nolla ei kuulu odotusarvoerotukselle µ jh µ j h muodostetulle luottamusvälille, odotusarvojen µ jh ja µ j h voidaan katsoa eroavan toisistaan.

34 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Mallien parametrisoiminen Kun päämalli M X1 X 2 ja yhdysvaikutusmalli M X1 X 2 kirjoitetaan edellä esitetyn keskiarvoero parametrisoinnin avulla, ne ovat yliparametrisointuja. Kaksisuuntaisessa varianssianalyysissa hypoteesien testaus ja odotusarvoerotusten µ jh µ j h estimoiminen perustuukin (tilastollisissa ohjelmistoissa uudelleen parametrisoiduista malleista laskettuihin estimaatteihin. Mallit M X1 X 2 ja M X1 X 2 uudelleen parametrisoidaan yleensä kontrolliluokka tyylisen parametrisoinnin avulla. Päävaikutusmalli M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh (3.5 voidaan kontrolliluokka tyylisesti parametrisoida siten, että esimerkiksi valitaan selittävien muuttujien X 1 ja X 2 viimeisten luokkien k ja l muodostama osapopulaatio kl lähtöluokaksi. Tällöin osapopulaation kl tilanteessa havaintojen y ikl ajatellaan tulevan mallista X 1 = k, X 2 = l : Y ikl = β 0 + ε ikl. Nyt muuttujan X 1 kaikilla muilla arvoilla j (j k tilanteessa, että X 2 = l havaintojen y ijl ajatellaan tulevan mallista X 1 = 1, X 2 = l : Y i1l = β 0 + β 11 + ε i1l, X 1 = 2, X 2 = l : Y i2l = β 0 + β 12 + ε i2l,. X 1 = k 1, X 2 = l : Y ik 1l = β 0 + β 1k 1 + ε ik 1l. Vastaavasti muuttujan X 2 kaikilla muilla arvoilla h (h l tilanteessa, että X 1 = k havaintojen y ikh ajatellaan tulevan mallista X 1 = k, X 2 = 1 : Y ik1 = β 0 + β 21 + ε ik1, X 1 = k, X 2 = 2 : Y ik2 = β 0 + β 22 + ε ik2,. X 1 = k, X 2 = l 1 : Y ikl 1 = β 0 + β 2l 1 + ε ikl 1. voidaan kirjoittaa kontrolliluokka tyylisen parametri- Täten päävaikutusmalli M X1 X 2 soinnin avulla mallina M X1 X 2 β : Y ijh = β 0 + β 1j + β 2h + ε ijh, β 1k = 0, β 2l = 0. (3.6 Nyt siis kontrolliluokka tyylisen parametrisoinnin tilanteessa osapopulaation jh odotusarvon µ jh oletetaan olevan päävaikutusmallin tilanteessa muotoa µ jh = β 0 + β 1j + β 2h, β 1k = 0, β 2l = 0, (3.7 ja siten erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h. (3.8

35 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 6 tilanteessa odotusarvo- Esimerkiksi kun k = 3 ja l = 3, niin päävaikutusmallin M X1 X 2 β jen µ jh oletetaan olevan muotoa µ 11 = β 0 + β 11 + β 21, µ 12 = β 0 + β 11 + β 22, µ 13 = β 0 + β 11, µ 21 = β 0 + β 12 + β 21, µ 22 = β 0 + β 12 + β 22, µ 23 = β 0 + β 12, µ 31 = β 0 + β 21, µ 32 = β 0 + β 22, µ 33 = β 0. Yhdysvaikutusmalli M X1 X 2 : Y ijh = µ + γ j + τ h + ω jh + ε ijh. (3.9 voidaan myös parametrisoida kontrolliluokka tyylisesti. Jos selittävien muuttujien X 1 ja X 2 viimeisten luokkien k ja l muodostama osapopulaatio kl valitaan lähtöluokaksi, niin silloin yhdysvaikutusmalli M X1 X 2 voidaan esittää muodossa M X1 X 2β : Y ijh =β 0 + β 1j + β 2h + β jh + ε ijh, (3.10 β 1k = 0, β 2l = 0, β kh = 0 kaikille h = 1,..., l, β jl = 0 kaikille j = 1,..., k. Yhdysvaikutusmallin M X1 X 2β tilanteessa odotusarvojen erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h + β jh β j h. (3.11 tilanteessa odotusar- Esimerkiksi kun k = 3 ja l = 3, niin yhdysvaikutusmallin M X1 X 2β vojen µ jh oletetaan olevan muotoa µ 11 = β 0 + β 11 + β 21 + β 11, µ 12 = β 0 + β 11 + β 22 + β 12, µ 13 = β 0 + β 11, µ 21 = β 0 + β 12 + β 21 + β 21, µ 22 = β 0 + β 12 + β 22 + β 22, µ 23 = β 0 + β 12, µ 31 = β 0 + β 21, µ 32 = β 0 + β 22, µ 33 = β 0.

36 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Parametrien estimoiminen ja hypoteesien testaus Rakennemallien M 0, M X1, M X2 tuntemattomien parametrien estimoiminen tapahtuu yksisuuntaisen varianssianalyysissa esitetyllä tavalla. Tarkastellaankin seuraavaksi tuntemattomien parametrien estimoimista päävaikutusmallin M X1 X 2 ja yhdysvaikutusmallin M X1 X 2 tilanteessa. Estimointi ja testaus perustuu kontrolliluokka tyylisten mallien M X1 X ja M 2 β X 1 X 2β tarkasteluun. Päävaikutusmallin M X1 X 2 β : Y ijh = β 0 + β 1j + β 2h + ε ijh (3.12 tilanteessa parametrien β 0, β 1j, β 2h pienimmän neliösumman estimaatit ˆβ 0, ˆβ 1j, ˆβ 2h saadaan ratkaisuina minimointiongelmaan arg min l β 0,β 1j,β 2h h=1 j=1 i=1 n k jh (y ijh (β 0 + β 1j + β 2h 2. (3.13 Nyt estimaateilla ˆβ 0, ˆβ 1j, ˆβ 2h ei ole yleisessä tapauksessa yksinkertaisia (helppoja esitysmuotoja, joten tässä kohdassa tarkastelemme vain ohjelmistojen tuottamia numeerisia estimaattiarvoja. Päävaikutusmallin M X1 X tilanteessa estimaattien avulla ˆβ 2 β 0, ˆβ 1j, ˆβ 2h avulla saadaan laskettua varianssille σ 2 harhaton estimaatti l k ( njh ˆσ M 2 h=1 j=1 i=1 y ijh ( ˆβ 0 + ˆβ 1j + ˆβ 2 2h X1 =, (3.14 X 2 n f X1 X 2 β missä f X1 X 2 β on päävaikutusmallin M X 1 X 2 β parametrien β 0, β 1j, β 2h lukumäärä. Harhattoman estimaatin ˆσ M 2 X1 avulla voidaan sitten lasketa varianssin σ 2 suurimman X 2 uskottavuuden estimaatti ( n σ M 2 fx1 X 2 β X1 = ˆσ X 2 M 2 n X1. (3.15 X 2 Varianssin σ 2 harhattoman estimaattorin avulla saadaan laskettua estimaattoreiden ˆβ 0, ˆβ 1j, ˆβ 2h varianssien estimaatit Var( ˆβ 0, Var( ˆβ 1j, Var( ˆβ 2h, joiden tarkka esitysmuoto tässä kohdassa sivuutetaan. Estimaattien ˆβ 0, ˆβ 1j, ˆβ 2h ja niiden estimoitujen varianssien avulla voidaan kuitenkin testata parametrien β 0, β 1j, β 2h yksittäisiä eroavuuksia nollasta. Esimerkiksi testattaessa yksittäiselle parametrille β 2h hypoteeseja H 0 : β 2h = 0, H 1 : β 2h 0, (3.16a (3.16b voidaan testata testisuureen t h = ˆβ 2h Var( ˆβ 2h (3.17

37 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 8 avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t h hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p h hav = 2 P (t > t h hav, (3.18 missä t noudattaa t-jakaumaa vapausastein n f X1 X 2 β. H 0 hypoteesi voidaan hylätä, jos on voimassa p h hav < α, missä α testin valittu riskitaso. Vastaavasti yhdysvaikutusmallin M X1 X 2β : Y ijh = β 0 + β 1j + β 2h + β jh + ε ijh (3.19 tilanteessa parametrien β 0, β 1j, β 2h, β jh pienimmän neliösumman estimaatit ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh saadaan ratkaisuina minimointiongelmaan arg min l β 0,β 1j,β 2h,β jh h=1 j=1 i=1 n k jh (y ijh (β 0 + β 1j + β 2h + β jh 2. (3.20 Nyt estimaateilla ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh ei ole nytkään yleisessä tapauksessa yksinkertaisia (helppoja esitysmuotoja, joten tässä kohdassa tarkastelemme vain ohjelmistojen tuottamia numeerisia estimaattiarvoja. Yhdysvaikutusmallin M X1 X 2β tilanteessa estimaattien avulla ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh avulla saadaan laskettua varianssille σ 2 harhaton estimaatti l k ( njh ˆσ M 2 h=1 j=1 i=1 y ijh ( ˆβ 0 + ˆβ 1j + ˆβ 2h + ˆβ 2 jh X1 =, (3.21 X 2 n f X1 X 2β missä f X1 X 2β on yhdysvaikutusmallin M X1 X 2β parametrien β 0, β 1j, β 2h, β jh lukumäärä. Harhattoman estimaatin ˆσ M 2 X1 avulla voidaan sitten lasketa varianssin σ 2 suurimman X 2 uskottavuuden estimaatti ( n σ M 2 fx1 X 2β X1 = ˆσ X 2 M 2 n X1. (3.22 X 2 Varianssin σ 2 harhattoman estimaattorin avulla saadaan laskettua estimaattoreiden ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh varianssien estimaatit Var( ˆβ 0, Var( ˆβ 1j, Var( ˆβ 2h, Var( ˆβ jh, joiden tarkka esitysmuoto tässä kohdassa sivuutetaan. Estimaattien ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh ja niiden estimoitujen varianssien avulla voidaan kuitenkin testata parametrien β 0, β 1j, β 2h, β jh yksittäisiä eroavuuksia nollasta. Esimerkiksi testattaessa yksittäiselle parametrille β jh hypoteeseja H 0 : β jh = 0, H 1 : β jh 0, (3.23a (3.23b voidaan testata testisuureen t jh = ˆβ jh Var( ˆβ jh (3.24

38 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 9 avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t jh hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p jh hav = 2 P (t > t jh hav, (3.25 missä t noudattaa t-jakaumaa vapausastein n f X1 X 2 β. H 0 hypoteesi voidaan hylätä, jos on voimassa p jh hav < α, missä α testin valittu riskitaso. Esimerkki 3.2. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on seuraavasta aineistosta esitetty estimoinnin tuloksia päävaikutusmallin M X1 X 2 β ja yhdysvaikutusmallin M X1 X 2β tilanteissa. > data<-read.table("tabletti2.txt", header=true, sep="\t", dec="." > attach(data > data y x1 x A HCL A HCL A HNO A HNO B HCL B HCL B HNO B HNO C HCL C HCL C HNO C HNO3 > options(contrasts=c("contr.sas", "contr.poly" > mallip<-lm(y~x1+x2 > summary(mallip Call: lm(formula = y ~ x1 + x2 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-11 *** x1a e-05 *** x1b e-05 *** x2hcl Signif. codes: 0 *** ** 0.01 * Residual standard error: on 8 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 3 and 8 DF, p-value:

39 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 10 > malliy<-lm(y~x1*x2 > summary(malliy Call: lm(formula = y ~ x1 * x2 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-09 *** x1a ** x1b ** x2hcl x1a:x2hcl x1b:x2hcl Signif. codes: 0 *** ** 0.01 * Residual standard error: on 6 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 5 and 6 DF, p-value: tilanteessa odotusarvojen pienimmän neliö- (a Mitä ovat päävaikutusmallin M X1 X 2 β summan estimaatit kun (i tabletti on C ja liuos HNO3? (ii tabletti on A ja liuos HNO3? (iii tabletti on C ja liuos HCL? (b Mitä ovat mallin M X1 X 2 β tilanteessa varianssin σ2 estimaatit ˆσ 2 M X1 X 2 ja σ 2 M X1 X 2? tilanteessa odotusarvojen pienimmän ne- (c Mitä ovat yhdysvaikutusmallin M X1 X 2β liösumman estimaatit kun (i tabletti on C ja liuos HNO3? (ii tabletti on A ja liuos HNO3? (iii tabletti on C ja liuos HCL? (d Mitä ovat mallin M X1 X 2β tilanteessa varianssin σ 2 estimaatit ˆσ M 2 X1 ja σ 2 X 2 M X1? X 2

40 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Mallin valinta ja hypoteesin testaus Tarkastellaan seuraavaksi mallin valintaa ja hypoteesien testausta kaksisuuntaisessa varianssianalyysissa. Kuten edellä on jo mainittu, kaksisuuntaisessa varianssianalyysissa päätutkimusongelmana on tutkia, mikä malleista M 0, M X1, M X2, M X1 X 2, M X1 X 2 parhainten kuvaa havaintojen y ijh muodostumista. Olkoon nyt yksisuuntaisen varianssianalyysin perusteella (tai muuten muuttuja X 1 tilastollisesti merkitsevä muuttuja, jolla on vaikutusta selitettävän muuttujan Y odotusarvoon. Tarkastellaan tässä tilanteessa, vaikuttaako muuttujan X 1 lisäksi selittävä muuttuja X 2 selitettävän muuttujan Y odotusarvoihin. Tätä tutkimusongelmaa voidaan lähestyä vertaamalla rakennemallia M X1 päävaikutusmalliin M X1 X 2. Selittävän muuttujan X 2 vaikutusta selitettävän muuttujan Y arvoihin voidaan tutkia testaamalla hypoteeseja H 0 : τ 1 = τ 2 = = τ l = 0, mallissa M X1 X 2, (3.26a H 1 : τ 1 τ 2 τ l 0, mallissa M X1 X 2. (3.26b Yllä olevia hypoteeseja vastaa siis hypoteesit H 0 : Rakennemalli M X1 on voimassa, (3.27a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.27b Olkoon σ 2 M X1 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 ja olkoon σ M 2 X1 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 X X 2. Tällöin testisuure 2 ( ( σ 2 MX1 σ M 2 X1 X F = 2 n fx1 X 2β ( σ 2MX1 σ 2MX1 X2 /(f X1 X k 2 β σ M 2 X1 f X1 X k = X 2 σ 2 2 β M X1 /(n f X1 X, (3.28 X 2 2 β noudattaa F -jakaumaa vapausastein df 1 = f X1 X 2 β k ja df 2 = n f X1 X 2 β kun H 0 hypoteesi on tosi. Rakennemallien M X1 ja M X1 X 2 vertailu perustuu siis kaavan (3.28 testisuureen. Päättelyn kannalta testisuureen erotus σ 2 M X1 σ 2 M X1 X 2 on jälleen täysin määrävä tekijä. Muut tekijät ovat testisuureessa vain sen takia, että testisuure saadaan noudattamaan tunnettua jakaumaan H 0 hypoteesin ollessa tosi. Tässä tapauksessa tunnettu jakauma on F -jakauma. Kun testisuureen havaittu arvo F hav on laskettu aineistosta, testin havaittu p-arvo (merkitsevyystaso saadaan todennäköisyydestä p hav = P (F > F hav. (3.29 Jos testin riskitasoksi valitaan esimerkiksi α = 0.05, niin H 0 hypoteesi hylätään jos p hav < Muuten H 0 jää voimaan. Jos edellä tarkasteltu H 0 hypoteesi (3.27a hylätään tai tiedetään etukäteen, että selittävä muuttuja X 2 vaikuttaa myös selitettävän muuttujan Y odotusarvoihin, niin silloin voidaan vertailla päävaikutusmallin M X1 X 2 ja yhdysvaikutusmallin M X1 X 2 sopivuutta aineistoon. Selittävien muuttujien X 1 ja X 2 vaikutustapaa selitettävän muuttujan Y odotusarvoihin voidaan vertailla testaamalla hypoteeseja H 0 : Rakennemalli M X1 X 2 on voimassa, (3.30a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.30b

41 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 12 Yllä olevat hypoteesit vastaavat siis hypoteeseja H 0 : ω jh = 0, kaikille j = 1,..., k, h = 1,..., l mallissa M X1 X 2, (3.31a H 1 : ω jh 0, jollekin jh mallissa M X1 X 2. (3.31b Olkoon σ 2 M X1 X 2 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 X 2 ja olkoon σ 2 M X1 X 2 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 X 2. Tällöin testisuure ( σ 2 MX1 σ 2 X F = 2 M X1 X 2 σ M 2 X1 X 2 ( n fx1 X 2β f X1 X 2β f X1 X 2 β = ( σ 2MX1 σ 2MX1 X2 /(f X1 X 2β f X1 X 2 β, σ M 2 X1 /(n f X1 X X 2β 2 (3.32 noudattaa F -jakaumaa vapausastein df 1 = f X1 X 2β f X1 X 2 β ja df 2 = n f X1 X 2β kun H 0 hypoteesi on tosi. Kun testisuureen havaittu arvo F hav on laskettu aineistosta, testin havaittu p-arvo (merkitsevyystaso saadaan todennäköisyydestä p hav = P (F > F hav. (3.33 Jos testin riskitasoksi valitaan esimerkiksi α = 0.05, niin H 0 hypoteesi hylätään jos p hav < Muuten H 0 jää voimaan. Esimerkki 3.3. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta laskettuja estimoinnin tuloksia liittyen malliin M X1β, missä selittävänä muuttuja X 1 tabletin valmistaja, päävaikutusmalliin M X1 X 2, missä selittävinä muuttujina X 1 ja X 2 ovat tabletin valmistaja ja tableteille tehty käsittely, ja β yhdysvaikutusmalliin M X1 X 2β, selittävinä muuttujina X 1 ja X 2 ovat tabletin valmistaja ja tableteille tehty käsittely. > options(contrasts=c("contr.sas", "contr.poly" > malli1<-lm(y~x1 > summary(malli1 Call: lm(formula = y ~ x1 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** x1a e-05 *** x1b e-05 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared:

42 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 13 F-statistic: on 2 and 9 DF, > mallip<-lm(y~x1+x2 > summary(mallip Call: lm(formula = y ~ x1 + x2 p-value: 2.015e-05 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-11 *** x1a e-05 *** x1b e-05 *** x2hcl Signif. codes: 0 *** ** 0.01 * Residual standard error: on 8 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 3 and 8 DF, p-value: > malliy<-lm(y~x1+x2+x1:x2 > summary(malliy Call: lm(formula = y ~ x1 + x2 + x1:x2 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-09 *** x1a ** x1b ** x2hcl x1a:x2hcl x1b:x2hcl Signif. codes: 0 *** ** 0.01 * Residual standard error: on 6 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 5 and 6 DF, p-value: (a Testaa 5 % riskitasolla hypoteeseja H 0 : Rakennemalli M X1 on voimassa, H 1 : Rakennemalli M X1 X 2 on voimassa. (b Testaa 5 % riskitasolla hypoteeseja H 0 : Rakennemalli M X1 X 2 on voimassa, H 1 : Rakennemalli M X1 X 2 on voimassa.

43 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 14 R-ohjelmistossa päävaikutusmallin ja yhdysvaikutusmallin välinen testaus voidaan esittää alla olevan taulukon tyylisesti. Residual degrees Residual Sum Degrees Sum F p-value of freedom of squares of freedom of squares M X1 X 2 : n f X1 X 2 β SSE MX1 X 2 M X1 X 2 : n f X1 X 2β SSE MX1 X 2 f X1 X 2β f X1 X 2 β SSR MX1 X 2 M X1 X 2 F hav p hav Yllä olevassa taulukossa on voimassa seuraavat merkinnät: SSE MX1 X 2 = n σ 2 M X1 X 2, (3.34a SSE MX1 X 2 = n σ 2 M X1 X 2, (3.34b SSR MX1 X 2 M X1 X 2 = n( σ 2 M X1 X 2 σ 2 M X1 X 2, (3.34c F hav = SSR M X1 X 2 M X1 X 2 /(f X1 X 2β f X1 X 2 β, (3.34d SSE MX1 X 2 /(n f X1 X 2β p hav = P (F > F hav. (3.34e Saman tyylinen taulukko saadaan kun verrataan mitä tahansa (hierarkista kilpailevaa mallia. Esimerkki 3.4. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta laskettuja testauksen tuloksia liittyen päävaikutusmallin ja yhdysvaikutusmallin väliseen testaamiseen. > anova(mallip,malliy Analysis of Variance Table Model 1: y ~ x1 + x2 Model 2: y ~ x1 + x2 + x1:x2 Res.Df RSS Df Sum of Sq F Pr(>F Etsi SSE MX1 X 2 = SSE MX1 X 2 = SSR MX1 X 2 M X1 X 2 = F hav = p hav =

44 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Parittainen vertailu Mallin valinnan jälkeen kaksisuuntaisessa varianssianalyysissa voidaan tutkia, minkä osapopulaatioiden jh suhteen odotusarvot µ jh eroavat toisistaan. Toisin sanoen ollaan esimerkiksi kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ jh µ j h eroavat nollasta. Parittaista vertailua voidaan tehdä testaamalla eroaako erotukset nollasta, tai muodostamalla luottamusväliestimaatteja odotusarvoerotuksille µ jh µ j h ja tutkia, kuuluuko nolla muodostetulle luottamusvälille. Tarkastellaan seuraavaksi parittaisia µ jh µ j h vertailuja päävaikutusmallissa M X1 X 2 ja yhdysvaikutusmallissa M X1 X 2 hypoteesin testauksen avulla. Päävaikutusmallin M X1 X 2 tilanteessa erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h, (3.35 kun päävaikutusmalli parametrisoidaan rakennemallin M X1 X 2 mukaan. Täten osapopulaatioiden jh ja j h odotusarvojen erotukseen liittyviä β hypoteeseja H 0 : µ jh µ j h = 0, H 1 : µ jh µ j h 0, (3.36a (3.36b voidaan testata t-testisuureella t jh j h = ˆµ jh ˆµ j h Var(ˆµ jh ˆµ j h = ˆβ1j ˆβ 1j + ˆβ 2h ˆβ 2h Var( ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h, (3.37 joka yksittäisenä testisuureena noudattaa Studentin t-jakaumaa vapausastein df = n f X1 X kun H 2 β 0 hypoteesi on tosi. Yllä olevassa testisuureessa arvo ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h saadaan laskettua pienimmän neliösumman estimaattien avulla ja myös estimoitu varianssi Var( ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h on mahdollista muodostaa estimaattoreiden ominaisuuksien perusteella. Tällä kurssilla tyydytään ohjelmistojen tulostuksiin estimoidun varianssin suhteen. Mikäli parittaisia testauksia tehdään samanaikaisesti useille eri osapopulaatioiden erotuksille µ jh µ j h, saadaan myös useita yksittäisiä t jh j h testisuurearvoja ja siten useita yksittäisiä p-arvoja p jh j h = 2 P (t > t jh j h. Näille p jh j h arvoille voidaan tehdä esimerkiksi Bonferroni korjaukset yksisuuntaisen varianssianalyysin tavoin, mikäli halutaan, että usean samanaikaisen hypoteesin tilanteessa yksittäinen testi on merkitsevä α riskitasolla. Kaksisuuntaisen varianssianalyysin tapauksessa tarkasteltavia parittaisten erotuksin µ jh µ j h määrä kuitenkin kasvaa nopeasti, mikäli muuttujien X 1 ja X 2 luokkien määrä on huomattava. Esimerkiksi jos k = 3 ja l = 2, niin silloin voidaan muodostaa 15 erilaista erotusta µ jh µ j h. Mikäli samanaikaisten testausten lukumäärä on huomattava, konservatiivinen Bonferroni korjaus saattaa nopeasti muuttaa jokaisen tilastollisesti merkitsevän eron ei-merkitseväksi. Täten on usein syytä tarkastella Bonferronin korjausmenetelmän lisäksi muita menetelmiä, joilla yksittäisen testisuureen t jh j h tilastollista merkitsevyyttä arvioidaan. Yksi tällainen menetelmä on single-step -menetelmä, jossa kaikkien laskettujen yksittäisten testisuureiden t jh j h oletetaan noudattavan moniulotteista t-jakaumaa. Yksittäiseen testiin liittyvä p-arvo p jh j h saadaan muodostettua moniulotteisen t-jakaumaa ominaisuuksien avulla.

45 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 16 Esimerkki 3.5. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta parittaisia vertailuja päävaikutusmallin tilanteessa. > library(multcomp > k1<-c(0,1,0,0 > k2<-c(0,1,0,1 > k3<-c(0,0,1,0 > k4<-c(0,0,1,1 > k5<-c(0,0,0,1 > k6<-c(0,1,0,-1 > k7<-c(0,1,0,0 > k8<-c(0,0,1,-1 > k9<-c(0,0,1,0 > k10<-c(0,1,-1,0 > k11<-c(0,1,-1,1 > k12<-c(0,0,0,1 > k13<-c(0,1,-1,-1 > k14<-c(0,1,-1,0 > k15<-c(0,0,0,1 > K<-rbind(k1,k2,k3,k4,k5,k6,k7,k8,k9,k10,k11,k12,k13,k14,k15 > rownames(k<-c("a;hno3-c;hno3","a;hcl-c;hno3","b;hno3-c;hno3","b;hcl-c;hno3","c;hcl-c;hno3","a;hno3-c > parit<-glht(mallip, linfct = K,alternative = c("two.sided" > summary(parit,test = adjusted("bonf" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == *** A;HCL-C;HNO3 == ** B;HNO3-C;HNO3 == ** B;HCL-C;HNO3 == ** C;HCL-C;HNO3 == A;HNO3-C;HCL == ** A;HCL-C;HCL == *** B;HNO3-C;HCL == ** B;HCL-C;HCL == ** A;HNO3-B;HNO3 == A;HCL-B;HNO3 == B;HCL-B;HNO3 == A;HNO3-B;HCL == A;HCL-B;HCL == A;HCL-A;HNO3 == Signif. codes: 0 *** ** 0.01 * (Adjusted p values reported -- bonferroni method Mitkä pareista µ jh µ j h on Bonferroni korjausten jälkeen tilastollisesti eroavia?

46 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 17 > summary(parit,test = adjusted("single-step" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == *** A;HCL-C;HNO3 == *** B;HNO3-C;HNO3 == *** B;HCL-C;HNO3 == ** C;HCL-C;HNO3 == A;HNO3-C;HCL == ** A;HCL-C;HCL == *** B;HNO3-C;HCL == ** B;HCL-C;HCL == *** A;HNO3-B;HNO3 == A;HCL-B;HNO3 == B;HCL-B;HNO3 == A;HNO3-B;HCL == A;HCL-B;HCL == A;HCL-A;HNO3 == Signif. codes: 0 *** ** 0.01 * (Adjusted p values reported -- single-step method Mitkä pareista µ jh µ j h on single-step - menetelmän perusteella tilastollisesti eroavia? Yhdysvaikutusmallin M X1 X 2 tilanteessa erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h + β jh β j h. (3.38 kun yhdysvaikutusmalli parametrisoidaan rakennemallin M X1 X 2β mukaan. Täten osapopulaatioiden jh ja j h odotusarvojen erotukseen liittyviä hypoteeseja H 0 : µ jh µ j h = 0, H 1 : µ jh µ j h 0, (3.39a (3.39b voidaan testata t-testisuureella t jh j h = ˆµ jh ˆµ j h Var(ˆµ jh ˆµ j h = ˆβ1j ˆβ 1j + ˆβ 2h ˆβ 2h + ˆβ jh ˆβ j h Var( ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h + ˆβ jh ˆβ j h, (3.40 joka yksittäisenä testisuureena noudattaa Studentin t-jakaumaa vapausastein df = n f X1 X 2β kun H 0 hypoteesi on tosi. Mikäli parittaisia testauksia tehdään samanaikaisesti useille eri osapopulaatioiden erotuksille µ jh µ j h, saadaan myös useita yksittäisiä t jh j h testisuurearvoja. Yksittäisen testisuureen t jh j h tilastollista merkitsevyyttä voidaan jälleen arvioida esim. Bonferroni menetelmän tai single-step -menetelmä avulla.

47 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 18 Useat tilasto-ohjelmat saattavat oletusarvoisesti laskea erotusten µ jh µ j h estimaatit virheellisesti. Erityisesti yhdysvaikutusmallin tilanteessa näin saattaa tapahtua. Oikean estimaatin muodostaminen on lopulta kuitenkin tärkeämpää kuin oikean korjausmenetelmän valinta. Esimerkki 3.6. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta parittaisia vertailuja yhdysvaikutusmallin tilanteessa. > library(multcomp > k1<-c(0,1,0,0,0,0 > k2<-c(0,1,0,1,1,0 > k3<-c(0,0,1,0,0,0 > k4<-c(0,0,1,1,0,1 > k5<-c(0,0,0,1,0,0 > k6<-c(0,1,0,-1,0,0 > k7<-c(0,1,0,0,1,0 > k8<-c(0,0,1,-1,0,0 > k9<-c(0,0,1,0,0,1 > k10<-c(0,1,-1,0,0,0 > k11<-c(0,1,-1,1,1,0 > k12<-c(0,0,0,1,0,1 > k13<-c(0,1,-1,-1,0,-1 > k14<-c(0,1,-1,0,1,-1 > k15<-c(0,0,0,1,1,0 > K<-rbind(k1,k2,k3,k4,k5,k6,k7,k8,k9,k10,k11,k12,k13,k14,k15 > rownames(k<-c("a;hno3-c;hno3","a;hcl-c;hno3","b;hno3-c;hno3","b;hcl-c;hno3","c;hcl-c;hno3","a;hno3-c > parity<-glht(malliy, linfct = K,alternative = c("two.sided" > summary(parity,test = adjusted("bonf" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 + x1:x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == * A;HCL-C;HNO3 == * B;HNO3-C;HNO3 == B;HCL-C;HNO3 == * C;HCL-C;HNO3 == A;HNO3-C;HCL == ** A;HCL-C;HCL == ** B;HNO3-C;HCL == * B;HCL-C;HCL == ** A;HNO3-B;HNO3 == A;HCL-B;HNO3 == B;HCL-B;HNO3 == A;HNO3-B;HCL == A;HCL-B;HCL == A;HCL-A;HNO3 == Signif. codes: 0 *** ** 0.01 * (Adjusted p values reported -- bonferroni method Mitkä pareista µ jh µ j h on Bonferroni korjausten jälkeen tilastollisesti eroavia?

48 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 19 > summary(parity,test = adjusted("single-step" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 + x1:x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == * A;HCL-C;HNO3 == ** B;HNO3-C;HNO3 == * B;HCL-C;HNO3 == ** C;HCL-C;HNO3 == A;HNO3-C;HCL == ** A;HCL-C;HCL == ** B;HNO3-C;HCL == ** B;HCL-C;HCL == ** A;HNO3-B;HNO3 == A;HCL-B;HNO3 == B;HCL-B;HNO3 == A;HNO3-B;HCL == A;HCL-B;HCL == A;HCL-A;HNO3 == Signif. codes: 0 *** ** 0.01 * (Adjusted p values reported -- single-step method Mitkä pareista µ jh µ j h on single-step - menetelmän perusteella tilastollisesti eroavia?

49 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Koesuunnittelu kaksisuuntaisessa varianssianalyysissa Usein kaksisuuntainen varianssianalyyysi suoritetaan tilanteessa, missä tutkija on voinut täysin kontroloida, mitä selittävien muuttujien X 1 ja X 2 arvoja j ja h kukin käytössä oleva havaintoyksikkö i saa. Parhaimmassa tapauksessa kaksisuuntaisessa varianssianalyysissa havaittu aineisto muodostuu usean toiston faktorikokeiden tuloksena. Faktorikoetilanteessa selitettävästä muuttujasta Y havaitaan arvoja jokaisella selittävien muuttujien X 1 ja X 2 arvojen j ja h kombinaatioilla. Eli faktorikokeen tilanteessa koejärjesjestely on suoritettu niin, että jokaisesta osapopulaatiosta jh saadaan kerättyä selitettävän muuttujan Y arvoja y ijh. Parhaimmassa tapauksessa jokaisesta osapopulaatiosta on kerätty n jh kappaletta havaittuja arvoja y ijh eli faktorikoetta on toistettu n jh kertaa. Esimerkiksi tässä luentomonisteessa tarkasteltu monivitamiinitabletteihin liittyvä aineisto on syntynyt faktorikokeiden tuloksena, kun jokaisen monivitamiinivalmistajan tableteista kahden eri käsittelyn tilanteessa on mitattu rautapitoisuuden kahdesta eri tabletista. Faktorikokeessa satunnaistaminen tapahtuu siten, että havaintoyksiköt valikoidaan osapopulaatioihin jh satunnaisesti. Yleensä faktorikokeessa kannattaa pyrkiä toistamaan koetta saman n jh verran jokaisen osapopulaation jh tilanteessa. Jos n jh > 1 (kaikille j ja h, niin silloin saatuja havaintoja y ijh voidaan mallintaa yhdysvaikutusmallin M X1 X 2 : Y ijh = µ + γ j + τ h + ω jh + ε ijh. (3.41 avulla, tai jonkun sitä suppeamman mallin perusteella. Jos taas faktorikoetilanteessa n jh = 1 (kaikille j ja h, niin silloin saatuja havaintoja y ijh voidaan enintään mallintaa päävaikutusmallin M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh (3.42 avulla, tai jonkun sitä suppeamman mallin perusteella. Tämä siksi, että muuten ei olisi mahdollista estimoida varianssin σ 2 suuruutta. Aina ei ole mahdollista suorittaa usean toiston faktorikoetta. Esimerkiksi usein erilaisissa viljelyskokeissa havaintoalueena toimiva peltoalue on kooltaan rajallinen ja usein vieläpä lohkottainen niin, että eri lohkoilla kasvuolosuhteen ovat erilaiset. Tällaisissa tilanteissa peltoalue pitää ensiksi lohkoittaa olosuhteiltaan tasalaatuisiksi lohkoiksi. Tämän jälkeen lohkojen sisällä voidaan luoda pienempiä peltoalueita, jotka sitten muodostavat aineiston havaintoyksiköt. Yleisesti koejärjestelyä kutsutaan satunnaistetuksi lohkokokeeksi, jos jokaisen lohkon sisällä on käytettävissä vähintään yhtä paljon havaintoyksiköitä i kuin "käsittely" muuttujalla on erilaisia arvoja, ja jos nämä "käsittely" muuttujan arvot sijoitetaan satunnaisesti jokaisen lohkon sisällä käytettävissä oleviin havaintoihin. Jos merkitään X 1 :lla muuttujaa, joka kertoo mistä lohkosta havainto i on, ja varsinaiseen tutkimusongelmaan liittyvää "käsittely" muuttujaa X 2 :lla, niin silloin satunnaistetusta lohkokokeesta saatuja havaintoja y ijh voidaan mallintaa enintään päävaikutusmallin M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh (3.43

50 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 21 avulla. Tämä johtuu lähinnä siksi, että havintoyksiköiden rajallisuuden takia satunnaistetussa lohkokokeessa jokaisesta jh osapopulaatiosta on vain yksi havainto, eli indeksi i on tavallaan mallissa turha. Satunnaistetussa lohkokokeessa lohkon identioiva muuttuja X 1 on kiusatekijä, joka tulisi pitää mallissa mukana riippumatta siitä, onko muuttuja varsinaisesti tilastollisesti merkitsevä muuttuja. Täten yhden toiston satunnaistetun lohkokokeen tilanteessa "käsittely" muuttujan vaikutusta selitettävään muuttujaan Y voidaan tutkia testaamalla hypoteeseja H 0 : Rakennemalli M X1 on voimassa, (3.44a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.44b Esimerkki 3.7. Tutkimusongelmana on tutkia 8 eri kauralajikkeen satomääriä kun käytössä 5 tasalaatuista peltolohkoa, jonne eri lajikkeita voidaan kylvää. Kuinka muodostat satunnaistetun lohkokoejärjestelyn tässä tapauksessa?

51 Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A Lyhyesti lisää varianssianalyysistä 4.1 Monisuuntainen varianssianalyysi Varianssianalyysissä voi olla p kappaletta selittäviä muuttujia X 1, X 2,..., X p, joidenka arvot voivat vaikuttaa selitettävän muuttujan Y keskimääräisiin arvoihin. Tarkastellaan lyhyesti eri mallivaihtoehtoja kolmen selittävän muuttujan tilanteessa. Kolmisuuntaisessa varianssianalyysissa selitettävän muuttujan Y havaittujen arvojen voidaan katsoa muodostuvan kaikista mahdollisista yksisuuntaisista malleista, kaksisuuntaisista malleista tai M 0 mallista. Aikaisempien oletusten lisäksi oletetaan, että selittävä muuttuja X 3 voidaan saada r kappaletta erilaisia arvoja ja että indeksi q kuvaa näitä selittävän muuttujan X 3 eri tulosvaihtoehtoja. Tällöin havaittujen arvojen y ijhq voidaan ajatella muodostuvan kolmisuuntaisessa varianssianalyysissa kolmen muuttujan päävaikutusmallista M : Y ijhq = µ + γ j + τ h + θ q + ε ijhq. (4.1 Vastaavasti jos muuttujilla X 1, X 2, X 3 on parittaisia yhdysvaikutuksia selitettävän muuttujan Y arvoihin, niin silloin havaittujen arvojen y ijhq voidaan ajatella muodostuvan joistakin seuraavista malleista: M 12 3 : Y ijhq = µ + γ j + τ h + θ q + ω jh + ε ijhq, (4.2a M 13 2 : Y ijhq = µ + γ j + τ h + θ q + ψ jq + ε ijhq, (4.2b M 1 23 : Y ijhq = µ + γ j + τ h + θ q + ϑ hq + ε ijhq, (4.2c M : Y ijhq = µ + γ j + τ h + θ q + ω jh + ψ jq + ε ijhq, (4.2d M : Y ijhq = µ + γ j + τ h + θ q + ω jh + ϑ hq + ε ijhq, (4.2e M : Y ijhq = µ + γ j + τ h + θ q + ψ jq + ϑ hq + ε ijhq, (4.2f M : Y ijhq = µ + γ j + τ h + θ q + ω jh + ψ jq + ϑ hq + ε ijhq. (4.2g Lisäksi jos muuttujilla X 1, X 2, X 3 on kolmannen asteen yhdysvaikutusta selitettävän muuttujan Y arvoihin, niin silloin havaittujen arvojen y ijhq voidaan ajatella muodostuvan mallista M 123 : Y ijhq = µ + γ j + τ h + θ q + ω jh + ψ jq + ϑ hq + δ jhq + ε ijhq. (4.3 Tutkimusongelmana on tutkia, mikä malleista parhainten kuvaa havaittujen arvojen y ijhq muodostumista. Malleja voidaan vertailla testaamalla F -testin avulla, olisiko jokin H 0 hypoteesin mukainen rakennemalli voimassa verrattuna H 1 hypoteesin mukaiseen malliin. Yleisesti F -testisuure on muotoa F = ( σ 2 MH0 σ 2 M H1 σ 2 M H1 ( n fh1β f H1β f H0β, (4.4

52 kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo 2 missä alaindeksit H 0 ja H 1 kuvaavat, minkä hypoteesin mukaisen mallin mukaan arvot lasketaan. Yllä oleva testisuure siis noudattaa F -jakaumaa vapausastein df 1 = f H1β f H0β ja df 2 = n f H1β kun H 0 hypoteesi on tosi. Esimerkki 4.1. Yhdysvalloissa tutkimusryhmä tutki eroaako geenimuunnellun riisin taimenen (ANU843 kuivapaino ei-muunnellun riisin kuivapainosta. Erityisesti tutkimusryhmä tutki kuinka kemialliset käsittelyt (F10, NH4Cl ja NH4NO3 vaikuttavat riisin kuivapainoon geenimuunnellun ja ei-muunnellun tilanteensa. Lisäksi koeviljelmät tehtiin kahdelle eri peltolohkolle. Merkitään selittäviä muuttujia seuraavasti: X 1 = lohko, X 2 = lajike, X 3 = kasittely. Alla on osa tutkimuksen aineistosta ja estimointituloksia liittyen malleihin M 1 2 : Y ijhq = µ + γ j + τ h + ε ijhq, M : Y ijhq = µ + γ j + τ h + θ q + ε ijhq. kuivapaino lajike kasittely lohko wt F wt F wt F wt NH4Cl wt NH4Cl wt NH4Cl ANU843 F ANU843 F ANU843 F ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO3 2 > riisi<-read.table("riisi.txt", header=true, sep="\t", dec="." > mallih0<-lm(kuivapaino~lohko+lajike,data=riisi > summary(mallih0 Call: lm(formula = kuivapaino ~ lohko + lajike, data = riisi Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-05 *** lohko lajikewt e-06 *** --- Signif. codes: 0 *** ** 0.01 *

53 kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo 3 Residual standard error: on 69 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 69 DF, p-value: 2.414e-06 > mallih1<-lm(kuivapaino~lohko+lajike+kasittely,data=riisi > summary(mallih1 Call: lm(formula = kuivapaino ~ lohko + lajike + kasittely, data = riisi Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-06 *** lohko lajikewt e-07 *** kasittelynh4cl * kasittelynh4no Signif. codes: 0 *** ** 0.01 * Residual standard error: on 67 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 4 and 67 DF, p-value: 1.363e-06 Testaa 5 % riskitasolla hypoteeseja H 0 : Rakennemalli M 1 2 on voimassa, H 1 : Rakennemalli M on voimassa. Hyväksytäänkö vai hylätäänkö H 0 hypoteesi?

54 kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo Varianssianalyysin oletuksista Varianssianalyysi perustuu oletuksiin: 1. Havainnot Y i riippumattomia toisistaan. 2. Osapopulaatioden varianssit ovat samat. 3. Havainnot Y i noudattavat normaalijakaumaa. Yleensä ainakin koesuunnittelutilanteessa satunnaismuuttujat Y i ovat toisistaan riippumattomia. Havainnot saattavat kuitenkin olla riippuvaisia, jos osa havainnoista on kerätty esim. ajan tai paikan suhteen erilaisissa olosuhteissa. Tällöin varianssianalyysiin voidaan sisällyttää riippuvuutta kuvaavia satunnaisefektejä, jolloin rakennemallista tulee oikeamman muotoinen. Jos varianssianalyysin rakennemallissa on mukana satunnaisefektejä, mallia kutsutaan sekamalliksi. Sekamallit ovat laajuudeltaan niin suuri malliperhe, että niiden tarkasteluun tarvitaan oma kurssinsa. Varianssianalyysissa oletetaan siis, että virhetermien varianssi σ 2 on saman suuruinen jokaisessa tarkasteltavassa osapopulaatiossa. Tätä oletusta voidaan testata joissakin tilanteissa. Esimerkiksi yksisuuntaisen varianssianalyysin tapauksessa voidaan Bartlettin testillä testata hypoteeseja H 0 : σ 2 1 = σ 2 2 = = σ 2 k, H 1 : σ 2 1 σ 2 2 σ 2 k. Usein on kuitenkin ongelmallista päättää, että mitä pitäisi tehdä jos varianssien yhtäsuuruus ei ole voimassa. Estimoidut varianssit eri osapopulaatioissa saattavat olla eri tasolla, koska mallista saattaa puuttuu jokin merkittävä selittävä muuttuja X p. Täten varianssien tarkasteluun tulisi siirtyä vasta kun mallin odotusarvon rakenne on päätetty. Jos oikean rakennemallinkin tilanteessa varianssit eroavat osapopulaatioissa, voidaan yrittää mallintaa myös varianssin σ 2 rakennetta. Tällöin kuitenkin tuntemattomien parametrien estimoiminen ja hypoteesien testaaminen saattaa muuttua huomattavan paljon vaikeammaksi. Havaintojen normaalijakautuneisuutta voidaan testata esimerkiksi Shapiro-Wilks testin avulla. Normaalisuuden testaamiseen palataan regressioanalyysi osiossa. Vaikka havainnot havainnot Y i eivät olisi normaalistijakautuneita, aina voidaan laskea esimerkiksi testisuureen ( σ 2 MH0 σ 2 ( M H1 n fh1β F = σ M 2 (4.5 H1 f H1β f H0β havaittu arvo. Poikkeavuus normaalijakaumasta vaikuttaa kuitenkin havaitun p-arvon määrittämiseen. Eli jos havainnot Y i eivät noudata normaalijakaumaa, niin silloin ei myöskään F -testisuure välttämättä noudata F -jakaumaa kun H 0 hypoteesi on tosi. Mikäli kuitenkin otoskoot esim. jokaisen osapopulaation kohdalta ovat suurempia kuin 30, niin F -testisuureen jakauma noudattaa likimain F -jakaumaa, vaikka havainnot sinällään ei noudattaisivatkaan normaalijakaumaa. Ei-normaalisti jakautuneessa tilanteessa lopullinen päättely voidaan perustaa myös joko permutaatiotestaukseen tai sitten

55 kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo 5 epäparametrisiin menetelmiin. Esimerkiksi yksisuuntaisen varianssianalyysin tilanteessa voidaan odotusarvojen yhtäsuuruutta testata epäparametrisen KruskalWallis testin avulla ja satunnaistetun lohkokokeen tilanteessa käsittely muuttujan vaikutusta voidaan testata Friedmanin testin avulla.

56 Tilastollisia malleja 1: Regressio ja korrelaatiomallit Y131A & Y131B Jarkko Isotalo 1 Johdatus regressioanalyysiin 1.1 Milloin lineaarista regressioanalyysiä käytetään? Lineaarinen regressioanalyysi on tilastotieteellinen menetelmä, jonka avulla voidaan tutkia kerätyn aineiston pohjalta, vaikuttaako numeerisen selittävän muuttujan arvo numeerisen selitettävän muuttujan keskimääräisiin arvoihin. Regressioanalyysissä selittäviä muuttujia voi olla yksi tai useampia, joidenka vaikutusta yhden selitettävän muuttujan keskimääräisiin arvoihin analyysissä tarkastellaan. Merkitään selitettävää muuttujaa Y :llä. Regressioanalyysissä voi olla p kappaletta selittäviä muuttujia X 1, X 2,..., X p, joidenka arvot voivat vaikuttaa muuttujan Y keskimääräisiin arvoihin. Selittävät muuttujat X 1, X 2,..., X p ovat lähtökohtaisesti suhde- tai intervalliasteikollisia muuttujia, eli jokainen muuttuja X 1, X 2,..., X p voi saada arvokseen numeerisia arvoa. Lineaarisessa regressioanalyysissä selittävien muuttujien X 1, X 2,..., X p arvot voivat olla kontroloitavissa eli tutkija itse voi määritellä tutkimusasetelmansa mukaan, mitä arvoja selittävät muuttujat X 1, X 2,..., X p täsmällisesti saavat. Tässä tilanteessa selittävät muuttujat X 1, X 2,..., X p ovat luonteelta ei-satunnaisia muuttujia. Käytännössä kuitenkin regressioanalyysiä käytetään useimmin tilanteessa, missä selittäviä muuttujien X 1, X 2,..., X p arvoja havaitaan ilman, että ne ovat tutkijan itsensä kontroloitavissa. Tällöin usein selittävienkin muuttujien X 1, X 2,..., X p voidaan katsoa olevan satunnaisia. Kummassakin tilanteessa regressioanalyysissä tutkitaan vaihtelevatko selitettävän muuttujan Y keskimääräiset arvot selittävien muuttujien X 1, X 2,..., X p arvojen vaikutuksesta. Selitettävä muuttuja Y (vastemuuttuja on regressioanalyysissä aina satunnainen eli sen arvot voivat riippua selittävien muuttujien X 1, X 2,..., X p arvojen lisäksi satunnaisesti myös muista mittaamattomista tekijöistä ja satunnaisvirheistä. Selitettävä muuttuja Y ei ole tutkijan kontroloitavissa vaan on satunnaismuuttuja, jolla on oma todennäköisyysjakaumansa. Klassisesti regressioanalyysissä oletetaan, että Y on numeerinen jatkuva muuttuja mittaustarkkuus pois lukien. Lisäksi yleensä oletetaan, että Y noudattaa myös normaalijakaumaa. Alla on esitetty esimerkkejä tutkimustilanteissa, missä regressioanalyysiä voidaan käyttää tutkimusongelman ratkaisemisessa hyväksi.

57 kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 2 Esimerkki 1.1. Tutkimuksessa 1 haluttiin selvittää, minkälaisen painauman (mm nurmikkojyrän paino (kg aiheuttaa tietyn tyyppiselle nurmikkoalueelle. Alla on esitetty tutkimuksen aineisto. > nurmikkojyra<-read.table ("nurmikkoroller.txt",sep="\t", dec=".",header=true > nurmikkojyra paino painauma Mikä on tässä tutkimuksessa selittävä muuttuja X ja selitettävä muuttuja Y? Mikä on tässä tutkimuksessa havaintoyksikkö? Onko selittävä muuttuja X tässä tutkimuksessa kontroloitavissa vai ei? Selittävä muuttuja X on nurmikköjyrän paino. Selitettävä muuttuja Y on painauma. Havaintoyksikkö on yksittäinen nurmikkoalue, josta jyrällä on yli ajettu ja painauma mitattu. Nyt voidaan ajatella, että selittävä muuttuja X on kontroloitavissa. Esimerkki 1.2. Tutkimusryhmä halusi tutkia, kuinka ulkoiset mitat ennustavat ihmisen rasvaprosenttia. Ryhmä mittasi 252 mieheltä rasvaprosentit ( brozek ja siri muuttujat ja heidän ulkoisia mittoja. brozek siri density age weight height adipos free neck chest abdom hip thigh knee ankle biceps forearm wrist brozek - Percent body fat using Brozek's equation, 457/Density siri - Percent body fat using Siri's equation, 495/Density density - Density (gm/$cm^3$ age - Age (yrs weight - Weight (lbs height - Height (inches adipos - Adiposity index = Weight/Height$^2$ (kg/$m^2$ free - Fat Free Weight = (1 - fraction of body fat * Weight, using Brozek's formula (lbs neck - Neck circumference (cm chest - Chest circumference (cm abdom - Abdomen circumference (cm at the umbilicus and level with the iliac crest hip - Hip circumference (cm thigh - Thigh circumference (cm knee - Knee circumference (cm ankle - Ankle circumference (cm biceps - Extended biceps circumference (cm forearm - Forearm circumference (cm wrist - Wrist circumference (cm distal to the styloid processes 1 Stewart, K.M., Van Toor, R.F., Crosbie, S.F Control of grass grub (Coleoptera: Scarabaeidae with rollers of dierent design. N.Z. Journal of Experimental Agriculture 16:

Näytä lisää