1 Johdatus varianssianalyysiin

Koko: px
Aloita esitys sivulta:

Download "1 Johdatus varianssianalyysiin"

Transkriptio

1 Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A Johdatus varianssianalyysiin 1.1 Milloin varianssianalyysiä käytetään? Varianssianalyysi on tilastotieteellinen menetelmä, jonka avulla voidaan tutkia kerätyn aineiston pohjalta, vaikuttaako luokittelu- tai järjestysasteikolla määritellyn selittävän muuttujan arvo numeerisen selitettävän muuttujan keskimääräisiin arvoihin. Varianssianalyysissä selittäviä muuttujia voi olla yksi tai useampia, joidenka vaikutusta yhden selitettävän muuttujan keskimääräisiin arvoihin analyysissä tarkastellaan. Merkitään selitettävää muuttujaa Y :llä. Varianssianalyysissä voi olla p kappaletta selittäviä muuttujia X 1, X 2,..., X p, joidenka arvot voivat vaikuttaa muuttujan Y keskimääräisiin arvoihin. Selittävät muuttujat X 1, X 2,..., X p ovat luonteeltaan luokittelutai järjestysasteikollisia, eli jokainen muuttuja X 1, X 2,..., X p voi saada arvokseen kahta tai useampaa eri arvoa. Varianssianalyysissä selittävien muuttujien X 1, X 2,..., X p oletetaan olevan lähtökohtaisesti kontroloitavissa eli tutkija itse voi määritellä tutkimusasetelmansa mukaan, mitä arvoja selittävät muuttujat X 1, X 2,..., X p täsmällisesti saavat. Selittäviä muuttujia X 1, X 2,..., X p kutsutaan myös faktoreiksi (tekijöiksi, jotka asetettavien arvojensa (arvoja kutsutaan usein luokiksi tai käsittelyiksi perusteella jakavat alkuperäisen populaation pienempiin osapopulaatiohin. Varianssianalyysissä täten tutkitaan vaihtelevatko selitettävän muuttujan Y keskimääräiset arvot selittävien muuttujien X 1, X 2,..., X p luokkien määrittämissä osapopulaatioissa. Selitettävä muuttuja Y (vastemuuttuja on varianssianalyysissä satunnainen eli sen arvot voivat riippua selittävien muuttujien X 1, X 2,..., X p arvojen lisäksi satunnaisesti myös muista mittaamattomista tekijöistä ja satunnaisvirheistä. Selitettävä muuttuja Y ei ole tutkijan kontroloitavissa vaan on satunnaismuuttuja, jolla on oma todennäköisyysjakaumansa. Klassisesti varianssianalyysissä oletetaan, että Y on numeerinen jatkuva muuttuja mittaustarkkuus pois lukien. Lisäksi yleensä oletetaan, että Y noudattaa myös normaalijakaumaa. Alla on esitetty esimerkkejä tutkimustilanteissa, missä varianssianalyysiä voidaan käyttää tutkimusongelman ratkaisemisessa hyväksi. Esimerkki 1.1. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Tutkimusryhmä mittasi jokaisen valmistajan neljästä eri tabletista rautapitoisuudet ja sai seuraavan aineiston: Tabletti A Tabletti B Tabletti C

2 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 2 Mikä on tässä tutkimuksessa selittävä muuttuja X? Mitä arvoja se voi saada? Entä mitä arvoja selitettävä muuttuja Y saa? Mikä on tässä tutkimuksessa havaintoyksikkö? Esimerkki 1.2. Yhdysvalloissa tutkimusryhmä tutki eroaako geenimuunnellun riisin taimenen (ANU843 kuivapaino ei-muunnellun riisin kuivapainosta. Erityisesti tutkimusryhmä tutki kuinka kemialliset käsittelyt (F10, NH4Cl ja NH4NO3 vaikuttavat riisin kuivapainoon geenimuunnellun ja ei-muunnellun tilanteensa. Lisäksi koeviljelmät tehtiin kahdelle eri peltolohkolle. Alla on osa tutkimuksen aineistosta. kuivapaino lajike kasittely lohko wt F wt F wt F wt NH4Cl wt NH4Cl wt NH4Cl ANU843 F ANU843 F ANU843 F ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO3 2 Mitkä muuttujat ovat tässä tutkimuksessa selittäviä muuttujia X 1, X 2,..., X p? Mitä arvoja ne voi saada? Entä minkälaisia arvoja selitettävä muuttuja Y saa? Mikä on tässä tutkimuksessa havaintoyksikkö? Varianssianalyysissä pyritään selvittämään vaihtelevatko selitettävän muuttujan Y osapopulaatiokeskiarvot selittävien muuttujien X 1, X 2,..., X p arvojen määrittämien osapopulaatioiden kesken. Koska osapopulaatiokeskiarvot vastaavat satunnaismuuttujan Y odotusarvoja määritellyissä osapopulaatiossa, varianssianalyysissä arvioidaan vaihtelisivatko satunnaismuuttujan Y tuntemattomat odotusarvot selittävien muuttujien X 1, X 2,..., X p arvojen perusteella. Täten nimi varianssianalyysi voi olla hieman harhaanjohtava. Perinteisessä varianssianalyysissä ei tutkita vaihtuuko selitettävän muuttujan hajonta selittävien muuttujien arvojen perusteella, vaan varianssianalyysissä nimenomaan tarkastellaan odotusarvojen mahdollista muutosta. 1.2 Normaalijakauma ja normaalijakauman muunnokset Varianssianalyysissä selitettävän satunnaismuuttujan Y oletetaan usein noudattavan normaalijakaumaa. Normaalijakauma on tilastotieteessä eniten käytetty todennäköisyysjakauma. Tässä luvussa kerrataan yleisesti normaalijakauman perusominaisuudet ja normaalijakaumasta johdettavissa olevien χ 2, t ja F -jakaumien perusteet.

3 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 3 Satunnaismuuttuja Y :n sanotaan noudattavan normaalijakaumaa Y N(µ, σ 2, jos Y :n tiheysfunktio f Y (y on muotoa f Y (y = 1 1 (y µ 2 2πσ 2 e 2 σ 2. (1.1 Voidaan osoittaa, että normaalijakauman tilanteessa satunnaismuuttuja Y :n odotusarvo E(Y on muotoa E(Y = ja varianssi Var(Y on muotoa Var(Y = y f Y (ydy = (y E(Y 2 f Y (ydy = y 1 1 (y µ 2 2πσ 2 e 2 σ 2 dy = µ, (1.2 (y µ (y µ 2 2πσ 2 e 2 σ 2 dy = σ 2. (1.3 Täten siis jos odotusarvoon ja varianssiin liittyvien parametrien µ ja σ 2 arvot ovat tiedossa, satunnaismuuttujaan Y liittyvät todennäköisyysväittämät voidaan täysin laskea. Tosin normaalijakauman kertymäfunktiolla P (Y y = F Y (y = y f Y (tdt, (1.4 ei varsinaisesti ole suljetun muodon ratkaisua, mutta numeerisilla menetelmillä todennäköisyyksille P (Y y (kertymäfunktiolle F Y (y saadaan laskettua hyvin tarkat arviot. Normaalijakaumalla on tärkeä lineaarinen ominaisuus, eli jos Y N(µ, σ 2, niin silloin lineaarinen muunnos X = ay + b (1.5 noudattaa normaalijakaumaa X N(aµ + b, a 2 σ 2, missä a ja b ovat joi333tain tunnettuja vakioita. Erityisesti jos satunnaismuuttujalle Y N(µ, σ 2 tehdään muunnos Z = 1 σ Y µ σ = Y µ, (1.6 σ niin silloin satunnaismuuttuja Z noudattaa normaalijakaumaa Z N(0, 1. Normaalijakaumaa Z N(0, 1 kutsutaan standardoiduksi normaalijakaumaksi. Lineaarisen muunnosominaisuuden takia mikä tahansa satunnaismuuttujaan Y N(µ, σ 2 liittyvä todennäköisyysväittämä P (y 1 Y y 2 voidaan laskea standardoidun satunnaismuuttujan Z N(0, 1 avulla, koska ( y1 µ P (y 1 Y y 2 = P Y µ y 2 µ σ σ σ ( y1 µ = P Z y 2 µ σ = F Z ( y2 µ σ σ F Z ( y1 µ σ. (1.7 Todennäköisyysväittämien laskemisesta helpottaa myös ominaisuus, että normaalijakauma on symmetrinen jakauma odotusarvon suhteen. Eli esim. satunnaismuuttujalle

4 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 4 Z N(0, 1 on täten voimassa esimerkiksi seuraavat todennäköisyydet P (Z < 1.96 = P (Z > 1.96 = Varianssianalyysissä yleensä on käytettävissä aineiston keräämisen jälkeen n kappaletta havaintoja muuttujasta Y. Muuttujan Y havaittuja arvoja merkitään pikku y:llä: y 1, y 2,..., y n. Nyt voidaan ajatella, että havaitut arvot y 1, y 2,..., y n ovat realisaatioita satunnaismuuttujista Y 1, Y 2,..., Y n, joista jokaisen satunnaismuuttujan Y i, i = 1, 2,..., n, oletetaan noudattavan normaalijakaumaa Y i N(µ i, σ 2. Varianssianalyysissä oletetaan, että havaintoyksikön i odotusarvo E(Y i = µ i riippuu mahdollisesti selittävien muuttujien X 1, X 2,..., X p asetetuista arvoista x i1, x i2,..., x ip, eli µ i = µ(x i1, x i2,..., x ip. Toisaalta satunnaismuuttujien Y i varianssien Var(Y i oletetaan olevan varianssianalyysissä riippumattomia selittävistä muuttujista ja siten saman suuruisia kaikille havainnoille i, eli Var(Y i = σ 2. Varianssianalyysissä parametrit µ i ja σ 2 ovat kuitenkin tuntemattomia, joidenka arvoja pyritään arvioimaan eli estimoimaan kerätyn aineiston perusteella. Varianssianalyysissä jokaisen havainnon i oletetaan yleensä olevan riippumaton toisista havainnoista. Täten havaittujen realisaatioiden y 1, y 2,..., y n taustalla olevien satunnaismuuttujien Y 1, Y 2,..., Y n oletetaan olevan toisistaan riippumattomia. Koska normaalisti jakautuneiden satunnaismuuttujien lineaariset muunnokset ovat normaalisti jakautuneita, riippumattomille satunnaismuuttujille Y 1, Y 2,..., Y n tehty lineaarinen muutos W = a 1 Y 1 + b 1 + a 2 Y 2 + b a n Y n + b n, a 1,..., a n ja b 1,..., b n vakioita, (1.8 noudattaa normaalijakaumaa W N(µ W, σw 2, missä µ W = a 1 µ 1 + b 1 + a 2 µ 2 + b a n µ n + b n, (1.9 σ 2 W = a 2 1σ 2 + a 2 2σ a 2 nσ 2. (1.10 Esimerkki 1.3. (a Oletetaan, että satunnaismuuttuja Y noudattaa normaalijakaumaa Y N(2, 4. Laske todennäköisyys P ( 1 Y 3. (b Oletetaan, että satunnaismuuttujat Y 1, Y 2 noudattavat normaalijakaumaa N(2, 4 ja satunnaismuuttujat Y 3, Y 4 normaalijakaumaa N(4, 1. Jos lisäksi oletetaan, että Y 1, Y 2, Y 3, Y 4 ovat toisistaan riippumattomia, niin mitä jakaumaa satunnaismuuttuja noudattaa? W = Y 1 + Y 2 2 Y 3 + Y 4 2 Normaalisti jakautuneiden satunnaismuuttujien erilaisilla muunnoksilla voidaan muodostaa uusia hyödyllisiä satunnaismuuttujia ja jakaumia. Varianssianalyysin kannalta hyödyllisiä muunnosjakaumia ovat χ 2, t ja F -jakaumat. Jos satunnaismuuttujat Z 1, Z 2,..., Z m noudattavat jokainen standardoitua normaalijakaumaa Z i N(0, 1 ja ovat toisistaan riippumattomia, niin silloin satunnaismuuttujan Q = Z Z Z 2 m (1.11

5 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 5 sanotaan noudattavan χ 2 -jakaumaa vapausastein (engl. degrees of freedom df = m, eli Q χ 2 m. Lisäksi jos Z N(0, 1 ja Z riippumaton satunnaismuuttujista Z 1, Z 2,..., Z m, niin silloin suhde t = Z Q m (1.12 noudattaa Studentin t-jakaumaa vapausastein df = m. Studentin t-jakauma on ominaisuuksiltaan lähellä standardoitua normaalijakaumaa. Itse asiassa kun vapausasteet m > 50, niin Studentin t-jakaumalla ja standardoidulla normaalijakaumalla on käytännössä enää hyvin vähän eroa. Hypoteesien testauksen suhteen F -jakauma on puolestaan varianssianalyysissä tärkein jakauma. Jos satunnaismuuttujat Q 1 ja Q 2 ovat toisistaan riippumattomia ja noudattavat χ 2 -jakaumia Q 1 χ 2 m 1 ja Q 2 χ 2 m 2, niin silloin suhde F = Q 1 m 1 Q 2 m 2 (1.13 noudattaa F -jakaumaa vapausastein df 1 = m 1 ja df 2 = m 2. Kun Studentin t-jakaumaa df = m noudattava satunnaismuuttuja korotetaan toiseen, niin silloin muunnos t 2 t 2 = Z Q m 2 (1.14 itse asiassa noudattaa F -jakaumaa vapausastein df 1 = 1, df 2 = m. F -jakauma saa aina arvoja, jotka ovat suurempi tai yhtä suuri kuin nolla. Eri vapausastein jakauman muoto vaihtelee. Seuraavassa on piirretty F -jakauman tiheysfunktion kuvaajia eri vapausasteilla. Kun F -jakaumaa käytetään hyväksi hypoteesin testauksessa päättelyn tekemiseen, yleensä kiinnostuksen kohteena on löytää sellainen luku F, jolle on voimassa todennäköisyys P (F df1,df2 F = α, missä α on testin valittu riskitaso esim. α = Täten siis F - jakauman tilanteessa kiinnostuksen kohteena on usein tietää, minkälaisia todennäköisyyksiä jakauman oikea häntäosuus saa df1=2,df2=30 df1=6,df2= x

6 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 6 Esimerkki 1.4. (a Oletetaan, että satunnaismuuttuja t noudattaa Studentin t-jakaumaa vapausastein df = 2. Arvioi, mitä on todennäköisyys P (t 2. (b Oletetaan, että satunnaismuuttuja F noudattaa F -jakaumaa vapausastein df 1 = 3, df 2 = 12. Arvioi, mikä on sellainen luku F, että voimassa P (F F = Parametrien estimoiminen Varianssianalyysissä havaittujen selitettävän muuttujan arvojen y 1, y 2,..., y n oletetaan siis olevan realisaatioita satunnaismuuttujista Y 1, Y 2,..., Y n, joista jokaisen satunnaismuuttujan Y i, i = 1, 2,..., n, oletetaan puolestaan noudattavan normaalijakaumaa Y i N(µ i, σ 2. Toisaalta parametrit µ i ja σ 2 ovat tuntemattomia, joidenka arvoja pyritään arvioimaan eli estimoimaan havaittujen arvojen y 1, y 2,..., y n perusteella. Jotta havaittujen arvojen perusteella voitaisiin muodostaa arvioita parametreistä µ i ja σ 2, tarvitaan jokin kriteeri, jonka perusteella parametrien estimaatit muodostetaan. Odotusarvojen estimoimiseen voidaan käyttää pienimmän neliösumman menetelmää. Tarkastellaan tässä luvussa pienemmän neliösumman estimointimenetelmää tilanteessa, missä satunnaismuuttujien Y 1, Y 2,..., Y n oletetaan noudattavan normaalijakaumaa N(µ, σ 2. Nyt siis jokaisen Y i :n odotusarvon oletetaan olevan sama tuntematon µ, jonka arvoa estimoidaan havaintojen y 1, y 2,..., y n avulla. Varianssianalyysissä tämä vastaa oikeastaan tilannetta, missä selittävillä muuttujilla X 1, X 2,..., X p ei olisi vaikusta odotusarvoihin µ i tai vaihtoehtoisesti, että havainnot i olisi valittu vain jostain selittävien muuttujien luokkien määrittämästä yhdestä osapopulaatiosta. Seuraavissa luvuissa tarkastellaan sitten tarkemmin odotusarvojen estimoimista pienimmän neliösumman menetelmän perusteella yleisemmissä tilanteissa. Odotusarvon µ pienimmän neliösumman estimaatti ˆµ on ratkaisu seuraavaan minimointiongelmaan: arg min µ n (y i µ 2. (1.15 i=1 Eli siis piste-estimaatti ˆµ on se arvo, joka µ:n suhteen minimoi estimointi kriteerinä käytettävän neliösumman n i=1 (y i µ 2. Voidaan osoittaa, että havaintojen otoskeskiarvo ȳ on itse asiassa odotusarvon µ pienimmän neliösumman estimaatti ˆµ = ȳ. Pienimmän neliösumman estimaatti ˆµ johdetaan havaittujen arvojen y 1, y 2,..., y n avulla. Sen jälkeen kun estimaatiksi on saatu johdettua otoskeskiarvo ˆµ = ȳ = y i n i=1, voidaan alkaa miettiä, minkälaisen arvon piste-estimaatti ˆµ olisi saanut, jos havaituksi ar- n voiksi olisikin saatu jotkut toiset realisaatiot y 1, y 2,..., y n. Jatkamalla ajatusta siitä, että havaituiksi realisaatioiksi oltaisiin voitu saada mikä tahansa satunnaismuuttujien

7 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 7 Y 1, Y 2,..., Y n realisaatio, niin merkintää ˆµ voidaan käyttää kuvaamaan myös satunnaismuuttujista Y 1, Y 2,..., Y n riippuvaa satunnaismuuttujaa ˆµ = Ȳ = n i=1 Y i n = Y 1 + Y Y n. (1.16 n Kun merkintää ˆµ kohdellaan satunnaismuuttujana, kutsutaan sitä odotusarvon µ pienimmän neliösumman piste-estimaattoriksi. Vastaavasti kun ˆµ:n arvo lasketaan havaittujen arvojen y 1, y 2,..., y n perusteella, kutsutaan sitä odotusarvon µ pienimmän neliösumman piste-estimaatiksi. Piste-estimaattorin ominaisuudessa ˆµ = Ȳ on siis itsessään satunnaismuuttuja ja normaalijakauman ominaisuuksien takia ˆµ noudattaa myös normaalijakaumaa ˆµ N (µ, σ2. (1.17 n Täten E(ˆµ = µ eli ˆµ = Ȳ on odotusarvon µ harhaton estimaattori. Harhattomuuden lisäksi pienimmän neliösumman estimaattorilla ˆµ on muitakin hyviä ominaisuuksia. Yksi tärkeimmistä ominaisuuksista on se, että pienimmän neliösumman estimaattori ˆµ on myös suurimman uskottavuuden estimaattori normaalijakauman tilanteessa. Suurimman uskottavuuden estimaatit (engl. maximum likelihood estimates saadaan muodostettua logaritmoidun uskottavuusfunktion maksimoinnin perusteella. Normaalijakauman tilanteessa satunnaismuuttujien Y i logaritmoitu uskottavuusfunktio l(µ, σ 2 = log(l(µ, σ 2 on muotoa ( n n l(µ, σ 2 = log(l(µ, σ 2 = log f Yi (y i = log (f Yi (y i = n log i=1 ( 1 2πσ i=1 n ( (yi µ 2. (1.18 i=1 σ 2 Suurimman uskottavuuden menetelmällä voidaan siis samanaikaisesti muodostaa estimaatit molemmille tuntemattomille parametreille µ ja σ 2. Parametrien µ ja σ 2 suurimman uskottavuuden estimaatit µ ja σ 2 ovat ratkaisuja yhtä aikaiseen maksimointiongelmaan n ( (yi µ 2 arg max l(µ, σ2 = arg max µ,σ 2 µ,σ 2 ( 1 n log 1 2πσ 2 2 i=1 σ 2. (1.19 Kaavasta (1.19 on suhteellisen helppo huomata, että odotusarvon suurimman uskottavuuden estimaatti µ on se arvo, joka minimoi neliösumman n i=1 (y i µ 2 µ:n suhteen. Eli odotusarvon µ suurimman uskottavuuden estimaatti on sama kuin edellä tarkasteltu pienimmän neliösumman estimaatti µ = ˆµ = ȳ. Lisäksi voidaan osoittaa, että varianssin σ 2 suurimman uskottavuuden estimaatti σ 2 on muotoa σ 2 = n i=1 (y i µ 2 n = n i=1 (y i ȳ 2. (1.20 n

8 kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 8 Kun estimaatin σ 2 kaavassa realisaatiot y i korvataan satunnaismuuttujilla Y i, varianssin σ 2 suurimman uskottavuuden estimaattori on muotoa σ 2 = n i=1 (Y i Ȳ 2. (1.21 n Varianssianalyysissä klassisesti oletetaan siis, että satunnaismuuttujien Y i varianssit Var(Y i ovat saman suuruisia kaikille havainnoille i, eli Var(Y i = σ 2. Parametrin σ 2 estimaattorina voidaan käyttää yllä tarkasteltua suurimman uskottavuuden estimaattoria σ 2. Suurimman uskottavuuden estimaattori σ 2 ei kuitenkaan ole varianssin σ 2 harhaton estimaattori, koska E( σ 2 = (n 1σ2. Täten, erityisesti pienillä otoksilla, varianssin n σ 2 estimaattorina voidaan käyttää otosvarianssia ˆσ 2 = s 2 = n i=1 (Y i Ȳ 2, (1.22 n 1 joka on varianssin σ 2 harhaton estimaattori. Piste-estimaatti ˆσ 2 on täten havaituista arvoista laskettu otosvarianssi s 2 = n i=1 (y i ȳ 2 n 1. Esimerkki 1.5. Leipomo toimittaa kauppiaalle päivittäin limppuja. Kauppias punnitsi 6 päivän aikana kunakin päivänä satunnaisesti valitseman limpun ja sai limppujen painoiksi (grammoina alla olevat arvot: 803, 790, 815, 770, 810, 800. Oletetaan, että satunnaisesti valitun limpun paino noudattaa normaalijakaumaa N(µ, σ 2. Muodosta aineiston perusteella sopivat piste-estimaatit limppujen painon odotusarvolle µ ja varianssille σ 2. Muodosta aineiston perusteella 95 % luottamusväliestimaatti limppujen painon odotusarvolle µ.

9 Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A Yksisuuntainen varianssianalyysi 2.1 Tutkimusasetelma ja -hypoteesit Yksisuuntaisessa varianssianalyysissa tarkastellaan yhden luokittelu- tai järjestysasteikollisen selittävän muuttujan X vaikutusta selitettävän muuttujan Y populaatiokeskiarvoihin. Selittävän muuttujan X voidaan olettaa saavan k kappaletta erilaisia arvoja x j, (j = 1, 2,..., k. Koodataan selittävän muuttujan X saamat arvot x j numeroiksi x 1 = 1, x 2 = 2,..., x k = k. Selittävän muuttujan X perusteella kokonaispopulaatio voidaan täten jakaa arvojen x 1 = 1, x 2 = 2,..., x k = k perusteella k:n eri osapopulaatioon. Yksisuuntaisessa varianssianalyysissa jokaisesta osapopulaatiosta j = 1, 2,..., k poimitaan satunnaisesti n j havaintoyksikköä, joista sitten mitataan selitettävän muuttujan Y toteutunut arvo. Täten selitettävän muuttujan Y havaittuja arvoja voidaan merkitä seuraavasti: y ij =muuttujan Y i:nes havaittu arvo osapopulaatiosta j, kun i = 1, 2,..., n j, j = 1, 2,..., k. Havaittu aineisto siten muodostuu selitettävän muuttujan arvoista X = 1 : y 11, y 21,..., y n1 1, X = 2 : y 12, y 22,..., y n2 2,. X = k : y 1k, y 2k,..., y nk k. Aineiston havaittujen arvojen y ij voidaan ajatella nyt olevan realisaatioita satunnaismuuttujista Y ij. Yksisuuntaisessa varianssianalyysissa aineiston takana olevista satunnaismuuttujista Y ij tehdään klassisesti seuraavat oletukset: 1. satunnaismuuttujat Y ij noudattavat normaalijakaumia Y ij N(µ j, σ satunnaismuuttujat Y ij ovat toisistaan riippumattomia kaikilla i = 1, 2,..., n j ja j = 1, 2,..., k. Yksisuuntaisessa varianssianalyysissa oletetaan siis, että selitettävän muuttujan Y odotusarvot ovat erisuuria osapopulaatioissa j, mutta populaatiovarianssi σ 2 on sama jokaisessa osapopulaatiossa j. Parametrit µ 1, µ 2,..., µ k ja σ 2 ovat tuntemattomia, joita yksisuuntaisessa varianssianalyysissa estimoidaan havaittujen arvojen y ij avulla.

10 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 2 Päätutkimusongelmana yksisuuntaisessa varianssianalyysissa on testata, onko osapopulaatioiden odotusarvot µ j samoja jokaisen osapopulaation j tapauksessa. Yksisuuntaisessa varianssianalyysissa hypoteesit ovat muotoa H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k. (2.1a (2.1b Jos H 0 hypoteesi hyväksytään, selittävän muuttujan X ei katsota vaikuttavan selitettävän muuttujan Y populaatiokeskiarvoihin. Jos taas H 0 hypoteesi hylätään, selittävällä muuttujalla X katsotaan olevan vaikutusta selitettävän muuttujan Y keskimääräisiin arvoihin. Satunnaismuuttujien Y ij riippumattomuus- ja normaalijakaumaoletus Y ij N(µ j, σ 2 usein kirjoitetaan rakennemalliesityksenä M X : Y ij = µ j + ε ij, (2.2 missä termejä ε ij kutsutaan mallin M X satunnaisiksi virhetermeiksi, joidenka oletetaan olevan toisistaan riippumattomia ja noudattavan normaalijakaumaa ε ij N(0, σ 2 kaikilla i = 1, 2,..., n j ja j = 1, 2,..., k. Rakennemalliesitys M X on toinen tapa esittää havaitun aineiston alla olevat oletukset ja erittäin käyttökelpoinen tapa erityisesti myöhemmin usean selittävän muuttujan tilanteessa. Mikäli päätutkimusongelman H 0 hypoteesi hyväksytään, eli µ 1 = µ 2 = = µ j, niin silloin satunnaismuuttujien Y ij voidaan katsoa noudattavan mallia M 0 : Y ij = µ + ε ij, (2.3 missä nyt siis jokaiselle osapopulaatiolle j on voimassa yhteinen odotusarvo µ. Nyt hypoteesit (2.1a ja (2.1b voidaankin esittää rakennemallien M 0 ja M X avulla, eli hypoteeseja (2.1a ja (2.1b vastaa seuraavat malleihin M 0 ja M X liittyvät hypoteesit: H 0 : Rakennemalli M 0 on voimassa, H 1 : Rakennemalli M X on voimassa. (2.4a (2.4b Jos päätutkimusongelman H 0 hypoteesi hylätään, niin silloin ollaan usein kiinnostuneita selvittämään, minkä osapopulaatioiden j suhteen odotusarvot µ j eroavat toisistaan. Toisin sanoen ollaan kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ 1 µ 2, µ 1 µ 2, µ 1 µ 3,...,µ 1 µ k, µ 2 µ 3, µ 2 µ 4,...,µ 2 µ k,. µ k 1 µ k, eroavat nollasta. Parittaista vertailua voidaan tehdä testaamalla eroaako erotukset nollasta, tai muodostamalla luottamusväliestimaatteja odotusarvoerotuksille µ j µ j ja tutkia, kuuluuko nolla muodostetulle luottamusvälille. Jos siis nolla ei kuulu odotusarvoerotukselle µ j µ j muodostetulle luottamusvälille, odotusarvojen µ j ja µ j voidaan katsoa eroavan toisistaan.

11 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Koesuunnittelu ja täydellisesti satunnaistettu koe Koesuunnittelun tilanteessa oletetaan, että tutkija voi täysin kontroloida, minkä selittävän muuttujan X arvon j kukin käytössä oleva havaintoyksikkö i saa. Eli koesuunnittelutilanteessa tutkijalla voidaan ajatella olevan käytössä yhteensä n kappaletta havaintoyksiköitä, ja koesuunnittelun avulla tutkija päättää mihinkä osapopulaatioon j kukin havaintoyksikkö i sijoitetaan. Koesuunnittelussa tärkeitä yleisiä periaatteita on kokeiden toistaminen (engl. replication ja satunnaistaminen (engl. randomization. Kokeiden toistamisella tarkoitetaan kokeen toistamista samoissa olosuhteissa uudestaan. Tämä tarkoittaa, että selitettävästä muuttujasta Y saadaan havaittuja arvoja enemmän kuin yksi samojen kontroloitujen olosuhteiden vallitessa. Kokeen toistaminen mahdollistaa selitettävän muuttujan Y satunnaisuuden paremman arvioimisen. Satunnaistamisella puolestaan tarkoitetaan havaintoyksiköiden i sijottamista osapopulaatioihin j satunnaisesti. Satunnaistamisella pyritään poistamaan ei-kontrolloitavissa olevien muuttujien systemaattinen vaikutus selitettävän muuttujan Y arvoihin. Seuraavassa on esitetty yksisuuntaiseen varianssianalyysiin liittyviä esimerkkejä koesuunnittelutilanteista. (a Kasvinjalostus Oy haluaa selvittää, mikä heidän kolmesta eri mallasohralajikkeesta soveltuu parhainten viljelyyn kuivissa olosuhteissa. Tutkimuksen tekoon Kasvinjalostus Oy:llä on käytössä yhteensä 30 tasalaatuista peltoalaa ja lajikkeen soveltavuutta kuiviin olosuhteisiin mitataan satomäärän kg/ha mukaan. Koesuunnittelun avulla on tarkoitus päättää mitä lajiketta viljellään mihinkin peltoalueeseen. (b Tutkimusryhmä haluaa selvittää, pitääkö sanonta "Koira on ihmisen paras ystävä" paikkaansa. Erityisesti tutkimusryhmä haluisi tutkia, kuinka koiran läsnäolo vaikuttaa sellaisten henkilöiden stressitasoon stressaavien työsuoritusten tilanteesta, jotka omistavat koiran. Tutkimusryhmä on suunnitellut palkkaavansa 45 sellaista henkilöä, joilla on oma koira. Tämän jälkeen henkilöt on tarkoitus jakaa 3 ryhmään: kontrolliryhmään, jotka tekevät stressaavia työsuorituksia yksinään, kaveri-ryhmään, jotka tekevät stressaavia työsuorituksia hyvän ystävän läsnäollessa ja koira-ryhmään, jotka tekevät stressaavia työsuorituksia oman koiran läsnäollessa. Stressaavaksi työsuoritukseksi tutkimusryhmä on valinnut tilastotieteen harjoitustehtävien teon ja harjoitustehtävien aiheuttamaa stressitasoa tutkimusryhmä on ajatellut mitata henkilöiden harjoitustehtävien teon aikaisen maksimaalisen sykkeen perusteella. Laajasti ajateltuana kaikki edellä mainittu on jo koesuunnittelua, ja suppeasti ajateltuna, koesuunnittelun avulla voidaan päättää, kuinka 45 henkilöä valitaan tutkimukseen ja kuinka henkilöt jaetaan kolmeen eri ryhmään. Yhden selittävän muuttujan tilanteessa koesuunnittelu on suhteellisen yksinkertaista. Ehdottoman tärkeää on kuitenkin pitää huolta siitä, että jokaisesta selittävän muuttujan tasosta j saadaan havaintoja selitettävän muuttujan Y suhteen. Yhden selittävän muuttujan tilanteessa koesuunnittelun ensimmäinen vaihe on päättää, kuinka mon-

12 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 4 ta havaintoyksikkö kuhunkin selittävän muuttujan määrittämään osapopulaatioon sijoitetaan. Havaintojen lukumäärillä osapopulaatioille j pitää siis olla voimassa n = n 1 + n n k. Yleisin tapa on suunnitella kokeet niin, että havaintoyksiköitä kiintiöidään sama määrä jokaiselle selittävän muuttujan X luokalle j: n 1 = n 2 = = n k = n k. Yhden selittävän muuttujan tilanteessa koesuunnittelussa pitää yhdistää n 1 kappaletta arvoja 1, n 2 kappaletta arvoja 2,..., n k kappaletta arvoja k havaintoyksiköihin, joita on yhteensä n kappaletta. Koejärjestelyä kutsutaan täydellisesti satunnaistetuksi kokeeksi jos arvot 1, 2,..., k toistoineen n 1, n 2,..., n k yhdistetään käytössä oleviin havaintoyksiköihin täysin satunnaisesti. Täydellisesti satunnaistetusta kokeesta saatujen havaittujen arvojen y ij voidaan sitten katsoa realisoituneen rakennemallista missä ε ij N(0, σ 2. M X : Y ij = µ j + ε ij, (2.5 Esimerkki 2.1. Tarkastellaan 4:n eri viljalajikkeen A,B,C,D vaikutusta satomääriin kun käytössä on 12 tasalaatuista peltoaluetta kokeiden tekemiseen. Kuinka järjestät viljelykset? 2.3 Parametrien estimoiminen Tarkastellaan seuraavaksi tuntemattomien parametrien estimoimista rakennemallien M X ja M 0 tilanteessa. Rakennemallissa M X : Y ij = µ j + ε ij, ε ij N(0, σ 2, (2.6 parametrien µ j, j = 1,..., k, pienimmän neliösumman estimaatit ˆµ j saadaan ratkaisuina minimointiongelmaan Koska siis min µ j j=1 arg min µ j n k j (y ij µ j 2 = min µ 1 i=1 n 1 i=1 n k j (y ij µ j 2. (2.7 j=1 i=1 (y i1 µ min µ k n k i=1 (y ik µ k 2, (2.8 niin estimaatti ˆµ j, kaikille j = 1,..., k, on yhtä kuin osapopulaation j otoskeskiarvo ˆµ j = ˆµ j MX = ȳ j = nj i=1 y ij n j. (2.9

13 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 5 Merkintä ˆµ j MX selventää, että nyt ollaan estimoitu mallin M X parametria µ j. Odotusarvon µ j pienimmän neliösumman estimaattori ˆµ j on täten muotoa ˆµ j = Ȳj = nj i=1 Y ij n j. (2.10 ja siten noudattaa normaalijakaumaa ˆµ j N (µ j, σ2. (2.11 Nyt siis estimaattorin ˆµ j varianssi on muotoa Var(ˆµ j = σ2 n j. Koska σ 2 on tuntematon, niin myös estimaattorin ˆµ j varianssi on tuntematon. Varianssia Var(ˆµ j voidaan estimoida kunhan σ 2 :lle ollaan saatu muodostettua mielekäs estimaatti. Pienimmän neliösumman estimaattori ˆµ j = ȳ j on myös odotusarvon µ j suurimman uskottavuuden estimaattori. Rakennemallien M X tilanteessa logaritmoitu uskottavuusfunktio on muotoa ( k n j l(µ j, σ 2 = log(l(µ j, σ 2 = log f Yij (y ij = n log j=1 i=1 n j ( 1 2πσ 2 1 2σ 2 n k j (y ij µ j 2, (2.12 ja siten odotusarvojen µ j, j = 1,..., k suurimman uskottavuuden estimaatit saadaan minimoimalla neliösummaa k nj j=1 i=1 (y ij µ j 2. j=1 i=1 Varianssin Var(Y ij = σ 2 suurimman uskottavuuden estimaatti σ M 2 X tilanteessa on puolestaan muotoa rakennemallin M X σ 2 M X = k nj j=1 i=1 (y ij ˆµ j 2. (2.13 n avulla seu- Estimaatti σ M 2 X raavasti: voidaan esittää myös osapopulaatioiden j otosvarianssien s 2 j σ 2 M X = k j=1 nj i=1 (y ij ˆµ j 2 n = k j=1 (n j 1s 2 j. (2.14 n Varianssin σ 2 suurimman uskottavuuden estimaattori rakennemallissa M X on siis muotoa k nj σ M 2 j=1 i=1 X = (Y ij ˆµ j 2. (2.15 n Estimaattori σ M 2 X ei ole varianssin σ 2 harhaton estimaattori, koska E ( σ M 2 X = n k n σ2. Täten varianssin σ 2 harhaton estimaattori rakennemallissa M X on muotoa ˆσ 2 M X = k nj j=1 i=1 (Y ij ˆµ j 2. (2.16 n k

14 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 6 Huom! Huomaa merkintöjen ˆσ 2 M X ja σ 2 M X pieni mutta tärkeä ero. Harhattoman estimaattorin Var(Y ij = ˆσ M 2 X avulla saadaan sitten muodostettua estimaattorin ˆµ j varianssille harhaton estimaattori Var(ˆµ j = ˆσ2 M X n j. (2.17 Estimaattien ˆµ j ja ˆσ M 2 X avulla voidaan odotusarvolle µ j muodostaa myös luottamusväliestimaatteja rakennemallin M X tilanteessa. Yksittäisen odotusarvon µ j 100(1 α prosentin luottamusväli on muotoa ] ˆσ M [ˆµ j t α/2 Var(ˆµ j ; ˆµ j + t α/2 Var(ˆµ j = ˆµ 2 j t X ˆσ M 2 α/2 ; ˆµ j + t X α/2, n j missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys kun t noudattaa Studentin t-jakaumaa vapausastein n k. n j (2.18 P (t > t α/2 = α/2, (2.19 Vastaavasti t-testisuureen avulla voidaan testata yksittäisellle odotusarvolle µ j asetettuja testejä. Esimerkiksi testattaessa yksittäiselle odotusarvolle µ j hypoteeseja H 0 : µ j = 0, H 1 : µ j 0, (2.20a (2.20b testaus voidaan suorittaa testisuureen t j = ˆµ j Var(ˆµ j = ˆµ j ˆσ M 2 X n j (2.21 avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t j hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p j hav = 2 P (t > t j hav, (2.22 missä t noudattaa t-jakaumaa vapausastein n k. H 0 hypoteesi voidaan hylätä, jos on voimassa p j hav < α, missä α testin valittu riskitaso. Yleisemmin yksittäiselle odotusarvolle µ j asetettuja hypoteeseja H 0 : µ j = c j, H 1 : µ j c j, (2.23a (2.23b missä c j on itse asetettu vakio, voidaan suorittaa testisuureen t j = ˆµ j c j Var(ˆµ j = ˆµ j c j ˆσ M 2 X n j (2.24

15 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 7 avulla, joka noudattaa Studentin t-jakaumaa vapausastein df = n k kun H 0 on tosi. Rakennemallin M 0 : Y ij = µ + ε ij, ε ij N(0, σ 2, (2.25 ollessa tosi, odotusarvon µ estimaattori on koko otoksesta laskettua otoskeskiarvo ˆµ = ˆµ M0 = Ȳ. Varianssin σ2 suurimman uskottavuuden estimaattori on rakennemallin M 0 tilanteessa muotoa σ 2 M 0 = ja harhaton estimaattori on muotoa k j=1 nj i=1 (Y ij ˆµ 2, (2.26 n ˆσ 2 M 0 = k nj j=1 i=1 (Y ij ˆµ 2. (2.27 n 1 Esimerkki 2.2. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Alla on seuraavasta aineistosta esitetty estimoinnin tuloksia rakennemallien M X ja M 0 tilanteissa. > tabletti<-read.table("tabletti.txt", header=true, sep="\t", dec="." > tabletti y x A A A A B B B B C C C C > malli1<-lm(y~x-1,data=tabletti > summary(malli1 Call: lm(formula = y ~ x - 1, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t xa e-14 *** xb e-14 *** xc e-13 *** ---

16 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 8 Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 4930 on 3 and 9 DF, p-value: 8.724e-15 > malli0<-lm(y~1,data=tabletti > summary(malli0 Call: lm(formula = y ~ 1, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 11 degrees of freedom (a Mitä ovat mallin M X tilanteessa odotusarvojen µ j pienimmän neliösumman estimaatit? (b Mitä ovat mallin M X tilanteessa varianssin σ 2 estimaatit ˆσ 2 M X ja σ 2 M X? (c Testataan olisiko tablettien B odotusarvo µ 2 yhtä kuin nolla, eli testataan hypoteeseja H 0 : µ 2 = 0, H 1 : µ 2 0. Mikä hypoteeseihin liittyvä t-testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05? (d Mitä on mallin M 0 tilanteessa odotusarvon µ pienimmän neliösumman estimaatti? (e Mitä ovat mallin M 0 tilanteessa varianssin σ 2 estimaatit ˆσ 2 M 0 ja σ 2 M 0?

17 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Mallin parametrisoiminen uudelleen Rakennemallin M X tilanteessa havaintojen y ij oletetaan olevat realisaatioita mallista M X : Y ij = µ j + ε ij, ε ij N(0, σ 2. (2.28 Rakennemalli M X voidaan kuitenkin parametrisoida uudelleen monella tapaa. Tässä luvussa tarkastellaan kahta usein käytettyä parametrisointia: kontrolliluokka tyylistä parametrisointia ja keskiarvoero tyylistä parametrisointia. Kontrolliluokka tyylisessä parametrisoinnissa voidaan ajatella niin, että selittävän muuttujan X yksi arvo on ns. kontrolliluokka tai lähtöluokka, johonka muiden luokkien odotusarvoja selitettävän muuttujan suhteen halutaan verrata. Olkoon selittävän muuttujan X arvo k nyt kontrolliluokka. Tällöin arvon k tilanteessa havaintojen y ik ajatellaan tulevan mallista X = k : Y ik = β 0 + ε ik. Muiden X:n luokkien tilanteessa malliin lisätään oma parametri β j, j = 1, 2,..., k 1, mikä kuvaa odotusarvon muutosta luokassa j = 1, 2,..., k 1 verrattuna kontrolliluokkaan k. Tällöin siis X:n arvojen 1, 2,..., k 1 tilanteessa havaintojen katsotaan muodostuvan malleista X = 1 : Y i1 = β 0 + β 1 + ε i1, X = 2 : Y i2 = β 0 + β 2 + ε i2,. X = k 1 : Y ik 1 = β 0 + β k 1 + ε ik 1. Kontrolliluokka tyylisessä parametrisoinnissa rakennemalli M X voidaan esittää muodossa M Xβ : Y ij = β 0 + β j + ε ij, ε ij N(0, σ 2, β k = 0. (2.29 Mallin M Xβ tilanteessa parametrien β 0, β 1,..., β k 1 pienimmän neliösumman estimaattorit ovat muotoja ˆβ 0 = ˆµ k = Ȳk, ˆβ 1 = ˆµ 1 ˆµ k = Ȳ1 Ȳk, ˆβ 2 = ˆµ 2 ˆµ k = Ȳ2 Ȳk,. ˆβ k 1 = ˆµ k 1 ˆµ k = Ȳk 1 Ȳk, (2.30a (2.30b (2.30c (2.30d ja täten normaalistijakautuneiden estimaattoreiden ˆβ 0, ˆβ 1,..., ˆβ k 1 varianssit ovat muo-

18 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 10 toa Var( ˆβ 0 = Var(Ȳk = σ2 n k, Var( ˆβ 1 = Var(Ȳ1 Ȳk = σ2 n 1 + σ2 n k, Var( ˆβ 2 = Var(Ȳ2 Ȳk = σ2 n 2 + σ2 n k,. Var( ˆβ k 1 = Var(Ȳk 1 Ȳk = σ2 n k 1 + σ2 n k. (2.31a (2.31b (2.31c (2.31d tilanteessa yksisuuntaisen varianssianalyysin päätutkimusongel- Parametrisoinnin M Xβ maa H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k, (2.32a (2.32b vastaa rakennemallin M Xβ parametreihin β 1,..., β k 1 liittyvät hypoteesit H 0 : β 1 = β 2 = = β k 1 = 0, H 1 : β 1 β 2 β k 1 0. (2.33a (2.33b Näiden hypoteesien testaamisen palataan seuraavassa luvussa. Parametrisointi kontrolliluokan avulla on kuitenkin erityisen hyödyllinen tilanteissa, kun halutaan verrata tietyn (yhden luokan j eroavuutta kontrolliluokasta k, j k. Tällöin siis rakennemallin M X hypoteesit H 0 : µ j = µ k, j k (2.34a H 1 : µ j µ k, (2.34b vastaavat mallin M Xβ hypoteeseja H 0 : β j = 0, j k (2.35a H 1 : β j 0. (2.35b Yllä olevia hypoteeseja voidaan nyt sitten testata testisuureen t j = ˆβ j = Var( ˆβ j ˆσ 2 M X n j ˆβ j + ˆσ2 M X n k (2.36 avulla, joka noudattaa Studentin t-jakaumaa vapausastein df = n k kun H 0 on tosi. Vastaavasti yksittäisen parametrin β j 100(1 α prosentin luottamusväli on muotoa [ ] ˆβ j t α/2 Var( ˆβ j ; ˆβ j + t α/2 Var( ˆβ j ˆσ M 2 X = ˆβj t α/2 ˆσ 2 M X n j + ˆσ2 M X n k ; ˆβ j + t α/2 n j + ˆσ2 M X n k, (2.37

19 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 11 missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys P (t > t α/2 = α/2. R- ohjelmisto oletusarvoisesti parametrisoi mallin kontrolliluokan avulla. Rakennemallin M X parametrisointi uudestaan malliksi M Xβ ei vaikuta mitenkään σ 2 estimaattien arvoihin, eli ˆσ 2 M X = ˆσ 2 M Xβ ja σ 2 M X = σ 2 M Xβ. Esimerkki 2.3. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia kontrolliluokkamallilla M Xβ. Tällöin saadaan seuraavanlaisia estimointituloksia mallille M Xβ. > options(contrasts=c("contr.sas", "contr.poly" > mallib<-lm(y~x,data=tabletti > summary(mallib Call: lm(formula = y ~ x, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** xa e-05 *** xb e-05 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 9 DF, p-value: 2.015e-05 (a Miten lasketaan tablettien B odotusarvon µ 2 estimaatti parametrisoinnin M Xβ tilanteessa? (b Testaa, eroaako tablettien B odotusarvo µ 2 testaa hypoteeseja tablettien C odotusarvosta µ 3, eli H 0 : µ 2 = µ 3, H 1 : µ 2 µ 3. Mikä on hypoteeseihin liittyvä t-testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05?

20 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 12 Parametrisoitaessa rakennemalli puolestaan keskiarvoero tyylisesti, rakennemalli esitetään muodossa M Xγ : Y ij = µ + γ j + ε ij, ε ij N(0, σ 2, (2.38 missä γ j on jokaisen osapopulaation j oma parametri suhteessa koko populaation odotusarvoon µ. Nyt siis osapopulaation j odotusarvo µ j on esitetty rakennemallissa M Xγ muodossa µ j = µ + γ j, j = 1, 2,..., k, (2.39 ja täten yksisuuntaisen varianssianalyysin päätutkimusongelma H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k, (2.40a (2.40b vastaa rakennemallin M Xγ parametrisoinnin tilanteessa hypoteeseja H 0 : γ 1 = γ 2 = = γ k = 0, H 1 : γ 1 γ 2 γ k 0. (2.41a (2.41b Useimmissa oppikirjoissa yksisuuntainen varianssianalyysimalli esitetään nimenomaan keskiarvoerotusmallin M Xγ avulla. Mallin M Xγ parametrisoinnin avulla nähdään heti, että malli M Xγ eroaa mallista M 0 juuri parametrien γ j verran. Myöhemmin kurssin aikana useamman ulottuvuuden rakennemallit esitetäänkin juuri keskiarvoero tyylisesti. Rakennemalli M Xγ on kuitenkin odotusarvojen suhteen yliparametrisoitunut malli. Eli kun todellisuudessa on k kappaletta tuntemattomia odotusarvoja µ j, niin mallissa M Xγ on k+1 kappaletta tuntemattomia parametreja µ, γ 1,..., γ k liittyen odotusarvojen mallintamiseen. Yliparametrisoinnista seuraa, että kaikkia parametreja µ, γ 1,..., γ k ei voida yksikäsitteisesti estimoida ellei aseteta joitain lisäehtoja parametrien γ 1,..., γ k rakenteelle. Usein miten yliparametrisoinnista ei ole mitään haittaa, koska kiinnostuksen kohteena olevat estimoitavat suureet pystytään yleensä estimoimaan yksikäsitteisesti, vaikkakin alla olevassa mallissa M Xγ on alunperin liian paljon parametreja. Esimerkiksi tuntemattoman erotuksen µ j µ j, j j, estimoimista vastaa rakennemallin M Xγ tilanteessa erotuksen µ j µ j = µ + γ j (µ + γ j = γ j γ j, j j, (2.42 estimoiminen. Täten erotuksen γ j γ j pienimmän neliösumman estimaattori on muotoa ˆγ j ˆγ j = Ȳj Ȳj, (2.43 ja siksi on voimassa ˆγ j ˆγ j N (γ j γ j, σ2 + σ2. (2.44 n j n j Eli jos esimerkiksi halutaan testata (yksittäistä hypoteeseja H 0 : γ j γ j = 0, j j (2.45a H 1 : γ j γ j 0, (2.45b

21 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 13 niin testisuure t j,j = ˆγ j ˆγ j = Var(ˆγ j ˆγ j ˆγ j ˆγ j ˆσ 2 M X n j + ˆσ2 M X n j (2.46 noudattaa Studentin t-jakaumaa vapausastein df = n k kun H 0 on tosi. Vastaavasti yksittäisen erotuksen γ j γ j 100(1 α prosentin luottamusväli on muotoa ] [ˆγ j ˆγ j t α/2 Var(ˆγ j ˆγ j ; ˆγ j ˆγ j + t α/2 Var(ˆγ j ˆγ j = ˆγ j ˆγ j t α/2 ˆσ 2 M X n j + ˆσ2 M X ˆσ M 2 ; ˆγ j ˆγ j + t X α/2 n j n j + ˆσ2 M X n j, (2.47 missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys P (t > t α/2 = α/2. Mikäli kuitenkin yksittäisille parametreille γ j halutaan muodostaa yksikäsitteiset estimaatit, täytyy parametrien γ 1,..., γ k rakenteelle asettaa jokin lisäehto. Jos koejärjestely on tasapainoinen, eli n 1 = n 2 = = n k, niin silloin usein käytetty lisäehto on muotoa γ 1 + γ γ k = 0. (2.48 Tässä tilanteessa (ei siis aina yleisesti parametrien µ, γ 1,..., γ k pienimmän neliösumman estimaattorit ovat muotoa ˆµ = Ȳ, (2.49a ˆγ 1 = Ȳ1 Ȳ, ˆγ 2 = Ȳ2 Ȳ, (2.49b (2.49c. ˆγ k = Ȳk Ȳ. (2.49d Rakennemallin M X parametrisointi uudestaan malliksi M Xβ ei edelleenkään vaikuta mitenkään σ 2 estimaattien arvoihin, eli ˆσ 2 M X = ˆσ 2 M Xβ = ˆσ 2 M Xγ ja σ 2 M X = σ 2 M Xβ = σ 2 M Xγ. Esimerkki 2.4. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia keskiarvoeromallilla M Xγ. Tällöin saadaan seuraavanlaisia estimointituloksia mallille M Xγ. > options(contrasts=c("contr.sum", "contr.poly" > mallig<-lm(y~x,data=tabletti > summary(mallig Call: lm(formula = y ~ x, data = tabletti

22 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 14 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-16 *** x *** x ** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 9 DF, p-value: 2.015e-05 (a Miten lasketaan tabletteihin A, B ja C liittyvien parametrien γ 1, γ 2, γ 3 estimaatit parametrisoinnin M Xγ tilanteessa? (b Testaa, eroaako tablettien B odotusarvo µ 2 testaa hypoteeseja tablettien C odotusarvosta µ 3, eli H 0 : γ 2 γ 3 = 0, H 1 : γ 2 γ 3 0. Mikä on hypoteeseihin liittyvä t-testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05? 2.5 Hypoteesin testaus Yksisuuntaisen varianssianalyysin päätutkimusongelmana on siis tutkia, onko selitettävän muuttujan Y odotusarvot µ j samoja jokaisen selittävän muuttujan X määrittämän osapopulaation j tapauksessa. Rakennemallin M X tilanteessa päätutkimusongelma vastaa hypoteesien H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k, (2.50a (2.50b testaamista. Rakennemallien M Xβ ja M Xγ tilanteessa päätutkimusongelman hypoteesit ovat siis muotoa H 0 : β 1 = β 2 = = β k 1 = 0, H 1 : β 1 β 2 β k 1 0, (2.51a (2.51b ja H 0 : γ 1 = γ 2 = = γ k = 0, H 1 : γ 1 γ 2 γ k 0. (2.52a (2.52b

23 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 15 Rakennemallien suhteen päätutkimusongelma vastaa hypoteesien testaamista. H 0 : Rakennemalli M 0 on voimassa, (2.53a H 1 : Rakennemalli M X on voimassa (eli M Xβ tai M Xγ voimassa, (2.53b Johdetaan seuraavaksi testisuure, jonka perusteella yllä olevat päätutkimusongelmaan liittyvät hypoteesit voidaan testata. Testaus perustuu malleista M 0 ja M X laskettujen varianssin σ 2 suurimman uskottavuuden estimaattoreiden σ 2 M 0 ja σ 2 M X ominaisuuksiin. Muista, että on voimassa σ 2 M X = σ 2 M Xβ = σ 2 M Xγ. Päätutkimusongelman testaaminen perustuu σ 2 M 0 ja σ 2 M X estimaattoreiden erotuksen σ 2 M 0 σ 2 M X (2.54 suuruuteen. Varianssitermi σ 2 kuvaa siis selitettävän muuttujan Y satunnaisen vaihtelun suuruutta ja estimaattorit σ M 2 0 ja σ M 2 X estimoivat tätä arvoa mallien M 0 ja M X tilanteissa. Jos estimoitu varianssi σ M 2 0 on huomattavasti suurempi mallin M 0 tilanteessa verrattuna mallin M X estimaattiin σ M 2 X, niin se kuvaa sitä, että koko populaation odotusarvon µ osittaminen osapopulaatioiden odotusarvoihin µ j vähentää estimoitua satunnaista vaihtelua mallissa M X malliin M 0 verrattuna. Täten siis selittävän muuttujan X vaikutuksesta arvioitu satunnaisuuden määrä pienenee selitettävässä muuttujassa Y. Jos arvioidun satunnaisuuden määrän pieneminen on huomattavaa, katsotaan, että selittävä muuttuja X vaikuttaa selitettävän muuttujan Y odotusarvoihin ja sitä kautta tehdään päätelmä, että selittävällä muuttujalla X on vaikutusta selitettävän muuttujan Y keskimääräisiin arvoihin. Yleisesti on voimassa σ M 2 0 σ M 2 X. Silloin kun H 0 hypoteesi on totta, niin σ M 2 0 = σ M 2 X. Täten mitä suurempi on estimoitu erotus σ M 2 0 σ M 2 X, sitä enemmän on osoitusta, että mallin M X tilanteessa selittämättömän satunnaisvaihtelun suuruus on pienempi malliin M 0 verrattuna. Pienemmän satunnaisvaihtelun katsotaan sitten johtuvan odotusarvon µ j eroavuudesta osapopulaatioissa j ja siten H 0 hypoteesi hylätään kunhan estimoitu erotus σ M 2 0 σ M 2 X on "riittävän" suuri. Kun erotusta σ M 2 0 σ M 2 X jaetaan estimaattorilla σ M 2 X ja saatua osamäärää vielä kerrottaan termillä n k, saadaan testisuure k 1 ( σ 2 M0 σ 2 ( M F = X n k = ( σ2 M 0 σ M 2 X /k 1, σ M 2 X k 1 σ M 2 (2.55 X /n k joka noudattaa F -jakaumaa vapausastein df 1 = k 1 ja df 2 = n k kun H 0 hypoteesi on tosi. Yksisuuntaisessa varianssianalyysissa päätutkimusongelman testaus perustuu siis kaavan (2.55 testisuureen. Päättelyn kannalta testisuureen erotus σ M 2 0 σ M 2 X on täysin määrävä tekijä. Muut tekijät ovat testisuureessa vain sen takia, että testisuure saadaan noudattamaan tunnettua jakaumaan H 0 hypoteesin ollessa tosi. Tässä tapauksessa tunnettu jakauma on F -jakauma. Kun testisuureen havaittu arvo F hav on laskettu aineistosta, testin havaittu p-arvo (merkitsevyystaso saadaan todennäköisyydestä p hav = P (F > F hav. (2.56

24 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 16 Jos testin riskitasoksi valitaan esimerkiksi α = 0.05, niin H 0 hypoteesi hylätään jos p hav < Muuten H 0 jää voimaan. Kaavan (2.55 testisuureella on seuraavia esitysmuotoja F = ( σ2 M 0 σ M 2 X /k 1 σ M 2 X /n k = ( k n j j=1 i=1 (Y ij ˆµ 2 n ( k n j j=1 i=1 (Y ij ˆµ j 2 n k n j j=1 i=1 (Y ij ˆµ j 2 n /n k /k 1 (2.57a (2.57b missä = ( k nj j=1 ( k i=1 (Y ij Ȳ 2 k j=1 j=1 nj i=1 (Y ij Ȳj 2 /k 1 nj i=1 (Y ij Ȳj 2 /n k (2.57c = (SSE M 0 SSE MX /k 1 (2.57d SSE MX /n k = SSR M 0 M X /k 1 SSE MX /n k = MSR M 0 M X (2.57e MSE MX k j=1 = n j(ȳj Ȳ 2 /k 1, ˆσ M 2 (2.57f X SSE M0 = SSE MX = n k j (Y ij Ȳ 2 (2.58a j=1 i=1 n k j (Y ij Ȳj 2 (2.58b j=1 i=1 SSR M0 M X = SSE M0 SSE MX = k n j (Ȳj Ȳ 2 j=1 (2.58c MSE MX = SSE MX /n k = ˆσ M 2 X (2.58d k MSR M0 M X = SSR M0 M X /k 1 = n j (Ȳj Ȳ 2 /k 1. (2.58e Termejä SSE ja SSR kutsutaan virheneliösummaksi (engl. sum of squares for error ja regressioneliösummaksi (engl. sum of squares for regression. Näistä käytetään myös mm. lyhenteitä SS Error ja SS T reatment. Vastaavasti termejä MSE ja MSR kutsutaan virhekeskineliöksi (engl. mean square for error ja regressiokeskineliöksi (engl. mean square for regression. Näistä käytetään puolestaan myös mm. lyhenteitä MS Error ja MS T reatment. Yksisuuntaisen varianssianalyysin tulokset esitetään yleensä ohjelmistoissa alla olevan taulukon tyylisesti. Degrees of freedom Sum of squares Mean square F-value p-value X: df 1 SSR M0 M X MSR M0 M X F hav p hav Residuals: df 2 SSE MX MSE MX j=1

25 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 17 Esimerkki 2.5. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia rakennemalleilla M X ja M 0. Tällöin saadaan seuraavanlaisia estimointituloksia. > malli1<-lm(y~x-1,data=tabletti > summary(malli1 Call: lm(formula = y ~ x - 1, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t xa e-14 *** xb e-14 *** xc e-13 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: 4930 on 3 and 9 DF, p-value: 8.724e-15 > malli0<-lm(y~1,data=tabletti > summary(malli0 Call: lm(formula = y ~ 1, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 11 degrees of freedom Testaa tulosten avulla hypoteeseja H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k. (2.59a (2.59b Mikä hypoteeseihin liittyvä F -testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05?

26 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 18 Esimerkki 2.6. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia kontrolliluokkamallilla M Xβ. Tällöin saadaan seuraavanlaisia estimointituloksia mallille. > options(contrasts=c("contr.sas", "contr.poly" > mallib<-lm(y~x,data=tabletti > summary(mallib Call: lm(formula = y ~ x, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** xa e-05 *** xb e-05 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 9 DF, p-value: 2.015e-05 > anova(mallib Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F x e-05 *** Residuals Signif. codes: 0 *** ** 0.01 * Etsi tulostuksista arvot (a SSR M0 M X ja MSR M0 M X, (b SSE MX ja MSE MX, (c F hav ja p hav.

27 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Parittainen vertailu Jos yksisuuntaisessa varianssianalyysissa päätutkimusongelman H 0 hypoteesi hylätään, niin silloin ollaan usein kiinnostuneita selvittämään, minkä osapopulaatioiden j suhteen selitettävän muuttujan Y odotusarvot µ j eroavat toisistaan. Toisin sanoen ollaan kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ 1 µ 2, µ 1 µ 2, µ 1 µ 3,...,µ 1 µ k, µ 2 µ 3, µ 2 µ 4,...,µ 2 µ k,. µ k 1 µ k, eroavat nollasta. Parittaisten vertailujen tekemiseen on kehitetty useita eri menetelmiä. Tarkastellaan tässä kohtaa kolmea suhteellisen yksinkertaista ja tutun oloista parittaisen vertailun menetelmää nimeltään: least signicant dierence -testi (LSD, Bonferronin t-testi ja Tukey's honest signicant dierence -menetelmä (HSD. LSD-testauksessa itse asiassa jokaiselle mahdolliselle tuntemattomalle odotusarvojen erotukselle µ j µ j, j j, tehdään hypoteesien H 0 : µ j µ j = 0, yksittäiselle parille j j, (2.60a H 1 : µ j µ j 0, yksittäiselle parille j j, (2.60b testaus riskitasolla α käyttäen hyväksi t-testisuuretta t j = ˆµ j ˆµ j = Var(ˆµ j ˆµ j ˆµ j ˆµ j ˆσ 2 M X n j + ˆσ2 M X n j. (2.61 Testeistä saatujen havaittujen arvojen t j hav perusteella lasketaan jokaiseen testiin liittyvät havaitut p-arvot p j hav = 2 P (t > t j hav, jotka sitten listataan. LSD-testaus ei siis varsinaisesti tuo mitään uutta analyysiin ja on vain yksittäisten t-testien listaus. Täten LSD-testauksella saadut havaitut p-arvot kuvaavat vain, onko yksittäinen erotus µ j µ j nollasta poikkeava riskitasolla α. Varsinaisesti kuitenkin parittaisessa testauksessa haluttaisiin testata riskitasolla α, että löytyykö vähintään yhtä paria µ j µ j, jolle yksittäinen hypoteesi H 0 : µ j µ j = 0 ei ole voimassa. Bonferronin t-testi on yksinkertainen (konservatiivinen menetelmä, jolla yhtä aikaisia parittaisia vertailuja voidaan testata valitulla riskitasolla α. Bonferronin t-testauksessa lasketaan yksittäiset t-testisuureen arvot t j hav samalla kaavalla (2.61 kuin LSD-testauksessa. Jos m on tehtävien parittaisten vertailujen µ j µ j lukumäärä, niin Bonferronin testauksessa tavallisesti lasketuille havaituille p-arvoille p j hav tehdään seuraavat muutokset b j hav = { m p j hav, jos voimassa m p j hav 1, 1, jos voimassa m p j hav > 1. (2.62

28 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 20 Nyt yksittäinen parin µ j µ j voidaan katsoa eroavan nollasta riskitasolla α, jos lasketulle arvolle b j hav on voimassa b j hav < α. Tukeyn HSD-menetelmä on puolestaan lähtökohtaisesti tarkoitettu tilanteisiin, missä eri luokkien j otoskoot n j ovat samoja. Tukeyn HSD-menetelmässä erotuksen µ j µ j katsotaan poikkeavan nollasta riskitasolla α, jos erotukselle µ j µ j muodostettu Tukeyn luottamusväliestimaatti ˆµ j ˆµ j q α/2 2 ˆσ 2 M X n j + ˆσ2 M X n j ; ˆµ j ˆµ j + q α/2 2 ˆσ 2 M X n j + ˆσ2 M X n j (2.63 ei sisällä arvoa 0. Tukeyn luottamusväliestimaatissa luku q α/2 on sellainen arvo, jolle on voimassa todennäköisyys P (Q k,n k > q α/2 = α/2, missä puolestaan Q k,n k on satunnaismuuttuja, joka noudattaa studentized range -jakaumaa ryhmäarvolla k ja vapausastein df = n k. Yleisesti ottaen jonkin satunnaismuuttujan Q r,df sanotaan noudattavan studentized range -jakaumaa ryhmäarvolla r ja vapausastein df, jos satunnaismuuttuja Q r,df on määritelty muunnoksena Q r,df = max(y 1, Y 2,..., Y r min(y 1, Y 2,..., Y r ˆσ 2, (2.64 missä Y 1, Y 2,..., Y r N(µ, σ 2 ja ˆσ 2 = r i=1 (Y i Ȳ 2 df. Esimerkki 2.7. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia kontrolliluokkamallilla M Xβ. Tällöin saadaan seuraavanlaisia parittaisia vertailuja aineistolle. > options(contrasts=c("contr.sas", "contr.poly" > mallib<-lm(y~x,data=tabletti > summary(mallib Call: lm(formula = y ~ x, data = tabletti Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** xa e-05 *** xb e-05 *** --- Signif. codes: 0?***? 0.001?**? 0.01?*? 0.05?.? 0.1?? 1 Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 9 DF, p-value: 2.015e-05 > pairwise.t.test(y,x,p.adj="none"

29 kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 21 Pairwise comparisons using t tests with pooled SD data: y and x A B B C 1.2e e-05 P value adjustment method: none > pairwise.t.test(y,x,p.adj="bonf" Pairwise comparisons using t tests with pooled SD data: y and x A B B 1 - C 3.6e e-05 P value adjustment method: bonferroni > TukeyHSD(aov(mallib Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = mallib $x diff lwr upr p adj B-A C-A C-B Mitkä parittaisista eroista näyttäisi merkitseviltä ja mitkä eivät?

30 Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A Kaksisuuntainen varianssianalyysi 3.1 Tutkimusasetelma ja -hypoteesit Kaksisuuntaisessa varianssianalyysissa tarkastellaan kahden luokittelu- tai järjestysasteikollisen selittävän muuttujan X 1 ja X 2 vaikutusta selitettävän muuttujan Y populaatiokeskiarvoihin. Selittävien muuttujien X 1 ja X 2 voidaan olettaa saavan k ja l kappaletta erilaisia arvoja x 1j, (j = 1, 2,..., k, ja x 2h, (h = 1, 2,..., l. Koodataan selittävän muuttujan X 1 saamat arvot x 1j numeroiksi x 11 = 1, x 12 = 2,..., x 1k = k ja selittävän muuttujan X 2 saamat arvot x 2h numeroiksi x 21 = 1, x 22 = 2,..., x 2l = l. Selittävien muuttujien X 1 ja X 2 perusteella kokonaispopulaatio voidaan täten jakaa arvojen x 1j ja x 2h perusteella k l:n eri osapopulaatioon. Merkitään x 1j ja x 2h arvojen määrittämää osapopulaatio jh:llä. Kaksisuuntaisessa varianssianalyysissa jokaisesta osapopulaatiosta jh poimitaan satunnaisesti n jh havaintoyksikköä, joista sitten mitataan selitettävän muuttujan Y toteutunut arvo. Täten selitettävän muuttujan Y havaittuja arvoja voidaan merkitä seuraavasti: y ijh =muuttujan Y i:nes havaittu arvo osapopulaatiosta jh, kun i = 1, 2,..., n jh, j = 1, 2,..., k, h = 1, 2,..., l. Havaittu aineisto siten muodostuu selitettävän muuttujan arvoista X 1 = 1 ja X 2 = 1 : y 111, y 211,..., y n11 11, X 1 = 2 ja X 2 = 1 : y 121, y 221,..., y n21 21, X 1 = k ja X 2 = 1 : y 1k1, y 2k1,..., y nk1 k1, X 1 = 1 ja X 2 = 2 : y 112, y 212,..., y n12 12, X 1 = 1 ja X 2 = l : y 11l, y 21l,..., y n1l 1l,.. X 1 = k ja X 2 = l :. y 1kl, y 2kl,..., y nkl kl. Aineistossa olevien havaittujen arvojen y ijh voidaan ajatella nyt olevan realisaatioita satunnaismuuttujista Y ijh. Varianssianalyysissa satunnaismuuttujien Y ijh oletetaan noudattavan normaalijakaumaa. Kaksisuuntaisen varianssianalyysin päätutkimusongelma on tutkia, minkälaisesta rakennemallista havaittujen arvojen y ijh voidaan katsoa olevan realisaatioita.

31 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 2 Esimerkki 3.1. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Tutkimusryhmä mittasi jokaisen valmistajan neljästä eri tabletista rautapitoisuudet. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Tutkimusryhmä käsitteli puolet tableteista HCl liuoksella ja puolet HNO 3 liuoksella ja saivat seuraavan aineiston: Tabletti A Tabletti B Tabletti C HCl HCl HNO HNO Mitkä muuttujat ovat tässä tutkimuksessa selittäviä muuttujia? Mikä voisi olla tutkimuksen tavoite? Kaksisuuntaisen varianssianalyysin tilanteessa voidaan määritellä kilpailevia rakennemalleja, joiden perusteella havaintojen y ijh voidaan katsoa muodostuvan. Seuraavassa on esitetty kaksisuuntaiseen varianssianalyysiin liittyviä kilpailevia malleja keskiarvoero parametrisoinnin avulla: M 0 : Y ijh = µ + ε ijh, (3.1a M X1 : Y ijh = µ + γ j + ε ijh, (3.1b M X2 : Y ijh = µ + τ h + ε ijh, (3.1c M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh, (3.1d M X1 X 2 : Y ijh = µ + γ j + τ h + ω jh + ε ijh. (3.1e Jokaisessa yllä olevassa mallissa termejä ε ijh kutsutaan kyseisen mallin satunnaisiksi virhetermeiksi, joidenka oletetaan olevan toisistaan riippumattomia ja noudattavan normaalijakaumaa ε ijh N(0, σ 2 i = 1, 2,..., n jh, j = 1, 2,..., k, h = 1, 2,..., l. (3.2 Termit µ, γ j, τ h, ω jh ovat satunnaismuuttujien Y ijh odotusarvoihin E(Y ijh liittyviä (odotusarvoja mallintavia tuntemattomia parametreja. Kaksisuuntaisessa varianssianalyysissa oletetaan siis, että selitettävän muuttujan Y odotusarvot ovat mahdollisesti erisuuria osapopulaatioissa jh, mutta populaatiovarianssi σ 2 on sama jokaisessa osapopulaatiossa jh. Parametrit µ, γ j, τ h, ω jh ovat tuntemattomia, joita kaksisuuntaisessa varianssianalyysissa estimoidaan havaittujen arvojen y ijh avulla. Yllä olevia rakennemalleja voidaan tulkita seuraavanlaisesti. Malli M 0 : Kumpikaan selittävistä muuttujista X 1 ja X 2 ei vaikuta selitettävän muuttujan Y odotusarvoihin. Malli M X1 : Malli M X2 : Vain muuttuja X 1 vaikuttaa selitettävän muuttujan Y odotusarvoihin. Vain muuttuja X 2 vaikuttaa selitettävän muuttujan Y odotusarvoihin.

32 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 3 Päävaikutusmalli M X1 X 2 : Yhdysvaikutusmalli M X1 X 2 : Muuttujilla X 1 ja X 2 on omaa vaikutusta selitettävän muuttujan Y odotusarvoihin. Muuttujilla X 1 ja X 2 on oman vaikutuksen lisäksi yhdysvaikutusta selitettävän muuttujan Y odotusarvoihin. Jokainen yllä esitetty rakennemalli on muodoltaan sellainen, että yksittäisen havainnon i odotusarvo voi enintään riippua koko osapopulaation jh yhteisestä odotusarvosta. Rakennemallit siis mallintavat, kuinka satunnaismuuttujien Y ijh odotusarvot E(Y ijh = µ jh muodostuvat selittävien muuttujien X 1 ja X 2 määrittämissä osapopulaatioissa jh. Esimerkiksi päävaikutusmallin M X1 X 2 tilanteessa E(Y ijh = µ jh on muotoa µ jh = µ + γ j + τ h. (3.3 Yllä olevat mallit on esitetty hierarkisessa järjestyksessä. Mallissa M 0 kumpikaan muuttujista X 1 ja X 2 ei vaikuta selitettävän muuttujan Y odotusarvoihin, eli ei ole hyötyä jakaa populaatiota osapopulaatioihin jh, jos tämä malli kuvaa parhainten havaittujen arvojen y ijh muodostumista. Mallit M X1 ja M X2 ovat yhden selittävän muuttujan malleja ja siten niiden tarkasteluun pätee yksisuuntaisen varianssianalyysin teoria. Päävaikutusmalli M X1 X 2 ja yhdysvaikutusmalli M X1 X 2 ovat varsinaisia kahden selittävän muuttujan malleja. Päävaikutusmallissa M X1 X 2 kummallakin selittävällä muuttujalla X 1 ja X 2 on oma vaikutuksensa odotusarvoihin µ jh. Päävaikutusmallin M X1 X 2 voi nähdä (ainakin teoriassa mallina, missä on yhdistetty yksisuuntaiset varianssianalyysimallit M X1 ja M X2 yhteen. Yhdysvaikutusmallissa M X1 X 2 selittävien muuttujien arvot x 1j ja x 2h voivat yhdessä vielä joko lisätä tai vähentää odotusarvon µ jh tasoa siitä, mihinkä päävaikutusmallin perusteella odotusarvon µ jh taso määräytyisi. Täten yhdyvaikutusmallin M X1 X 2 tilanteessa odotusarvot µ jh voivat olla vapaasti millä tahansa tasolla jokaisen osapopulaation jh tapauksessa. Alla oleva kuvio vielä selventää päävaikutusmallin M X1 X 2 ja yhdysvaikutusmallin M X1 X 2 eroja tilanteessa, missä k = 3 ja l = 2. Päävaikutusmalli Yhdysvaikutusmalli x2=2 x2=2 Odotusarvo Odotusarvo x2=1 x2=1 x1=1 x1=2 x1=3 x1=1 x1=2 x1=3 Päätutkimusongelmana kaksisuuntaisessa varianssianalyysissa on tutkia esimerkiksi hypoteesin testaamisen avulla, mikä malleista M 0, M X1, M X2, M X1 X 2, M X1 X 2 parhainten kuvaa havaintojen y ijh muodostumista. Valittu malli sitten kuvaa, kuinka selittävät muuttujat X 1 ja X 2 vaikuttavat selitettävän muuttujan Y odotusarvoihin.

33 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 4 Mallin valinnassa voidaan edetä hierarkisesti niin, että ensiksi verrataan mallia M 0 malleihin M X1, M X2. Jos selittävät muuttujat X 1 ja X 2 ovat yksisuuntaisen varianssianalyysin perusteella merkitseviä muuttujia, niin sitten voidaan verrata malleja M X1, M X2 päävaikutusmalliin M X1 X 2 ja lopulta mahdollisesti päävaikutusmallia yhdysvaikutusmalliin M X1 X 2. Usein kaksisuuntaista varianssianalyysia käytetään tilanteissa, missä muuttujien X 1 ja X 2 katsotaan lähtökohtaisesti vaikuttavan selitettävän muuttujan Y odotusarvoihin. Tällöin tutkimusongelmaksi tulee vertailla päävaikutusmallia yhdysvaikutusmalliin. Tätä tutkimusongelmaa voidaan ratkoa testaamalla hypoteeseja H 0 : Rakennemalli M X1 X 2 on voimassa, (3.4a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.4b Kaksisuuntaista varianssianalyysia käytetään usein tilanteissa, missä toinen selittävistä muuttujista on varsinainen selittävä muuttuja, jonka vaikutusta selitettävän muuttujan Y arvoihin halutaan tutkia ja toinen muuttuja on niin sanottu kiusatekijä, jonka tiedetään vaikuttavan Y :n, vaikka sen vaikutuksesta ei sinällään olla kiinnostuneita. Jos merkitään kiusatekijää X 1 muuttujalla ja varsinaista muuttujaa X 2, niin silloin tutkimusongelmana on vertailla, mikä malleista M X1, M X1 X 2, M X1 X 2 parhainten kuvaa havaittujen arvojen y ijh realisoitumista. Tällaisessa tilanteessa kiusatekijä X 1 pidetään rakennemallissa mukana riippumatta sen tilastollisesta merkittävyydestä ja täten malli M X1 on tällaisessa tilanteessa usein lähtökohtamalli. Sen jälkeen kun päätutkimusongelman mukainen mallin valinta on suoritettu, ollaan usein kiinnostuneita selvittämään, minkä osapopulaatioiden jh suhteen odotusarvot µ jh eroavat toisistaan. Toisin sanoen ollaan esimerkiksi kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ jh µ j h eroavat nollasta. Parittaista vertailua voidaan tehdä testaamalla eroaako erotukset nollasta, tai muodostamalla luottamusväliestimaatteja odotusarvoerotuksille µ jh µ j h ja tutkia, kuuluuko nolla muodostetulle luottamusvälille. Jos siis nolla ei kuulu odotusarvoerotukselle µ jh µ j h muodostetulle luottamusvälille, odotusarvojen µ jh ja µ j h voidaan katsoa eroavan toisistaan.

34 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Mallien parametrisoiminen Kun päämalli M X1 X 2 ja yhdysvaikutusmalli M X1 X 2 kirjoitetaan edellä esitetyn keskiarvoero parametrisoinnin avulla, ne ovat yliparametrisointuja. Kaksisuuntaisessa varianssianalyysissa hypoteesien testaus ja odotusarvoerotusten µ jh µ j h estimoiminen perustuukin (tilastollisissa ohjelmistoissa uudelleen parametrisoiduista malleista laskettuihin estimaatteihin. Mallit M X1 X 2 ja M X1 X 2 uudelleen parametrisoidaan yleensä kontrolliluokka tyylisen parametrisoinnin avulla. Päävaikutusmalli M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh (3.5 voidaan kontrolliluokka tyylisesti parametrisoida siten, että esimerkiksi valitaan selittävien muuttujien X 1 ja X 2 viimeisten luokkien k ja l muodostama osapopulaatio kl lähtöluokaksi. Tällöin osapopulaation kl tilanteessa havaintojen y ikl ajatellaan tulevan mallista X 1 = k, X 2 = l : Y ikl = β 0 + ε ikl. Nyt muuttujan X 1 kaikilla muilla arvoilla j (j k tilanteessa, että X 2 = l havaintojen y ijl ajatellaan tulevan mallista X 1 = 1, X 2 = l : Y i1l = β 0 + β 11 + ε i1l, X 1 = 2, X 2 = l : Y i2l = β 0 + β 12 + ε i2l,. X 1 = k 1, X 2 = l : Y ik 1l = β 0 + β 1k 1 + ε ik 1l. Vastaavasti muuttujan X 2 kaikilla muilla arvoilla h (h l tilanteessa, että X 1 = k havaintojen y ikh ajatellaan tulevan mallista X 1 = k, X 2 = 1 : Y ik1 = β 0 + β 21 + ε ik1, X 1 = k, X 2 = 2 : Y ik2 = β 0 + β 22 + ε ik2,. X 1 = k, X 2 = l 1 : Y ikl 1 = β 0 + β 2l 1 + ε ikl 1. voidaan kirjoittaa kontrolliluokka tyylisen parametri- Täten päävaikutusmalli M X1 X 2 soinnin avulla mallina M X1 X 2 β : Y ijh = β 0 + β 1j + β 2h + ε ijh, β 1k = 0, β 2l = 0. (3.6 Nyt siis kontrolliluokka tyylisen parametrisoinnin tilanteessa osapopulaation jh odotusarvon µ jh oletetaan olevan päävaikutusmallin tilanteessa muotoa µ jh = β 0 + β 1j + β 2h, β 1k = 0, β 2l = 0, (3.7 ja siten erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h. (3.8

35 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 6 tilanteessa odotusarvo- Esimerkiksi kun k = 3 ja l = 3, niin päävaikutusmallin M X1 X 2 β jen µ jh oletetaan olevan muotoa µ 11 = β 0 + β 11 + β 21, µ 12 = β 0 + β 11 + β 22, µ 13 = β 0 + β 11, µ 21 = β 0 + β 12 + β 21, µ 22 = β 0 + β 12 + β 22, µ 23 = β 0 + β 12, µ 31 = β 0 + β 21, µ 32 = β 0 + β 22, µ 33 = β 0. Yhdysvaikutusmalli M X1 X 2 : Y ijh = µ + γ j + τ h + ω jh + ε ijh. (3.9 voidaan myös parametrisoida kontrolliluokka tyylisesti. Jos selittävien muuttujien X 1 ja X 2 viimeisten luokkien k ja l muodostama osapopulaatio kl valitaan lähtöluokaksi, niin silloin yhdysvaikutusmalli M X1 X 2 voidaan esittää muodossa M X1 X 2β : Y ijh =β 0 + β 1j + β 2h + β jh + ε ijh, (3.10 β 1k = 0, β 2l = 0, β kh = 0 kaikille h = 1,..., l, β jl = 0 kaikille j = 1,..., k. Yhdysvaikutusmallin M X1 X 2β tilanteessa odotusarvojen erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h + β jh β j h. (3.11 tilanteessa odotusar- Esimerkiksi kun k = 3 ja l = 3, niin yhdysvaikutusmallin M X1 X 2β vojen µ jh oletetaan olevan muotoa µ 11 = β 0 + β 11 + β 21 + β 11, µ 12 = β 0 + β 11 + β 22 + β 12, µ 13 = β 0 + β 11, µ 21 = β 0 + β 12 + β 21 + β 21, µ 22 = β 0 + β 12 + β 22 + β 22, µ 23 = β 0 + β 12, µ 31 = β 0 + β 21, µ 32 = β 0 + β 22, µ 33 = β 0.

36 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Parametrien estimoiminen ja hypoteesien testaus Rakennemallien M 0, M X1, M X2 tuntemattomien parametrien estimoiminen tapahtuu yksisuuntaisen varianssianalyysissa esitetyllä tavalla. Tarkastellaankin seuraavaksi tuntemattomien parametrien estimoimista päävaikutusmallin M X1 X 2 ja yhdysvaikutusmallin M X1 X 2 tilanteessa. Estimointi ja testaus perustuu kontrolliluokka tyylisten mallien M X1 X ja M 2 β X 1 X 2β tarkasteluun. Päävaikutusmallin M X1 X 2 β : Y ijh = β 0 + β 1j + β 2h + ε ijh (3.12 tilanteessa parametrien β 0, β 1j, β 2h pienimmän neliösumman estimaatit ˆβ 0, ˆβ 1j, ˆβ 2h saadaan ratkaisuina minimointiongelmaan arg min l β 0,β 1j,β 2h h=1 j=1 i=1 n k jh (y ijh (β 0 + β 1j + β 2h 2. (3.13 Nyt estimaateilla ˆβ 0, ˆβ 1j, ˆβ 2h ei ole yleisessä tapauksessa yksinkertaisia (helppoja esitysmuotoja, joten tässä kohdassa tarkastelemme vain ohjelmistojen tuottamia numeerisia estimaattiarvoja. Päävaikutusmallin M X1 X tilanteessa estimaattien avulla ˆβ 2 β 0, ˆβ 1j, ˆβ 2h avulla saadaan laskettua varianssille σ 2 harhaton estimaatti l k ( njh ˆσ M 2 h=1 j=1 i=1 y ijh ( ˆβ 0 + ˆβ 1j + ˆβ 2 2h X1 =, (3.14 X 2 n f X1 X 2 β missä f X1 X 2 β on päävaikutusmallin M X 1 X 2 β parametrien β 0, β 1j, β 2h lukumäärä. Harhattoman estimaatin ˆσ M 2 X1 avulla voidaan sitten lasketa varianssin σ 2 suurimman X 2 uskottavuuden estimaatti ( n σ M 2 fx1 X 2 β X1 = ˆσ X 2 M 2 n X1. (3.15 X 2 Varianssin σ 2 harhattoman estimaattorin avulla saadaan laskettua estimaattoreiden ˆβ 0, ˆβ 1j, ˆβ 2h varianssien estimaatit Var( ˆβ 0, Var( ˆβ 1j, Var( ˆβ 2h, joiden tarkka esitysmuoto tässä kohdassa sivuutetaan. Estimaattien ˆβ 0, ˆβ 1j, ˆβ 2h ja niiden estimoitujen varianssien avulla voidaan kuitenkin testata parametrien β 0, β 1j, β 2h yksittäisiä eroavuuksia nollasta. Esimerkiksi testattaessa yksittäiselle parametrille β 2h hypoteeseja H 0 : β 2h = 0, H 1 : β 2h 0, (3.16a (3.16b voidaan testata testisuureen t h = ˆβ 2h Var( ˆβ 2h (3.17

37 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 8 avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t h hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p h hav = 2 P (t > t h hav, (3.18 missä t noudattaa t-jakaumaa vapausastein n f X1 X 2 β. H 0 hypoteesi voidaan hylätä, jos on voimassa p h hav < α, missä α testin valittu riskitaso. Vastaavasti yhdysvaikutusmallin M X1 X 2β : Y ijh = β 0 + β 1j + β 2h + β jh + ε ijh (3.19 tilanteessa parametrien β 0, β 1j, β 2h, β jh pienimmän neliösumman estimaatit ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh saadaan ratkaisuina minimointiongelmaan arg min l β 0,β 1j,β 2h,β jh h=1 j=1 i=1 n k jh (y ijh (β 0 + β 1j + β 2h + β jh 2. (3.20 Nyt estimaateilla ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh ei ole nytkään yleisessä tapauksessa yksinkertaisia (helppoja esitysmuotoja, joten tässä kohdassa tarkastelemme vain ohjelmistojen tuottamia numeerisia estimaattiarvoja. Yhdysvaikutusmallin M X1 X 2β tilanteessa estimaattien avulla ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh avulla saadaan laskettua varianssille σ 2 harhaton estimaatti l k ( njh ˆσ M 2 h=1 j=1 i=1 y ijh ( ˆβ 0 + ˆβ 1j + ˆβ 2h + ˆβ 2 jh X1 =, (3.21 X 2 n f X1 X 2β missä f X1 X 2β on yhdysvaikutusmallin M X1 X 2β parametrien β 0, β 1j, β 2h, β jh lukumäärä. Harhattoman estimaatin ˆσ M 2 X1 avulla voidaan sitten lasketa varianssin σ 2 suurimman X 2 uskottavuuden estimaatti ( n σ M 2 fx1 X 2β X1 = ˆσ X 2 M 2 n X1. (3.22 X 2 Varianssin σ 2 harhattoman estimaattorin avulla saadaan laskettua estimaattoreiden ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh varianssien estimaatit Var( ˆβ 0, Var( ˆβ 1j, Var( ˆβ 2h, Var( ˆβ jh, joiden tarkka esitysmuoto tässä kohdassa sivuutetaan. Estimaattien ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh ja niiden estimoitujen varianssien avulla voidaan kuitenkin testata parametrien β 0, β 1j, β 2h, β jh yksittäisiä eroavuuksia nollasta. Esimerkiksi testattaessa yksittäiselle parametrille β jh hypoteeseja H 0 : β jh = 0, H 1 : β jh 0, (3.23a (3.23b voidaan testata testisuureen t jh = ˆβ jh Var( ˆβ jh (3.24

38 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 9 avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t jh hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p jh hav = 2 P (t > t jh hav, (3.25 missä t noudattaa t-jakaumaa vapausastein n f X1 X 2 β. H 0 hypoteesi voidaan hylätä, jos on voimassa p jh hav < α, missä α testin valittu riskitaso. Esimerkki 3.2. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on seuraavasta aineistosta esitetty estimoinnin tuloksia päävaikutusmallin M X1 X 2 β ja yhdysvaikutusmallin M X1 X 2β tilanteissa. > data<-read.table("tabletti2.txt", header=true, sep="\t", dec="." > attach(data > data y x1 x A HCL A HCL A HNO A HNO B HCL B HCL B HNO B HNO C HCL C HCL C HNO C HNO3 > options(contrasts=c("contr.sas", "contr.poly" > mallip<-lm(y~x1+x2 > summary(mallip Call: lm(formula = y ~ x1 + x2 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-11 *** x1a e-05 *** x1b e-05 *** x2hcl Signif. codes: 0 *** ** 0.01 * Residual standard error: on 8 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 3 and 8 DF, p-value:

39 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 10 > malliy<-lm(y~x1*x2 > summary(malliy Call: lm(formula = y ~ x1 * x2 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-09 *** x1a ** x1b ** x2hcl x1a:x2hcl x1b:x2hcl Signif. codes: 0 *** ** 0.01 * Residual standard error: on 6 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 5 and 6 DF, p-value: tilanteessa odotusarvojen pienimmän neliö- (a Mitä ovat päävaikutusmallin M X1 X 2 β summan estimaatit kun (i tabletti on C ja liuos HNO3? (ii tabletti on A ja liuos HNO3? (iii tabletti on C ja liuos HCL? (b Mitä ovat mallin M X1 X 2 β tilanteessa varianssin σ2 estimaatit ˆσ 2 M X1 X 2 ja σ 2 M X1 X 2? tilanteessa odotusarvojen pienimmän ne- (c Mitä ovat yhdysvaikutusmallin M X1 X 2β liösumman estimaatit kun (i tabletti on C ja liuos HNO3? (ii tabletti on A ja liuos HNO3? (iii tabletti on C ja liuos HCL? (d Mitä ovat mallin M X1 X 2β tilanteessa varianssin σ 2 estimaatit ˆσ M 2 X1 ja σ 2 X 2 M X1? X 2

40 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Mallin valinta ja hypoteesin testaus Tarkastellaan seuraavaksi mallin valintaa ja hypoteesien testausta kaksisuuntaisessa varianssianalyysissa. Kuten edellä on jo mainittu, kaksisuuntaisessa varianssianalyysissa päätutkimusongelmana on tutkia, mikä malleista M 0, M X1, M X2, M X1 X 2, M X1 X 2 parhainten kuvaa havaintojen y ijh muodostumista. Olkoon nyt yksisuuntaisen varianssianalyysin perusteella (tai muuten muuttuja X 1 tilastollisesti merkitsevä muuttuja, jolla on vaikutusta selitettävän muuttujan Y odotusarvoon. Tarkastellaan tässä tilanteessa, vaikuttaako muuttujan X 1 lisäksi selittävä muuttuja X 2 selitettävän muuttujan Y odotusarvoihin. Tätä tutkimusongelmaa voidaan lähestyä vertaamalla rakennemallia M X1 päävaikutusmalliin M X1 X 2. Selittävän muuttujan X 2 vaikutusta selitettävän muuttujan Y arvoihin voidaan tutkia testaamalla hypoteeseja H 0 : τ 1 = τ 2 = = τ l = 0, mallissa M X1 X 2, (3.26a H 1 : τ 1 τ 2 τ l 0, mallissa M X1 X 2. (3.26b Yllä olevia hypoteeseja vastaa siis hypoteesit H 0 : Rakennemalli M X1 on voimassa, (3.27a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.27b Olkoon σ 2 M X1 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 ja olkoon σ M 2 X1 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 X X 2. Tällöin testisuure 2 ( ( σ 2 MX1 σ M 2 X1 X F = 2 n fx1 X 2β ( σ 2MX1 σ 2MX1 X2 /(f X1 X k 2 β σ M 2 X1 f X1 X k = X 2 σ 2 2 β M X1 /(n f X1 X, (3.28 X 2 2 β noudattaa F -jakaumaa vapausastein df 1 = f X1 X 2 β k ja df 2 = n f X1 X 2 β kun H 0 hypoteesi on tosi. Rakennemallien M X1 ja M X1 X 2 vertailu perustuu siis kaavan (3.28 testisuureen. Päättelyn kannalta testisuureen erotus σ 2 M X1 σ 2 M X1 X 2 on jälleen täysin määrävä tekijä. Muut tekijät ovat testisuureessa vain sen takia, että testisuure saadaan noudattamaan tunnettua jakaumaan H 0 hypoteesin ollessa tosi. Tässä tapauksessa tunnettu jakauma on F -jakauma. Kun testisuureen havaittu arvo F hav on laskettu aineistosta, testin havaittu p-arvo (merkitsevyystaso saadaan todennäköisyydestä p hav = P (F > F hav. (3.29 Jos testin riskitasoksi valitaan esimerkiksi α = 0.05, niin H 0 hypoteesi hylätään jos p hav < Muuten H 0 jää voimaan. Jos edellä tarkasteltu H 0 hypoteesi (3.27a hylätään tai tiedetään etukäteen, että selittävä muuttuja X 2 vaikuttaa myös selitettävän muuttujan Y odotusarvoihin, niin silloin voidaan vertailla päävaikutusmallin M X1 X 2 ja yhdysvaikutusmallin M X1 X 2 sopivuutta aineistoon. Selittävien muuttujien X 1 ja X 2 vaikutustapaa selitettävän muuttujan Y odotusarvoihin voidaan vertailla testaamalla hypoteeseja H 0 : Rakennemalli M X1 X 2 on voimassa, (3.30a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.30b

41 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 12 Yllä olevat hypoteesit vastaavat siis hypoteeseja H 0 : ω jh = 0, kaikille j = 1,..., k, h = 1,..., l mallissa M X1 X 2, (3.31a H 1 : ω jh 0, jollekin jh mallissa M X1 X 2. (3.31b Olkoon σ 2 M X1 X 2 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 X 2 ja olkoon σ 2 M X1 X 2 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 X 2. Tällöin testisuure ( σ 2 MX1 σ 2 X F = 2 M X1 X 2 σ M 2 X1 X 2 ( n fx1 X 2β f X1 X 2β f X1 X 2 β = ( σ 2MX1 σ 2MX1 X2 /(f X1 X 2β f X1 X 2 β, σ M 2 X1 /(n f X1 X X 2β 2 (3.32 noudattaa F -jakaumaa vapausastein df 1 = f X1 X 2β f X1 X 2 β ja df 2 = n f X1 X 2β kun H 0 hypoteesi on tosi. Kun testisuureen havaittu arvo F hav on laskettu aineistosta, testin havaittu p-arvo (merkitsevyystaso saadaan todennäköisyydestä p hav = P (F > F hav. (3.33 Jos testin riskitasoksi valitaan esimerkiksi α = 0.05, niin H 0 hypoteesi hylätään jos p hav < Muuten H 0 jää voimaan. Esimerkki 3.3. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta laskettuja estimoinnin tuloksia liittyen malliin M X1β, missä selittävänä muuttuja X 1 tabletin valmistaja, päävaikutusmalliin M X1 X 2, missä selittävinä muuttujina X 1 ja X 2 ovat tabletin valmistaja ja tableteille tehty käsittely, ja β yhdysvaikutusmalliin M X1 X 2β, selittävinä muuttujina X 1 ja X 2 ovat tabletin valmistaja ja tableteille tehty käsittely. > options(contrasts=c("contr.sas", "contr.poly" > malli1<-lm(y~x1 > summary(malli1 Call: lm(formula = y ~ x1 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-13 *** x1a e-05 *** x1b e-05 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 9 degrees of freedom Multiple R-squared: , Adjusted R-squared:

42 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 13 F-statistic: on 2 and 9 DF, > mallip<-lm(y~x1+x2 > summary(mallip Call: lm(formula = y ~ x1 + x2 p-value: 2.015e-05 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-11 *** x1a e-05 *** x1b e-05 *** x2hcl Signif. codes: 0 *** ** 0.01 * Residual standard error: on 8 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 3 and 8 DF, p-value: > malliy<-lm(y~x1+x2+x1:x2 > summary(malliy Call: lm(formula = y ~ x1 + x2 + x1:x2 Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-09 *** x1a ** x1b ** x2hcl x1a:x2hcl x1b:x2hcl Signif. codes: 0 *** ** 0.01 * Residual standard error: on 6 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 5 and 6 DF, p-value: (a Testaa 5 % riskitasolla hypoteeseja H 0 : Rakennemalli M X1 on voimassa, H 1 : Rakennemalli M X1 X 2 on voimassa. (b Testaa 5 % riskitasolla hypoteeseja H 0 : Rakennemalli M X1 X 2 on voimassa, H 1 : Rakennemalli M X1 X 2 on voimassa.

43 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 14 R-ohjelmistossa päävaikutusmallin ja yhdysvaikutusmallin välinen testaus voidaan esittää alla olevan taulukon tyylisesti. Residual degrees Residual Sum Degrees Sum F p-value of freedom of squares of freedom of squares M X1 X 2 : n f X1 X 2 β SSE MX1 X 2 M X1 X 2 : n f X1 X 2β SSE MX1 X 2 f X1 X 2β f X1 X 2 β SSR MX1 X 2 M X1 X 2 F hav p hav Yllä olevassa taulukossa on voimassa seuraavat merkinnät: SSE MX1 X 2 = n σ 2 M X1 X 2, (3.34a SSE MX1 X 2 = n σ 2 M X1 X 2, (3.34b SSR MX1 X 2 M X1 X 2 = n( σ 2 M X1 X 2 σ 2 M X1 X 2, (3.34c F hav = SSR M X1 X 2 M X1 X 2 /(f X1 X 2β f X1 X 2 β, (3.34d SSE MX1 X 2 /(n f X1 X 2β p hav = P (F > F hav. (3.34e Saman tyylinen taulukko saadaan kun verrataan mitä tahansa (hierarkista kilpailevaa mallia. Esimerkki 3.4. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta laskettuja testauksen tuloksia liittyen päävaikutusmallin ja yhdysvaikutusmallin väliseen testaamiseen. > anova(mallip,malliy Analysis of Variance Table Model 1: y ~ x1 + x2 Model 2: y ~ x1 + x2 + x1:x2 Res.Df RSS Df Sum of Sq F Pr(>F Etsi SSE MX1 X 2 = SSE MX1 X 2 = SSR MX1 X 2 M X1 X 2 = F hav = p hav =

44 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Parittainen vertailu Mallin valinnan jälkeen kaksisuuntaisessa varianssianalyysissa voidaan tutkia, minkä osapopulaatioiden jh suhteen odotusarvot µ jh eroavat toisistaan. Toisin sanoen ollaan esimerkiksi kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ jh µ j h eroavat nollasta. Parittaista vertailua voidaan tehdä testaamalla eroaako erotukset nollasta, tai muodostamalla luottamusväliestimaatteja odotusarvoerotuksille µ jh µ j h ja tutkia, kuuluuko nolla muodostetulle luottamusvälille. Tarkastellaan seuraavaksi parittaisia µ jh µ j h vertailuja päävaikutusmallissa M X1 X 2 ja yhdysvaikutusmallissa M X1 X 2 hypoteesin testauksen avulla. Päävaikutusmallin M X1 X 2 tilanteessa erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h, (3.35 kun päävaikutusmalli parametrisoidaan rakennemallin M X1 X 2 mukaan. Täten osapopulaatioiden jh ja j h odotusarvojen erotukseen liittyviä β hypoteeseja H 0 : µ jh µ j h = 0, H 1 : µ jh µ j h 0, (3.36a (3.36b voidaan testata t-testisuureella t jh j h = ˆµ jh ˆµ j h Var(ˆµ jh ˆµ j h = ˆβ1j ˆβ 1j + ˆβ 2h ˆβ 2h Var( ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h, (3.37 joka yksittäisenä testisuureena noudattaa Studentin t-jakaumaa vapausastein df = n f X1 X kun H 2 β 0 hypoteesi on tosi. Yllä olevassa testisuureessa arvo ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h saadaan laskettua pienimmän neliösumman estimaattien avulla ja myös estimoitu varianssi Var( ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h on mahdollista muodostaa estimaattoreiden ominaisuuksien perusteella. Tällä kurssilla tyydytään ohjelmistojen tulostuksiin estimoidun varianssin suhteen. Mikäli parittaisia testauksia tehdään samanaikaisesti useille eri osapopulaatioiden erotuksille µ jh µ j h, saadaan myös useita yksittäisiä t jh j h testisuurearvoja ja siten useita yksittäisiä p-arvoja p jh j h = 2 P (t > t jh j h. Näille p jh j h arvoille voidaan tehdä esimerkiksi Bonferroni korjaukset yksisuuntaisen varianssianalyysin tavoin, mikäli halutaan, että usean samanaikaisen hypoteesin tilanteessa yksittäinen testi on merkitsevä α riskitasolla. Kaksisuuntaisen varianssianalyysin tapauksessa tarkasteltavia parittaisten erotuksin µ jh µ j h määrä kuitenkin kasvaa nopeasti, mikäli muuttujien X 1 ja X 2 luokkien määrä on huomattava. Esimerkiksi jos k = 3 ja l = 2, niin silloin voidaan muodostaa 15 erilaista erotusta µ jh µ j h. Mikäli samanaikaisten testausten lukumäärä on huomattava, konservatiivinen Bonferroni korjaus saattaa nopeasti muuttaa jokaisen tilastollisesti merkitsevän eron ei-merkitseväksi. Täten on usein syytä tarkastella Bonferronin korjausmenetelmän lisäksi muita menetelmiä, joilla yksittäisen testisuureen t jh j h tilastollista merkitsevyyttä arvioidaan. Yksi tällainen menetelmä on single-step -menetelmä, jossa kaikkien laskettujen yksittäisten testisuureiden t jh j h oletetaan noudattavan moniulotteista t-jakaumaa. Yksittäiseen testiin liittyvä p-arvo p jh j h saadaan muodostettua moniulotteisen t-jakaumaa ominaisuuksien avulla.

45 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 16 Esimerkki 3.5. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta parittaisia vertailuja päävaikutusmallin tilanteessa. > library(multcomp > k1<-c(0,1,0,0 > k2<-c(0,1,0,1 > k3<-c(0,0,1,0 > k4<-c(0,0,1,1 > k5<-c(0,0,0,1 > k6<-c(0,1,0,-1 > k7<-c(0,1,0,0 > k8<-c(0,0,1,-1 > k9<-c(0,0,1,0 > k10<-c(0,1,-1,0 > k11<-c(0,1,-1,1 > k12<-c(0,0,0,1 > k13<-c(0,1,-1,-1 > k14<-c(0,1,-1,0 > k15<-c(0,0,0,1 > K<-rbind(k1,k2,k3,k4,k5,k6,k7,k8,k9,k10,k11,k12,k13,k14,k15 > rownames(k<-c("a;hno3-c;hno3","a;hcl-c;hno3","b;hno3-c;hno3","b;hcl-c;hno3","c;hcl-c;hno3","a;hno3-c > parit<-glht(mallip, linfct = K,alternative = c("two.sided" > summary(parit,test = adjusted("bonf" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == *** A;HCL-C;HNO3 == ** B;HNO3-C;HNO3 == ** B;HCL-C;HNO3 == ** C;HCL-C;HNO3 == A;HNO3-C;HCL == ** A;HCL-C;HCL == *** B;HNO3-C;HCL == ** B;HCL-C;HCL == ** A;HNO3-B;HNO3 == A;HCL-B;HNO3 == B;HCL-B;HNO3 == A;HNO3-B;HCL == A;HCL-B;HCL == A;HCL-A;HNO3 == Signif. codes: 0 *** ** 0.01 * (Adjusted p values reported -- bonferroni method Mitkä pareista µ jh µ j h on Bonferroni korjausten jälkeen tilastollisesti eroavia?

46 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 17 > summary(parit,test = adjusted("single-step" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == *** A;HCL-C;HNO3 == *** B;HNO3-C;HNO3 == *** B;HCL-C;HNO3 == ** C;HCL-C;HNO3 == A;HNO3-C;HCL == ** A;HCL-C;HCL == *** B;HNO3-C;HCL == ** B;HCL-C;HCL == *** A;HNO3-B;HNO3 == A;HCL-B;HNO3 == B;HCL-B;HNO3 == A;HNO3-B;HCL == A;HCL-B;HCL == A;HCL-A;HNO3 == Signif. codes: 0 *** ** 0.01 * (Adjusted p values reported -- single-step method Mitkä pareista µ jh µ j h on single-step - menetelmän perusteella tilastollisesti eroavia? Yhdysvaikutusmallin M X1 X 2 tilanteessa erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h + β jh β j h. (3.38 kun yhdysvaikutusmalli parametrisoidaan rakennemallin M X1 X 2β mukaan. Täten osapopulaatioiden jh ja j h odotusarvojen erotukseen liittyviä hypoteeseja H 0 : µ jh µ j h = 0, H 1 : µ jh µ j h 0, (3.39a (3.39b voidaan testata t-testisuureella t jh j h = ˆµ jh ˆµ j h Var(ˆµ jh ˆµ j h = ˆβ1j ˆβ 1j + ˆβ 2h ˆβ 2h + ˆβ jh ˆβ j h Var( ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h + ˆβ jh ˆβ j h, (3.40 joka yksittäisenä testisuureena noudattaa Studentin t-jakaumaa vapausastein df = n f X1 X 2β kun H 0 hypoteesi on tosi. Mikäli parittaisia testauksia tehdään samanaikaisesti useille eri osapopulaatioiden erotuksille µ jh µ j h, saadaan myös useita yksittäisiä t jh j h testisuurearvoja. Yksittäisen testisuureen t jh j h tilastollista merkitsevyyttä voidaan jälleen arvioida esim. Bonferroni menetelmän tai single-step -menetelmä avulla.

47 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 18 Useat tilasto-ohjelmat saattavat oletusarvoisesti laskea erotusten µ jh µ j h estimaatit virheellisesti. Erityisesti yhdysvaikutusmallin tilanteessa näin saattaa tapahtua. Oikean estimaatin muodostaminen on lopulta kuitenkin tärkeämpää kuin oikean korjausmenetelmän valinta. Esimerkki 3.6. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta parittaisia vertailuja yhdysvaikutusmallin tilanteessa. > library(multcomp > k1<-c(0,1,0,0,0,0 > k2<-c(0,1,0,1,1,0 > k3<-c(0,0,1,0,0,0 > k4<-c(0,0,1,1,0,1 > k5<-c(0,0,0,1,0,0 > k6<-c(0,1,0,-1,0,0 > k7<-c(0,1,0,0,1,0 > k8<-c(0,0,1,-1,0,0 > k9<-c(0,0,1,0,0,1 > k10<-c(0,1,-1,0,0,0 > k11<-c(0,1,-1,1,1,0 > k12<-c(0,0,0,1,0,1 > k13<-c(0,1,-1,-1,0,-1 > k14<-c(0,1,-1,0,1,-1 > k15<-c(0,0,0,1,1,0 > K<-rbind(k1,k2,k3,k4,k5,k6,k7,k8,k9,k10,k11,k12,k13,k14,k15 > rownames(k<-c("a;hno3-c;hno3","a;hcl-c;hno3","b;hno3-c;hno3","b;hcl-c;hno3","c;hcl-c;hno3","a;hno3-c > parity<-glht(malliy, linfct = K,alternative = c("two.sided" > summary(parity,test = adjusted("bonf" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 + x1:x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == * A;HCL-C;HNO3 == * B;HNO3-C;HNO3 == B;HCL-C;HNO3 == * C;HCL-C;HNO3 == A;HNO3-C;HCL == ** A;HCL-C;HCL == ** B;HNO3-C;HCL == * B;HCL-C;HCL == ** A;HNO3-B;HNO3 == A;HCL-B;HNO3 == B;HCL-B;HNO3 == A;HNO3-B;HCL == A;HCL-B;HCL == A;HCL-A;HNO3 == Signif. codes: 0 *** ** 0.01 * (Adjusted p values reported -- bonferroni method Mitkä pareista µ jh µ j h on Bonferroni korjausten jälkeen tilastollisesti eroavia?

48 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 19 > summary(parity,test = adjusted("single-step" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 + x1:x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == * A;HCL-C;HNO3 == ** B;HNO3-C;HNO3 == * B;HCL-C;HNO3 == ** C;HCL-C;HNO3 == A;HNO3-C;HCL == ** A;HCL-C;HCL == ** B;HNO3-C;HCL == ** B;HCL-C;HCL == ** A;HNO3-B;HNO3 == A;HCL-B;HNO3 == B;HCL-B;HNO3 == A;HNO3-B;HCL == A;HCL-B;HCL == A;HCL-A;HNO3 == Signif. codes: 0 *** ** 0.01 * (Adjusted p values reported -- single-step method Mitkä pareista µ jh µ j h on single-step - menetelmän perusteella tilastollisesti eroavia?

49 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo Koesuunnittelu kaksisuuntaisessa varianssianalyysissa Usein kaksisuuntainen varianssianalyyysi suoritetaan tilanteessa, missä tutkija on voinut täysin kontroloida, mitä selittävien muuttujien X 1 ja X 2 arvoja j ja h kukin käytössä oleva havaintoyksikkö i saa. Parhaimmassa tapauksessa kaksisuuntaisessa varianssianalyysissa havaittu aineisto muodostuu usean toiston faktorikokeiden tuloksena. Faktorikoetilanteessa selitettävästä muuttujasta Y havaitaan arvoja jokaisella selittävien muuttujien X 1 ja X 2 arvojen j ja h kombinaatioilla. Eli faktorikokeen tilanteessa koejärjesjestely on suoritettu niin, että jokaisesta osapopulaatiosta jh saadaan kerättyä selitettävän muuttujan Y arvoja y ijh. Parhaimmassa tapauksessa jokaisesta osapopulaatiosta on kerätty n jh kappaletta havaittuja arvoja y ijh eli faktorikoetta on toistettu n jh kertaa. Esimerkiksi tässä luentomonisteessa tarkasteltu monivitamiinitabletteihin liittyvä aineisto on syntynyt faktorikokeiden tuloksena, kun jokaisen monivitamiinivalmistajan tableteista kahden eri käsittelyn tilanteessa on mitattu rautapitoisuuden kahdesta eri tabletista. Faktorikokeessa satunnaistaminen tapahtuu siten, että havaintoyksiköt valikoidaan osapopulaatioihin jh satunnaisesti. Yleensä faktorikokeessa kannattaa pyrkiä toistamaan koetta saman n jh verran jokaisen osapopulaation jh tilanteessa. Jos n jh > 1 (kaikille j ja h, niin silloin saatuja havaintoja y ijh voidaan mallintaa yhdysvaikutusmallin M X1 X 2 : Y ijh = µ + γ j + τ h + ω jh + ε ijh. (3.41 avulla, tai jonkun sitä suppeamman mallin perusteella. Jos taas faktorikoetilanteessa n jh = 1 (kaikille j ja h, niin silloin saatuja havaintoja y ijh voidaan enintään mallintaa päävaikutusmallin M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh (3.42 avulla, tai jonkun sitä suppeamman mallin perusteella. Tämä siksi, että muuten ei olisi mahdollista estimoida varianssin σ 2 suuruutta. Aina ei ole mahdollista suorittaa usean toiston faktorikoetta. Esimerkiksi usein erilaisissa viljelyskokeissa havaintoalueena toimiva peltoalue on kooltaan rajallinen ja usein vieläpä lohkottainen niin, että eri lohkoilla kasvuolosuhteen ovat erilaiset. Tällaisissa tilanteissa peltoalue pitää ensiksi lohkoittaa olosuhteiltaan tasalaatuisiksi lohkoiksi. Tämän jälkeen lohkojen sisällä voidaan luoda pienempiä peltoalueita, jotka sitten muodostavat aineiston havaintoyksiköt. Yleisesti koejärjestelyä kutsutaan satunnaistetuksi lohkokokeeksi, jos jokaisen lohkon sisällä on käytettävissä vähintään yhtä paljon havaintoyksiköitä i kuin "käsittely" muuttujalla on erilaisia arvoja, ja jos nämä "käsittely" muuttujan arvot sijoitetaan satunnaisesti jokaisen lohkon sisällä käytettävissä oleviin havaintoihin. Jos merkitään X 1 :lla muuttujaa, joka kertoo mistä lohkosta havainto i on, ja varsinaiseen tutkimusongelmaan liittyvää "käsittely" muuttujaa X 2 :lla, niin silloin satunnaistetusta lohkokokeesta saatuja havaintoja y ijh voidaan mallintaa enintään päävaikutusmallin M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh (3.43

50 kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 21 avulla. Tämä johtuu lähinnä siksi, että havintoyksiköiden rajallisuuden takia satunnaistetussa lohkokokeessa jokaisesta jh osapopulaatiosta on vain yksi havainto, eli indeksi i on tavallaan mallissa turha. Satunnaistetussa lohkokokeessa lohkon identioiva muuttuja X 1 on kiusatekijä, joka tulisi pitää mallissa mukana riippumatta siitä, onko muuttuja varsinaisesti tilastollisesti merkitsevä muuttuja. Täten yhden toiston satunnaistetun lohkokokeen tilanteessa "käsittely" muuttujan vaikutusta selitettävään muuttujaan Y voidaan tutkia testaamalla hypoteeseja H 0 : Rakennemalli M X1 on voimassa, (3.44a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.44b Esimerkki 3.7. Tutkimusongelmana on tutkia 8 eri kauralajikkeen satomääriä kun käytössä 5 tasalaatuista peltolohkoa, jonne eri lajikkeita voidaan kylvää. Kuinka muodostat satunnaistetun lohkokoejärjestelyn tässä tapauksessa?

51 Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A Lyhyesti lisää varianssianalyysistä 4.1 Monisuuntainen varianssianalyysi Varianssianalyysissä voi olla p kappaletta selittäviä muuttujia X 1, X 2,..., X p, joidenka arvot voivat vaikuttaa selitettävän muuttujan Y keskimääräisiin arvoihin. Tarkastellaan lyhyesti eri mallivaihtoehtoja kolmen selittävän muuttujan tilanteessa. Kolmisuuntaisessa varianssianalyysissa selitettävän muuttujan Y havaittujen arvojen voidaan katsoa muodostuvan kaikista mahdollisista yksisuuntaisista malleista, kaksisuuntaisista malleista tai M 0 mallista. Aikaisempien oletusten lisäksi oletetaan, että selittävä muuttuja X 3 voidaan saada r kappaletta erilaisia arvoja ja että indeksi q kuvaa näitä selittävän muuttujan X 3 eri tulosvaihtoehtoja. Tällöin havaittujen arvojen y ijhq voidaan ajatella muodostuvan kolmisuuntaisessa varianssianalyysissa kolmen muuttujan päävaikutusmallista M : Y ijhq = µ + γ j + τ h + θ q + ε ijhq. (4.1 Vastaavasti jos muuttujilla X 1, X 2, X 3 on parittaisia yhdysvaikutuksia selitettävän muuttujan Y arvoihin, niin silloin havaittujen arvojen y ijhq voidaan ajatella muodostuvan joistakin seuraavista malleista: M 12 3 : Y ijhq = µ + γ j + τ h + θ q + ω jh + ε ijhq, (4.2a M 13 2 : Y ijhq = µ + γ j + τ h + θ q + ψ jq + ε ijhq, (4.2b M 1 23 : Y ijhq = µ + γ j + τ h + θ q + ϑ hq + ε ijhq, (4.2c M : Y ijhq = µ + γ j + τ h + θ q + ω jh + ψ jq + ε ijhq, (4.2d M : Y ijhq = µ + γ j + τ h + θ q + ω jh + ϑ hq + ε ijhq, (4.2e M : Y ijhq = µ + γ j + τ h + θ q + ψ jq + ϑ hq + ε ijhq, (4.2f M : Y ijhq = µ + γ j + τ h + θ q + ω jh + ψ jq + ϑ hq + ε ijhq. (4.2g Lisäksi jos muuttujilla X 1, X 2, X 3 on kolmannen asteen yhdysvaikutusta selitettävän muuttujan Y arvoihin, niin silloin havaittujen arvojen y ijhq voidaan ajatella muodostuvan mallista M 123 : Y ijhq = µ + γ j + τ h + θ q + ω jh + ψ jq + ϑ hq + δ jhq + ε ijhq. (4.3 Tutkimusongelmana on tutkia, mikä malleista parhainten kuvaa havaittujen arvojen y ijhq muodostumista. Malleja voidaan vertailla testaamalla F -testin avulla, olisiko jokin H 0 hypoteesin mukainen rakennemalli voimassa verrattuna H 1 hypoteesin mukaiseen malliin. Yleisesti F -testisuure on muotoa F = ( σ 2 MH0 σ 2 M H1 σ 2 M H1 ( n fh1β f H1β f H0β, (4.4

52 kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo 2 missä alaindeksit H 0 ja H 1 kuvaavat, minkä hypoteesin mukaisen mallin mukaan arvot lasketaan. Yllä oleva testisuure siis noudattaa F -jakaumaa vapausastein df 1 = f H1β f H0β ja df 2 = n f H1β kun H 0 hypoteesi on tosi. Esimerkki 4.1. Yhdysvalloissa tutkimusryhmä tutki eroaako geenimuunnellun riisin taimenen (ANU843 kuivapaino ei-muunnellun riisin kuivapainosta. Erityisesti tutkimusryhmä tutki kuinka kemialliset käsittelyt (F10, NH4Cl ja NH4NO3 vaikuttavat riisin kuivapainoon geenimuunnellun ja ei-muunnellun tilanteensa. Lisäksi koeviljelmät tehtiin kahdelle eri peltolohkolle. Merkitään selittäviä muuttujia seuraavasti: X 1 = lohko, X 2 = lajike, X 3 = kasittely. Alla on osa tutkimuksen aineistosta ja estimointituloksia liittyen malleihin M 1 2 : Y ijhq = µ + γ j + τ h + ε ijhq, M : Y ijhq = µ + γ j + τ h + θ q + ε ijhq. kuivapaino lajike kasittely lohko wt F wt F wt F wt NH4Cl wt NH4Cl wt NH4Cl ANU843 F ANU843 F ANU843 F ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO ANU843 NH4NO3 2 > riisi<-read.table("riisi.txt", header=true, sep="\t", dec="." > mallih0<-lm(kuivapaino~lohko+lajike,data=riisi > summary(mallih0 Call: lm(formula = kuivapaino ~ lohko + lajike, data = riisi Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-05 *** lohko lajikewt e-06 *** --- Signif. codes: 0 *** ** 0.01 *

53 kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo 3 Residual standard error: on 69 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 69 DF, p-value: 2.414e-06 > mallih1<-lm(kuivapaino~lohko+lajike+kasittely,data=riisi > summary(mallih1 Call: lm(formula = kuivapaino ~ lohko + lajike + kasittely, data = riisi Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t (Intercept e-06 *** lohko lajikewt e-07 *** kasittelynh4cl * kasittelynh4no Signif. codes: 0 *** ** 0.01 * Residual standard error: on 67 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 4 and 67 DF, p-value: 1.363e-06 Testaa 5 % riskitasolla hypoteeseja H 0 : Rakennemalli M 1 2 on voimassa, H 1 : Rakennemalli M on voimassa. Hyväksytäänkö vai hylätäänkö H 0 hypoteesi?

54 kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo Varianssianalyysin oletuksista Varianssianalyysi perustuu oletuksiin: 1. Havainnot Y i riippumattomia toisistaan. 2. Osapopulaatioden varianssit ovat samat. 3. Havainnot Y i noudattavat normaalijakaumaa. Yleensä ainakin koesuunnittelutilanteessa satunnaismuuttujat Y i ovat toisistaan riippumattomia. Havainnot saattavat kuitenkin olla riippuvaisia, jos osa havainnoista on kerätty esim. ajan tai paikan suhteen erilaisissa olosuhteissa. Tällöin varianssianalyysiin voidaan sisällyttää riippuvuutta kuvaavia satunnaisefektejä, jolloin rakennemallista tulee oikeamman muotoinen. Jos varianssianalyysin rakennemallissa on mukana satunnaisefektejä, mallia kutsutaan sekamalliksi. Sekamallit ovat laajuudeltaan niin suuri malliperhe, että niiden tarkasteluun tarvitaan oma kurssinsa. Varianssianalyysissa oletetaan siis, että virhetermien varianssi σ 2 on saman suuruinen jokaisessa tarkasteltavassa osapopulaatiossa. Tätä oletusta voidaan testata joissakin tilanteissa. Esimerkiksi yksisuuntaisen varianssianalyysin tapauksessa voidaan Bartlettin testillä testata hypoteeseja H 0 : σ 2 1 = σ 2 2 = = σ 2 k, H 1 : σ 2 1 σ 2 2 σ 2 k. Usein on kuitenkin ongelmallista päättää, että mitä pitäisi tehdä jos varianssien yhtäsuuruus ei ole voimassa. Estimoidut varianssit eri osapopulaatioissa saattavat olla eri tasolla, koska mallista saattaa puuttuu jokin merkittävä selittävä muuttuja X p. Täten varianssien tarkasteluun tulisi siirtyä vasta kun mallin odotusarvon rakenne on päätetty. Jos oikean rakennemallinkin tilanteessa varianssit eroavat osapopulaatioissa, voidaan yrittää mallintaa myös varianssin σ 2 rakennetta. Tällöin kuitenkin tuntemattomien parametrien estimoiminen ja hypoteesien testaaminen saattaa muuttua huomattavan paljon vaikeammaksi. Havaintojen normaalijakautuneisuutta voidaan testata esimerkiksi Shapiro-Wilks testin avulla. Normaalisuuden testaamiseen palataan regressioanalyysi osiossa. Vaikka havainnot havainnot Y i eivät olisi normaalistijakautuneita, aina voidaan laskea esimerkiksi testisuureen ( σ 2 MH0 σ 2 ( M H1 n fh1β F = σ M 2 (4.5 H1 f H1β f H0β havaittu arvo. Poikkeavuus normaalijakaumasta vaikuttaa kuitenkin havaitun p-arvon määrittämiseen. Eli jos havainnot Y i eivät noudata normaalijakaumaa, niin silloin ei myöskään F -testisuure välttämättä noudata F -jakaumaa kun H 0 hypoteesi on tosi. Mikäli kuitenkin otoskoot esim. jokaisen osapopulaation kohdalta ovat suurempia kuin 30, niin F -testisuureen jakauma noudattaa likimain F -jakaumaa, vaikka havainnot sinällään ei noudattaisivatkaan normaalijakaumaa. Ei-normaalisti jakautuneessa tilanteessa lopullinen päättely voidaan perustaa myös joko permutaatiotestaukseen tai sitten

55 kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo 5 epäparametrisiin menetelmiin. Esimerkiksi yksisuuntaisen varianssianalyysin tilanteessa voidaan odotusarvojen yhtäsuuruutta testata epäparametrisen KruskalWallis testin avulla ja satunnaistetun lohkokokeen tilanteessa käsittely muuttujan vaikutusta voidaan testata Friedmanin testin avulla.

56 Tilastollisia malleja 1: Regressio ja korrelaatiomallit Y131A & Y131B Jarkko Isotalo 1 Johdatus regressioanalyysiin 1.1 Milloin lineaarista regressioanalyysiä käytetään? Lineaarinen regressioanalyysi on tilastotieteellinen menetelmä, jonka avulla voidaan tutkia kerätyn aineiston pohjalta, vaikuttaako numeerisen selittävän muuttujan arvo numeerisen selitettävän muuttujan keskimääräisiin arvoihin. Regressioanalyysissä selittäviä muuttujia voi olla yksi tai useampia, joidenka vaikutusta yhden selitettävän muuttujan keskimääräisiin arvoihin analyysissä tarkastellaan. Merkitään selitettävää muuttujaa Y :llä. Regressioanalyysissä voi olla p kappaletta selittäviä muuttujia X 1, X 2,..., X p, joidenka arvot voivat vaikuttaa muuttujan Y keskimääräisiin arvoihin. Selittävät muuttujat X 1, X 2,..., X p ovat lähtökohtaisesti suhde- tai intervalliasteikollisia muuttujia, eli jokainen muuttuja X 1, X 2,..., X p voi saada arvokseen numeerisia arvoa. Lineaarisessa regressioanalyysissä selittävien muuttujien X 1, X 2,..., X p arvot voivat olla kontroloitavissa eli tutkija itse voi määritellä tutkimusasetelmansa mukaan, mitä arvoja selittävät muuttujat X 1, X 2,..., X p täsmällisesti saavat. Tässä tilanteessa selittävät muuttujat X 1, X 2,..., X p ovat luonteelta ei-satunnaisia muuttujia. Käytännössä kuitenkin regressioanalyysiä käytetään useimmin tilanteessa, missä selittäviä muuttujien X 1, X 2,..., X p arvoja havaitaan ilman, että ne ovat tutkijan itsensä kontroloitavissa. Tällöin usein selittävienkin muuttujien X 1, X 2,..., X p voidaan katsoa olevan satunnaisia. Kummassakin tilanteessa regressioanalyysissä tutkitaan vaihtelevatko selitettävän muuttujan Y keskimääräiset arvot selittävien muuttujien X 1, X 2,..., X p arvojen vaikutuksesta. Selitettävä muuttuja Y (vastemuuttuja on regressioanalyysissä aina satunnainen eli sen arvot voivat riippua selittävien muuttujien X 1, X 2,..., X p arvojen lisäksi satunnaisesti myös muista mittaamattomista tekijöistä ja satunnaisvirheistä. Selitettävä muuttuja Y ei ole tutkijan kontroloitavissa vaan on satunnaismuuttuja, jolla on oma todennäköisyysjakaumansa. Klassisesti regressioanalyysissä oletetaan, että Y on numeerinen jatkuva muuttuja mittaustarkkuus pois lukien. Lisäksi yleensä oletetaan, että Y noudattaa myös normaalijakaumaa. Alla on esitetty esimerkkejä tutkimustilanteissa, missä regressioanalyysiä voidaan käyttää tutkimusongelman ratkaisemisessa hyväksi.

57 kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 2 Esimerkki 1.1. Tutkimuksessa 1 haluttiin selvittää, minkälaisen painauman (mm nurmikkojyrän paino (kg aiheuttaa tietyn tyyppiselle nurmikkoalueelle. Alla on esitetty tutkimuksen aineisto. > nurmikkojyra<-read.table ("nurmikkoroller.txt",sep="\t", dec=".",header=true > nurmikkojyra paino painauma Mikä on tässä tutkimuksessa selittävä muuttuja X ja selitettävä muuttuja Y? Mikä on tässä tutkimuksessa havaintoyksikkö? Onko selittävä muuttuja X tässä tutkimuksessa kontroloitavissa vai ei? Selittävä muuttuja X on nurmikköjyrän paino. Selitettävä muuttuja Y on painauma. Havaintoyksikkö on yksittäinen nurmikkoalue, josta jyrällä on yli ajettu ja painauma mitattu. Nyt voidaan ajatella, että selittävä muuttuja X on kontroloitavissa. Esimerkki 1.2. Tutkimusryhmä halusi tutkia, kuinka ulkoiset mitat ennustavat ihmisen rasvaprosenttia. Ryhmä mittasi 252 mieheltä rasvaprosentit ( brozek ja siri muuttujat ja heidän ulkoisia mittoja. brozek siri density age weight height adipos free neck chest abdom hip thigh knee ankle biceps forearm wrist brozek - Percent body fat using Brozek's equation, 457/Density siri - Percent body fat using Siri's equation, 495/Density density - Density (gm/$cm^3$ age - Age (yrs weight - Weight (lbs height - Height (inches adipos - Adiposity index = Weight/Height$^2$ (kg/$m^2$ free - Fat Free Weight = (1 - fraction of body fat * Weight, using Brozek's formula (lbs neck - Neck circumference (cm chest - Chest circumference (cm abdom - Abdomen circumference (cm at the umbilicus and level with the iliac crest hip - Hip circumference (cm thigh - Thigh circumference (cm knee - Knee circumference (cm ankle - Ankle circumference (cm biceps - Extended biceps circumference (cm forearm - Forearm circumference (cm wrist - Wrist circumference (cm distal to the styloid processes 1 Stewart, K.M., Van Toor, R.F., Crosbie, S.F Control of grass grub (Coleoptera: Scarabaeidae with rollers of dierent design. N.Z. Journal of Experimental Agriculture 16:

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään tiedetään, että ainakin kaksi

Lisätiedot

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1 Odotusarvoparien vertailu Jos yksisuuntaisen varianssianalyysin nollahypoteesi H 0 : µ 1 = µ 2 = = µ k = µ hylätään, tiedetään, että ainakin

Lisätiedot

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1 Odotusarvoparien vertailu Vilkkumaa / Kuusinen 1 Motivointi Viime luennolta: yksisuuntaisella varianssianalyysilla testataan nollahypoteesia H 0 : μ 1 = μ 2 = = μ k = μ Jos H 0 hylätään, tiedetään, että

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1 Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1 Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1 Kaksisuuntainen varianssianalyysi Heliövaara 1 Kaksi- tai useampisuuntainen varianssianalyysi Kaksi- tai useampisuuntaisessa varianssianalyysissa perusjoukko on jaettu ryhmiin kahden tai useamman tekijän

Lisätiedot

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin Tilastollisen analyysin perusteet Luento 10: Sisältö Varianssianalyysi Varianssianalyysi on kahden riippumattoman otoksen t testin yleistys. Varianssianalyysissä perusjoukko koostuu kahdesta tai useammasta

Lisätiedot

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio 17.11.2015/1 MTTTP5, luento 17.11.2015 Luku 5 Parametrien estimointi 5.1 Piste-estimointi Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo? MTTTP5, kevät 2016 15.2.2016/RL Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen 1. Valitaan 25 alkion satunnaisotos jakaumasta N(µ, 25). Olkoon H 0 : µ = 12. Hylätään H 0, jos otoskeskiarvo

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾ ËØÙ ÓØÓ Ø Mitta-asteikot Nominaali- eli laatueroasteikko Ordinaali- eli järjestysasteikko Intervalli- eli välimatka-asteikko ( nolla mielivaltainen ) Suhdeasteikko ( nolla ei ole mielivaltainen ) Otos

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 15. marraskuuta 2007 Antti Rasila () TodB 15. marraskuuta 2007 1 / 19 1 Tilastollisia testejä (jatkoa) Yhden otoksen χ 2 -testi varianssille Kahden riippumattoman

Lisätiedot

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1 Kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 1 Motivointi Luennot 6 ja 7: yksisuuntaisella varianssianalyysilla testataan ryhmäkohtaisten odotusarvojen yhtäsuuruutta, kun perusjoukko on jaettu

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot) R-ohjelman käyttö data-analyysissä Panu Somervuo 2014 Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. 0) käynnistetään R-ohjelma Huom.1 allaolevissa ohjeissa '>' merkki on R:n

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen) 1 MTTTP3 Luento 29.1.2015 Luku 6 Hypoteesien testaus Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? H 0 : µ = µ 0 H 1 : µ < µ 0 Nollahypoteesi Vaihtoehtoinen hypoteesi

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään

Lisätiedot

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170 VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE 4.6.2013 Ratkaisut ja arvostelu 1.1 Satunnaismuuttuja X noudattaa normaalijakaumaa a) b) c) d) N(170, 10 2 ). Tällöin P (165 < X < 175) on likimain

Lisätiedot

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat

Residuaalit. Residuaalit. UK Ger Fra US Austria. Maat TAMPEREEN YLIOPISTO Tilastollisen mallintamisen harjoitustyö Teemu Kivioja ja Mika Helminen Epätasapainoisen koeasetelman analyysi Worksheet 5 Matematiikan, tilastotieteen ja filosofian laitos Tilastotiede

Lisätiedot

9. laskuharjoituskierros, vko 12-13, ratkaisut

9. laskuharjoituskierros, vko 12-13, ratkaisut 9. laskuharjoituskierros, vko 12-13, ratkaisut D1. Olkoot X i, i = 1, 2,..., n riippumattomia, samaa eksponenttijakaumaa noudattavia satunnaismuuttujia, joiden odotusarvo E(X i = β, toisin sanoen X i :t

Lisätiedot

Johdatus regressioanalyysiin. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1 Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen

Lisätiedot

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Normaalijakaumasta johdettuja jakaumia

Normaalijakaumasta johdettuja jakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2007) 1 Normaalijakaumasta johdettuja jakaumia >> Johdanto χ 2 -jakauma F-jakauma

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1 Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

2. Keskiarvojen vartailua

2. Keskiarvojen vartailua 2. Keskiarvojen vartailua Esimerkki 2.1: Oheiset mittaukset liittyvät Portland Sementin sidoslujuuteen (kgf/cm 2 ). Mittaukset y 1 ovat nykyisestä seoksesta ja mittaukset y 2 uudesta seoksesta, jossa lisäaineena

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti.

(d) Laske selittäjään paino liittyvälle regressiokertoimelle 95 %:n luottamusväli ja tulkitse tulos lyhyesti. 2. VÄLIKOE vuodelta -14 1. Liitteessä 1 on esitetty R-ohjelmalla saatuja tuloksia aineistosta, johon on talletettu kahdenkymmenen satunnaisesti valitun miehen paino (kg), vyötärön ympärysmitta (cm) ja

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B Tilastollinen päättömyys, kevät 7 Harjoitus 6B Heikki Korpela 8. helmikuuta 7 Tehtävä. Monisteen teht. 6... Olkoot Y,..., Y 5 Nµ, σ, ja merkitään S 5 i Y i Y /4. Näytä, että S/σ on saranasuure eli sen

Lisätiedot

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

VARIANSSIANALYYSI ANALYSIS OF VARIANCE VARIANSSIANALYYSI ANALYSIS OF VARIANCE 1 Suomalaisten aikuisten pituusjakauma:.8.7.6.5.4.3.2.1 14 15 16 17 18 19 2 21 Jakauma ei ole normaali, sen olettaminen sellaiseksi johtaa virheellisiin päätelmiin.

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n = 1. Tutkitaan paperin ominaispainon X(kg/dm 3 ) ja puhkaisulujuuden Y (m 2 ) välistä korrelaatiota. Tiettyä laatua olevasta paperierästä on otettu satunnaisesti 10 arkkia ja määritetty jokaisesta arkista

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka

Lisätiedot

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta MS-A00 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta 7.. Gripenberg Kirjoita jokaiseen koepaperiin nimesi, opiskelijanumerosi ym. tiedot ja minkä kokeen suoritat! Laskin,

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Väliestimointi TKK (c) Ilkka Mellin (2005) 1 Väliestimointi Todennäköisyysjakaumien parametrien estimointi Luottamusväli Normaalijakauman odotusarvon luottamusväli Normaalijakauman

Lisätiedot

5.7 Uskottavuusfunktioon perustuvia testejä II

5.7 Uskottavuusfunktioon perustuvia testejä II 5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa

Lisätiedot

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1 Lohkoasetelmat Vilkkumaa / Kuusinen 1 Motivointi 1/3 Kaksisuuntaisella varianssianalyysilla voidaan tutkia kahden tekijän A ja B vaikutusta sekä niiden yhdysvaikutusta tutkimuksen kohteeseen Kaksisuuntaisessa

Lisätiedot

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan,

Lisätiedot

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025 26.3.2019/1 MTTTP1, luento 26.3.2019 7.4 Normaalijakauma (kertausta ja täydennystä) Z ~ N(0, 1), tiheysfunktion kuvaaja 0,5 0,4 0,3 0,2 0,1 Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96)

Lisätiedot

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut). KÄSITTEITÄ POPULAATIO Joukko, jota tutkitaan (äärellinen, ääretön). Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut). Näiden välillä ei aina tehdä eroa, kun puhutaan

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Viikko 5 Tilastollisten hypoteesien testaaminen Lasse Leskelä, Heikki Seppälä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu

Lisätiedot

031021P Tilastomatematiikka (5 op) viikko 5

031021P Tilastomatematiikka (5 op) viikko 5 031021P Tilastomatematiikka (5 op) viikko 5 Jukka Kemppainen Mathematics Division Hypoteesin testauksesta Tilastollisessa testauksessa on kyse havainnoista tapahtuvasta päätöksenteosta. Kokeellisen tutkimuksen

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 4.10.2016/1 MTTTP1, luento 4.10.2016 7.4 Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 4.10.2016/2

Lisätiedot

4.0.2 Kuinka hyvä ennuste on?

4.0.2 Kuinka hyvä ennuste on? Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki

Lisätiedot

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1 Vastepintamenetelmä Kuusinen/Heliövaara 1 Vastepintamenetelmä Vastepintamenetelmässä pyritään vasteen riippuvuutta siihen vaikuttavista tekijöistä approksimoimaan tekijöiden polynomimuotoisella funktiolla,

Lisätiedot

Lohkoasetelmat. Heliövaara 1

Lohkoasetelmat. Heliövaara 1 Lohkoasetelmat Heliövaara 1 Kiusatekijä Kaikissa kokeissa, kokeen tuloksiin voi vaikuttaa vaihtelu joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla mahdollisesti on vaikutusta vastemuuttujan arvoon,

Lisätiedot

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501 Esim. 2.1.1. Brand lkm keskiarvo keskihajonta A 10 251,28 5,977 B 10 261,06 3,866 C 10 269,95 4,501 y = 260, 76, n = 30 SS 1 = (n 1 1)s 2 1 = (10 1)5, 977 2 321, 52 SS 2 = (n 2 1)s 2 2 = (10 1)3, 8662

Lisätiedot

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: 2.10.2018/1 MTTTP1, luento 2.10.2018 7.4 Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti: Samoin z /2 siten, että P(Z > z /2 ) = /2, graafisesti: 2.10.2018/2

Lisätiedot

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) Aalto-yliopisto 2017 Käytännön järjestelyt Luennot: Luennot maanantaisin (sali E) ja keskiviikkoisin (sali U4) klo 10-12 Luennoitsija: (lauri.viitasaari@aalto.fi)

Lisätiedot

2. Teoriaharjoitukset

2. Teoriaharjoitukset 2. Teoriaharjoitukset Demotehtävät 2.1 Todista Gauss-Markovin lause. Ratkaisu. Oletetaan että luentokalvojen standardioletukset (i)-(v) ovat voimassa. Huomaa että Gauss-Markovin lause ei vaadi virhetermien

Lisätiedot

MTTTP5, luento Luottamusväli, määritelmä

MTTTP5, luento Luottamusväli, määritelmä 23.11.2017/1 MTTTP5, luento 23.11.2017 Luottamusväli, määritelmä Olkoot A ja B satunnaisotoksen perusteella määriteltyjä satunnaismuuttujia. Väli (A, B) on parametrin 100(1 - ) %:n luottamusväli, jos P(A

Lisätiedot

Load

Load Tampereen yliopisto Tilastollinen mallintaminen Mikko Alivuotila ja Anne Puustelli Lentokoneiden rakennuksessa käytettävien metallinkiinnittimien puristuskestävyys Matematiikan, tilastotieteen ja filosofian

Lisätiedot

Korrelaatiokertoinen määrittely 165

Korrelaatiokertoinen määrittely 165 kertoinen määrittely 165 Olkoot X ja Y välimatka- tai suhdeasteikollisia satunnaismuuttujia. Havaintoaineistona on n:n suuruisesta otoksesta mitatut muuttuja-arvoparit (x 1, y 1 ), (x 2, y 2 ),..., (x

Lisätiedot

pisteet Frekvenssi frekvenssi Yhteensä

pisteet Frekvenssi frekvenssi Yhteensä 806118P JOHDATUS TILASTOTIETEESEEN Loppukoe 15.3.2018 (Jari Päkkilä) 1. Kevään -17 Johdaus tilastotieteeseen -kurssin opiskelijoiden harjoitusaktiivisuudesta saatujen pisteiden frekvenssijakauma: Harjoitus-

Lisätiedot

2. Tietokoneharjoitukset

2. Tietokoneharjoitukset 2. Tietokoneharjoitukset Demotehtävät 2.1 Jatkoa kotitehtävälle. a) Piirrä aineistosta pistediagrammi (KULUTUS, SAIRAST) ja siihen estimoitu regressiosuora. KULUTUS on selitettävä muuttuja. b) Määrää estimoidusta

Lisätiedot

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla

Lisätiedot

Lohkoasetelmat. Kuusinen/Heliövaara 1

Lohkoasetelmat. Kuusinen/Heliövaara 1 Lohkoasetelmat Kuusinen/Heliövaara 1 Kiusatekijä Kaikissa kokeissa kokeen tuloksiin voi vaikuttaa vaihtelu, joka johtuu kiusatekijästä. Kiusatekijä on tekijä, jolla on mahdollisesti vaikutusta vastemuuttujan

Lisätiedot

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1 Todennäköisyyslaskun kertaus Vilkkumaa / Kuusinen 1 Satunnaismuuttujat ja todennäköisyysjakaumat Vilkkumaa / Kuusinen 2 Motivointi Kokeellisessa tutkimuksessa tutkittaviin ilmiöihin liittyvien havaintojen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) Aalto-yliopisto 2017 Todennäköisyyslaskennan kertaus Satunnaismuuttujat ja tn-jakaumat Tunnusluvut χ 2 -, F- ja t-jakauma Riippumattomuus Tilastotieteen

Lisätiedot

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta) MTTTP5, luento 7.12.2017 7.12.2017/1 6.1.3 Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta) y = lepopulssi x = sukupuoli y = musikaalisuus x = sukupuoli

Lisätiedot

Yleistetyistä lineaarisista malleista

Yleistetyistä lineaarisista malleista Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit

Lisätiedot

Mat Sovellettu todennäköisyyslasku A

Mat Sovellettu todennäköisyyslasku A TKK / Systeemianalyysin laboratorio Mat-.090 Sovellettu todennäköisyyslasku A Harjoitus 11 (vko 48/003) (Aihe: Tilastollisia testejä, Laininen luvut 4.9, 15.1-15.4, 15.7) Nordlund 1. Kemiallisen prosessin

Lisätiedot

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle - Sisältö - - - Varianssianalyysi Varianssianalyysissä (ANOVA) testataan oletusta normaalijakautuneiden otosten odotusarvojen

Lisätiedot

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op) Aalto-yliopisto 2016 Käytannön järjestelyt Luennot: Luennot ma 4.1. (sali E) ja ti 5.1 klo 10-12 (sali C) Luennot 11.1.-10.2. ke 10-12 ja ma 10-12

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. marraskuuta 2007 Antti Rasila () TodB 30. marraskuuta 2007 1 / 19 1 Lineaarinen regressiomalli ja suurimman uskottavuuden menetelmä Minimin löytäminen

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 6A Tilastolliset luottamusvälit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016,

Lisätiedot