Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A 15.1.2013 1 Johdatus varianssianalyysiin 1.1 Milloin varianssianalyysiä käytetään? Varianssianalyysi on tilastotieteellinen menetelmä, jonka avulla voidaan tutkia kerätyn aineiston pohjalta, vaikuttaako luokittelu- tai järjestysasteikolla määritellyn selittävän muuttujan arvo numeerisen selitettävän muuttujan keskimääräisiin arvoihin. Varianssianalyysissä selittäviä muuttujia voi olla yksi tai useampia, joidenka vaikutusta yhden selitettävän muuttujan keskimääräisiin arvoihin analyysissä tarkastellaan. Merkitään selitettävää muuttujaa Y :llä. Varianssianalyysissä voi olla p kappaletta selittäviä muuttujia X 1, X 2,..., X p, joidenka arvot voivat vaikuttaa muuttujan Y keskimääräisiin arvoihin. Selittävät muuttujat X 1, X 2,..., X p ovat luonteeltaan luokittelutai järjestysasteikollisia, eli jokainen muuttuja X 1, X 2,..., X p voi saada arvokseen kahta tai useampaa eri arvoa. Varianssianalyysissä selittävien muuttujien X 1, X 2,..., X p oletetaan olevan lähtökohtaisesti kontroloitavissa eli tutkija itse voi määritellä tutkimusasetelmansa mukaan, mitä arvoja selittävät muuttujat X 1, X 2,..., X p täsmällisesti saavat. Selittäviä muuttujia X 1, X 2,..., X p kutsutaan myös faktoreiksi (tekijöiksi, jotka asetettavien arvojensa (arvoja kutsutaan usein luokiksi tai käsittelyiksi perusteella jakavat alkuperäisen populaation pienempiin osapopulaatiohin. Varianssianalyysissä täten tutkitaan vaihtelevatko selitettävän muuttujan Y keskimääräiset arvot selittävien muuttujien X 1, X 2,..., X p luokkien määrittämissä osapopulaatioissa. Selitettävä muuttuja Y (vastemuuttuja on varianssianalyysissä satunnainen eli sen arvot voivat riippua selittävien muuttujien X 1, X 2,..., X p arvojen lisäksi satunnaisesti myös muista mittaamattomista tekijöistä ja satunnaisvirheistä. Selitettävä muuttuja Y ei ole tutkijan kontroloitavissa vaan on satunnaismuuttuja, jolla on oma todennäköisyysjakaumansa. Klassisesti varianssianalyysissä oletetaan, että Y on numeerinen jatkuva muuttuja mittaustarkkuus pois lukien. Lisäksi yleensä oletetaan, että Y noudattaa myös normaalijakaumaa. Alla on esitetty esimerkkejä tutkimustilanteissa, missä varianssianalyysiä voidaan käyttää tutkimusongelman ratkaisemisessa hyväksi. Esimerkki 1.1. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Tutkimusryhmä mittasi jokaisen valmistajan neljästä eri tabletista rautapitoisuudet ja sai seuraavan aineiston: Tabletti A Tabletti B Tabletti C 5.67 5.75 4.74 5.67 5.47 4.45 5.55 5.43 4.65 5.57 5.45 4.94
kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 2 Mikä on tässä tutkimuksessa selittävä muuttuja X? Mitä arvoja se voi saada? Entä mitä arvoja selitettävä muuttuja Y saa? Mikä on tässä tutkimuksessa havaintoyksikkö? Esimerkki 1.2. Yhdysvalloissa tutkimusryhmä tutki eroaako geenimuunnellun riisin taimenen (ANU843 kuivapaino ei-muunnellun riisin kuivapainosta. Erityisesti tutkimusryhmä tutki kuinka kemialliset käsittelyt (F10, NH4Cl ja NH4NO3 vaikuttavat riisin kuivapainoon geenimuunnellun ja ei-muunnellun tilanteensa. Lisäksi koeviljelmät tehtiin kahdelle eri peltolohkolle. Alla on osa tutkimuksen aineistosta. kuivapaino lajike kasittely lohko 1 188 wt F10 1 2 186 wt F10 1 3 148 wt F10 1. 21 53 wt NH4Cl 2 22 38 wt NH4Cl 2 23 68 wt NH4Cl 2. 45 10 ANU843 F10 2 46 8 ANU843 F10 2 47 27 ANU843 F10 2 65 113 ANU843 NH4NO3 1 66 118 ANU843 NH4NO3 1 67 91 ANU843 NH4NO3 2. 70 64 ANU843 NH4NO3 2 71 54 ANU843 NH4NO3 2 72 94 ANU843 NH4NO3 2 Mitkä muuttujat ovat tässä tutkimuksessa selittäviä muuttujia X 1, X 2,..., X p? Mitä arvoja ne voi saada? Entä minkälaisia arvoja selitettävä muuttuja Y saa? Mikä on tässä tutkimuksessa havaintoyksikkö? Varianssianalyysissä pyritään selvittämään vaihtelevatko selitettävän muuttujan Y osapopulaatiokeskiarvot selittävien muuttujien X 1, X 2,..., X p arvojen määrittämien osapopulaatioiden kesken. Koska osapopulaatiokeskiarvot vastaavat satunnaismuuttujan Y odotusarvoja määritellyissä osapopulaatiossa, varianssianalyysissä arvioidaan vaihtelisivatko satunnaismuuttujan Y tuntemattomat odotusarvot selittävien muuttujien X 1, X 2,..., X p arvojen perusteella. Täten nimi varianssianalyysi voi olla hieman harhaanjohtava. Perinteisessä varianssianalyysissä ei tutkita vaihtuuko selitettävän muuttujan hajonta selittävien muuttujien arvojen perusteella, vaan varianssianalyysissä nimenomaan tarkastellaan odotusarvojen mahdollista muutosta. 1.2 Normaalijakauma ja normaalijakauman muunnokset Varianssianalyysissä selitettävän satunnaismuuttujan Y oletetaan usein noudattavan normaalijakaumaa. Normaalijakauma on tilastotieteessä eniten käytetty todennäköisyysjakauma. Tässä luvussa kerrataan yleisesti normaalijakauman perusominaisuudet ja normaalijakaumasta johdettavissa olevien χ 2, t ja F -jakaumien perusteet.
kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 3 Satunnaismuuttuja Y :n sanotaan noudattavan normaalijakaumaa Y N(µ, σ 2, jos Y :n tiheysfunktio f Y (y on muotoa f Y (y = 1 1 (y µ 2 2πσ 2 e 2 σ 2. (1.1 Voidaan osoittaa, että normaalijakauman tilanteessa satunnaismuuttuja Y :n odotusarvo E(Y on muotoa E(Y = ja varianssi Var(Y on muotoa Var(Y = y f Y (ydy = (y E(Y 2 f Y (ydy = y 1 1 (y µ 2 2πσ 2 e 2 σ 2 dy = µ, (1.2 (y µ 2 1 1 (y µ 2 2πσ 2 e 2 σ 2 dy = σ 2. (1.3 Täten siis jos odotusarvoon ja varianssiin liittyvien parametrien µ ja σ 2 arvot ovat tiedossa, satunnaismuuttujaan Y liittyvät todennäköisyysväittämät voidaan täysin laskea. Tosin normaalijakauman kertymäfunktiolla P (Y y = F Y (y = y f Y (tdt, (1.4 ei varsinaisesti ole suljetun muodon ratkaisua, mutta numeerisilla menetelmillä todennäköisyyksille P (Y y (kertymäfunktiolle F Y (y saadaan laskettua hyvin tarkat arviot. Normaalijakaumalla on tärkeä lineaarinen ominaisuus, eli jos Y N(µ, σ 2, niin silloin lineaarinen muunnos X = ay + b (1.5 noudattaa normaalijakaumaa X N(aµ + b, a 2 σ 2, missä a ja b ovat joi333tain tunnettuja vakioita. Erityisesti jos satunnaismuuttujalle Y N(µ, σ 2 tehdään muunnos Z = 1 σ Y µ σ = Y µ, (1.6 σ niin silloin satunnaismuuttuja Z noudattaa normaalijakaumaa Z N(0, 1. Normaalijakaumaa Z N(0, 1 kutsutaan standardoiduksi normaalijakaumaksi. Lineaarisen muunnosominaisuuden takia mikä tahansa satunnaismuuttujaan Y N(µ, σ 2 liittyvä todennäköisyysväittämä P (y 1 Y y 2 voidaan laskea standardoidun satunnaismuuttujan Z N(0, 1 avulla, koska ( y1 µ P (y 1 Y y 2 = P Y µ y 2 µ σ σ σ ( y1 µ = P Z y 2 µ σ = F Z ( y2 µ σ σ F Z ( y1 µ σ. (1.7 Todennäköisyysväittämien laskemisesta helpottaa myös ominaisuus, että normaalijakauma on symmetrinen jakauma odotusarvon suhteen. Eli esim. satunnaismuuttujalle
kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 4 Z N(0, 1 on täten voimassa esimerkiksi seuraavat todennäköisyydet P (Z < 1.96 = P (Z > 1.96 = 0.025 Varianssianalyysissä yleensä on käytettävissä aineiston keräämisen jälkeen n kappaletta havaintoja muuttujasta Y. Muuttujan Y havaittuja arvoja merkitään pikku y:llä: y 1, y 2,..., y n. Nyt voidaan ajatella, että havaitut arvot y 1, y 2,..., y n ovat realisaatioita satunnaismuuttujista Y 1, Y 2,..., Y n, joista jokaisen satunnaismuuttujan Y i, i = 1, 2,..., n, oletetaan noudattavan normaalijakaumaa Y i N(µ i, σ 2. Varianssianalyysissä oletetaan, että havaintoyksikön i odotusarvo E(Y i = µ i riippuu mahdollisesti selittävien muuttujien X 1, X 2,..., X p asetetuista arvoista x i1, x i2,..., x ip, eli µ i = µ(x i1, x i2,..., x ip. Toisaalta satunnaismuuttujien Y i varianssien Var(Y i oletetaan olevan varianssianalyysissä riippumattomia selittävistä muuttujista ja siten saman suuruisia kaikille havainnoille i, eli Var(Y i = σ 2. Varianssianalyysissä parametrit µ i ja σ 2 ovat kuitenkin tuntemattomia, joidenka arvoja pyritään arvioimaan eli estimoimaan kerätyn aineiston perusteella. Varianssianalyysissä jokaisen havainnon i oletetaan yleensä olevan riippumaton toisista havainnoista. Täten havaittujen realisaatioiden y 1, y 2,..., y n taustalla olevien satunnaismuuttujien Y 1, Y 2,..., Y n oletetaan olevan toisistaan riippumattomia. Koska normaalisti jakautuneiden satunnaismuuttujien lineaariset muunnokset ovat normaalisti jakautuneita, riippumattomille satunnaismuuttujille Y 1, Y 2,..., Y n tehty lineaarinen muutos W = a 1 Y 1 + b 1 + a 2 Y 2 + b 2 + + a n Y n + b n, a 1,..., a n ja b 1,..., b n vakioita, (1.8 noudattaa normaalijakaumaa W N(µ W, σw 2, missä µ W = a 1 µ 1 + b 1 + a 2 µ 2 + b 2 + + a n µ n + b n, (1.9 σ 2 W = a 2 1σ 2 + a 2 2σ 2 + + a 2 nσ 2. (1.10 Esimerkki 1.3. (a Oletetaan, että satunnaismuuttuja Y noudattaa normaalijakaumaa Y N(2, 4. Laske todennäköisyys P ( 1 Y 3. (b Oletetaan, että satunnaismuuttujat Y 1, Y 2 noudattavat normaalijakaumaa N(2, 4 ja satunnaismuuttujat Y 3, Y 4 normaalijakaumaa N(4, 1. Jos lisäksi oletetaan, että Y 1, Y 2, Y 3, Y 4 ovat toisistaan riippumattomia, niin mitä jakaumaa satunnaismuuttuja noudattaa? W = Y 1 + Y 2 2 Y 3 + Y 4 2 Normaalisti jakautuneiden satunnaismuuttujien erilaisilla muunnoksilla voidaan muodostaa uusia hyödyllisiä satunnaismuuttujia ja jakaumia. Varianssianalyysin kannalta hyödyllisiä muunnosjakaumia ovat χ 2, t ja F -jakaumat. Jos satunnaismuuttujat Z 1, Z 2,..., Z m noudattavat jokainen standardoitua normaalijakaumaa Z i N(0, 1 ja ovat toisistaan riippumattomia, niin silloin satunnaismuuttujan Q = Z 2 1 + Z 2 2 + + Z 2 m (1.11
kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 5 sanotaan noudattavan χ 2 -jakaumaa vapausastein (engl. degrees of freedom df = m, eli Q χ 2 m. Lisäksi jos Z N(0, 1 ja Z riippumaton satunnaismuuttujista Z 1, Z 2,..., Z m, niin silloin suhde t = Z Q m (1.12 noudattaa Studentin t-jakaumaa vapausastein df = m. Studentin t-jakauma on ominaisuuksiltaan lähellä standardoitua normaalijakaumaa. Itse asiassa kun vapausasteet m > 50, niin Studentin t-jakaumalla ja standardoidulla normaalijakaumalla on käytännössä enää hyvin vähän eroa. Hypoteesien testauksen suhteen F -jakauma on puolestaan varianssianalyysissä tärkein jakauma. Jos satunnaismuuttujat Q 1 ja Q 2 ovat toisistaan riippumattomia ja noudattavat χ 2 -jakaumia Q 1 χ 2 m 1 ja Q 2 χ 2 m 2, niin silloin suhde F = Q 1 m 1 Q 2 m 2 (1.13 noudattaa F -jakaumaa vapausastein df 1 = m 1 ja df 2 = m 2. Kun Studentin t-jakaumaa df = m noudattava satunnaismuuttuja korotetaan toiseen, niin silloin muunnos t 2 t 2 = Z Q m 2 (1.14 itse asiassa noudattaa F -jakaumaa vapausastein df 1 = 1, df 2 = m. F -jakauma saa aina arvoja, jotka ovat suurempi tai yhtä suuri kuin nolla. Eri vapausastein jakauman muoto vaihtelee. Seuraavassa on piirretty F -jakauman tiheysfunktion kuvaajia eri vapausasteilla. Kun F -jakaumaa käytetään hyväksi hypoteesin testauksessa päättelyn tekemiseen, yleensä kiinnostuksen kohteena on löytää sellainen luku F, jolle on voimassa todennäköisyys P (F df1,df2 F = α, missä α on testin valittu riskitaso esim. α = 0.05. Täten siis F - jakauman tilanteessa kiinnostuksen kohteena on usein tietää, minkälaisia todennäköisyyksiä jakauman oikea häntäosuus saa. 0.0 0.2 0.4 0.6 0.8 1.0 df1=2,df2=30 df1=6,df2=100 0 1 2 3 4 5 x
kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 6 Esimerkki 1.4. (a Oletetaan, että satunnaismuuttuja t noudattaa Studentin t-jakaumaa vapausastein df = 2. Arvioi, mitä on todennäköisyys P (t 2. (b Oletetaan, että satunnaismuuttuja F noudattaa F -jakaumaa vapausastein df 1 = 3, df 2 = 12. Arvioi, mikä on sellainen luku F, että voimassa P (F F = 0.05. 1.3 Parametrien estimoiminen Varianssianalyysissä havaittujen selitettävän muuttujan arvojen y 1, y 2,..., y n oletetaan siis olevan realisaatioita satunnaismuuttujista Y 1, Y 2,..., Y n, joista jokaisen satunnaismuuttujan Y i, i = 1, 2,..., n, oletetaan puolestaan noudattavan normaalijakaumaa Y i N(µ i, σ 2. Toisaalta parametrit µ i ja σ 2 ovat tuntemattomia, joidenka arvoja pyritään arvioimaan eli estimoimaan havaittujen arvojen y 1, y 2,..., y n perusteella. Jotta havaittujen arvojen perusteella voitaisiin muodostaa arvioita parametreistä µ i ja σ 2, tarvitaan jokin kriteeri, jonka perusteella parametrien estimaatit muodostetaan. Odotusarvojen estimoimiseen voidaan käyttää pienimmän neliösumman menetelmää. Tarkastellaan tässä luvussa pienemmän neliösumman estimointimenetelmää tilanteessa, missä satunnaismuuttujien Y 1, Y 2,..., Y n oletetaan noudattavan normaalijakaumaa N(µ, σ 2. Nyt siis jokaisen Y i :n odotusarvon oletetaan olevan sama tuntematon µ, jonka arvoa estimoidaan havaintojen y 1, y 2,..., y n avulla. Varianssianalyysissä tämä vastaa oikeastaan tilannetta, missä selittävillä muuttujilla X 1, X 2,..., X p ei olisi vaikusta odotusarvoihin µ i tai vaihtoehtoisesti, että havainnot i olisi valittu vain jostain selittävien muuttujien luokkien määrittämästä yhdestä osapopulaatiosta. Seuraavissa luvuissa tarkastellaan sitten tarkemmin odotusarvojen estimoimista pienimmän neliösumman menetelmän perusteella yleisemmissä tilanteissa. Odotusarvon µ pienimmän neliösumman estimaatti ˆµ on ratkaisu seuraavaan minimointiongelmaan: arg min µ n (y i µ 2. (1.15 i=1 Eli siis piste-estimaatti ˆµ on se arvo, joka µ:n suhteen minimoi estimointi kriteerinä käytettävän neliösumman n i=1 (y i µ 2. Voidaan osoittaa, että havaintojen otoskeskiarvo ȳ on itse asiassa odotusarvon µ pienimmän neliösumman estimaatti ˆµ = ȳ. Pienimmän neliösumman estimaatti ˆµ johdetaan havaittujen arvojen y 1, y 2,..., y n avulla. Sen jälkeen kun estimaatiksi on saatu johdettua otoskeskiarvo ˆµ = ȳ = y i n i=1, voidaan alkaa miettiä, minkälaisen arvon piste-estimaatti ˆµ olisi saanut, jos havaituksi ar- n voiksi olisikin saatu jotkut toiset realisaatiot y 1, y 2,..., y n. Jatkamalla ajatusta siitä, että havaituiksi realisaatioiksi oltaisiin voitu saada mikä tahansa satunnaismuuttujien
kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 7 Y 1, Y 2,..., Y n realisaatio, niin merkintää ˆµ voidaan käyttää kuvaamaan myös satunnaismuuttujista Y 1, Y 2,..., Y n riippuvaa satunnaismuuttujaa ˆµ = Ȳ = n i=1 Y i n = Y 1 + Y 2 + + Y n. (1.16 n Kun merkintää ˆµ kohdellaan satunnaismuuttujana, kutsutaan sitä odotusarvon µ pienimmän neliösumman piste-estimaattoriksi. Vastaavasti kun ˆµ:n arvo lasketaan havaittujen arvojen y 1, y 2,..., y n perusteella, kutsutaan sitä odotusarvon µ pienimmän neliösumman piste-estimaatiksi. Piste-estimaattorin ominaisuudessa ˆµ = Ȳ on siis itsessään satunnaismuuttuja ja normaalijakauman ominaisuuksien takia ˆµ noudattaa myös normaalijakaumaa ˆµ N (µ, σ2. (1.17 n Täten E(ˆµ = µ eli ˆµ = Ȳ on odotusarvon µ harhaton estimaattori. Harhattomuuden lisäksi pienimmän neliösumman estimaattorilla ˆµ on muitakin hyviä ominaisuuksia. Yksi tärkeimmistä ominaisuuksista on se, että pienimmän neliösumman estimaattori ˆµ on myös suurimman uskottavuuden estimaattori normaalijakauman tilanteessa. Suurimman uskottavuuden estimaatit (engl. maximum likelihood estimates saadaan muodostettua logaritmoidun uskottavuusfunktion maksimoinnin perusteella. Normaalijakauman tilanteessa satunnaismuuttujien Y i logaritmoitu uskottavuusfunktio l(µ, σ 2 = log(l(µ, σ 2 on muotoa ( n n l(µ, σ 2 = log(l(µ, σ 2 = log f Yi (y i = log (f Yi (y i = n log i=1 ( 1 2πσ 2 1 2 i=1 n ( (yi µ 2. (1.18 i=1 σ 2 Suurimman uskottavuuden menetelmällä voidaan siis samanaikaisesti muodostaa estimaatit molemmille tuntemattomille parametreille µ ja σ 2. Parametrien µ ja σ 2 suurimman uskottavuuden estimaatit µ ja σ 2 ovat ratkaisuja yhtä aikaiseen maksimointiongelmaan n ( (yi µ 2 arg max l(µ, σ2 = arg max µ,σ 2 µ,σ 2 ( 1 n log 1 2πσ 2 2 i=1 σ 2. (1.19 Kaavasta (1.19 on suhteellisen helppo huomata, että odotusarvon suurimman uskottavuuden estimaatti µ on se arvo, joka minimoi neliösumman n i=1 (y i µ 2 µ:n suhteen. Eli odotusarvon µ suurimman uskottavuuden estimaatti on sama kuin edellä tarkasteltu pienimmän neliösumman estimaatti µ = ˆµ = ȳ. Lisäksi voidaan osoittaa, että varianssin σ 2 suurimman uskottavuuden estimaatti σ 2 on muotoa σ 2 = n i=1 (y i µ 2 n = n i=1 (y i ȳ 2. (1.20 n
kevät 2013 Johdatus varianssianalyysiin Y131A & Y132A - Jarkko Isotalo 8 Kun estimaatin σ 2 kaavassa realisaatiot y i korvataan satunnaismuuttujilla Y i, varianssin σ 2 suurimman uskottavuuden estimaattori on muotoa σ 2 = n i=1 (Y i Ȳ 2. (1.21 n Varianssianalyysissä klassisesti oletetaan siis, että satunnaismuuttujien Y i varianssit Var(Y i ovat saman suuruisia kaikille havainnoille i, eli Var(Y i = σ 2. Parametrin σ 2 estimaattorina voidaan käyttää yllä tarkasteltua suurimman uskottavuuden estimaattoria σ 2. Suurimman uskottavuuden estimaattori σ 2 ei kuitenkaan ole varianssin σ 2 harhaton estimaattori, koska E( σ 2 = (n 1σ2. Täten, erityisesti pienillä otoksilla, varianssin n σ 2 estimaattorina voidaan käyttää otosvarianssia ˆσ 2 = s 2 = n i=1 (Y i Ȳ 2, (1.22 n 1 joka on varianssin σ 2 harhaton estimaattori. Piste-estimaatti ˆσ 2 on täten havaituista arvoista laskettu otosvarianssi s 2 = n i=1 (y i ȳ 2 n 1. Esimerkki 1.5. Leipomo toimittaa kauppiaalle päivittäin limppuja. Kauppias punnitsi 6 päivän aikana kunakin päivänä satunnaisesti valitseman limpun ja sai limppujen painoiksi (grammoina alla olevat arvot: 803, 790, 815, 770, 810, 800. Oletetaan, että satunnaisesti valitun limpun paino noudattaa normaalijakaumaa N(µ, σ 2. Muodosta aineiston perusteella sopivat piste-estimaatit limppujen painon odotusarvolle µ ja varianssille σ 2. Muodosta aineiston perusteella 95 % luottamusväliestimaatti limppujen painon odotusarvolle µ.
Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A 4.2.2013 2 Yksisuuntainen varianssianalyysi 2.1 Tutkimusasetelma ja -hypoteesit Yksisuuntaisessa varianssianalyysissa tarkastellaan yhden luokittelu- tai järjestysasteikollisen selittävän muuttujan X vaikutusta selitettävän muuttujan Y populaatiokeskiarvoihin. Selittävän muuttujan X voidaan olettaa saavan k kappaletta erilaisia arvoja x j, (j = 1, 2,..., k. Koodataan selittävän muuttujan X saamat arvot x j numeroiksi x 1 = 1, x 2 = 2,..., x k = k. Selittävän muuttujan X perusteella kokonaispopulaatio voidaan täten jakaa arvojen x 1 = 1, x 2 = 2,..., x k = k perusteella k:n eri osapopulaatioon. Yksisuuntaisessa varianssianalyysissa jokaisesta osapopulaatiosta j = 1, 2,..., k poimitaan satunnaisesti n j havaintoyksikköä, joista sitten mitataan selitettävän muuttujan Y toteutunut arvo. Täten selitettävän muuttujan Y havaittuja arvoja voidaan merkitä seuraavasti: y ij =muuttujan Y i:nes havaittu arvo osapopulaatiosta j, kun i = 1, 2,..., n j, j = 1, 2,..., k. Havaittu aineisto siten muodostuu selitettävän muuttujan arvoista X = 1 : y 11, y 21,..., y n1 1, X = 2 : y 12, y 22,..., y n2 2,. X = k : y 1k, y 2k,..., y nk k. Aineiston havaittujen arvojen y ij voidaan ajatella nyt olevan realisaatioita satunnaismuuttujista Y ij. Yksisuuntaisessa varianssianalyysissa aineiston takana olevista satunnaismuuttujista Y ij tehdään klassisesti seuraavat oletukset: 1. satunnaismuuttujat Y ij noudattavat normaalijakaumia Y ij N(µ j, σ 2. 2. satunnaismuuttujat Y ij ovat toisistaan riippumattomia kaikilla i = 1, 2,..., n j ja j = 1, 2,..., k. Yksisuuntaisessa varianssianalyysissa oletetaan siis, että selitettävän muuttujan Y odotusarvot ovat erisuuria osapopulaatioissa j, mutta populaatiovarianssi σ 2 on sama jokaisessa osapopulaatiossa j. Parametrit µ 1, µ 2,..., µ k ja σ 2 ovat tuntemattomia, joita yksisuuntaisessa varianssianalyysissa estimoidaan havaittujen arvojen y ij avulla.
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 2 Päätutkimusongelmana yksisuuntaisessa varianssianalyysissa on testata, onko osapopulaatioiden odotusarvot µ j samoja jokaisen osapopulaation j tapauksessa. Yksisuuntaisessa varianssianalyysissa hypoteesit ovat muotoa H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k. (2.1a (2.1b Jos H 0 hypoteesi hyväksytään, selittävän muuttujan X ei katsota vaikuttavan selitettävän muuttujan Y populaatiokeskiarvoihin. Jos taas H 0 hypoteesi hylätään, selittävällä muuttujalla X katsotaan olevan vaikutusta selitettävän muuttujan Y keskimääräisiin arvoihin. Satunnaismuuttujien Y ij riippumattomuus- ja normaalijakaumaoletus Y ij N(µ j, σ 2 usein kirjoitetaan rakennemalliesityksenä M X : Y ij = µ j + ε ij, (2.2 missä termejä ε ij kutsutaan mallin M X satunnaisiksi virhetermeiksi, joidenka oletetaan olevan toisistaan riippumattomia ja noudattavan normaalijakaumaa ε ij N(0, σ 2 kaikilla i = 1, 2,..., n j ja j = 1, 2,..., k. Rakennemalliesitys M X on toinen tapa esittää havaitun aineiston alla olevat oletukset ja erittäin käyttökelpoinen tapa erityisesti myöhemmin usean selittävän muuttujan tilanteessa. Mikäli päätutkimusongelman H 0 hypoteesi hyväksytään, eli µ 1 = µ 2 = = µ j, niin silloin satunnaismuuttujien Y ij voidaan katsoa noudattavan mallia M 0 : Y ij = µ + ε ij, (2.3 missä nyt siis jokaiselle osapopulaatiolle j on voimassa yhteinen odotusarvo µ. Nyt hypoteesit (2.1a ja (2.1b voidaankin esittää rakennemallien M 0 ja M X avulla, eli hypoteeseja (2.1a ja (2.1b vastaa seuraavat malleihin M 0 ja M X liittyvät hypoteesit: H 0 : Rakennemalli M 0 on voimassa, H 1 : Rakennemalli M X on voimassa. (2.4a (2.4b Jos päätutkimusongelman H 0 hypoteesi hylätään, niin silloin ollaan usein kiinnostuneita selvittämään, minkä osapopulaatioiden j suhteen odotusarvot µ j eroavat toisistaan. Toisin sanoen ollaan kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ 1 µ 2, µ 1 µ 2, µ 1 µ 3,...,µ 1 µ k, µ 2 µ 3, µ 2 µ 4,...,µ 2 µ k,. µ k 1 µ k, eroavat nollasta. Parittaista vertailua voidaan tehdä testaamalla eroaako erotukset nollasta, tai muodostamalla luottamusväliestimaatteja odotusarvoerotuksille µ j µ j ja tutkia, kuuluuko nolla muodostetulle luottamusvälille. Jos siis nolla ei kuulu odotusarvoerotukselle µ j µ j muodostetulle luottamusvälille, odotusarvojen µ j ja µ j voidaan katsoa eroavan toisistaan.
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 3 2.2 Koesuunnittelu ja täydellisesti satunnaistettu koe Koesuunnittelun tilanteessa oletetaan, että tutkija voi täysin kontroloida, minkä selittävän muuttujan X arvon j kukin käytössä oleva havaintoyksikkö i saa. Eli koesuunnittelutilanteessa tutkijalla voidaan ajatella olevan käytössä yhteensä n kappaletta havaintoyksiköitä, ja koesuunnittelun avulla tutkija päättää mihinkä osapopulaatioon j kukin havaintoyksikkö i sijoitetaan. Koesuunnittelussa tärkeitä yleisiä periaatteita on kokeiden toistaminen (engl. replication ja satunnaistaminen (engl. randomization. Kokeiden toistamisella tarkoitetaan kokeen toistamista samoissa olosuhteissa uudestaan. Tämä tarkoittaa, että selitettävästä muuttujasta Y saadaan havaittuja arvoja enemmän kuin yksi samojen kontroloitujen olosuhteiden vallitessa. Kokeen toistaminen mahdollistaa selitettävän muuttujan Y satunnaisuuden paremman arvioimisen. Satunnaistamisella puolestaan tarkoitetaan havaintoyksiköiden i sijottamista osapopulaatioihin j satunnaisesti. Satunnaistamisella pyritään poistamaan ei-kontrolloitavissa olevien muuttujien systemaattinen vaikutus selitettävän muuttujan Y arvoihin. Seuraavassa on esitetty yksisuuntaiseen varianssianalyysiin liittyviä esimerkkejä koesuunnittelutilanteista. (a Kasvinjalostus Oy haluaa selvittää, mikä heidän kolmesta eri mallasohralajikkeesta soveltuu parhainten viljelyyn kuivissa olosuhteissa. Tutkimuksen tekoon Kasvinjalostus Oy:llä on käytössä yhteensä 30 tasalaatuista peltoalaa ja lajikkeen soveltavuutta kuiviin olosuhteisiin mitataan satomäärän kg/ha mukaan. Koesuunnittelun avulla on tarkoitus päättää mitä lajiketta viljellään mihinkin peltoalueeseen. (b Tutkimusryhmä haluaa selvittää, pitääkö sanonta "Koira on ihmisen paras ystävä" paikkaansa. Erityisesti tutkimusryhmä haluisi tutkia, kuinka koiran läsnäolo vaikuttaa sellaisten henkilöiden stressitasoon stressaavien työsuoritusten tilanteesta, jotka omistavat koiran. Tutkimusryhmä on suunnitellut palkkaavansa 45 sellaista henkilöä, joilla on oma koira. Tämän jälkeen henkilöt on tarkoitus jakaa 3 ryhmään: kontrolliryhmään, jotka tekevät stressaavia työsuorituksia yksinään, kaveri-ryhmään, jotka tekevät stressaavia työsuorituksia hyvän ystävän läsnäollessa ja koira-ryhmään, jotka tekevät stressaavia työsuorituksia oman koiran läsnäollessa. Stressaavaksi työsuoritukseksi tutkimusryhmä on valinnut tilastotieteen harjoitustehtävien teon ja harjoitustehtävien aiheuttamaa stressitasoa tutkimusryhmä on ajatellut mitata henkilöiden harjoitustehtävien teon aikaisen maksimaalisen sykkeen perusteella. Laajasti ajateltuana kaikki edellä mainittu on jo koesuunnittelua, ja suppeasti ajateltuna, koesuunnittelun avulla voidaan päättää, kuinka 45 henkilöä valitaan tutkimukseen ja kuinka henkilöt jaetaan kolmeen eri ryhmään. Yhden selittävän muuttujan tilanteessa koesuunnittelu on suhteellisen yksinkertaista. Ehdottoman tärkeää on kuitenkin pitää huolta siitä, että jokaisesta selittävän muuttujan tasosta j saadaan havaintoja selitettävän muuttujan Y suhteen. Yhden selittävän muuttujan tilanteessa koesuunnittelun ensimmäinen vaihe on päättää, kuinka mon-
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 4 ta havaintoyksikkö kuhunkin selittävän muuttujan määrittämään osapopulaatioon sijoitetaan. Havaintojen lukumäärillä osapopulaatioille j pitää siis olla voimassa n = n 1 + n 2 + + n k. Yleisin tapa on suunnitella kokeet niin, että havaintoyksiköitä kiintiöidään sama määrä jokaiselle selittävän muuttujan X luokalle j: n 1 = n 2 = = n k = n k. Yhden selittävän muuttujan tilanteessa koesuunnittelussa pitää yhdistää n 1 kappaletta arvoja 1, n 2 kappaletta arvoja 2,..., n k kappaletta arvoja k havaintoyksiköihin, joita on yhteensä n kappaletta. Koejärjestelyä kutsutaan täydellisesti satunnaistetuksi kokeeksi jos arvot 1, 2,..., k toistoineen n 1, n 2,..., n k yhdistetään käytössä oleviin havaintoyksiköihin täysin satunnaisesti. Täydellisesti satunnaistetusta kokeesta saatujen havaittujen arvojen y ij voidaan sitten katsoa realisoituneen rakennemallista missä ε ij N(0, σ 2. M X : Y ij = µ j + ε ij, (2.5 Esimerkki 2.1. Tarkastellaan 4:n eri viljalajikkeen A,B,C,D vaikutusta satomääriin kun käytössä on 12 tasalaatuista peltoaluetta kokeiden tekemiseen. Kuinka järjestät viljelykset? 2.3 Parametrien estimoiminen Tarkastellaan seuraavaksi tuntemattomien parametrien estimoimista rakennemallien M X ja M 0 tilanteessa. Rakennemallissa M X : Y ij = µ j + ε ij, ε ij N(0, σ 2, (2.6 parametrien µ j, j = 1,..., k, pienimmän neliösumman estimaatit ˆµ j saadaan ratkaisuina minimointiongelmaan Koska siis min µ j j=1 arg min µ j n k j (y ij µ j 2 = min µ 1 i=1 n 1 i=1 n k j (y ij µ j 2. (2.7 j=1 i=1 (y i1 µ 1 2 + + min µ k n k i=1 (y ik µ k 2, (2.8 niin estimaatti ˆµ j, kaikille j = 1,..., k, on yhtä kuin osapopulaation j otoskeskiarvo ˆµ j = ˆµ j MX = ȳ j = nj i=1 y ij n j. (2.9
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 5 Merkintä ˆµ j MX selventää, että nyt ollaan estimoitu mallin M X parametria µ j. Odotusarvon µ j pienimmän neliösumman estimaattori ˆµ j on täten muotoa ˆµ j = Ȳj = nj i=1 Y ij n j. (2.10 ja siten noudattaa normaalijakaumaa ˆµ j N (µ j, σ2. (2.11 Nyt siis estimaattorin ˆµ j varianssi on muotoa Var(ˆµ j = σ2 n j. Koska σ 2 on tuntematon, niin myös estimaattorin ˆµ j varianssi on tuntematon. Varianssia Var(ˆµ j voidaan estimoida kunhan σ 2 :lle ollaan saatu muodostettua mielekäs estimaatti. Pienimmän neliösumman estimaattori ˆµ j = ȳ j on myös odotusarvon µ j suurimman uskottavuuden estimaattori. Rakennemallien M X tilanteessa logaritmoitu uskottavuusfunktio on muotoa ( k n j l(µ j, σ 2 = log(l(µ j, σ 2 = log f Yij (y ij = n log j=1 i=1 n j ( 1 2πσ 2 1 2σ 2 n k j (y ij µ j 2, (2.12 ja siten odotusarvojen µ j, j = 1,..., k suurimman uskottavuuden estimaatit saadaan minimoimalla neliösummaa k nj j=1 i=1 (y ij µ j 2. j=1 i=1 Varianssin Var(Y ij = σ 2 suurimman uskottavuuden estimaatti σ M 2 X tilanteessa on puolestaan muotoa rakennemallin M X σ 2 M X = k nj j=1 i=1 (y ij ˆµ j 2. (2.13 n avulla seu- Estimaatti σ M 2 X raavasti: voidaan esittää myös osapopulaatioiden j otosvarianssien s 2 j σ 2 M X = k j=1 nj i=1 (y ij ˆµ j 2 n = k j=1 (n j 1s 2 j. (2.14 n Varianssin σ 2 suurimman uskottavuuden estimaattori rakennemallissa M X on siis muotoa k nj σ M 2 j=1 i=1 X = (Y ij ˆµ j 2. (2.15 n Estimaattori σ M 2 X ei ole varianssin σ 2 harhaton estimaattori, koska E ( σ M 2 X = n k n σ2. Täten varianssin σ 2 harhaton estimaattori rakennemallissa M X on muotoa ˆσ 2 M X = k nj j=1 i=1 (Y ij ˆµ j 2. (2.16 n k
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 6 Huom! Huomaa merkintöjen ˆσ 2 M X ja σ 2 M X pieni mutta tärkeä ero. Harhattoman estimaattorin Var(Y ij = ˆσ M 2 X avulla saadaan sitten muodostettua estimaattorin ˆµ j varianssille harhaton estimaattori Var(ˆµ j = ˆσ2 M X n j. (2.17 Estimaattien ˆµ j ja ˆσ M 2 X avulla voidaan odotusarvolle µ j muodostaa myös luottamusväliestimaatteja rakennemallin M X tilanteessa. Yksittäisen odotusarvon µ j 100(1 α prosentin luottamusväli on muotoa ] ˆσ M [ˆµ j t α/2 Var(ˆµ j ; ˆµ j + t α/2 Var(ˆµ j = ˆµ 2 j t X ˆσ M 2 α/2 ; ˆµ j + t X α/2, n j missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys kun t noudattaa Studentin t-jakaumaa vapausastein n k. n j (2.18 P (t > t α/2 = α/2, (2.19 Vastaavasti t-testisuureen avulla voidaan testata yksittäisellle odotusarvolle µ j asetettuja testejä. Esimerkiksi testattaessa yksittäiselle odotusarvolle µ j hypoteeseja H 0 : µ j = 0, H 1 : µ j 0, (2.20a (2.20b testaus voidaan suorittaa testisuureen t j = ˆµ j Var(ˆµ j = ˆµ j ˆσ M 2 X n j (2.21 avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t j hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p j hav = 2 P (t > t j hav, (2.22 missä t noudattaa t-jakaumaa vapausastein n k. H 0 hypoteesi voidaan hylätä, jos on voimassa p j hav < α, missä α testin valittu riskitaso. Yleisemmin yksittäiselle odotusarvolle µ j asetettuja hypoteeseja H 0 : µ j = c j, H 1 : µ j c j, (2.23a (2.23b missä c j on itse asetettu vakio, voidaan suorittaa testisuureen t j = ˆµ j c j Var(ˆµ j = ˆµ j c j ˆσ M 2 X n j (2.24
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 7 avulla, joka noudattaa Studentin t-jakaumaa vapausastein df = n k kun H 0 on tosi. Rakennemallin M 0 : Y ij = µ + ε ij, ε ij N(0, σ 2, (2.25 ollessa tosi, odotusarvon µ estimaattori on koko otoksesta laskettua otoskeskiarvo ˆµ = ˆµ M0 = Ȳ. Varianssin σ2 suurimman uskottavuuden estimaattori on rakennemallin M 0 tilanteessa muotoa σ 2 M 0 = ja harhaton estimaattori on muotoa k j=1 nj i=1 (Y ij ˆµ 2, (2.26 n ˆσ 2 M 0 = k nj j=1 i=1 (Y ij ˆµ 2. (2.27 n 1 Esimerkki 2.2. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Alla on seuraavasta aineistosta esitetty estimoinnin tuloksia rakennemallien M X ja M 0 tilanteissa. > tabletti<-read.table("tabletti.txt", header=true, sep="\t", dec="." > tabletti y x 1 5.67 A 2 5.67 A 3 5.55 A 4 5.57 A 5 5.75 B 6 5.47 B 7 5.43 B 8 5.45 B 9 4.74 C 10 4.45 C 11 4.65 C 12 4.94 C > malli1<-lm(y~x-1,data=tabletti > summary(malli1 Call: lm(formula = y ~ x - 1, data = tabletti Residuals: Min 1Q Median 3Q Max -0.2450-0.0675-0.0450 0.0550 0.2450 Coefficients: Estimate Std. Error t value Pr(> t xa 5.61500 0.07541 74.46 7.19e-14 *** xb 5.52500 0.07541 73.27 8.31e-14 *** xc 4.69500 0.07541 62.26 3.59e-13 *** ---
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 8 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1508 on 9 degrees of freedom Multiple R-squared: 0.9994, Adjusted R-squared: 0.9992 F-statistic: 4930 on 3 and 9 DF, p-value: 8.724e-15 > malli0<-lm(y~1,data=tabletti > summary(malli0 Call: lm(formula = y ~ 1, data = tabletti Residuals: Min 1Q Median 3Q Max -0.8283-0.3883 0.1817 0.3167 0.4717 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 5.2783 0.1309 40.32 2.65e-13 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.4535 on 11 degrees of freedom (a Mitä ovat mallin M X tilanteessa odotusarvojen µ j pienimmän neliösumman estimaatit? (b Mitä ovat mallin M X tilanteessa varianssin σ 2 estimaatit ˆσ 2 M X ja σ 2 M X? (c Testataan olisiko tablettien B odotusarvo µ 2 yhtä kuin nolla, eli testataan hypoteeseja H 0 : µ 2 = 0, H 1 : µ 2 0. Mikä hypoteeseihin liittyvä t-testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05? (d Mitä on mallin M 0 tilanteessa odotusarvon µ pienimmän neliösumman estimaatti? (e Mitä ovat mallin M 0 tilanteessa varianssin σ 2 estimaatit ˆσ 2 M 0 ja σ 2 M 0?
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 9 2.4 Mallin parametrisoiminen uudelleen Rakennemallin M X tilanteessa havaintojen y ij oletetaan olevat realisaatioita mallista M X : Y ij = µ j + ε ij, ε ij N(0, σ 2. (2.28 Rakennemalli M X voidaan kuitenkin parametrisoida uudelleen monella tapaa. Tässä luvussa tarkastellaan kahta usein käytettyä parametrisointia: kontrolliluokka tyylistä parametrisointia ja keskiarvoero tyylistä parametrisointia. Kontrolliluokka tyylisessä parametrisoinnissa voidaan ajatella niin, että selittävän muuttujan X yksi arvo on ns. kontrolliluokka tai lähtöluokka, johonka muiden luokkien odotusarvoja selitettävän muuttujan suhteen halutaan verrata. Olkoon selittävän muuttujan X arvo k nyt kontrolliluokka. Tällöin arvon k tilanteessa havaintojen y ik ajatellaan tulevan mallista X = k : Y ik = β 0 + ε ik. Muiden X:n luokkien tilanteessa malliin lisätään oma parametri β j, j = 1, 2,..., k 1, mikä kuvaa odotusarvon muutosta luokassa j = 1, 2,..., k 1 verrattuna kontrolliluokkaan k. Tällöin siis X:n arvojen 1, 2,..., k 1 tilanteessa havaintojen katsotaan muodostuvan malleista X = 1 : Y i1 = β 0 + β 1 + ε i1, X = 2 : Y i2 = β 0 + β 2 + ε i2,. X = k 1 : Y ik 1 = β 0 + β k 1 + ε ik 1. Kontrolliluokka tyylisessä parametrisoinnissa rakennemalli M X voidaan esittää muodossa M Xβ : Y ij = β 0 + β j + ε ij, ε ij N(0, σ 2, β k = 0. (2.29 Mallin M Xβ tilanteessa parametrien β 0, β 1,..., β k 1 pienimmän neliösumman estimaattorit ovat muotoja ˆβ 0 = ˆµ k = Ȳk, ˆβ 1 = ˆµ 1 ˆµ k = Ȳ1 Ȳk, ˆβ 2 = ˆµ 2 ˆµ k = Ȳ2 Ȳk,. ˆβ k 1 = ˆµ k 1 ˆµ k = Ȳk 1 Ȳk, (2.30a (2.30b (2.30c (2.30d ja täten normaalistijakautuneiden estimaattoreiden ˆβ 0, ˆβ 1,..., ˆβ k 1 varianssit ovat muo-
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 10 toa Var( ˆβ 0 = Var(Ȳk = σ2 n k, Var( ˆβ 1 = Var(Ȳ1 Ȳk = σ2 n 1 + σ2 n k, Var( ˆβ 2 = Var(Ȳ2 Ȳk = σ2 n 2 + σ2 n k,. Var( ˆβ k 1 = Var(Ȳk 1 Ȳk = σ2 n k 1 + σ2 n k. (2.31a (2.31b (2.31c (2.31d tilanteessa yksisuuntaisen varianssianalyysin päätutkimusongel- Parametrisoinnin M Xβ maa H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k, (2.32a (2.32b vastaa rakennemallin M Xβ parametreihin β 1,..., β k 1 liittyvät hypoteesit H 0 : β 1 = β 2 = = β k 1 = 0, H 1 : β 1 β 2 β k 1 0. (2.33a (2.33b Näiden hypoteesien testaamisen palataan seuraavassa luvussa. Parametrisointi kontrolliluokan avulla on kuitenkin erityisen hyödyllinen tilanteissa, kun halutaan verrata tietyn (yhden luokan j eroavuutta kontrolliluokasta k, j k. Tällöin siis rakennemallin M X hypoteesit H 0 : µ j = µ k, j k (2.34a H 1 : µ j µ k, (2.34b vastaavat mallin M Xβ hypoteeseja H 0 : β j = 0, j k (2.35a H 1 : β j 0. (2.35b Yllä olevia hypoteeseja voidaan nyt sitten testata testisuureen t j = ˆβ j = Var( ˆβ j ˆσ 2 M X n j ˆβ j + ˆσ2 M X n k (2.36 avulla, joka noudattaa Studentin t-jakaumaa vapausastein df = n k kun H 0 on tosi. Vastaavasti yksittäisen parametrin β j 100(1 α prosentin luottamusväli on muotoa [ ] ˆβ j t α/2 Var( ˆβ j ; ˆβ j + t α/2 Var( ˆβ j ˆσ M 2 X = ˆβj t α/2 ˆσ 2 M X n j + ˆσ2 M X n k ; ˆβ j + t α/2 n j + ˆσ2 M X n k, (2.37
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 11 missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys P (t > t α/2 = α/2. R- ohjelmisto oletusarvoisesti parametrisoi mallin kontrolliluokan avulla. Rakennemallin M X parametrisointi uudestaan malliksi M Xβ ei vaikuta mitenkään σ 2 estimaattien arvoihin, eli ˆσ 2 M X = ˆσ 2 M Xβ ja σ 2 M X = σ 2 M Xβ. Esimerkki 2.3. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia kontrolliluokkamallilla M Xβ. Tällöin saadaan seuraavanlaisia estimointituloksia mallille M Xβ. > options(contrasts=c("contr.sas", "contr.poly" > mallib<-lm(y~x,data=tabletti > summary(mallib Call: lm(formula = y ~ x, data = tabletti Residuals: Min 1Q Median 3Q Max -0.2450-0.0675-0.0450 0.0550 0.2450 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 4.69500 0.07541 62.263 3.59e-13 *** xa 0.92000 0.10664 8.627 1.21e-05 *** xb 0.83000 0.10664 7.783 2.76e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1508 on 9 degrees of freedom Multiple R-squared: 0.9095, Adjusted R-squared: 0.8894 F-statistic: 45.24 on 2 and 9 DF, p-value: 2.015e-05 (a Miten lasketaan tablettien B odotusarvon µ 2 estimaatti parametrisoinnin M Xβ tilanteessa? (b Testaa, eroaako tablettien B odotusarvo µ 2 testaa hypoteeseja tablettien C odotusarvosta µ 3, eli H 0 : µ 2 = µ 3, H 1 : µ 2 µ 3. Mikä on hypoteeseihin liittyvä t-testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05?
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 12 Parametrisoitaessa rakennemalli puolestaan keskiarvoero tyylisesti, rakennemalli esitetään muodossa M Xγ : Y ij = µ + γ j + ε ij, ε ij N(0, σ 2, (2.38 missä γ j on jokaisen osapopulaation j oma parametri suhteessa koko populaation odotusarvoon µ. Nyt siis osapopulaation j odotusarvo µ j on esitetty rakennemallissa M Xγ muodossa µ j = µ + γ j, j = 1, 2,..., k, (2.39 ja täten yksisuuntaisen varianssianalyysin päätutkimusongelma H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k, (2.40a (2.40b vastaa rakennemallin M Xγ parametrisoinnin tilanteessa hypoteeseja H 0 : γ 1 = γ 2 = = γ k = 0, H 1 : γ 1 γ 2 γ k 0. (2.41a (2.41b Useimmissa oppikirjoissa yksisuuntainen varianssianalyysimalli esitetään nimenomaan keskiarvoerotusmallin M Xγ avulla. Mallin M Xγ parametrisoinnin avulla nähdään heti, että malli M Xγ eroaa mallista M 0 juuri parametrien γ j verran. Myöhemmin kurssin aikana useamman ulottuvuuden rakennemallit esitetäänkin juuri keskiarvoero tyylisesti. Rakennemalli M Xγ on kuitenkin odotusarvojen suhteen yliparametrisoitunut malli. Eli kun todellisuudessa on k kappaletta tuntemattomia odotusarvoja µ j, niin mallissa M Xγ on k+1 kappaletta tuntemattomia parametreja µ, γ 1,..., γ k liittyen odotusarvojen mallintamiseen. Yliparametrisoinnista seuraa, että kaikkia parametreja µ, γ 1,..., γ k ei voida yksikäsitteisesti estimoida ellei aseteta joitain lisäehtoja parametrien γ 1,..., γ k rakenteelle. Usein miten yliparametrisoinnista ei ole mitään haittaa, koska kiinnostuksen kohteena olevat estimoitavat suureet pystytään yleensä estimoimaan yksikäsitteisesti, vaikkakin alla olevassa mallissa M Xγ on alunperin liian paljon parametreja. Esimerkiksi tuntemattoman erotuksen µ j µ j, j j, estimoimista vastaa rakennemallin M Xγ tilanteessa erotuksen µ j µ j = µ + γ j (µ + γ j = γ j γ j, j j, (2.42 estimoiminen. Täten erotuksen γ j γ j pienimmän neliösumman estimaattori on muotoa ˆγ j ˆγ j = Ȳj Ȳj, (2.43 ja siksi on voimassa ˆγ j ˆγ j N (γ j γ j, σ2 + σ2. (2.44 n j n j Eli jos esimerkiksi halutaan testata (yksittäistä hypoteeseja H 0 : γ j γ j = 0, j j (2.45a H 1 : γ j γ j 0, (2.45b
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 13 niin testisuure t j,j = ˆγ j ˆγ j = Var(ˆγ j ˆγ j ˆγ j ˆγ j ˆσ 2 M X n j + ˆσ2 M X n j (2.46 noudattaa Studentin t-jakaumaa vapausastein df = n k kun H 0 on tosi. Vastaavasti yksittäisen erotuksen γ j γ j 100(1 α prosentin luottamusväli on muotoa ] [ˆγ j ˆγ j t α/2 Var(ˆγ j ˆγ j ; ˆγ j ˆγ j + t α/2 Var(ˆγ j ˆγ j = ˆγ j ˆγ j t α/2 ˆσ 2 M X n j + ˆσ2 M X ˆσ M 2 ; ˆγ j ˆγ j + t X α/2 n j n j + ˆσ2 M X n j, (2.47 missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys P (t > t α/2 = α/2. Mikäli kuitenkin yksittäisille parametreille γ j halutaan muodostaa yksikäsitteiset estimaatit, täytyy parametrien γ 1,..., γ k rakenteelle asettaa jokin lisäehto. Jos koejärjestely on tasapainoinen, eli n 1 = n 2 = = n k, niin silloin usein käytetty lisäehto on muotoa γ 1 + γ 2 + + γ k = 0. (2.48 Tässä tilanteessa (ei siis aina yleisesti parametrien µ, γ 1,..., γ k pienimmän neliösumman estimaattorit ovat muotoa ˆµ = Ȳ, (2.49a ˆγ 1 = Ȳ1 Ȳ, ˆγ 2 = Ȳ2 Ȳ, (2.49b (2.49c. ˆγ k = Ȳk Ȳ. (2.49d Rakennemallin M X parametrisointi uudestaan malliksi M Xβ ei edelleenkään vaikuta mitenkään σ 2 estimaattien arvoihin, eli ˆσ 2 M X = ˆσ 2 M Xβ = ˆσ 2 M Xγ ja σ 2 M X = σ 2 M Xβ = σ 2 M Xγ. Esimerkki 2.4. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia keskiarvoeromallilla M Xγ. Tällöin saadaan seuraavanlaisia estimointituloksia mallille M Xγ. > options(contrasts=c("contr.sum", "contr.poly" > mallig<-lm(y~x,data=tabletti > summary(mallig Call: lm(formula = y ~ x, data = tabletti
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 14 Residuals: Min 1Q Median 3Q Max -0.2450-0.0675-0.0450 0.0550 0.2450 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 5.27833 0.04354 121.241 8.97e-16 *** x1 0.33667 0.06157 5.468 0.000396 *** x2 0.24667 0.06157 4.006 0.003081 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1508 on 9 degrees of freedom Multiple R-squared: 0.9095, Adjusted R-squared: 0.8894 F-statistic: 45.24 on 2 and 9 DF, p-value: 2.015e-05 (a Miten lasketaan tabletteihin A, B ja C liittyvien parametrien γ 1, γ 2, γ 3 estimaatit parametrisoinnin M Xγ tilanteessa? (b Testaa, eroaako tablettien B odotusarvo µ 2 testaa hypoteeseja tablettien C odotusarvosta µ 3, eli H 0 : γ 2 γ 3 = 0, H 1 : γ 2 γ 3 0. Mikä on hypoteeseihin liittyvä t-testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05? 2.5 Hypoteesin testaus Yksisuuntaisen varianssianalyysin päätutkimusongelmana on siis tutkia, onko selitettävän muuttujan Y odotusarvot µ j samoja jokaisen selittävän muuttujan X määrittämän osapopulaation j tapauksessa. Rakennemallin M X tilanteessa päätutkimusongelma vastaa hypoteesien H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k, (2.50a (2.50b testaamista. Rakennemallien M Xβ ja M Xγ tilanteessa päätutkimusongelman hypoteesit ovat siis muotoa H 0 : β 1 = β 2 = = β k 1 = 0, H 1 : β 1 β 2 β k 1 0, (2.51a (2.51b ja H 0 : γ 1 = γ 2 = = γ k = 0, H 1 : γ 1 γ 2 γ k 0. (2.52a (2.52b
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 15 Rakennemallien suhteen päätutkimusongelma vastaa hypoteesien testaamista. H 0 : Rakennemalli M 0 on voimassa, (2.53a H 1 : Rakennemalli M X on voimassa (eli M Xβ tai M Xγ voimassa, (2.53b Johdetaan seuraavaksi testisuure, jonka perusteella yllä olevat päätutkimusongelmaan liittyvät hypoteesit voidaan testata. Testaus perustuu malleista M 0 ja M X laskettujen varianssin σ 2 suurimman uskottavuuden estimaattoreiden σ 2 M 0 ja σ 2 M X ominaisuuksiin. Muista, että on voimassa σ 2 M X = σ 2 M Xβ = σ 2 M Xγ. Päätutkimusongelman testaaminen perustuu σ 2 M 0 ja σ 2 M X estimaattoreiden erotuksen σ 2 M 0 σ 2 M X (2.54 suuruuteen. Varianssitermi σ 2 kuvaa siis selitettävän muuttujan Y satunnaisen vaihtelun suuruutta ja estimaattorit σ M 2 0 ja σ M 2 X estimoivat tätä arvoa mallien M 0 ja M X tilanteissa. Jos estimoitu varianssi σ M 2 0 on huomattavasti suurempi mallin M 0 tilanteessa verrattuna mallin M X estimaattiin σ M 2 X, niin se kuvaa sitä, että koko populaation odotusarvon µ osittaminen osapopulaatioiden odotusarvoihin µ j vähentää estimoitua satunnaista vaihtelua mallissa M X malliin M 0 verrattuna. Täten siis selittävän muuttujan X vaikutuksesta arvioitu satunnaisuuden määrä pienenee selitettävässä muuttujassa Y. Jos arvioidun satunnaisuuden määrän pieneminen on huomattavaa, katsotaan, että selittävä muuttuja X vaikuttaa selitettävän muuttujan Y odotusarvoihin ja sitä kautta tehdään päätelmä, että selittävällä muuttujalla X on vaikutusta selitettävän muuttujan Y keskimääräisiin arvoihin. Yleisesti on voimassa σ M 2 0 σ M 2 X. Silloin kun H 0 hypoteesi on totta, niin σ M 2 0 = σ M 2 X. Täten mitä suurempi on estimoitu erotus σ M 2 0 σ M 2 X, sitä enemmän on osoitusta, että mallin M X tilanteessa selittämättömän satunnaisvaihtelun suuruus on pienempi malliin M 0 verrattuna. Pienemmän satunnaisvaihtelun katsotaan sitten johtuvan odotusarvon µ j eroavuudesta osapopulaatioissa j ja siten H 0 hypoteesi hylätään kunhan estimoitu erotus σ M 2 0 σ M 2 X on "riittävän" suuri. Kun erotusta σ M 2 0 σ M 2 X jaetaan estimaattorilla σ M 2 X ja saatua osamäärää vielä kerrottaan termillä n k, saadaan testisuure k 1 ( σ 2 M0 σ 2 ( M F = X n k = ( σ2 M 0 σ M 2 X /k 1, σ M 2 X k 1 σ M 2 (2.55 X /n k joka noudattaa F -jakaumaa vapausastein df 1 = k 1 ja df 2 = n k kun H 0 hypoteesi on tosi. Yksisuuntaisessa varianssianalyysissa päätutkimusongelman testaus perustuu siis kaavan (2.55 testisuureen. Päättelyn kannalta testisuureen erotus σ M 2 0 σ M 2 X on täysin määrävä tekijä. Muut tekijät ovat testisuureessa vain sen takia, että testisuure saadaan noudattamaan tunnettua jakaumaan H 0 hypoteesin ollessa tosi. Tässä tapauksessa tunnettu jakauma on F -jakauma. Kun testisuureen havaittu arvo F hav on laskettu aineistosta, testin havaittu p-arvo (merkitsevyystaso saadaan todennäköisyydestä p hav = P (F > F hav. (2.56
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 16 Jos testin riskitasoksi valitaan esimerkiksi α = 0.05, niin H 0 hypoteesi hylätään jos p hav < 0.05. Muuten H 0 jää voimaan. Kaavan (2.55 testisuureella on seuraavia esitysmuotoja F = ( σ2 M 0 σ M 2 X /k 1 σ M 2 X /n k = ( k n j j=1 i=1 (Y ij ˆµ 2 n ( k n j j=1 i=1 (Y ij ˆµ j 2 n k n j j=1 i=1 (Y ij ˆµ j 2 n /n k /k 1 (2.57a (2.57b missä = ( k nj j=1 ( k i=1 (Y ij Ȳ 2 k j=1 j=1 nj i=1 (Y ij Ȳj 2 /k 1 nj i=1 (Y ij Ȳj 2 /n k (2.57c = (SSE M 0 SSE MX /k 1 (2.57d SSE MX /n k = SSR M 0 M X /k 1 SSE MX /n k = MSR M 0 M X (2.57e MSE MX k j=1 = n j(ȳj Ȳ 2 /k 1, ˆσ M 2 (2.57f X SSE M0 = SSE MX = n k j (Y ij Ȳ 2 (2.58a j=1 i=1 n k j (Y ij Ȳj 2 (2.58b j=1 i=1 SSR M0 M X = SSE M0 SSE MX = k n j (Ȳj Ȳ 2 j=1 (2.58c MSE MX = SSE MX /n k = ˆσ M 2 X (2.58d k MSR M0 M X = SSR M0 M X /k 1 = n j (Ȳj Ȳ 2 /k 1. (2.58e Termejä SSE ja SSR kutsutaan virheneliösummaksi (engl. sum of squares for error ja regressioneliösummaksi (engl. sum of squares for regression. Näistä käytetään myös mm. lyhenteitä SS Error ja SS T reatment. Vastaavasti termejä MSE ja MSR kutsutaan virhekeskineliöksi (engl. mean square for error ja regressiokeskineliöksi (engl. mean square for regression. Näistä käytetään puolestaan myös mm. lyhenteitä MS Error ja MS T reatment. Yksisuuntaisen varianssianalyysin tulokset esitetään yleensä ohjelmistoissa alla olevan taulukon tyylisesti. Degrees of freedom Sum of squares Mean square F-value p-value X: df 1 SSR M0 M X MSR M0 M X F hav p hav Residuals: df 2 SSE MX MSE MX j=1
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 17 Esimerkki 2.5. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia rakennemalleilla M X ja M 0. Tällöin saadaan seuraavanlaisia estimointituloksia. > malli1<-lm(y~x-1,data=tabletti > summary(malli1 Call: lm(formula = y ~ x - 1, data = tabletti Residuals: Min 1Q Median 3Q Max -0.2450-0.0675-0.0450 0.0550 0.2450 Coefficients: Estimate Std. Error t value Pr(> t xa 5.61500 0.07541 74.46 7.19e-14 *** xb 5.52500 0.07541 73.27 8.31e-14 *** xc 4.69500 0.07541 62.26 3.59e-13 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1508 on 9 degrees of freedom Multiple R-squared: 0.9994, Adjusted R-squared: 0.9992 F-statistic: 4930 on 3 and 9 DF, p-value: 8.724e-15 > malli0<-lm(y~1,data=tabletti > summary(malli0 Call: lm(formula = y ~ 1, data = tabletti Residuals: Min 1Q Median 3Q Max -0.8283-0.3883 0.1817 0.3167 0.4717 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 5.2783 0.1309 40.32 2.65e-13 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.4535 on 11 degrees of freedom Testaa tulosten avulla hypoteeseja H 0 : µ 1 = µ 2 = = µ k, H 1 : µ 1 µ 2 µ k. (2.59a (2.59b Mikä hypoteeseihin liittyvä F -testisuureen havaittu arvo ja mikä testin havaittu merkitsevyystaso (p-arvo? Hyväksytäänkö vai hylätäänkö H 0 hypoteesi riskitasolla α = 0.05?
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 18 Esimerkki 2.6. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia kontrolliluokkamallilla M Xβ. Tällöin saadaan seuraavanlaisia estimointituloksia mallille. > options(contrasts=c("contr.sas", "contr.poly" > mallib<-lm(y~x,data=tabletti > summary(mallib Call: lm(formula = y ~ x, data = tabletti Residuals: Min 1Q Median 3Q Max -0.2450-0.0675-0.0450 0.0550 0.2450 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 4.69500 0.07541 62.263 3.59e-13 *** xa 0.92000 0.10664 8.627 1.21e-05 *** xb 0.83000 0.10664 7.783 2.76e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1508 on 9 degrees of freedom Multiple R-squared: 0.9095, Adjusted R-squared: 0.8894 F-statistic: 45.24 on 2 and 9 DF, p-value: 2.015e-05 > anova(mallib Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F x 2 2.0579 1.02893 45.239 2.015e-05 *** Residuals 9 0.2047 0.02274 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Etsi tulostuksista arvot (a SSR M0 M X ja MSR M0 M X, (b SSE MX ja MSE MX, (c F hav ja p hav.
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 19 2.6 Parittainen vertailu Jos yksisuuntaisessa varianssianalyysissa päätutkimusongelman H 0 hypoteesi hylätään, niin silloin ollaan usein kiinnostuneita selvittämään, minkä osapopulaatioiden j suhteen selitettävän muuttujan Y odotusarvot µ j eroavat toisistaan. Toisin sanoen ollaan kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ 1 µ 2, µ 1 µ 2, µ 1 µ 3,...,µ 1 µ k, µ 2 µ 3, µ 2 µ 4,...,µ 2 µ k,. µ k 1 µ k, eroavat nollasta. Parittaisten vertailujen tekemiseen on kehitetty useita eri menetelmiä. Tarkastellaan tässä kohtaa kolmea suhteellisen yksinkertaista ja tutun oloista parittaisen vertailun menetelmää nimeltään: least signicant dierence -testi (LSD, Bonferronin t-testi ja Tukey's honest signicant dierence -menetelmä (HSD. LSD-testauksessa itse asiassa jokaiselle mahdolliselle tuntemattomalle odotusarvojen erotukselle µ j µ j, j j, tehdään hypoteesien H 0 : µ j µ j = 0, yksittäiselle parille j j, (2.60a H 1 : µ j µ j 0, yksittäiselle parille j j, (2.60b testaus riskitasolla α käyttäen hyväksi t-testisuuretta t j = ˆµ j ˆµ j = Var(ˆµ j ˆµ j ˆµ j ˆµ j ˆσ 2 M X n j + ˆσ2 M X n j. (2.61 Testeistä saatujen havaittujen arvojen t j hav perusteella lasketaan jokaiseen testiin liittyvät havaitut p-arvot p j hav = 2 P (t > t j hav, jotka sitten listataan. LSD-testaus ei siis varsinaisesti tuo mitään uutta analyysiin ja on vain yksittäisten t-testien listaus. Täten LSD-testauksella saadut havaitut p-arvot kuvaavat vain, onko yksittäinen erotus µ j µ j nollasta poikkeava riskitasolla α. Varsinaisesti kuitenkin parittaisessa testauksessa haluttaisiin testata riskitasolla α, että löytyykö vähintään yhtä paria µ j µ j, jolle yksittäinen hypoteesi H 0 : µ j µ j = 0 ei ole voimassa. Bonferronin t-testi on yksinkertainen (konservatiivinen menetelmä, jolla yhtä aikaisia parittaisia vertailuja voidaan testata valitulla riskitasolla α. Bonferronin t-testauksessa lasketaan yksittäiset t-testisuureen arvot t j hav samalla kaavalla (2.61 kuin LSD-testauksessa. Jos m on tehtävien parittaisten vertailujen µ j µ j lukumäärä, niin Bonferronin testauksessa tavallisesti lasketuille havaituille p-arvoille p j hav tehdään seuraavat muutokset b j hav = { m p j hav, jos voimassa m p j hav 1, 1, jos voimassa m p j hav > 1. (2.62
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 20 Nyt yksittäinen parin µ j µ j voidaan katsoa eroavan nollasta riskitasolla α, jos lasketulle arvolle b j hav on voimassa b j hav < α. Tukeyn HSD-menetelmä on puolestaan lähtökohtaisesti tarkoitettu tilanteisiin, missä eri luokkien j otoskoot n j ovat samoja. Tukeyn HSD-menetelmässä erotuksen µ j µ j katsotaan poikkeavan nollasta riskitasolla α, jos erotukselle µ j µ j muodostettu Tukeyn luottamusväliestimaatti ˆµ j ˆµ j q α/2 2 ˆσ 2 M X n j + ˆσ2 M X n j ; ˆµ j ˆµ j + q α/2 2 ˆσ 2 M X n j + ˆσ2 M X n j (2.63 ei sisällä arvoa 0. Tukeyn luottamusväliestimaatissa luku q α/2 on sellainen arvo, jolle on voimassa todennäköisyys P (Q k,n k > q α/2 = α/2, missä puolestaan Q k,n k on satunnaismuuttuja, joka noudattaa studentized range -jakaumaa ryhmäarvolla k ja vapausastein df = n k. Yleisesti ottaen jonkin satunnaismuuttujan Q r,df sanotaan noudattavan studentized range -jakaumaa ryhmäarvolla r ja vapausastein df, jos satunnaismuuttuja Q r,df on määritelty muunnoksena Q r,df = max(y 1, Y 2,..., Y r min(y 1, Y 2,..., Y r ˆσ 2, (2.64 missä Y 1, Y 2,..., Y r N(µ, σ 2 ja ˆσ 2 = r i=1 (Y i Ȳ 2 df. Esimerkki 2.7. Mallinnetaan edellisen tehtävän monivitamiinitablettien rautapitoisuuksia kontrolliluokkamallilla M Xβ. Tällöin saadaan seuraavanlaisia parittaisia vertailuja aineistolle. > options(contrasts=c("contr.sas", "contr.poly" > mallib<-lm(y~x,data=tabletti > summary(mallib Call: lm(formula = y ~ x, data = tabletti Residuals: Min 1Q Median 3Q Max -0.2450-0.0675-0.0450 0.0550 0.2450 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 4.69500 0.07541 62.263 3.59e-13 *** xa 0.92000 0.10664 8.627 1.21e-05 *** xb 0.83000 0.10664 7.783 2.76e-05 *** --- Signif. codes: 0?***? 0.001?**? 0.01?*? 0.05?.? 0.1?? 1 Residual standard error: 0.1508 on 9 degrees of freedom Multiple R-squared: 0.9095, Adjusted R-squared: 0.8894 F-statistic: 45.24 on 2 and 9 DF, p-value: 2.015e-05 > pairwise.t.test(y,x,p.adj="none"
kevät 2013 Yksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 21 Pairwise comparisons using t tests with pooled SD data: y and x A B B 0.42 - C 1.2e-05 2.8e-05 P value adjustment method: none > pairwise.t.test(y,x,p.adj="bonf" Pairwise comparisons using t tests with pooled SD data: y and x A B B 1 - C 3.6e-05 8.3e-05 P value adjustment method: bonferroni > TukeyHSD(aov(mallib Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = mallib $x diff lwr upr p adj B-A -0.09-0.3877412 0.2077412 0.6866791 C-A -0.92-1.2177412-0.6222588 0.0000321 C-B -0.83-1.1277412-0.5322588 0.0000731 Mitkä parittaisista eroista näyttäisi merkitseviltä ja mitkä eivät?
Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A 6.2.2013 3 Kaksisuuntainen varianssianalyysi 3.1 Tutkimusasetelma ja -hypoteesit Kaksisuuntaisessa varianssianalyysissa tarkastellaan kahden luokittelu- tai järjestysasteikollisen selittävän muuttujan X 1 ja X 2 vaikutusta selitettävän muuttujan Y populaatiokeskiarvoihin. Selittävien muuttujien X 1 ja X 2 voidaan olettaa saavan k ja l kappaletta erilaisia arvoja x 1j, (j = 1, 2,..., k, ja x 2h, (h = 1, 2,..., l. Koodataan selittävän muuttujan X 1 saamat arvot x 1j numeroiksi x 11 = 1, x 12 = 2,..., x 1k = k ja selittävän muuttujan X 2 saamat arvot x 2h numeroiksi x 21 = 1, x 22 = 2,..., x 2l = l. Selittävien muuttujien X 1 ja X 2 perusteella kokonaispopulaatio voidaan täten jakaa arvojen x 1j ja x 2h perusteella k l:n eri osapopulaatioon. Merkitään x 1j ja x 2h arvojen määrittämää osapopulaatio jh:llä. Kaksisuuntaisessa varianssianalyysissa jokaisesta osapopulaatiosta jh poimitaan satunnaisesti n jh havaintoyksikköä, joista sitten mitataan selitettävän muuttujan Y toteutunut arvo. Täten selitettävän muuttujan Y havaittuja arvoja voidaan merkitä seuraavasti: y ijh =muuttujan Y i:nes havaittu arvo osapopulaatiosta jh, kun i = 1, 2,..., n jh, j = 1, 2,..., k, h = 1, 2,..., l. Havaittu aineisto siten muodostuu selitettävän muuttujan arvoista X 1 = 1 ja X 2 = 1 : y 111, y 211,..., y n11 11, X 1 = 2 ja X 2 = 1 : y 121, y 221,..., y n21 21, X 1 = k ja X 2 = 1 : y 1k1, y 2k1,..., y nk1 k1, X 1 = 1 ja X 2 = 2 : y 112, y 212,..., y n12 12, X 1 = 1 ja X 2 = l : y 11l, y 21l,..., y n1l 1l,.. X 1 = k ja X 2 = l :. y 1kl, y 2kl,..., y nkl kl. Aineistossa olevien havaittujen arvojen y ijh voidaan ajatella nyt olevan realisaatioita satunnaismuuttujista Y ijh. Varianssianalyysissa satunnaismuuttujien Y ijh oletetaan noudattavan normaalijakaumaa. Kaksisuuntaisen varianssianalyysin päätutkimusongelma on tutkia, minkälaisesta rakennemallista havaittujen arvojen y ijh voidaan katsoa olevan realisaatioita.
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 2 Esimerkki 3.1. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Tutkimusryhmä mittasi jokaisen valmistajan neljästä eri tabletista rautapitoisuudet. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Tutkimusryhmä käsitteli puolet tableteista HCl liuoksella ja puolet HNO 3 liuoksella ja saivat seuraavan aineiston: Tabletti A Tabletti B Tabletti C HCl 5.67 5.75 4.74 HCl 5.67 5.47 4.45 HNO 3 5.55 5.43 4.65 HNO 3 5.57 5.45 4.94 Mitkä muuttujat ovat tässä tutkimuksessa selittäviä muuttujia? Mikä voisi olla tutkimuksen tavoite? Kaksisuuntaisen varianssianalyysin tilanteessa voidaan määritellä kilpailevia rakennemalleja, joiden perusteella havaintojen y ijh voidaan katsoa muodostuvan. Seuraavassa on esitetty kaksisuuntaiseen varianssianalyysiin liittyviä kilpailevia malleja keskiarvoero parametrisoinnin avulla: M 0 : Y ijh = µ + ε ijh, (3.1a M X1 : Y ijh = µ + γ j + ε ijh, (3.1b M X2 : Y ijh = µ + τ h + ε ijh, (3.1c M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh, (3.1d M X1 X 2 : Y ijh = µ + γ j + τ h + ω jh + ε ijh. (3.1e Jokaisessa yllä olevassa mallissa termejä ε ijh kutsutaan kyseisen mallin satunnaisiksi virhetermeiksi, joidenka oletetaan olevan toisistaan riippumattomia ja noudattavan normaalijakaumaa ε ijh N(0, σ 2 i = 1, 2,..., n jh, j = 1, 2,..., k, h = 1, 2,..., l. (3.2 Termit µ, γ j, τ h, ω jh ovat satunnaismuuttujien Y ijh odotusarvoihin E(Y ijh liittyviä (odotusarvoja mallintavia tuntemattomia parametreja. Kaksisuuntaisessa varianssianalyysissa oletetaan siis, että selitettävän muuttujan Y odotusarvot ovat mahdollisesti erisuuria osapopulaatioissa jh, mutta populaatiovarianssi σ 2 on sama jokaisessa osapopulaatiossa jh. Parametrit µ, γ j, τ h, ω jh ovat tuntemattomia, joita kaksisuuntaisessa varianssianalyysissa estimoidaan havaittujen arvojen y ijh avulla. Yllä olevia rakennemalleja voidaan tulkita seuraavanlaisesti. Malli M 0 : Kumpikaan selittävistä muuttujista X 1 ja X 2 ei vaikuta selitettävän muuttujan Y odotusarvoihin. Malli M X1 : Malli M X2 : Vain muuttuja X 1 vaikuttaa selitettävän muuttujan Y odotusarvoihin. Vain muuttuja X 2 vaikuttaa selitettävän muuttujan Y odotusarvoihin.
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 3 Päävaikutusmalli M X1 X 2 : Yhdysvaikutusmalli M X1 X 2 : Muuttujilla X 1 ja X 2 on omaa vaikutusta selitettävän muuttujan Y odotusarvoihin. Muuttujilla X 1 ja X 2 on oman vaikutuksen lisäksi yhdysvaikutusta selitettävän muuttujan Y odotusarvoihin. Jokainen yllä esitetty rakennemalli on muodoltaan sellainen, että yksittäisen havainnon i odotusarvo voi enintään riippua koko osapopulaation jh yhteisestä odotusarvosta. Rakennemallit siis mallintavat, kuinka satunnaismuuttujien Y ijh odotusarvot E(Y ijh = µ jh muodostuvat selittävien muuttujien X 1 ja X 2 määrittämissä osapopulaatioissa jh. Esimerkiksi päävaikutusmallin M X1 X 2 tilanteessa E(Y ijh = µ jh on muotoa µ jh = µ + γ j + τ h. (3.3 Yllä olevat mallit on esitetty hierarkisessa järjestyksessä. Mallissa M 0 kumpikaan muuttujista X 1 ja X 2 ei vaikuta selitettävän muuttujan Y odotusarvoihin, eli ei ole hyötyä jakaa populaatiota osapopulaatioihin jh, jos tämä malli kuvaa parhainten havaittujen arvojen y ijh muodostumista. Mallit M X1 ja M X2 ovat yhden selittävän muuttujan malleja ja siten niiden tarkasteluun pätee yksisuuntaisen varianssianalyysin teoria. Päävaikutusmalli M X1 X 2 ja yhdysvaikutusmalli M X1 X 2 ovat varsinaisia kahden selittävän muuttujan malleja. Päävaikutusmallissa M X1 X 2 kummallakin selittävällä muuttujalla X 1 ja X 2 on oma vaikutuksensa odotusarvoihin µ jh. Päävaikutusmallin M X1 X 2 voi nähdä (ainakin teoriassa mallina, missä on yhdistetty yksisuuntaiset varianssianalyysimallit M X1 ja M X2 yhteen. Yhdysvaikutusmallissa M X1 X 2 selittävien muuttujien arvot x 1j ja x 2h voivat yhdessä vielä joko lisätä tai vähentää odotusarvon µ jh tasoa siitä, mihinkä päävaikutusmallin perusteella odotusarvon µ jh taso määräytyisi. Täten yhdyvaikutusmallin M X1 X 2 tilanteessa odotusarvot µ jh voivat olla vapaasti millä tahansa tasolla jokaisen osapopulaation jh tapauksessa. Alla oleva kuvio vielä selventää päävaikutusmallin M X1 X 2 ja yhdysvaikutusmallin M X1 X 2 eroja tilanteessa, missä k = 3 ja l = 2. Päävaikutusmalli Yhdysvaikutusmalli x2=2 x2=2 Odotusarvo Odotusarvo x2=1 x2=1 x1=1 x1=2 x1=3 x1=1 x1=2 x1=3 Päätutkimusongelmana kaksisuuntaisessa varianssianalyysissa on tutkia esimerkiksi hypoteesin testaamisen avulla, mikä malleista M 0, M X1, M X2, M X1 X 2, M X1 X 2 parhainten kuvaa havaintojen y ijh muodostumista. Valittu malli sitten kuvaa, kuinka selittävät muuttujat X 1 ja X 2 vaikuttavat selitettävän muuttujan Y odotusarvoihin.
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 4 Mallin valinnassa voidaan edetä hierarkisesti niin, että ensiksi verrataan mallia M 0 malleihin M X1, M X2. Jos selittävät muuttujat X 1 ja X 2 ovat yksisuuntaisen varianssianalyysin perusteella merkitseviä muuttujia, niin sitten voidaan verrata malleja M X1, M X2 päävaikutusmalliin M X1 X 2 ja lopulta mahdollisesti päävaikutusmallia yhdysvaikutusmalliin M X1 X 2. Usein kaksisuuntaista varianssianalyysia käytetään tilanteissa, missä muuttujien X 1 ja X 2 katsotaan lähtökohtaisesti vaikuttavan selitettävän muuttujan Y odotusarvoihin. Tällöin tutkimusongelmaksi tulee vertailla päävaikutusmallia yhdysvaikutusmalliin. Tätä tutkimusongelmaa voidaan ratkoa testaamalla hypoteeseja H 0 : Rakennemalli M X1 X 2 on voimassa, (3.4a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.4b Kaksisuuntaista varianssianalyysia käytetään usein tilanteissa, missä toinen selittävistä muuttujista on varsinainen selittävä muuttuja, jonka vaikutusta selitettävän muuttujan Y arvoihin halutaan tutkia ja toinen muuttuja on niin sanottu kiusatekijä, jonka tiedetään vaikuttavan Y :n, vaikka sen vaikutuksesta ei sinällään olla kiinnostuneita. Jos merkitään kiusatekijää X 1 muuttujalla ja varsinaista muuttujaa X 2, niin silloin tutkimusongelmana on vertailla, mikä malleista M X1, M X1 X 2, M X1 X 2 parhainten kuvaa havaittujen arvojen y ijh realisoitumista. Tällaisessa tilanteessa kiusatekijä X 1 pidetään rakennemallissa mukana riippumatta sen tilastollisesta merkittävyydestä ja täten malli M X1 on tällaisessa tilanteessa usein lähtökohtamalli. Sen jälkeen kun päätutkimusongelman mukainen mallin valinta on suoritettu, ollaan usein kiinnostuneita selvittämään, minkä osapopulaatioiden jh suhteen odotusarvot µ jh eroavat toisistaan. Toisin sanoen ollaan esimerkiksi kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ jh µ j h eroavat nollasta. Parittaista vertailua voidaan tehdä testaamalla eroaako erotukset nollasta, tai muodostamalla luottamusväliestimaatteja odotusarvoerotuksille µ jh µ j h ja tutkia, kuuluuko nolla muodostetulle luottamusvälille. Jos siis nolla ei kuulu odotusarvoerotukselle µ jh µ j h muodostetulle luottamusvälille, odotusarvojen µ jh ja µ j h voidaan katsoa eroavan toisistaan.
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 5 3.2 Mallien parametrisoiminen Kun päämalli M X1 X 2 ja yhdysvaikutusmalli M X1 X 2 kirjoitetaan edellä esitetyn keskiarvoero parametrisoinnin avulla, ne ovat yliparametrisointuja. Kaksisuuntaisessa varianssianalyysissa hypoteesien testaus ja odotusarvoerotusten µ jh µ j h estimoiminen perustuukin (tilastollisissa ohjelmistoissa uudelleen parametrisoiduista malleista laskettuihin estimaatteihin. Mallit M X1 X 2 ja M X1 X 2 uudelleen parametrisoidaan yleensä kontrolliluokka tyylisen parametrisoinnin avulla. Päävaikutusmalli M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh (3.5 voidaan kontrolliluokka tyylisesti parametrisoida siten, että esimerkiksi valitaan selittävien muuttujien X 1 ja X 2 viimeisten luokkien k ja l muodostama osapopulaatio kl lähtöluokaksi. Tällöin osapopulaation kl tilanteessa havaintojen y ikl ajatellaan tulevan mallista X 1 = k, X 2 = l : Y ikl = β 0 + ε ikl. Nyt muuttujan X 1 kaikilla muilla arvoilla j (j k tilanteessa, että X 2 = l havaintojen y ijl ajatellaan tulevan mallista X 1 = 1, X 2 = l : Y i1l = β 0 + β 11 + ε i1l, X 1 = 2, X 2 = l : Y i2l = β 0 + β 12 + ε i2l,. X 1 = k 1, X 2 = l : Y ik 1l = β 0 + β 1k 1 + ε ik 1l. Vastaavasti muuttujan X 2 kaikilla muilla arvoilla h (h l tilanteessa, että X 1 = k havaintojen y ikh ajatellaan tulevan mallista X 1 = k, X 2 = 1 : Y ik1 = β 0 + β 21 + ε ik1, X 1 = k, X 2 = 2 : Y ik2 = β 0 + β 22 + ε ik2,. X 1 = k, X 2 = l 1 : Y ikl 1 = β 0 + β 2l 1 + ε ikl 1. voidaan kirjoittaa kontrolliluokka tyylisen parametri- Täten päävaikutusmalli M X1 X 2 soinnin avulla mallina M X1 X 2 β : Y ijh = β 0 + β 1j + β 2h + ε ijh, β 1k = 0, β 2l = 0. (3.6 Nyt siis kontrolliluokka tyylisen parametrisoinnin tilanteessa osapopulaation jh odotusarvon µ jh oletetaan olevan päävaikutusmallin tilanteessa muotoa µ jh = β 0 + β 1j + β 2h, β 1k = 0, β 2l = 0, (3.7 ja siten erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h. (3.8
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 6 tilanteessa odotusarvo- Esimerkiksi kun k = 3 ja l = 3, niin päävaikutusmallin M X1 X 2 β jen µ jh oletetaan olevan muotoa µ 11 = β 0 + β 11 + β 21, µ 12 = β 0 + β 11 + β 22, µ 13 = β 0 + β 11, µ 21 = β 0 + β 12 + β 21, µ 22 = β 0 + β 12 + β 22, µ 23 = β 0 + β 12, µ 31 = β 0 + β 21, µ 32 = β 0 + β 22, µ 33 = β 0. Yhdysvaikutusmalli M X1 X 2 : Y ijh = µ + γ j + τ h + ω jh + ε ijh. (3.9 voidaan myös parametrisoida kontrolliluokka tyylisesti. Jos selittävien muuttujien X 1 ja X 2 viimeisten luokkien k ja l muodostama osapopulaatio kl valitaan lähtöluokaksi, niin silloin yhdysvaikutusmalli M X1 X 2 voidaan esittää muodossa M X1 X 2β : Y ijh =β 0 + β 1j + β 2h + β jh + ε ijh, (3.10 β 1k = 0, β 2l = 0, β kh = 0 kaikille h = 1,..., l, β jl = 0 kaikille j = 1,..., k. Yhdysvaikutusmallin M X1 X 2β tilanteessa odotusarvojen erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h + β jh β j h. (3.11 tilanteessa odotusar- Esimerkiksi kun k = 3 ja l = 3, niin yhdysvaikutusmallin M X1 X 2β vojen µ jh oletetaan olevan muotoa µ 11 = β 0 + β 11 + β 21 + β 11, µ 12 = β 0 + β 11 + β 22 + β 12, µ 13 = β 0 + β 11, µ 21 = β 0 + β 12 + β 21 + β 21, µ 22 = β 0 + β 12 + β 22 + β 22, µ 23 = β 0 + β 12, µ 31 = β 0 + β 21, µ 32 = β 0 + β 22, µ 33 = β 0.
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 7 3.3 Parametrien estimoiminen ja hypoteesien testaus Rakennemallien M 0, M X1, M X2 tuntemattomien parametrien estimoiminen tapahtuu yksisuuntaisen varianssianalyysissa esitetyllä tavalla. Tarkastellaankin seuraavaksi tuntemattomien parametrien estimoimista päävaikutusmallin M X1 X 2 ja yhdysvaikutusmallin M X1 X 2 tilanteessa. Estimointi ja testaus perustuu kontrolliluokka tyylisten mallien M X1 X ja M 2 β X 1 X 2β tarkasteluun. Päävaikutusmallin M X1 X 2 β : Y ijh = β 0 + β 1j + β 2h + ε ijh (3.12 tilanteessa parametrien β 0, β 1j, β 2h pienimmän neliösumman estimaatit ˆβ 0, ˆβ 1j, ˆβ 2h saadaan ratkaisuina minimointiongelmaan arg min l β 0,β 1j,β 2h h=1 j=1 i=1 n k jh (y ijh (β 0 + β 1j + β 2h 2. (3.13 Nyt estimaateilla ˆβ 0, ˆβ 1j, ˆβ 2h ei ole yleisessä tapauksessa yksinkertaisia (helppoja esitysmuotoja, joten tässä kohdassa tarkastelemme vain ohjelmistojen tuottamia numeerisia estimaattiarvoja. Päävaikutusmallin M X1 X tilanteessa estimaattien avulla ˆβ 2 β 0, ˆβ 1j, ˆβ 2h avulla saadaan laskettua varianssille σ 2 harhaton estimaatti l k ( njh ˆσ M 2 h=1 j=1 i=1 y ijh ( ˆβ 0 + ˆβ 1j + ˆβ 2 2h X1 =, (3.14 X 2 n f X1 X 2 β missä f X1 X 2 β on päävaikutusmallin M X 1 X 2 β parametrien β 0, β 1j, β 2h lukumäärä. Harhattoman estimaatin ˆσ M 2 X1 avulla voidaan sitten lasketa varianssin σ 2 suurimman X 2 uskottavuuden estimaatti ( n σ M 2 fx1 X 2 β X1 = ˆσ X 2 M 2 n X1. (3.15 X 2 Varianssin σ 2 harhattoman estimaattorin avulla saadaan laskettua estimaattoreiden ˆβ 0, ˆβ 1j, ˆβ 2h varianssien estimaatit Var( ˆβ 0, Var( ˆβ 1j, Var( ˆβ 2h, joiden tarkka esitysmuoto tässä kohdassa sivuutetaan. Estimaattien ˆβ 0, ˆβ 1j, ˆβ 2h ja niiden estimoitujen varianssien avulla voidaan kuitenkin testata parametrien β 0, β 1j, β 2h yksittäisiä eroavuuksia nollasta. Esimerkiksi testattaessa yksittäiselle parametrille β 2h hypoteeseja H 0 : β 2h = 0, H 1 : β 2h 0, (3.16a (3.16b voidaan testata testisuureen t h = ˆβ 2h Var( ˆβ 2h (3.17
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 8 avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t h hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p h hav = 2 P (t > t h hav, (3.18 missä t noudattaa t-jakaumaa vapausastein n f X1 X 2 β. H 0 hypoteesi voidaan hylätä, jos on voimassa p h hav < α, missä α testin valittu riskitaso. Vastaavasti yhdysvaikutusmallin M X1 X 2β : Y ijh = β 0 + β 1j + β 2h + β jh + ε ijh (3.19 tilanteessa parametrien β 0, β 1j, β 2h, β jh pienimmän neliösumman estimaatit ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh saadaan ratkaisuina minimointiongelmaan arg min l β 0,β 1j,β 2h,β jh h=1 j=1 i=1 n k jh (y ijh (β 0 + β 1j + β 2h + β jh 2. (3.20 Nyt estimaateilla ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh ei ole nytkään yleisessä tapauksessa yksinkertaisia (helppoja esitysmuotoja, joten tässä kohdassa tarkastelemme vain ohjelmistojen tuottamia numeerisia estimaattiarvoja. Yhdysvaikutusmallin M X1 X 2β tilanteessa estimaattien avulla ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh avulla saadaan laskettua varianssille σ 2 harhaton estimaatti l k ( njh ˆσ M 2 h=1 j=1 i=1 y ijh ( ˆβ 0 + ˆβ 1j + ˆβ 2h + ˆβ 2 jh X1 =, (3.21 X 2 n f X1 X 2β missä f X1 X 2β on yhdysvaikutusmallin M X1 X 2β parametrien β 0, β 1j, β 2h, β jh lukumäärä. Harhattoman estimaatin ˆσ M 2 X1 avulla voidaan sitten lasketa varianssin σ 2 suurimman X 2 uskottavuuden estimaatti ( n σ M 2 fx1 X 2β X1 = ˆσ X 2 M 2 n X1. (3.22 X 2 Varianssin σ 2 harhattoman estimaattorin avulla saadaan laskettua estimaattoreiden ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh varianssien estimaatit Var( ˆβ 0, Var( ˆβ 1j, Var( ˆβ 2h, Var( ˆβ jh, joiden tarkka esitysmuoto tässä kohdassa sivuutetaan. Estimaattien ˆβ 0, ˆβ 1j, ˆβ 2h, ˆβ jh ja niiden estimoitujen varianssien avulla voidaan kuitenkin testata parametrien β 0, β 1j, β 2h, β jh yksittäisiä eroavuuksia nollasta. Esimerkiksi testattaessa yksittäiselle parametrille β jh hypoteeseja H 0 : β jh = 0, H 1 : β jh 0, (3.23a (3.23b voidaan testata testisuureen t jh = ˆβ jh Var( ˆβ jh (3.24
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 9 avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t jh hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p jh hav = 2 P (t > t jh hav, (3.25 missä t noudattaa t-jakaumaa vapausastein n f X1 X 2 β. H 0 hypoteesi voidaan hylätä, jos on voimassa p jh hav < α, missä α testin valittu riskitaso. Esimerkki 3.2. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on seuraavasta aineistosta esitetty estimoinnin tuloksia päävaikutusmallin M X1 X 2 β ja yhdysvaikutusmallin M X1 X 2β tilanteissa. > data<-read.table("tabletti2.txt", header=true, sep="\t", dec="." > attach(data > data y x1 x2 1 5.67 A HCL 2 5.67 A HCL 3 5.55 A HNO3 4 5.57 A HNO3 5 5.75 B HCL 6 5.47 B HCL 7 5.43 B HNO3 8 5.45 B HNO3 9 4.74 C HCL 10 4.45 C HCL 11 4.65 C HNO3 12 4.94 C HNO3 > options(contrasts=c("contr.sas", "contr.poly" > mallip<-lm(y~x1+x2 > summary(mallip Call: lm(formula = y ~ x1 + x2 Residuals: Min 1Q Median 3Q Max -0.25833-0.06333-0.03167 0.04167 0.25833 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 4.68167 0.09187 50.959 2.44e-11 *** x1a 0.92000 0.11252 8.176 3.73e-05 *** x1b 0.83000 0.11252 7.377 7.79e-05 *** x2hcl 0.02667 0.09187 0.290 0.779 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1591 on 8 degrees of freedom Multiple R-squared: 0.9105, Adjusted R-squared: 0.8769 F-statistic: 27.12 on 3 and 8 DF, p-value: 0.0001523
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 10 > malliy<-lm(y~x1*x2 > summary(malliy Call: lm(formula = y ~ x1 * x2 Residuals: Min 1Q Median 3Q Max -0.1450-0.0425 0.0000 0.0425 0.1450 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 4.7950 0.1015 47.227 6.04e-09 *** x1a 0.7650 0.1436 5.328 0.00178 ** x1b 0.6450 0.1436 4.492 0.00414 ** x2hcl -0.2000 0.1436-1.393 0.21307 x1a:x2hcl 0.3100 0.2031 1.527 0.17770 x1b:x2hcl 0.3700 0.2031 1.822 0.11827 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1436 on 6 degrees of freedom Multiple R-squared: 0.9453, Adjusted R-squared: 0.8998 F-statistic: 20.75 on 5 and 6 DF, p-value: 0.001007 tilanteessa odotusarvojen pienimmän neliö- (a Mitä ovat päävaikutusmallin M X1 X 2 β summan estimaatit kun (i tabletti on C ja liuos HNO3? (ii tabletti on A ja liuos HNO3? (iii tabletti on C ja liuos HCL? (b Mitä ovat mallin M X1 X 2 β tilanteessa varianssin σ2 estimaatit ˆσ 2 M X1 X 2 ja σ 2 M X1 X 2? tilanteessa odotusarvojen pienimmän ne- (c Mitä ovat yhdysvaikutusmallin M X1 X 2β liösumman estimaatit kun (i tabletti on C ja liuos HNO3? (ii tabletti on A ja liuos HNO3? (iii tabletti on C ja liuos HCL? (d Mitä ovat mallin M X1 X 2β tilanteessa varianssin σ 2 estimaatit ˆσ M 2 X1 ja σ 2 X 2 M X1? X 2
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 11 3.4 Mallin valinta ja hypoteesin testaus Tarkastellaan seuraavaksi mallin valintaa ja hypoteesien testausta kaksisuuntaisessa varianssianalyysissa. Kuten edellä on jo mainittu, kaksisuuntaisessa varianssianalyysissa päätutkimusongelmana on tutkia, mikä malleista M 0, M X1, M X2, M X1 X 2, M X1 X 2 parhainten kuvaa havaintojen y ijh muodostumista. Olkoon nyt yksisuuntaisen varianssianalyysin perusteella (tai muuten muuttuja X 1 tilastollisesti merkitsevä muuttuja, jolla on vaikutusta selitettävän muuttujan Y odotusarvoon. Tarkastellaan tässä tilanteessa, vaikuttaako muuttujan X 1 lisäksi selittävä muuttuja X 2 selitettävän muuttujan Y odotusarvoihin. Tätä tutkimusongelmaa voidaan lähestyä vertaamalla rakennemallia M X1 päävaikutusmalliin M X1 X 2. Selittävän muuttujan X 2 vaikutusta selitettävän muuttujan Y arvoihin voidaan tutkia testaamalla hypoteeseja H 0 : τ 1 = τ 2 = = τ l = 0, mallissa M X1 X 2, (3.26a H 1 : τ 1 τ 2 τ l 0, mallissa M X1 X 2. (3.26b Yllä olevia hypoteeseja vastaa siis hypoteesit H 0 : Rakennemalli M X1 on voimassa, (3.27a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.27b Olkoon σ 2 M X1 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 ja olkoon σ M 2 X1 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 X X 2. Tällöin testisuure 2 ( ( σ 2 MX1 σ M 2 X1 X F = 2 n fx1 X 2β ( σ 2MX1 σ 2MX1 X2 /(f X1 X k 2 β σ M 2 X1 f X1 X k = X 2 σ 2 2 β M X1 /(n f X1 X, (3.28 X 2 2 β noudattaa F -jakaumaa vapausastein df 1 = f X1 X 2 β k ja df 2 = n f X1 X 2 β kun H 0 hypoteesi on tosi. Rakennemallien M X1 ja M X1 X 2 vertailu perustuu siis kaavan (3.28 testisuureen. Päättelyn kannalta testisuureen erotus σ 2 M X1 σ 2 M X1 X 2 on jälleen täysin määrävä tekijä. Muut tekijät ovat testisuureessa vain sen takia, että testisuure saadaan noudattamaan tunnettua jakaumaan H 0 hypoteesin ollessa tosi. Tässä tapauksessa tunnettu jakauma on F -jakauma. Kun testisuureen havaittu arvo F hav on laskettu aineistosta, testin havaittu p-arvo (merkitsevyystaso saadaan todennäköisyydestä p hav = P (F > F hav. (3.29 Jos testin riskitasoksi valitaan esimerkiksi α = 0.05, niin H 0 hypoteesi hylätään jos p hav < 0.05. Muuten H 0 jää voimaan. Jos edellä tarkasteltu H 0 hypoteesi (3.27a hylätään tai tiedetään etukäteen, että selittävä muuttuja X 2 vaikuttaa myös selitettävän muuttujan Y odotusarvoihin, niin silloin voidaan vertailla päävaikutusmallin M X1 X 2 ja yhdysvaikutusmallin M X1 X 2 sopivuutta aineistoon. Selittävien muuttujien X 1 ja X 2 vaikutustapaa selitettävän muuttujan Y odotusarvoihin voidaan vertailla testaamalla hypoteeseja H 0 : Rakennemalli M X1 X 2 on voimassa, (3.30a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.30b
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 12 Yllä olevat hypoteesit vastaavat siis hypoteeseja H 0 : ω jh = 0, kaikille j = 1,..., k, h = 1,..., l mallissa M X1 X 2, (3.31a H 1 : ω jh 0, jollekin jh mallissa M X1 X 2. (3.31b Olkoon σ 2 M X1 X 2 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 X 2 ja olkoon σ 2 M X1 X 2 suurimman uskottavuuden estimaatti varianssille σ 2 mallissa M X1 X 2. Tällöin testisuure ( σ 2 MX1 σ 2 X F = 2 M X1 X 2 σ M 2 X1 X 2 ( n fx1 X 2β f X1 X 2β f X1 X 2 β = ( σ 2MX1 σ 2MX1 X2 /(f X1 X 2β f X1 X 2 β, σ M 2 X1 /(n f X1 X X 2β 2 (3.32 noudattaa F -jakaumaa vapausastein df 1 = f X1 X 2β f X1 X 2 β ja df 2 = n f X1 X 2β kun H 0 hypoteesi on tosi. Kun testisuureen havaittu arvo F hav on laskettu aineistosta, testin havaittu p-arvo (merkitsevyystaso saadaan todennäköisyydestä p hav = P (F > F hav. (3.33 Jos testin riskitasoksi valitaan esimerkiksi α = 0.05, niin H 0 hypoteesi hylätään jos p hav < 0.05. Muuten H 0 jää voimaan. Esimerkki 3.3. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta laskettuja estimoinnin tuloksia liittyen malliin M X1β, missä selittävänä muuttuja X 1 tabletin valmistaja, päävaikutusmalliin M X1 X 2, missä selittävinä muuttujina X 1 ja X 2 ovat tabletin valmistaja ja tableteille tehty käsittely, ja β yhdysvaikutusmalliin M X1 X 2β, selittävinä muuttujina X 1 ja X 2 ovat tabletin valmistaja ja tableteille tehty käsittely. > options(contrasts=c("contr.sas", "contr.poly" > malli1<-lm(y~x1 > summary(malli1 Call: lm(formula = y ~ x1 Residuals: Min 1Q Median 3Q Max -0.2450-0.0675-0.0450 0.0550 0.2450 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 4.69500 0.07541 62.263 3.59e-13 *** x1a 0.92000 0.10664 8.627 1.21e-05 *** x1b 0.83000 0.10664 7.783 2.76e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1508 on 9 degrees of freedom Multiple R-squared: 0.9095, Adjusted R-squared: 0.8894
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 13 F-statistic: 45.24 on 2 and 9 DF, > mallip<-lm(y~x1+x2 > summary(mallip Call: lm(formula = y ~ x1 + x2 p-value: 2.015e-05 Residuals: Min 1Q Median 3Q Max -0.25833-0.06333-0.03167 0.04167 0.25833 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 4.68167 0.09187 50.959 2.44e-11 *** x1a 0.92000 0.11252 8.176 3.73e-05 *** x1b 0.83000 0.11252 7.377 7.79e-05 *** x2hcl 0.02667 0.09187 0.290 0.779 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1591 on 8 degrees of freedom Multiple R-squared: 0.9105, Adjusted R-squared: 0.8769 F-statistic: 27.12 on 3 and 8 DF, p-value: 0.0001523 > malliy<-lm(y~x1+x2+x1:x2 > summary(malliy Call: lm(formula = y ~ x1 + x2 + x1:x2 Residuals: Min 1Q Median 3Q Max -0.1450-0.0425 0.0000 0.0425 0.1450 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 4.7950 0.1015 47.227 6.04e-09 *** x1a 0.7650 0.1436 5.328 0.00178 ** x1b 0.6450 0.1436 4.492 0.00414 ** x2hcl -0.2000 0.1436-1.393 0.21307 x1a:x2hcl 0.3100 0.2031 1.527 0.17770 x1b:x2hcl 0.3700 0.2031 1.822 0.11827 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1436 on 6 degrees of freedom Multiple R-squared: 0.9453, Adjusted R-squared: 0.8998 F-statistic: 20.75 on 5 and 6 DF, p-value: 0.001007 (a Testaa 5 % riskitasolla hypoteeseja H 0 : Rakennemalli M X1 on voimassa, H 1 : Rakennemalli M X1 X 2 on voimassa. (b Testaa 5 % riskitasolla hypoteeseja H 0 : Rakennemalli M X1 X 2 on voimassa, H 1 : Rakennemalli M X1 X 2 on voimassa.
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 14 R-ohjelmistossa päävaikutusmallin ja yhdysvaikutusmallin välinen testaus voidaan esittää alla olevan taulukon tyylisesti. Residual degrees Residual Sum Degrees Sum F p-value of freedom of squares of freedom of squares M X1 X 2 : n f X1 X 2 β SSE MX1 X 2 M X1 X 2 : n f X1 X 2β SSE MX1 X 2 f X1 X 2β f X1 X 2 β SSR MX1 X 2 M X1 X 2 F hav p hav Yllä olevassa taulukossa on voimassa seuraavat merkinnät: SSE MX1 X 2 = n σ 2 M X1 X 2, (3.34a SSE MX1 X 2 = n σ 2 M X1 X 2, (3.34b SSR MX1 X 2 M X1 X 2 = n( σ 2 M X1 X 2 σ 2 M X1 X 2, (3.34c F hav = SSR M X1 X 2 M X1 X 2 /(f X1 X 2β f X1 X 2 β, (3.34d SSE MX1 X 2 /(n f X1 X 2β p hav = P (F > F hav. (3.34e Saman tyylinen taulukko saadaan kun verrataan mitä tahansa (hierarkista kilpailevaa mallia. Esimerkki 3.4. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta laskettuja testauksen tuloksia liittyen päävaikutusmallin ja yhdysvaikutusmallin väliseen testaamiseen. > anova(mallip,malliy Analysis of Variance Table Model 1: y ~ x1 + x2 Model 2: y ~ x1 + x2 + x1:x2 Res.Df RSS Df Sum of Sq F Pr(>F 1 8 0.20257 2 6 0.12370 2 0.078867 1.9127 0.2277 Etsi SSE MX1 X 2 = SSE MX1 X 2 = SSR MX1 X 2 M X1 X 2 = F hav = p hav =
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 15 3.5 Parittainen vertailu Mallin valinnan jälkeen kaksisuuntaisessa varianssianalyysissa voidaan tutkia, minkä osapopulaatioiden jh suhteen odotusarvot µ jh eroavat toisistaan. Toisin sanoen ollaan esimerkiksi kiinnostuneita tarkastelemaan, mitkä kaikki parittaisista odotusarvoerotuksista µ jh µ j h eroavat nollasta. Parittaista vertailua voidaan tehdä testaamalla eroaako erotukset nollasta, tai muodostamalla luottamusväliestimaatteja odotusarvoerotuksille µ jh µ j h ja tutkia, kuuluuko nolla muodostetulle luottamusvälille. Tarkastellaan seuraavaksi parittaisia µ jh µ j h vertailuja päävaikutusmallissa M X1 X 2 ja yhdysvaikutusmallissa M X1 X 2 hypoteesin testauksen avulla. Päävaikutusmallin M X1 X 2 tilanteessa erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h, (3.35 kun päävaikutusmalli parametrisoidaan rakennemallin M X1 X 2 mukaan. Täten osapopulaatioiden jh ja j h odotusarvojen erotukseen liittyviä β hypoteeseja H 0 : µ jh µ j h = 0, H 1 : µ jh µ j h 0, (3.36a (3.36b voidaan testata t-testisuureella t jh j h = ˆµ jh ˆµ j h Var(ˆµ jh ˆµ j h = ˆβ1j ˆβ 1j + ˆβ 2h ˆβ 2h Var( ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h, (3.37 joka yksittäisenä testisuureena noudattaa Studentin t-jakaumaa vapausastein df = n f X1 X kun H 2 β 0 hypoteesi on tosi. Yllä olevassa testisuureessa arvo ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h saadaan laskettua pienimmän neliösumman estimaattien avulla ja myös estimoitu varianssi Var( ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h on mahdollista muodostaa estimaattoreiden ominaisuuksien perusteella. Tällä kurssilla tyydytään ohjelmistojen tulostuksiin estimoidun varianssin suhteen. Mikäli parittaisia testauksia tehdään samanaikaisesti useille eri osapopulaatioiden erotuksille µ jh µ j h, saadaan myös useita yksittäisiä t jh j h testisuurearvoja ja siten useita yksittäisiä p-arvoja p jh j h = 2 P (t > t jh j h. Näille p jh j h arvoille voidaan tehdä esimerkiksi Bonferroni korjaukset yksisuuntaisen varianssianalyysin tavoin, mikäli halutaan, että usean samanaikaisen hypoteesin tilanteessa yksittäinen testi on merkitsevä α riskitasolla. Kaksisuuntaisen varianssianalyysin tapauksessa tarkasteltavia parittaisten erotuksin µ jh µ j h määrä kuitenkin kasvaa nopeasti, mikäli muuttujien X 1 ja X 2 luokkien määrä on huomattava. Esimerkiksi jos k = 3 ja l = 2, niin silloin voidaan muodostaa 15 erilaista erotusta µ jh µ j h. Mikäli samanaikaisten testausten lukumäärä on huomattava, konservatiivinen Bonferroni korjaus saattaa nopeasti muuttaa jokaisen tilastollisesti merkitsevän eron ei-merkitseväksi. Täten on usein syytä tarkastella Bonferronin korjausmenetelmän lisäksi muita menetelmiä, joilla yksittäisen testisuureen t jh j h tilastollista merkitsevyyttä arvioidaan. Yksi tällainen menetelmä on single-step -menetelmä, jossa kaikkien laskettujen yksittäisten testisuureiden t jh j h oletetaan noudattavan moniulotteista t-jakaumaa. Yksittäiseen testiin liittyvä p-arvo p jh j h saadaan muodostettua moniulotteisen t-jakaumaa ominaisuuksien avulla.
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 16 Esimerkki 3.5. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta parittaisia vertailuja päävaikutusmallin tilanteessa. > library(multcomp > k1<-c(0,1,0,0 > k2<-c(0,1,0,1 > k3<-c(0,0,1,0 > k4<-c(0,0,1,1 > k5<-c(0,0,0,1 > k6<-c(0,1,0,-1 > k7<-c(0,1,0,0 > k8<-c(0,0,1,-1 > k9<-c(0,0,1,0 > k10<-c(0,1,-1,0 > k11<-c(0,1,-1,1 > k12<-c(0,0,0,1 > k13<-c(0,1,-1,-1 > k14<-c(0,1,-1,0 > k15<-c(0,0,0,1 > K<-rbind(k1,k2,k3,k4,k5,k6,k7,k8,k9,k10,k11,k12,k13,k14,k15 > rownames(k<-c("a;hno3-c;hno3","a;hcl-c;hno3","b;hno3-c;hno3","b;hcl-c;hno3","c;hcl-c;hno3","a;hno3-c > parit<-glht(mallip, linfct = K,alternative = c("two.sided" > summary(parit,test = adjusted("bonf" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == 0 0.92000 0.11252 8.176 0.00056 *** A;HCL-C;HNO3 == 0 0.94667 0.14526 6.517 0.00277 ** B;HNO3-C;HNO3 == 0 0.83000 0.11252 7.377 0.00117 ** B;HCL-C;HNO3 == 0 0.85667 0.14526 5.897 0.00544 ** C;HCL-C;HNO3 == 0 0.02667 0.09187 0.290 1.00000 A;HNO3-C;HCL == 0 0.89333 0.14526 6.150 0.00411 ** A;HCL-C;HCL == 0 0.92000 0.11252 8.176 0.00056 *** B;HNO3-C;HCL == 0 0.80333 0.14526 5.530 0.00830 ** B;HCL-C;HCL == 0 0.83000 0.11252 7.377 0.00117 ** A;HNO3-B;HNO3 == 0 0.09000 0.11252 0.800 1.00000 A;HCL-B;HNO3 == 0 0.11667 0.14526 0.803 1.00000 B;HCL-B;HNO3 == 0 0.02667 0.09187 0.290 1.00000 A;HNO3-B;HCL == 0 0.06333 0.14526 0.436 1.00000 A;HCL-B;HCL == 0 0.09000 0.11252 0.800 1.00000 A;HCL-A;HNO3 == 0 0.02667 0.09187 0.290 1.00000 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Adjusted p values reported -- bonferroni method Mitkä pareista µ jh µ j h on Bonferroni korjausten jälkeen tilastollisesti eroavia?
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 17 > summary(parit,test = adjusted("single-step" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == 0 0.92000 0.11252 8.176 0.000216 *** A;HCL-C;HNO3 == 0 0.94667 0.14526 6.517 0.000987 *** B;HNO3-C;HNO3 == 0 0.83000 0.11252 7.377 0.000396 *** B;HCL-C;HNO3 == 0 0.85667 0.14526 5.897 0.001997 ** C;HCL-C;HNO3 == 0 0.02667 0.09187 0.290 0.991863 A;HNO3-C;HCL == 0 0.89333 0.14526 6.150 0.001534 ** A;HCL-C;HCL == 0 0.92000 0.11252 8.176 0.000241 *** B;HNO3-C;HCL == 0 0.80333 0.14526 5.530 0.002962 ** B;HCL-C;HCL == 0 0.83000 0.11252 7.377 0.000439 *** A;HNO3-B;HNO3 == 0 0.09000 0.11252 0.800 0.866457 A;HCL-B;HNO3 == 0 0.11667 0.14526 0.803 0.865096 B;HCL-B;HNO3 == 0 0.02667 0.09187 0.290 0.991868 A;HNO3-B;HCL == 0 0.06333 0.14526 0.436 0.973732 A;HCL-B;HCL == 0 0.09000 0.11252 0.800 0.866453 A;HCL-A;HNO3 == 0 0.02667 0.09187 0.290 0.991867 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Adjusted p values reported -- single-step method Mitkä pareista µ jh µ j h on single-step - menetelmän perusteella tilastollisesti eroavia? Yhdysvaikutusmallin M X1 X 2 tilanteessa erotukselle µ jh µ j h on voimassa µ jh µ j h = β 1j β 1j + β 2h β 2h + β jh β j h. (3.38 kun yhdysvaikutusmalli parametrisoidaan rakennemallin M X1 X 2β mukaan. Täten osapopulaatioiden jh ja j h odotusarvojen erotukseen liittyviä hypoteeseja H 0 : µ jh µ j h = 0, H 1 : µ jh µ j h 0, (3.39a (3.39b voidaan testata t-testisuureella t jh j h = ˆµ jh ˆµ j h Var(ˆµ jh ˆµ j h = ˆβ1j ˆβ 1j + ˆβ 2h ˆβ 2h + ˆβ jh ˆβ j h Var( ˆβ 1j ˆβ 1j + ˆβ 2h ˆβ 2h + ˆβ jh ˆβ j h, (3.40 joka yksittäisenä testisuureena noudattaa Studentin t-jakaumaa vapausastein df = n f X1 X 2β kun H 0 hypoteesi on tosi. Mikäli parittaisia testauksia tehdään samanaikaisesti useille eri osapopulaatioiden erotuksille µ jh µ j h, saadaan myös useita yksittäisiä t jh j h testisuurearvoja. Yksittäisen testisuureen t jh j h tilastollista merkitsevyyttä voidaan jälleen arvioida esim. Bonferroni menetelmän tai single-step -menetelmä avulla.
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 18 Useat tilasto-ohjelmat saattavat oletusarvoisesti laskea erotusten µ jh µ j h estimaatit virheellisesti. Erityisesti yhdysvaikutusmallin tilanteessa näin saattaa tapahtua. Oikean estimaatin muodostaminen on lopulta kuitenkin tärkeämpää kuin oikean korjausmenetelmän valinta. Esimerkki 3.6. Tutkimusryhmä halusi selvittää, eroaako kolmen eri valmistajan monivitamiinitablettien rautapitoisuudet (mg Fe/g toisistaan. Jotta rautapitoisuudet saatiin mitattua, täytyi tabletit käsitellä liuoksella tablettien koostumuksen rikkomiseksi. Alla on esitetty aineistosta parittaisia vertailuja yhdysvaikutusmallin tilanteessa. > library(multcomp > k1<-c(0,1,0,0,0,0 > k2<-c(0,1,0,1,1,0 > k3<-c(0,0,1,0,0,0 > k4<-c(0,0,1,1,0,1 > k5<-c(0,0,0,1,0,0 > k6<-c(0,1,0,-1,0,0 > k7<-c(0,1,0,0,1,0 > k8<-c(0,0,1,-1,0,0 > k9<-c(0,0,1,0,0,1 > k10<-c(0,1,-1,0,0,0 > k11<-c(0,1,-1,1,1,0 > k12<-c(0,0,0,1,0,1 > k13<-c(0,1,-1,-1,0,-1 > k14<-c(0,1,-1,0,1,-1 > k15<-c(0,0,0,1,1,0 > K<-rbind(k1,k2,k3,k4,k5,k6,k7,k8,k9,k10,k11,k12,k13,k14,k15 > rownames(k<-c("a;hno3-c;hno3","a;hcl-c;hno3","b;hno3-c;hno3","b;hcl-c;hno3","c;hcl-c;hno3","a;hno3-c > parity<-glht(malliy, linfct = K,alternative = c("two.sided" > summary(parity,test = adjusted("bonf" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 + x1:x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == 0 0.7650 0.1436 5.328 0.02673 * A;HCL-C;HNO3 == 0 0.8750 0.1436 6.094 0.01333 * B;HNO3-C;HNO3 == 0 0.6450 0.1436 4.492 0.06208. B;HCL-C;HNO3 == 0 0.8150 0.1436 5.676 0.01932 * C;HCL-C;HNO3 == 0-0.2000 0.1436-1.393 1.00000 A;HNO3-C;HCL == 0 0.9650 0.1436 6.721 0.00792 ** A;HCL-C;HCL == 0 1.0750 0.1436 7.487 0.00440 ** B;HNO3-C;HCL == 0 0.8450 0.1436 5.885 0.01601 * B;HCL-C;HCL == 0 1.0150 0.1436 7.069 0.00602 ** A;HNO3-B;HNO3 == 0 0.1200 0.1436 0.836 1.00000 A;HCL-B;HNO3 == 0 0.2300 0.1436 1.602 1.00000 B;HCL-B;HNO3 == 0 0.1700 0.1436 1.184 1.00000 A;HNO3-B;HCL == 0-0.0500 0.1436-0.348 1.00000 A;HCL-B;HCL == 0 0.0600 0.1436 0.418 1.00000 A;HCL-A;HNO3 == 0 0.1100 0.1436 0.766 1.00000 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Adjusted p values reported -- bonferroni method Mitkä pareista µ jh µ j h on Bonferroni korjausten jälkeen tilastollisesti eroavia?
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 19 > summary(parity,test = adjusted("single-step" Simultaneous Tests for General Linear Hypotheses Fit: lm(formula = y ~ x1 + x2 + x1:x2 Linear Hypotheses: Estimate Std. Error t value Pr(> t A;HNO3-C;HNO3 == 0 0.7650 0.1436 5.328 0.01320 * A;HCL-C;HNO3 == 0 0.8750 0.1436 6.094 0.00679 ** B;HNO3-C;HNO3 == 0 0.6450 0.1436 4.492 0.02948 * B;HCL-C;HNO3 == 0 0.8150 0.1436 5.676 0.00969 ** C;HCL-C;HNO3 == 0-0.2000 0.1436-1.393 0.73154 A;HNO3-C;HCL == 0 0.9650 0.1436 6.721 0.00402 ** A;HCL-C;HCL == 0 1.0750 0.1436 7.487 0.00237 ** B;HNO3-C;HCL == 0 0.8450 0.1436 5.885 0.00807 ** B;HCL-C;HCL == 0 1.0150 0.1436 7.069 0.00310 ** A;HNO3-B;HNO3 == 0 0.1200 0.1436 0.836 0.94943 A;HCL-B;HNO3 == 0 0.2300 0.1436 1.602 0.62516 B;HCL-B;HNO3 == 0 0.1700 0.1436 1.184 0.83053 A;HNO3-B;HCL == 0-0.0500 0.1436-0.348 0.99893 A;HCL-B;HCL == 0 0.0600 0.1436 0.418 0.99748 A;HCL-A;HNO3 == 0 0.1100 0.1436 0.766 0.96404 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Adjusted p values reported -- single-step method Mitkä pareista µ jh µ j h on single-step - menetelmän perusteella tilastollisesti eroavia?
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 20 3.6 Koesuunnittelu kaksisuuntaisessa varianssianalyysissa Usein kaksisuuntainen varianssianalyyysi suoritetaan tilanteessa, missä tutkija on voinut täysin kontroloida, mitä selittävien muuttujien X 1 ja X 2 arvoja j ja h kukin käytössä oleva havaintoyksikkö i saa. Parhaimmassa tapauksessa kaksisuuntaisessa varianssianalyysissa havaittu aineisto muodostuu usean toiston faktorikokeiden tuloksena. Faktorikoetilanteessa selitettävästä muuttujasta Y havaitaan arvoja jokaisella selittävien muuttujien X 1 ja X 2 arvojen j ja h kombinaatioilla. Eli faktorikokeen tilanteessa koejärjesjestely on suoritettu niin, että jokaisesta osapopulaatiosta jh saadaan kerättyä selitettävän muuttujan Y arvoja y ijh. Parhaimmassa tapauksessa jokaisesta osapopulaatiosta on kerätty n jh kappaletta havaittuja arvoja y ijh eli faktorikoetta on toistettu n jh kertaa. Esimerkiksi tässä luentomonisteessa tarkasteltu monivitamiinitabletteihin liittyvä aineisto on syntynyt faktorikokeiden tuloksena, kun jokaisen monivitamiinivalmistajan tableteista kahden eri käsittelyn tilanteessa on mitattu rautapitoisuuden kahdesta eri tabletista. Faktorikokeessa satunnaistaminen tapahtuu siten, että havaintoyksiköt valikoidaan osapopulaatioihin jh satunnaisesti. Yleensä faktorikokeessa kannattaa pyrkiä toistamaan koetta saman n jh verran jokaisen osapopulaation jh tilanteessa. Jos n jh > 1 (kaikille j ja h, niin silloin saatuja havaintoja y ijh voidaan mallintaa yhdysvaikutusmallin M X1 X 2 : Y ijh = µ + γ j + τ h + ω jh + ε ijh. (3.41 avulla, tai jonkun sitä suppeamman mallin perusteella. Jos taas faktorikoetilanteessa n jh = 1 (kaikille j ja h, niin silloin saatuja havaintoja y ijh voidaan enintään mallintaa päävaikutusmallin M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh (3.42 avulla, tai jonkun sitä suppeamman mallin perusteella. Tämä siksi, että muuten ei olisi mahdollista estimoida varianssin σ 2 suuruutta. Aina ei ole mahdollista suorittaa usean toiston faktorikoetta. Esimerkiksi usein erilaisissa viljelyskokeissa havaintoalueena toimiva peltoalue on kooltaan rajallinen ja usein vieläpä lohkottainen niin, että eri lohkoilla kasvuolosuhteen ovat erilaiset. Tällaisissa tilanteissa peltoalue pitää ensiksi lohkoittaa olosuhteiltaan tasalaatuisiksi lohkoiksi. Tämän jälkeen lohkojen sisällä voidaan luoda pienempiä peltoalueita, jotka sitten muodostavat aineiston havaintoyksiköt. Yleisesti koejärjestelyä kutsutaan satunnaistetuksi lohkokokeeksi, jos jokaisen lohkon sisällä on käytettävissä vähintään yhtä paljon havaintoyksiköitä i kuin "käsittely" muuttujalla on erilaisia arvoja, ja jos nämä "käsittely" muuttujan arvot sijoitetaan satunnaisesti jokaisen lohkon sisällä käytettävissä oleviin havaintoihin. Jos merkitään X 1 :lla muuttujaa, joka kertoo mistä lohkosta havainto i on, ja varsinaiseen tutkimusongelmaan liittyvää "käsittely" muuttujaa X 2 :lla, niin silloin satunnaistetusta lohkokokeesta saatuja havaintoja y ijh voidaan mallintaa enintään päävaikutusmallin M X1 X 2 : Y ijh = µ + γ j + τ h + ε ijh (3.43
kevät 2013 Kaksisuuntainen varianssianalyysi Y131A & Y132A - Jarkko Isotalo 21 avulla. Tämä johtuu lähinnä siksi, että havintoyksiköiden rajallisuuden takia satunnaistetussa lohkokokeessa jokaisesta jh osapopulaatiosta on vain yksi havainto, eli indeksi i on tavallaan mallissa turha. Satunnaistetussa lohkokokeessa lohkon identioiva muuttuja X 1 on kiusatekijä, joka tulisi pitää mallissa mukana riippumatta siitä, onko muuttuja varsinaisesti tilastollisesti merkitsevä muuttuja. Täten yhden toiston satunnaistetun lohkokokeen tilanteessa "käsittely" muuttujan vaikutusta selitettävään muuttujaan Y voidaan tutkia testaamalla hypoteeseja H 0 : Rakennemalli M X1 on voimassa, (3.44a H 1 : Rakennemalli M X1 X 2 on voimassa. (3.44b Esimerkki 3.7. Tutkimusongelmana on tutkia 8 eri kauralajikkeen satomääriä kun käytössä 5 tasalaatuista peltolohkoa, jonne eri lajikkeita voidaan kylvää. Kuinka muodostat satunnaistetun lohkokoejärjestelyn tässä tapauksessa?
Tilastollisia malleja 1 & 2: Varianssianalyysi Jarkko Isotalo Y131A & Y132A 8.2.2013 4 Lyhyesti lisää varianssianalyysistä 4.1 Monisuuntainen varianssianalyysi Varianssianalyysissä voi olla p kappaletta selittäviä muuttujia X 1, X 2,..., X p, joidenka arvot voivat vaikuttaa selitettävän muuttujan Y keskimääräisiin arvoihin. Tarkastellaan lyhyesti eri mallivaihtoehtoja kolmen selittävän muuttujan tilanteessa. Kolmisuuntaisessa varianssianalyysissa selitettävän muuttujan Y havaittujen arvojen voidaan katsoa muodostuvan kaikista mahdollisista yksisuuntaisista malleista, kaksisuuntaisista malleista tai M 0 mallista. Aikaisempien oletusten lisäksi oletetaan, että selittävä muuttuja X 3 voidaan saada r kappaletta erilaisia arvoja ja että indeksi q kuvaa näitä selittävän muuttujan X 3 eri tulosvaihtoehtoja. Tällöin havaittujen arvojen y ijhq voidaan ajatella muodostuvan kolmisuuntaisessa varianssianalyysissa kolmen muuttujan päävaikutusmallista M 1 2 3 : Y ijhq = µ + γ j + τ h + θ q + ε ijhq. (4.1 Vastaavasti jos muuttujilla X 1, X 2, X 3 on parittaisia yhdysvaikutuksia selitettävän muuttujan Y arvoihin, niin silloin havaittujen arvojen y ijhq voidaan ajatella muodostuvan joistakin seuraavista malleista: M 12 3 : Y ijhq = µ + γ j + τ h + θ q + ω jh + ε ijhq, (4.2a M 13 2 : Y ijhq = µ + γ j + τ h + θ q + ψ jq + ε ijhq, (4.2b M 1 23 : Y ijhq = µ + γ j + τ h + θ q + ϑ hq + ε ijhq, (4.2c M 12 13 : Y ijhq = µ + γ j + τ h + θ q + ω jh + ψ jq + ε ijhq, (4.2d M 12 23 : Y ijhq = µ + γ j + τ h + θ q + ω jh + ϑ hq + ε ijhq, (4.2e M 13 23 : Y ijhq = µ + γ j + τ h + θ q + ψ jq + ϑ hq + ε ijhq, (4.2f M 12 13 23 : Y ijhq = µ + γ j + τ h + θ q + ω jh + ψ jq + ϑ hq + ε ijhq. (4.2g Lisäksi jos muuttujilla X 1, X 2, X 3 on kolmannen asteen yhdysvaikutusta selitettävän muuttujan Y arvoihin, niin silloin havaittujen arvojen y ijhq voidaan ajatella muodostuvan mallista M 123 : Y ijhq = µ + γ j + τ h + θ q + ω jh + ψ jq + ϑ hq + δ jhq + ε ijhq. (4.3 Tutkimusongelmana on tutkia, mikä malleista parhainten kuvaa havaittujen arvojen y ijhq muodostumista. Malleja voidaan vertailla testaamalla F -testin avulla, olisiko jokin H 0 hypoteesin mukainen rakennemalli voimassa verrattuna H 1 hypoteesin mukaiseen malliin. Yleisesti F -testisuure on muotoa F = ( σ 2 MH0 σ 2 M H1 σ 2 M H1 ( n fh1β f H1β f H0β, (4.4
kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo 2 missä alaindeksit H 0 ja H 1 kuvaavat, minkä hypoteesin mukaisen mallin mukaan arvot lasketaan. Yllä oleva testisuure siis noudattaa F -jakaumaa vapausastein df 1 = f H1β f H0β ja df 2 = n f H1β kun H 0 hypoteesi on tosi. Esimerkki 4.1. Yhdysvalloissa tutkimusryhmä tutki eroaako geenimuunnellun riisin taimenen (ANU843 kuivapaino ei-muunnellun riisin kuivapainosta. Erityisesti tutkimusryhmä tutki kuinka kemialliset käsittelyt (F10, NH4Cl ja NH4NO3 vaikuttavat riisin kuivapainoon geenimuunnellun ja ei-muunnellun tilanteensa. Lisäksi koeviljelmät tehtiin kahdelle eri peltolohkolle. Merkitään selittäviä muuttujia seuraavasti: X 1 = lohko, X 2 = lajike, X 3 = kasittely. Alla on osa tutkimuksen aineistosta ja estimointituloksia liittyen malleihin M 1 2 : Y ijhq = µ + γ j + τ h + ε ijhq, M 1 2 3 : Y ijhq = µ + γ j + τ h + θ q + ε ijhq. kuivapaino lajike kasittely lohko 1 188 wt F10 1 2 186 wt F10 1 3 148 wt F10 1. 21 53 wt NH4Cl 2 22 38 wt NH4Cl 2 23 68 wt NH4Cl 2. 45 10 ANU843 F10 2 46 8 ANU843 F10 2 47 27 ANU843 F10 2 65 113 ANU843 NH4NO3 1 66 118 ANU843 NH4NO3 1 67 91 ANU843 NH4NO3 2. 70 64 ANU843 NH4NO3 2 71 54 ANU843 NH4NO3 2 72 94 ANU843 NH4NO3 2 > riisi<-read.table("riisi.txt", header=true, sep="\t", dec="." > mallih0<-lm(kuivapaino~lohko+lajike,data=riisi > summary(mallih0 Call: lm(formula = kuivapaino ~ lohko + lajike, data = riisi Residuals: Min 1Q Median 3Q Max -81.514-32.812-9.014 34.215 93.958 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 77.681 16.324 4.759 1.04e-05 *** lohko -17.472 9.844-1.775 0.0803. lajikewt 52.306 9.844 5.314 1.25e-06 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1
kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo 3 Residual standard error: 41.76 on 69 degrees of freedom Multiple R-squared: 0.3126, Adjusted R-squared: 0.2927 F-statistic: 15.69 on 2 and 69 DF, p-value: 2.414e-06 > mallih1<-lm(kuivapaino~lohko+lajike+kasittely,data=riisi > summary(mallih1 Call: lm(formula = kuivapaino ~ lohko + lajike + kasittely, data = riisi Residuals: Min 1Q Median 3Q Max -63.18-32.24-6.50 30.83 86.00 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 85.639 17.074 5.016 4.13e-06 *** lohko -17.472 9.471-1.845 0.0695. lajikewt 52.306 9.471 5.523 5.87e-07 *** kasittelynh4cl -26.292 11.600-2.267 0.0266 * kasittelynh4no3 2.417 11.600 0.208 0.8356 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 40.18 on 67 degrees of freedom Multiple R-squared: 0.3821, Adjusted R-squared: 0.3453 F-statistic: 10.36 on 4 and 67 DF, p-value: 1.363e-06 Testaa 5 % riskitasolla hypoteeseja H 0 : Rakennemalli M 1 2 on voimassa, H 1 : Rakennemalli M 1 2 3 on voimassa. Hyväksytäänkö vai hylätäänkö H 0 hypoteesi?
kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo 4 4.2 Varianssianalyysin oletuksista Varianssianalyysi perustuu oletuksiin: 1. Havainnot Y i riippumattomia toisistaan. 2. Osapopulaatioden varianssit ovat samat. 3. Havainnot Y i noudattavat normaalijakaumaa. Yleensä ainakin koesuunnittelutilanteessa satunnaismuuttujat Y i ovat toisistaan riippumattomia. Havainnot saattavat kuitenkin olla riippuvaisia, jos osa havainnoista on kerätty esim. ajan tai paikan suhteen erilaisissa olosuhteissa. Tällöin varianssianalyysiin voidaan sisällyttää riippuvuutta kuvaavia satunnaisefektejä, jolloin rakennemallista tulee oikeamman muotoinen. Jos varianssianalyysin rakennemallissa on mukana satunnaisefektejä, mallia kutsutaan sekamalliksi. Sekamallit ovat laajuudeltaan niin suuri malliperhe, että niiden tarkasteluun tarvitaan oma kurssinsa. Varianssianalyysissa oletetaan siis, että virhetermien varianssi σ 2 on saman suuruinen jokaisessa tarkasteltavassa osapopulaatiossa. Tätä oletusta voidaan testata joissakin tilanteissa. Esimerkiksi yksisuuntaisen varianssianalyysin tapauksessa voidaan Bartlettin testillä testata hypoteeseja H 0 : σ 2 1 = σ 2 2 = = σ 2 k, H 1 : σ 2 1 σ 2 2 σ 2 k. Usein on kuitenkin ongelmallista päättää, että mitä pitäisi tehdä jos varianssien yhtäsuuruus ei ole voimassa. Estimoidut varianssit eri osapopulaatioissa saattavat olla eri tasolla, koska mallista saattaa puuttuu jokin merkittävä selittävä muuttuja X p. Täten varianssien tarkasteluun tulisi siirtyä vasta kun mallin odotusarvon rakenne on päätetty. Jos oikean rakennemallinkin tilanteessa varianssit eroavat osapopulaatioissa, voidaan yrittää mallintaa myös varianssin σ 2 rakennetta. Tällöin kuitenkin tuntemattomien parametrien estimoiminen ja hypoteesien testaaminen saattaa muuttua huomattavan paljon vaikeammaksi. Havaintojen normaalijakautuneisuutta voidaan testata esimerkiksi Shapiro-Wilks testin avulla. Normaalisuuden testaamiseen palataan regressioanalyysi osiossa. Vaikka havainnot havainnot Y i eivät olisi normaalistijakautuneita, aina voidaan laskea esimerkiksi testisuureen ( σ 2 MH0 σ 2 ( M H1 n fh1β F = σ M 2 (4.5 H1 f H1β f H0β havaittu arvo. Poikkeavuus normaalijakaumasta vaikuttaa kuitenkin havaitun p-arvon määrittämiseen. Eli jos havainnot Y i eivät noudata normaalijakaumaa, niin silloin ei myöskään F -testisuure välttämättä noudata F -jakaumaa kun H 0 hypoteesi on tosi. Mikäli kuitenkin otoskoot esim. jokaisen osapopulaation kohdalta ovat suurempia kuin 30, niin F -testisuureen jakauma noudattaa likimain F -jakaumaa, vaikka havainnot sinällään ei noudattaisivatkaan normaalijakaumaa. Ei-normaalisti jakautuneessa tilanteessa lopullinen päättely voidaan perustaa myös joko permutaatiotestaukseen tai sitten
kevät 2013 Lyhyesti lisää varianssianalyysistä Y131A & Y132A - Jarkko Isotalo 5 epäparametrisiin menetelmiin. Esimerkiksi yksisuuntaisen varianssianalyysin tilanteessa voidaan odotusarvojen yhtäsuuruutta testata epäparametrisen KruskalWallis testin avulla ja satunnaistetun lohkokokeen tilanteessa käsittely muuttujan vaikutusta voidaan testata Friedmanin testin avulla.
Tilastollisia malleja 1: Regressio ja korrelaatiomallit 11.2.2013 Y131A & Y131B Jarkko Isotalo 1 Johdatus regressioanalyysiin 1.1 Milloin lineaarista regressioanalyysiä käytetään? Lineaarinen regressioanalyysi on tilastotieteellinen menetelmä, jonka avulla voidaan tutkia kerätyn aineiston pohjalta, vaikuttaako numeerisen selittävän muuttujan arvo numeerisen selitettävän muuttujan keskimääräisiin arvoihin. Regressioanalyysissä selittäviä muuttujia voi olla yksi tai useampia, joidenka vaikutusta yhden selitettävän muuttujan keskimääräisiin arvoihin analyysissä tarkastellaan. Merkitään selitettävää muuttujaa Y :llä. Regressioanalyysissä voi olla p kappaletta selittäviä muuttujia X 1, X 2,..., X p, joidenka arvot voivat vaikuttaa muuttujan Y keskimääräisiin arvoihin. Selittävät muuttujat X 1, X 2,..., X p ovat lähtökohtaisesti suhde- tai intervalliasteikollisia muuttujia, eli jokainen muuttuja X 1, X 2,..., X p voi saada arvokseen numeerisia arvoa. Lineaarisessa regressioanalyysissä selittävien muuttujien X 1, X 2,..., X p arvot voivat olla kontroloitavissa eli tutkija itse voi määritellä tutkimusasetelmansa mukaan, mitä arvoja selittävät muuttujat X 1, X 2,..., X p täsmällisesti saavat. Tässä tilanteessa selittävät muuttujat X 1, X 2,..., X p ovat luonteelta ei-satunnaisia muuttujia. Käytännössä kuitenkin regressioanalyysiä käytetään useimmin tilanteessa, missä selittäviä muuttujien X 1, X 2,..., X p arvoja havaitaan ilman, että ne ovat tutkijan itsensä kontroloitavissa. Tällöin usein selittävienkin muuttujien X 1, X 2,..., X p voidaan katsoa olevan satunnaisia. Kummassakin tilanteessa regressioanalyysissä tutkitaan vaihtelevatko selitettävän muuttujan Y keskimääräiset arvot selittävien muuttujien X 1, X 2,..., X p arvojen vaikutuksesta. Selitettävä muuttuja Y (vastemuuttuja on regressioanalyysissä aina satunnainen eli sen arvot voivat riippua selittävien muuttujien X 1, X 2,..., X p arvojen lisäksi satunnaisesti myös muista mittaamattomista tekijöistä ja satunnaisvirheistä. Selitettävä muuttuja Y ei ole tutkijan kontroloitavissa vaan on satunnaismuuttuja, jolla on oma todennäköisyysjakaumansa. Klassisesti regressioanalyysissä oletetaan, että Y on numeerinen jatkuva muuttuja mittaustarkkuus pois lukien. Lisäksi yleensä oletetaan, että Y noudattaa myös normaalijakaumaa. Alla on esitetty esimerkkejä tutkimustilanteissa, missä regressioanalyysiä voidaan käyttää tutkimusongelman ratkaisemisessa hyväksi.
kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 2 Esimerkki 1.1. Tutkimuksessa 1 haluttiin selvittää, minkälaisen painauman (mm nurmikkojyrän paino (kg aiheuttaa tietyn tyyppiselle nurmikkoalueelle. Alla on esitetty tutkimuksen aineisto. > nurmikkojyra<-read.table ("nurmikkoroller.txt",sep="\t", dec=".",header=true > nurmikkojyra paino painauma 1 1.9 2 2 3.1 1 3 3.3 5 4 4.8 5 5 5.3 20 6 6.1 20 7 6.4 23 8 7.6 10 9 9.8 30 10 12.4 25 Mikä on tässä tutkimuksessa selittävä muuttuja X ja selitettävä muuttuja Y? Mikä on tässä tutkimuksessa havaintoyksikkö? Onko selittävä muuttuja X tässä tutkimuksessa kontroloitavissa vai ei? Selittävä muuttuja X on nurmikköjyrän paino. Selitettävä muuttuja Y on painauma. Havaintoyksikkö on yksittäinen nurmikkoalue, josta jyrällä on yli ajettu ja painauma mitattu. Nyt voidaan ajatella, että selittävä muuttuja X on kontroloitavissa. Esimerkki 1.2. Tutkimusryhmä halusi tutkia, kuinka ulkoiset mitat ennustavat ihmisen rasvaprosenttia. Ryhmä mittasi 252 mieheltä rasvaprosentit ( brozek ja siri muuttujat ja heidän ulkoisia mittoja. brozek siri density age weight height adipos free neck chest abdom hip thigh knee ankle biceps forearm wrist 1 12.6 12.3 1.0708 23 154.25 67.75 23.7 134.9 36.2 93.1 85.2 94.5 59.0 37.3 21.9 32.0 27.4 17.1 2 6.9 6.1 1.0853 22 173.25 72.25 23.4 161.3 38.5 93.6 83.0 98.7 58.7 37.3 23.4 30.5 28.9 18.2 3 24.6 25.3 1.0414 22 154.00 66.25 24.7 116.0 34.0 95.8 87.9 99.2 59.6 38.9 24.0 28.8 25.2 16.6 4 10.9 10.4 1.0751 26 184.75 72.25 24.9 164.7 37.4 101.8 86.4 101.2 60.1 37.3 22.8 32.4 29.4 18.2 5 27.8 28.7 1.0340 24 184.25 71.25 25.6 133.1 34.4 97.3 100.0 101.9 63.2 42.2 24.0 32.2 27.7 17.7 6 20.6 20.9 1.0502 24 210.25 74.75 26.5 167.0 39.0 104.5 94.4 107.8 66.0 42.0 25.6 35.7 30.6 18.8.. 251 25.3 26.0 1.0399 72 190.75 70.50 27.0 142.6 38.9 108.3 101.3 97.8 56.0 41.6 22.7 30.5 29.4 19.8 252 30.7 31.9 1.0271 74 207.50 70.00 29.8 143.7 40.8 112.4 108.5 107.1 59.3 42.2 24.6 33.7 30.0 20.9 brozek - Percent body fat using Brozek's equation, 457/Density - 414.2 siri - Percent body fat using Siri's equation, 495/Density - 450 density - Density (gm/$cm^3$ age - Age (yrs weight - Weight (lbs height - Height (inches adipos - Adiposity index = Weight/Height$^2$ (kg/$m^2$ free - Fat Free Weight = (1 - fraction of body fat * Weight, using Brozek's formula (lbs neck - Neck circumference (cm chest - Chest circumference (cm abdom - Abdomen circumference (cm at the umbilicus and level with the iliac crest hip - Hip circumference (cm thigh - Thigh circumference (cm knee - Knee circumference (cm ankle - Ankle circumference (cm biceps - Extended biceps circumference (cm forearm - Forearm circumference (cm wrist - Wrist circumference (cm distal to the styloid processes 1 Stewart, K.M., Van Toor, R.F., Crosbie, S.F. 1988. Control of grass grub (Coleoptera: Scarabaeidae with rollers of dierent design. N.Z. Journal of Experimental Agriculture 16: 141-150.
kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 3 Mitkä muuttujat voisivat olla tässä tutkimuksessa selittäviä muuttujia X 1, X 2,..., X p? Entä mikä muuttuja voisi olla selitettävä muuttuja Y? Selitettäväksi muuttujaksi Y voitaisiin valita kehon rasvaprosenttia mittaavista muuttujista joko
kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 4 1.2 Normaalijakauma ja normaalijakauman muunnokset Regressioanalyysissä selitettävän satunnaismuuttujan Y oletetaan usein noudattavan normaalijakaumaa. Normaalijakauma on tilastotieteessä eniten käytetty todennäköisyysjakauma. Tässä luvussa kerrataan yleisesti normaalijakauman perusominaisuudet ja normaalijakaumasta johdettavissa olevien χ 2, t ja F -jakaumien perusteet. Satunnaismuuttuja Y :n sanotaan noudattavan normaalijakaumaa Y N(µ, σ 2, jos Y :n tiheysfunktio f Y (y on muotoa f Y (y = 1 1 (y µ 2 2πσ 2 e 2 σ 2. (1.1 Voidaan osoittaa, että normaalijakauman tilanteessa satunnaismuuttuja Y :n odotusarvo E(Y on muotoa E(Y = ja varianssi Var(Y on muotoa Var(Y = y f Y (ydy = (y E(Y 2 f Y (ydy = y 1 1 (y µ 2 2πσ 2 e 2 σ 2 dy = µ, (1.2 (y µ 2 1 1 (y µ 2 2πσ 2 e 2 σ 2 dy = σ 2. (1.3 Täten siis jos odotusarvoon ja varianssiin liittyvien parametrien µ ja σ 2 arvot ovat tiedossa, satunnaismuuttujaan Y liittyvät todennäköisyysväittämät voidaan täysin laskea. Tosin normaalijakauman kertymäfunktiolla P (Y y = F Y (y = y f Y (tdt, (1.4 ei varsinaisesti ole suljetun muodon ratkaisua, mutta numeerisilla menetelmillä todennäköisyyksille P (Y y (kertymäfunktiolle F Y (y saadaan laskettua hyvin tarkat arviot. Normaalijakaumalla on tärkeä lineaarinen ominaisuus, eli jos Y N(µ, σ 2, niin silloin lineaarinen muunnos X = ay + b (1.5 noudattaa normaalijakaumaa X N(aµ + b, a 2 σ 2, missä a ja b ovat joitain tunnettuja vakioita. Erityisesti jos satunnaismuuttujalle Y N(µ, σ 2 tehdään muunnos Z = 1 σ Y µ σ = Y µ, (1.6 σ niin silloin satunnaismuuttuja Z noudattaa normaalijakaumaa Z N(0, 1. Normaalijakaumaa Z N(0, 1 kutsutaan standardoiduksi normaalijakaumaksi. Lineaarisen muunnosominaisuuden takia mikä tahansa satunnaismuuttujaan Y N(µ, σ 2 liittyvä todennäköisyysväittämä P (y 1 Y y 2 voidaan laskea standardoidun satunnaismuuttujan Z N(0, 1 avulla, koska ( y1 µ P (y 1 Y y 2 = P Y µ y 2 µ σ σ σ ( y1 µ = P Z y 2 µ σ σ ( ( y2 µ y1 µ = F Z F Z. (1.7 σ σ
kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 5 Todennäköisyysväittämien laskemisesta helpottaa myös ominaisuus, että normaalijakauma on symmetrinen jakauma odotusarvon suhteen. Eli esim. satunnaismuuttujalle Z N(0, 1 on täten voimassa esimerkiksi seuraavat todennäköisyydet P (Z < 1.96 = P (Z > 1.96 = 0.025 Regressioanalyysissä yleensä on käytettävissä aineiston keräämisen jälkeen n kappaletta havaintoja muuttujasta Y. Muuttujan Y havaittuja arvoja merkitään pikku y:llä: y 1, y 2,..., y n. Nyt voidaan ajatella, että havaitut arvot y 1, y 2,..., y n ovat realisaatioita satunnaismuuttujista Y 1, Y 2,..., Y n, joista jokaisen satunnaismuuttujan Y i, i = 1, 2,..., n, oletetaan noudattavan normaalijakaumaa Y i N(µ i, σ 2. Regressioanalyysissä oletetaan, että havaintoyksikön i odotusarvo E(Y i = µ i riippuu mahdollisesti selittävien muuttujien X 1, X 2,..., X p asetetuista arvoista x i1, x i2,..., x ip, eli µ i = µ(x i1, x i2,..., x ip. Toisaalta satunnaismuuttujien Y i varianssien Var(Y i oletetaan olevan regressioanalyysissä riippumattomia selittävistä muuttujista ja siten saman suuruisia kaikille havainnoille i, eli Var(Y i = σ 2. Regressioanalyysissä parametrit µ i ja σ 2 ovat kuitenkin tuntemattomia, joidenka arvoja pyritään arvioimaan eli estimoimaan kerätyn aineiston perusteella. Regressioanalyysissä jokaisen havainnon i oletetaan yleensä olevan riippumaton toisista havainnoista. Täten havaittujen realisaatioiden y 1, y 2,..., y n taustalla olevien satunnaismuuttujien Y 1, Y 2,..., Y n oletetaan olevan toisistaan riippumattomia. Koska normaalisti jakautuneiden satunnaismuuttujien lineaariset muunnokset ovat normaalisti jakautuneita, riippumattomille satunnaismuuttujille Y 1, Y 2,..., Y n tehty lineaarinen muutos W = a 1 Y 1 + b 1 + a 2 Y 2 + b 2 + + a n Y n + b n, a 1,..., a n ja b 1,..., b n vakioita, (1.8 noudattaa normaalijakaumaa W N(µ W, σw 2, missä µ W = a 1 µ 1 + b 1 + a 2 µ 2 + b 2 + + a n µ n + b n, (1.9 σ 2 W = a 2 1σ 2 + a 2 2σ 2 + + a 2 nσ 2. (1.10 Normaalisti jakautuneiden satunnaismuuttujien erilaisilla muunnoksilla voidaan muodostaa uusia hyödyllisiä satunnaismuuttujia ja jakaumia. Regressioanalyysin kannalta hyödyllisiä muunnosjakaumia ovat χ 2, t ja F -jakaumat. Jos satunnaismuuttujat Z 1, Z 2,..., Z m noudattavat jokainen standardoitua normaalijakaumaa Z i N(0, 1 ja ovat toisistaan riippumattomia, niin silloin satunnaismuuttujan Q = Z 2 1 + Z 2 2 + + Z 2 m (1.11 sanotaan noudattavan χ 2 -jakaumaa vapausastein (engl. degrees of freedom df = m, eli Q χ 2 m. Lisäksi jos Z N(0, 1 ja Z riippumaton satunnaismuuttujista Z 1, Z 2,..., Z m, niin silloin suhde t = Z Q m (1.12 noudattaa Studentin t-jakaumaa vapausastein df = m. Studentin t-jakauma on ominaisuuksiltaan lähellä standardoitua normaalijakaumaa. Itse asiassa kun vapausasteet
kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 6 m > 50, niin Studentin t-jakaumalla ja standardoidulla normaalijakaumalla on käytännössä enää hyvin vähän eroa. Joka tapauksessa hypoteesin testauksessa ja luottamusväliestimoinnissa Studentin t-jakauma on regressioanalyysiin kannalta tärkeä jakauma. Hypoteesien testauksen suhteen myös F -jakauma on regressioanalyysissä tärkeä jakauma. Jos satunnaismuuttujat Q 1 ja Q 2 ovat toisistaan riippumattomia ja noudattavat χ 2 -jakaumia Q 1 χ 2 m 1 ja Q 2 χ 2 m 2, niin silloin suhde F = Q 1 m 1 Q 2 m 2 (1.13 noudattaa F -jakaumaa vapausastein df 1 = m 1 ja df 2 = m 2. Kun Studentin t-jakaumaa df = m noudattava satunnaismuuttuja korotetaan toiseen, niin silloin muunnos t 2 t 2 = Z Q m 2 (1.14 itse asiassa noudattaa F -jakaumaa vapausastein df 1 = 1, df 2 = m. F -jakauma saa aina arvoja, jotka ovat suurempi tai yhtä suuri kuin nolla. Eri vapausastein jakauman muoto vaihtelee. Seuraavassa on piirretty F -jakauman tiheysfunktion kuvaajia eri vapausasteilla. Kun F -jakaumaa käytetään hyväksi hypoteesin testauksessa päättelyn tekemiseen, yleensä kiinnostuksen kohteena on löytää sellainen luku F, jolle on voimassa todennäköisyys P (F df1,df2 F = α, missä α on testin valittu riskitaso esim. α = 0.05. Täten siis F - jakauman tilanteessa kiinnostuksen kohteena on usein tietää, minkälaisia todennäköisyyksiä jakauman oikea häntäosuus saa. 0.0 0.2 0.4 0.6 0.8 1.0 df1=2,df2=30 df1=6,df2=100 0 1 2 3 4 5 x Esimerkki 1.3. (a Oletetaan, että satunnaismuuttuja t noudattaa Studentin t-jakaumaa vapausastein df = 2. Arvioi, mitä on todennäköisyys P (t > 2.2. (b Oletetaan, että satunnaismuuttuja F noudattaa F -jakaumaa vapausastein df 1 = 2, df 2 = 12. Arvioi, mikä on sellainen luku F, että voimassa P (F > F = 0.05.
kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 7 1.3 Kaksiulotteinen normaalijakauma ja korrelaatiokerroin Regressioanalyysiä käytetään usein tilanteessa, missä jonkin selittävän muuttujan X ja selitettävän muuttujan Y kummankin oletetaan noudattavan normaalijakaumaa. Tällöin satunnaismuuttujien X ja Y yhteisen jakauman määrittämä yhteistiheysfunktio on muotoa f X,Y (x, y = 1 2π σ 2 xσ 2 y(1 ρ 2 e 1 2(1 ρ 2 ( (x µx 2 σ 2 x + (y µy2 σ 2 y 2ρ (x µx σ 2 x (y µy σ 2 y, (1.15 missä X:n odotusarvo on E(X = µ x, Y :n odotusarvo on E(Y = µ y, X:n varianssi on Var(X = σ 2 x, Y :n varianssi on Var(Y = σ 2 y, X:n ja Y :n välinen korrelaatio on cor(x, Y = ρ. Yhteistiheysfunktiossa oleva korrelaatiokerroin ρ kuvaa satunnaismuuttujien X ja Y välistä lineaarista riippuvuutta. Korrelaatiokerroin määritelläään seuraavasti ρ = σ xy σ 2 x σ 2 y, (1.16 missä σ 2 x ja σ2 y ovat satunnaismuuttujien X ja Y (teoreettisia variansseja (populaatiovariansseja ja σ xy on satunnaismuuttujien X ja Y välinen (teoreettinen kovarianssi, joka määritellään suureena σ xy = E(X µ x (Y µ y = (X µ x (Y µ y f X,Y (x, ydxdy. (1.17 Korrelaatiokerroin ρ on jokin luku välillä [ 1, 1]. Jos ρ = 0, niin normaalijakaumaa noudattavien muuttujien X ja Y välillä ei ole (lineaarista riiippuvuutta. Jos ρ = 1, niin X ja Y välillä on täydellistä positiivista lineaarista riippuvuutta, ja jos ρ = 1, niin X ja Y välillä on täydellistä negatiivista lineaarista riippuvuutta. Täydellisiä riippuvuustilanteita ei käytännössä voida havaita, koska silloin muuttujat eivät ole enää satunnaisia. Korrelaatiokertoimen ominaisuuksia tarkastellaan lisää otoskorrelaatiokertoimen tarkastelun tilanteessa. Seuraavassa on piirretty pisteparvi satunnaismuuttijien X ja Y 1000:sta havaitusta realisaatioparista (x i, y i tilanteessa, missä µ x = 2, µ y = 3, σ 2 x = 1, σ 2 y = 2, ρ = 0.8. 1 0 1 2 3 4 5 2 0 2 4 6 x y
kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 8 Yhteistiheysfunktion f X,Y (x, y avulla voidaan myös sitten laskea todennäköisyyksiä P (X < x Y < y = x y f X,Y (x, ydxdy. (1.18 Lisäksi satunnaismuuttujan Y ehdollinen jakauma, kun satunnaismuuttuja X on saanut arvon X = x, noudattaa normaalijakaumaa ( Y X = x N µ y + ρσ y (x µ x, σ 2 σ y(1 ρ 2, (1.19 x eli E(Y X = x = µ y + ρσ y σ x (x µ x, Var(Y X = x = σ 2 y(1 ρ 2. (1.20 Ehdollinen odotusarvo E(Y X = x riippuu siis parametrien lisäksi arvosta x. Tarkastelemalla ehdollisen odotusarvon E(Y X = x = µ y x (x arvoja eri x arvoilla saadaan muodostettua ehdollinen odotusarvoyhtälö µ y x (x = µ y + ρσ y σ x (x µ x = missä siis β 0 = µ y ρσy σ x µ x, β 1 = ρσy σ x. ( µ y ρσ y σ x µ x + ρσ y σ x x = β 0 + β 1 x, (1.21 Esimerkki 1.4. Seuraavassa pisteparvessa on piirretty 100 havaintoparia (x i, y i satunnaismuuttujista X ja Y, jotka noudattavat yhteisnormaalijakaumaa siten, että σ 2 x = 1 ja σ 2 y = 1 y 3 4 5 6 7 8 9 2 3 4 5 6 x (a Arvioi pisteparven perusteella silmämääräisesti mitä voisivat olla µ x ja µ y arvot? (b Arvioi pisteparven perusteella silmämääräisesti mitä voisivat olla korrelaatiokertoimen arvo ρ arvo? (c Arvioi edellisten kohtien perusteella mitä on E(Y X = 5? (d Hahmoittele kuvioon ehdollista odotusarvoyhtälöä arvioiva µ y x (x suora.
kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 9 1.4 Pisteparvi ja otoskorrelaatiokerroin Regressioanalyysissä on tärkeää kuvailla selittävien muuttujien X 1, X 2,..., X p ja selitettävän muuttujan Y välistä riippuvuutta graasesti. Tarkastellaan nyt kahden numeerisen satunnaismuuttujan X ja Y riippuvuuden kuvailemista. Jos havaintoyksiköistä i = 1, 2,..., n on havaittu kummankin satunnaismuuttujan X ja Y toteutuneet arvot x i ja y i, niin muuttujien X ja Y riippuvuutta voidaan havaintojen x 1, x 2,..., x n ja y 1, y 2,..., y n perusteella graasesti tarkastella pisteparven avulla. Esimerkiksi seuraavasta aineistosta saadaan alla oleva pisteparvikuvio. x 123 140 155 156 166 171 y 80 88 95 101 98 110 y 80 85 90 95 100 105 110 130 140 150 160 170 x Pisteparvikuvion lisäksi muuttujien X ja Y välistä lineaarista riippuvuutta voidaan kuvailla otoskorrelaatiokertoimen r avulla n i=1 r xy = (x i x(y i ȳ n i=1 (x i x 2 n i=1 (y i ȳ = s xy, (1.22 2 s 2 x s 2 y n i=1 (x i x 2 n i=1 (y i ȳ 2 missä s 2 x = ja s 2 n 1 y = ovat muuttujien X ja Y otosvariansseja ja s n 1 xy muuttujien X ja Y välinen otoskovarianssi s xy = n i=1 (x i x(y i ȳ n 1 = ( n i=1 x iy i n xȳ. (1.23 n 1 Nyt siis otoskorrelaatiokerroin r xy on (teoreettisen korrelaatiokertoimen ρ piste-estimaatti r xy = ˆρ. Vastaavasti otoskovarianssi s xy on kovarianssin σ xy piste-estimaatti s xy = ˆσ xy. Otoskorrelaatiokerroin r xy voidaan laskea vaikka alla olevat muuttujat X ja Y eivät noudata normaalijakaumaa.
kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 10 Otoskorrelaatiokertoimella on seuraavia ominaisuuksia: 1. Positiivinen otoskorrelaatiokertoimen r arvo merkitsee, että muuttujien välillä on positiivista riippuvuutta. Eli kun X muuttujan arvo kasvaa, Y muuttujan arvo nousee myös. Negatiivinen otoskorrelaatiokertoimen r arvo merkitsee, että muuttujien välillä on negatiivista riippuvuutta. Eli kun X muuttujan arvo kasvaa, Y muuttujan arvo laskee. 2. Otoskorrelaatiokertoimen r arvoksi voi tulla luku -1 ja 1 välillä. Jos r:n arvo on lähellä nollaa, muuttujien välillä ei ole lineaarista riippuvuutta. Jos r:n arvo on lähellä arvoa 1, niin muuttujien välillä on erittäin vahvaa positiivista lineaarista riippuvuutta. Jos r:n arvo on lähellä arvoa -1, niin muuttujien välillä on erittäin vahvaa negatiivista lineaarista riippuvuutta. 3. Otoskorrelaatiokerroin r mittaa ainostaan muuttujien X ja Y välistä lineaarista riippuvuutta. Muuttujien välillä voi kuitenkin olla myös muunlaistakin riippuvuutta kuin lineaarista. 4. Otoskorrelaatiokerroin r on otoskeskiarvon ja otosvarianssin tavoin herkkä yksittäisille poikkeaville havainnolle. Arvioi seuraavien pisteparvien perusteella, mikä on muuttujien X ja Y välinen otoskorrelaatio? 2 1 0 1 2 3 2 1 0 1 2 x y 2 1 0 1 2 3 2 1 0 1 2 3 x y 2 1 0 1 2 2 1 0 1 2 x y 3 2 1 0 1 2 3 3 2 1 0 1 2 x y
kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 11 Esimerkki 1.5. Muodosta alla olevasta aineistosta pisteparvi ja laske muuttujien välinen otoskorrelaatiokerroin. age of a tree in years Height of a tree 5 70 9 150 9 260 10 230 10 255 11 165 11 225 12 340 13 305
kevät 2013 Johdatus regressioanalyysiin Y131A & Y131B - Jarkko Isotalo 12 1.5 Korrelaatiokertoimen testaus Normaalistijakautuneiden satunnaismuuttujien X ja Y välistä (lineaarista riippuvuutta mittaa siis (teoreettinen korrelaatiokerroin ρ = σ xy σ 2 x σ 2 y, (1.24 missä σx 2 ja σ2 y ovat satunnaismuuttujien X ja Y (teoreettisia variansseja (populaatiovariansseja ja σ xy on satunnaismuuttujien X ja Y välinen (teoreettinen kovarianssi. Muuttujien X ja Y välistä lineaarista riippuvuutta voidaan nyt testata, testaamalla eroaako (teoreettinen korrelaatiokerroin ρ nollasta. Hypoteesit ovat tällöin muotoa: H 0 : ρ = 0, H 1 : ρ 0. Hypoteeseja voidaan testata testisuureen t = r xy n 2 (1.25 1 r 2 xy avulla, missä r xy aineistosta laskettu otoskorrelaatiokerroin. Yllä oleva t-testisuure noudattaa Studentin t-jakaumaa vapausastein df = n 2 kun H 0 hypoteesi on tosi. Esimerkki 1.6. Testaa alla olevan aineiston avulla eroaako muuttujien välinen korrelaatiokerroin nollasta. age of a tree in years Height of a tree 5 70 9 150 9 260 10 230 10 255 11 165 11 225 12 340 13 305
Tilastollisia malleja 1: Regressio ja korrelaatiomallit 19.2.2013 Y131A & Y131B Jarkko Isotalo 2 Yhden muuttujan lineaarinen regressioanalyysi 2.1 Lineaarinen regressiomalli Yhden muuttujan lineaarisessa regressioanalyysissä tarkastellaan yhden numeerisen selittävän muuttujan X vaikutusta numeerisen selitettävän muuttujan Y arvoihin. Lineaarisessa regressioanalyysissä selittävän muuttujan X oletetaan vaikuttavan satunnaismuuttujan Y odotusarvoihin lineaarisesti. Eli lineaarisessa regressioanalyysissä satunnaismuuttujan Y odotusarvon µ oletetaan riippuvan parametrien suhteen lineaarisesti selittävästä muuttujasta X: µ = β 0 + β 1 X, (2.1 missä β 0 ja β 1 ovat regressiomallin tuntemattomia parametreja. Lineaarisessa regressioanalyysissä usein oletetaan, että selitettävä satunnaismuuttuja Y noudattaa normaalijakaumaa Y N(µ, σ 2, eli Y N(β 0 + β 1 X, σ 2, (2.2 missä σ 2 on tuntematon varianssiparametri. Usein lineaarisen regressioanalyysin tilanteessa selitettävän satunnaismuuttuja Y :n ja selittävän muuttuja X:n välinen riippuvuus esitetään rakennemallina Y = β 0 + β 1 X + ε, (2.3 missä siis β 0 ja β 1 ovat kiinteitä tuntemattomia parametreja ja ε kuvaa mallin satunnainen virhetermiä, jonka oletetaan noudattavan normaalijakaumaa ε N(0, σ 2. Lineaarisessa regressiomallissa parametrit β 0, β 1 ja σ 2 ovat käytännössä aina tuntemattomia lukuja, joita siten pitää estimoida havaitun aineiston avulla. Regressioanalyysin tilanteessa aineisto koostuus havaintoyksiköistä i = 1, 2,..., n mitatuista havaintopareista (x i, y i, eli käytettävissä oleva aineisto on havaintomatriisimuodossa yleensä seuraavanlainen: X Y x 1 y 1 x 2 y 2. x n. y n Lineaarisen regressioanalyysin tilanteessa jokaisen havaintoyksikön i = 1, 2,..., n havaitun y i arvon oletetaan olevan realisaatio lineaarisesta regressiomallista R X : Y i = β 0 + β 1 x i + ε i, (2.4
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 2 kun arvon x i oletetaan olevan jo tiedossa. Nyt siis oletetaan, että jokainen havaittu arvo y i on realisaatio satunnaismuuttujasta Y i N(µ i, σ 2, Y i N(β 0 + β 1 x i, σ 2, (2.5 jokaiselle i = 1, 2,..., n. Lisäksi oletetaan, että satunnaismuuttujat Y i ovat toisistaan riippumattomia. Yhden muuttujan lineaarisen regressioanalyysin tutkimusongelma on selvittää, vaikuttaako todellisuudessa selittävä muuttuja X selitettävän muuttujan Y odotusarvoon µ. Ja jos vaikuttaa, niin minkäsuuruista vaikutus on. Lineaariseen regressioanalyysiin kuuluu olennaisena osana selitettävän muuttujan Y ennuste- tai sovitearvojen muodostaminen selittävän muuttujan arvolla X = x. 2.2 Parametrien estimoiminen Tarkastellaan seuraavaksi tuntemattomien parametrien estimoimista lineaarisessa regressiomallissa R X. Parametrien β 0 ja β 1 piste-estimaatit saadaan muodostettua niin sanotun pienemmän neliösumman menetelmän avulla. Pienimmän neliösumman menetelmässä etsitään niitä ˆβ 0 ja ˆβ 1 arvoja, jotka yhdessä ovat ratkaisuja minimointiongelmaan ˆβ 0, ˆβ 1 = min β 0,β 1 n (y i (β 0 + β 1 x i 2. (2.6 i=1 Yllä olevan minimointiongelman ratkaisuja ˆβ 0 ja ˆβ 1 kutsutaan parametrien β 0 ja β 1 pienimmän neliösumman piste-estimaateiksi. Voidaan osoittaa, että ratkaisuilla ˆβ 0 ja ˆβ 1 on seuraavat yhtälöt ˆβ 0 = ȳ ˆβ 1 x, (2.7 n i=1 ˆβ 1 = (x i x(y i ȳ n i=1 (x = s xy s 2 = y r i x 2 s 2 xy, (2.8 x s 2 x missä r xy on muuttujien X ja Y välinen otoskorrelaatiokerroin. Kun piste-estimaatit ˆβ 0 ja ˆβ 1 on saatu laskettua, voidaan varianssin σ 2 harhaton pisteestimaatti laskea kaavalla ˆσ 2 = n i=1 (y i ( ˆβ 0 + ˆβ 1 x i 2. (2.9 n 2 Piste-estimaattien avulla ˆβ 0 ja ˆβ 1 saadaan muodostettua myös soviteyhtälö ŷ = ˆµ = ˆβ 0 + ˆβ 1 x, (2.10 jonka avulla voidaan arvioida kuinka muuttuja X vaikuttaa satunnaismuuttuja Y :n keskimääräiseen arvoon. Soviteyhtälön avulla voidaan myös havainnosta piirrettyyn pisteparveen sovittaa lineaarinen regressiosuora, joka kuvaa graasesti muuttujien X ja Y
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 3 lineaarista riippuvuutta. Usein kiinnostavaa on laskea ja kuvata soviteyhtälön arvoja havaittujen x i arvojen tilanteessa eli muodostaa sovitearvot ˆµ i = ˆβ 0 + ˆβ 1 x i. (2.11 Sovitearvoista ˆµ i ja havaituista arvoista y i piirretyn pisteparven avulla voidaan esimerkiksi tarkastella graasesti kuinka hyvin regressiomalli sopii aineistoon. Lisäksi regressiomallin tarkasteluissa tärkeässä roolissa on niin sanottujen residuaalien e i = y i ˆµ i = y i ( ˆβ 0 + ˆβ 1 x i (2.12 tarkastelu. Residuaalien e i avulla voidaan tutkia mallin sopivuutta aineistoon ja identifoida esimerkiksi mallin kannalta poikkeavia havaintoja (outliereita. Mikäli selittävä muuttuja X on oikeasti satunnaismuuttuja X eikä täysin kontrollissa oleva muuttuja, voidaan lineaarista regressioanalyysia käyttää muuttujien X ja Y lineaarisen riippuvuuden kuvaamiseen. Tällöin ajatellaan, että satunnaismuuttujien X ja Y välinen regressioyhtälö µ y x = β 0 + β 1 x (2.13 kuvaa, kuinka satunnaismuuttujan Y ehdollinen odotusarvo E(Y X = x = µ y x riippuu satunnaismuuttujasta X, kun satunnaismuuttuja X on saanut toteutuneen arvon X = x. Tällöin ajatellaan siis, että satunnaismuuttuja Y ehdollinen jakauma tilanteessa X = x noudattaa normaalijakaumaa Y x N(µ y x, σ 2 N(β 0 + β 1 x, σ 2. (2.14 Tämä on voimassa esimerkiksi silloin kuin satunnaismuuttujien X ja Y yhteisjakauma noudattaa kaksiulotteista normaalijakaumaa. Esimerkki 2.1. Tutkimuksessa haluttiin selvittää, minkälaisen painauman (mm nurmikkojyrän paino (kg aiheuttaa tietyn tyyppiselle nurmikkoalueelle. Alla on esitetty tutkimuksen aineisto ja lineaarisen regressioanalyysin tuloksia. > nurmikkojyra<-read.table ("nurmikkoroller.txt",sep="\t", dec=".",header=true > nurmikkojyra paino painauma 1 1.9 2 2 3.1 1 3 3.3 5 4 4.8 5 5 5.3 20 6 6.1 20 7 6.4 23 8 7.6 10 9 9.8 30 10 12.4 25 painauma 0 5 10 15 20 25 30 2 4 6 8 10 12 paino
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 4 > malli<-lm(painauma~paino,data=nurmikkojyra > summary(malli Call: lm(formula = painauma ~ paino, data = nurmikkojyra Residuals: Min 1Q Median 3Q Max -8.180-5.580-1.346 5.920 8.020 Coefficients: Estimate Std. Error t value Pr(> t (Intercept -2.0871 4.7543-0.439 0.67227 paino 2.6667 0.7002 3.808 0.00518 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 6.735 on 8 degrees of freedom Multiple R-squared: 0.6445, Adjusted R-squared: 0.6001 F-statistic: 14.5 on 1 and 8 DF, p-value: 0.005175 (a Mitä ovat parametrien β 0 ja β 1 piste-estimaatit? (b Mitä on varianssiparametrin σ 2 harhaton piste-estimaatti? (c Mitä on ensimmäisen havainnon sovitearvo µ 1? (d Mitä on ensimmäisen havainnon residuaali e 1?
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 5 2.3 Luottamusväliestimoiminen ja parametrien testaus Piste-estimoinnin lisäksi lineaarisessa regressioanalyysissa halutaan usein tarkastella parametreihin β 0, β 1 ja odotusarvoon µ liittyviä luottamusväliestimointeja ja hypoteesien testauksia. Luottamusväliestimointia ja testausta varten tarvitaan tietoa pisteestimaattoreiden ˆβ 0 ja ˆβ 1 jakaumista. Kun havaintojen y i oletetaan olevan realisaatioista satunnaismuuttujista Y i N(β 0 + β 1 x i, σ 2, niin silloin estimaattorit ˆβ 0 ja ˆβ 1 noudattavat normaalijakaumia ( 1n ˆβ 0 N (β 0, σ 2 + x2, (2.15a SS x ( σ ˆβ 2 1 N β 1,, (2.15b SS x missä SS x = n (x i x 2 = (n 1s 2 x. (2.16 i=1 Eli estimaattoreiden ˆβ 0 ja ˆβ 1 varianssit ovat muotoa ( Var( ˆβ 1 0 = σ 2 n + x2, (2.17a SS x Var( ˆβ 1 = σ2 SS x, (2.17b ja täten estimaattoreiden ˆβ 0 ja ˆβ 1 estimoidut varianssit ovat muotoa ( Var( ˆβ 1 0 = ˆσ 2 n + x2, (2.18a SS x Var( ˆβ 1 = ˆσ2 SS x, kun varianssiparametri σ 2 korvataan harhattomalla estimaatilla ˆσ 2. (2.18b Estimaattoreiden ˆβ 0 ja ˆβ 1 ja niiden estimoitujen varianssien Var( ˆβ 0 ja Var( ˆβ 1 voidaan parametreille β 0, β 1 muodostaa luottamusväliestimaatteja ja testata parametreihin liittyviä yksittäisiä hypoteeseja. Yleensä ollaan erityisesti kiinnostuneita muodostamaan luottamusväliestimaatteja ja tehdä testauksia koskien parametria β 1, koska tämän parametrin suuruus kuvaa sitä, kuinka selittävä muuttuja X vaikuttaa selitettävän muuttujan Y odotusarvoihin. Parametrin β 1 100(1 α prosentin luottamusväli on muotoa [ ] [ ] ˆβ 1 t α/2 Var( ˆβ 1 ; ˆβ 1 + t α/2 Var( ˆβ ˆσ 1 = ˆβ 1 t 2 α/2 ; SS ˆβ ˆσ 1 + t 2 α/2, x SS x missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys (2.19 P (t > t α/2 = α/2, (2.20
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 6 kun t noudattaa Studentin t-jakaumaa vapausastein n 2. Vastaavasti t-testisuureen avulla voidaan testata parametrille β 1 asetettuja testejä. Esimerkiksi testattaessa sanallisia hypoteeseja H 0 : X ei vaikuta Y:n keskimääräisiin arvoihin, H 1 : X vaikuttaa lineaarisesti Y:n keskimääräisiin arvoihin, (2.21a (2.21b tarkoittaa lineaarisen regressiomallin tilanteessa samaan kuin testattaisiin hypoteeseja H 0 : β 1 = 0, H 1 : β 1 0. (2.22a (2.22b Yllä olevien hypoteesien testaus voidaan suorittaa testisuureen t = ˆβ 1 Var( ˆβ 1 = ˆβ 1 (2.23 ˆσ 2 SS x avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p hav = 2 P (t > t hav, (2.24 missä t noudattaa t-jakaumaa vapausastein n 2. H 0 hypoteesi voidaan hylätä, jos on voimassa p hav < α, missä α testin valittu riskitaso. Yleisemmin parametrille β 1 asetettuja hypoteeseja H 0 : β 1 = c, H 1 : β 1 c, (2.25a (2.25b missä c on itse asetettu vakio, voidaan suorittaa testisuureen t = ˆβ 1 c Var( ˆβ 1 (2.26 avulla, joka noudattaa Studentin t-jakaumaa vapausastein df = n 2 kun H 0 on tosi. Lineaariseen regressioanalyysiin liittyy odotusarvon µ piste-estimoinnin lisäksi odotusarvon luottamusväliestimoiminen tilanteessa, missä selittävä muuttuja X on saanut arvon X = x. Soviteyhtälön perusteella siis selitettävän muuttujan Y odotusarvon µ(x piste-estimaatti on muotoa Täten estimaattori ˆµ(x noudattaa normaalijakaumaa ˆµ(x = ˆβ 0 + ˆβ 1 x. (2.27 ˆµ(x N (β 0 + β 1 x, Var(ˆµ(x, (2.28
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 7 missä Var(ˆµ(x = Var( ˆβ 0 + x 2 Var( ˆβ 1 + 2x Cov( ˆβ 0, ˆβ 1 ( 1 = σ 2 n + x2 + x2 2x x. (2.29 SS x SS x SS x Yllä merkintä Cov( ˆβ 0, ˆβ 1 tarkoittaa estimaattoreiden välistä kovarianssia. Kun varianssissa Var(ˆµ(x varianssiparametri σ 2 korvataan harhattomalla estimaatilla ˆσ 2 :llä, saadaan estimoitu varianssi Var(ˆµ(x, jonka avulla voidaan puolestaan muodostaa yksittäisen odotusarvon µ(x 100(1 α prosentin luottamusväli ] [ˆµ(x t α/2 Var(ˆµ(x ; ˆµ(x + t α/2 Var(ˆµ(x. (2.30 Jos luottamusväliestimaatit halutaan muodostaa yhtä aikaisesti m:lle eri odotusarvolle µ(x 1, µ(x 2,..., µ(x m, niin silloin luottamusväliestimaatteja täytyy korjata, jotta muodostettavat luottamusvälit yhdessä toteuttaisivat 100(1 α prosentin luottamusväliestimoinnin periaatteet. Niin sanotut Bonferroni korjatut simultaaniluottamusväliestimaatit odotusarvoille µ(x 1, µ(x 2,..., µ(x m ovat muotoa ] [ˆµ(x j t α/2m Var(ˆµ(x j ; ˆµ(x j + t α/2m Var(ˆµ(x j, j = 1,..., m, (2.31 missä t α/2m on Bonferroni korjattu luku, jolle on voimassa todennäköisyys kun t noudattaa Studentin t-jakaumaa vapausastein n 2. P (t > t α/2m = α 2m, (2.32 Esimerkki 2.2. Tutkimuksessa haluttiin selvittää, minkälaisen painauman (mm nurmikkojyrän paino (kg aiheuttaa tietyn tyyppiselle nurmikkoalueelle. Alla on esitetty tutkimuksen aineisto ja lineaarisen regressioanalyysin tuloksia. > nurmikkojyra<-read.table ("nurmikkoroller.txt",sep="\t", dec=".",header=true > nurmikkojyra paino painauma 1 1.9 2 2 3.1 1 3 3.3 5 4 4.8 5 5 5.3 20 6 6.1 20 7 6.4 23 8 7.6 10 9 9.8 30 10 12.4 25 painauma 0 5 10 15 20 25 30 2 4 6 8 10 12 paino
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 8 > malli<-lm(painauma~paino,data=nurmikkojyra > summary(malli Call: lm(formula = painauma ~ paino, data = nurmikkojyra Residuals: Min 1Q Median 3Q Max -8.180-5.580-1.346 5.920 8.020 Coefficients: Estimate Std. Error t value Pr(> t (Intercept -2.0871 4.7543-0.439 0.67227 paino 2.6667 0.7002 3.808 0.00518 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 6.735 on 8 degrees of freedom Multiple R-squared: 0.6445, Adjusted R-squared: 0.6001 F-statistic: 14.5 on 1 and 8 DF, p-value: 0.005175 > vcov(malli (Intercept paino (Intercept 22.603191-2.9763622 paino -2.976362 0.4903397 (a Muodosta parametrille β 1 95 % luottamusväliestimaatti. (b Testaa 5 % riskitasolla hypoteeseja H 0 : β 1 = 1, H 1 : β 1 1. (c Muodosta ensimmäisen ja toisen havainnon odotusarvoille µ 1 ja µ 2 Bonferroni korjatut vähintään 95 % simultaaniluottamusväliestimaatit.
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 9 2.4 Rakennemallien testaus ja mallin valinta Lineaarisessa regressioanalyysissä parametreihin β 0, β 1 liittyvät hypoteesin testaukset voidaan usein nähdä myös erilaisten rakennemallien voimassa olon testauksena. Lineaarisessa regressioanalyysissä havaintojen y i katsotaan siis olevan realisaatioita rakennemallista R X : Y i = β 0 + β 1 x i + ε i, ε i N(0, σ 2. (2.33 Toisaalta jos selittävä muuttuja X ei vaikuta selittävän muuttujan Y odotusarvoihin, niin silloin voidaan katsoa havaintojen y i olevan realisaatioita rakennemallista Täten esimerkiksi hypoteesien R 0 : Y i = β 0 + ε i, ε i N(0, σ 2. (2.34 H 0 : β 1 = 0, H 1 : β 1 0, (2.35a (2.35b testaus vastaa seuraavien rakennemalleihin liittyvien hypoteesien testausta: H 0 : Rakennemalli R 0 on voimassa, H 1 : Rakennemalli R X on voimassa. (2.36a (2.36b Yleisesti rakennemallien voimassa olon testauksia voidaan suorittaa F -testin avulla. F - testi perustuu testattavista rakennemalleista laskettujen varianssiparametrin σ 2 suurimman uskottavuuden estimaattien vertailuun. Esimerkiksi rakennemallin R X tilanteessa varianssin σ 2 suurimman uskottavuuden estimaatti σ R 2 X on muotoa ( n 2 σ R 2 X = ˆσ R 2 n X, (2.37 missä siis ˆσ 2 R X = n i=1 (y i ( ˆβ 0 + ˆβ 1 x i 2. (2.38 n 2 Toisaalta rakennemallin R 0 tilanteessa varianssin σ 2 suurimman uskottavuuden estimaatti σ R 2 0 on muotoa ( n 1 σ R 2 0 = ˆσ R 2 n 0, (2.39 missä nyt ˆσ 2 R 0 = n i=1 (y i ȳ 2. (2.40 n 1 Huomaa, että rakennemallin R 0 tilanteessa parametrin β 0 pienimmän neliösumman estimaatti on otoskeskiarvo ˆβ 0 = ȳ. Nyt hypoteeseja H 0 : Rakennemalli R 0 on voimassa, H 1 : Rakennemalli R X on voimassa. (2.41a (2.41b
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 10 voidaan testata testisuure F = ( σ 2 R0 σ 2 R X σ 2 R X ( n 2 2 1 (2.42 avulla, joka noudattaa F -jakaumaa vapausastein df 1 = 1 ja df 2 = n 2, kun H 0 hypoteesi on tosi. Kun testisuureen havaittu arvo F hav on laskettu aineistosta, testin havaittu p- arvo (merkitsevyystaso saadaan todennäköisyydestä p hav = P (F > F hav. (2.43 Jos testin riskitasoksi valitaan esimerkiksi α = 0.05, niin H 0 hypoteesi hylätään jos p hav < 0.05. Muuten H 0 jää voimaan. Yleisemmin kahden eri (hierarkisen mallin voimassa oloa voidaan testata F -testisuureen avulla. Toista vertailtavaa rakennemallia voidaan merkitä yleisesti R H0 :lla ja toista R H1 :lla kun testattavat rakennemallihypoteesit ovat muotoa H 0 : Rakennemalli R H0 on voimassa, (2.44a H 1 : Rakennemalli R H1 on voimassa. (2.44b Nyt yllä olevia hypoteeseja voidaan testata F -testisuureella ( σ 2 RH0 σ 2 ( R H1 n fh1 F =, σ R 2 (2.45 H1 f H1 f H0 missä alaindeksit H 0 ja H 1 kuvaavat, minkä hypoteesin mukaisen mallin mukaan arvot lasketaan. Erityisesti f H0 ja f H1 ilmoittavat, kuinka monta odotusarvon rakenteeseen liittyvää tuntematonta parametria on malleissa R H0 ja R H1 estimoitu. Yllä oleva testisuure noudattaa F -jakaumaa vapausastein df 1 = f H1 f H0 ja df 2 = n f H1 kun H 0 hypoteesi on tosi. Rakennemallien testaus on osa oikean lineaarisen regressiomallin valintaa. Usein havaittujen arvon y i voidaan katsoa muodostuvan kilpailevista malleista. Testaamalla eri hierarkisia malleja keskenään voidaan perustella, minkälaisesta mallista havaintojen y i voidaan katsoa muodostuneen. Yhden muuttujan regressiomallissa mallin valintaongelma liittyy siihen, että katsotaanko havaintojen y i muodostuneen rakennemallista R X vai mallista R 0, missä muuttujalla X ei ole vaikutusta selitettävän muuttujan Y keskimääräisiin arvoihin. Mallin R X sopivuutta aineistoon (suhteessa malliin R 0 nähden voidaan mitata mallin selitysasteen perusteella R 2 = 1 σ2 R X σ 2 R 0 = 1 n i=1 (y i ( ˆβ 0 + ˆβ 1 x i 2 n i=1 (y i ȳ 2. (2.46 Selitysaste R 2 on aina luku välillä [0, 1]. Tavallaan ideana selitysasteessa on se, että mitä korkeampi selitysaste on, sitä paremmin rakennemalli R X sopii havaittuun aineistoon. Yhden selittävän muuttujan regressiomallissa selitysaste R 2 on itse asiassa otoskorrelaatiokertoimen r xy neliö R 2 = r 2 xy.
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 11 Esimerkki 2.3. Tutkimuksessa haluttiin selvittää, minkälaisen painauman (mm nurmikkojyrän paino (kg aiheuttaa tietyn tyyppiselle nurmikkoalueelle. Alla on esitetty aineistosta estimointujen eri regressiomallien tuloksia. > malli0<-lm(painauma~1,data=nurmikkojyra > summary(malli0 Call: lm(formula = painauma ~ 1, data = nurmikkojyra Residuals: Min 1Q Median 3Q Max -13.10-9.10 0.90 8.15 15.90 Coefficients: Estimate Std. Error t value Pr(> t (Intercept 14.100 3.368 4.186 0.00235 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 10.65 on 9 degrees of freedom > malli1<-lm(painauma~paino,data=nurmikkojyra > summary(malli Call: lm(formula = painauma ~ paino, data = nurmikkojyra Residuals: Min 1Q Median 3Q Max -8.180-5.580-1.346 5.920 8.020 Coefficients: Estimate Std. Error t value Pr(> t (Intercept -2.0871 4.7543-0.439 0.67227 paino 2.6667 0.7002 3.808 0.00518 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 6.735 on 8 degrees of freedom Multiple R-squared: 0.6445, Adjusted R-squared: 0.6001 F-statistic: 14.5 on 1 and 8 DF, p-value: 0.005175 > > malli2<-lm(painauma~offset(1*paino-1,data=nurmikkojyra > summary(malli2 Call: lm(formula = painauma ~ offset(1 * paino - 1, data = nurmikkojyra Residuals: Min 1Q Median 3Q Max -2.100 0.575 7.500 14.500 20.200 No Coefficients Residual standard error: 11.25 on 10 degrees of freedom (a Mitä on rakennemallin R X selitysaste R 2? (b Testaa 5 % riskitasolla hypoteeseja H 0 : Rakennemalli R 0 on voimassa, H 1 : Rakennemalli R X on voimassa. (c Tarkastellaan rakennemallia R H0 : Y i = x i + ε i, ε i N(0, σ 2. Testaa 5 % riskitasolla hypoteeseja H 0 : Rakennemalli R H0 on voimassa, H 1 : Rakennemalli R X on voimassa.
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 12 2.5 Regressio origon kautta ja muunnosmallit Selittävän muuttujan X ja selitettävän muuttujan Y välillä voi toisinaan vallita sellainen lineaarinen riippuvuus, että kun X = 0 tulee Y :n odotusarvon olla nolla, eli µ(x = 0 = 0. Tällöin X:n ja Y :n lineaarista riippuvuutta voidaan kuvata Y :n odotusarvon suhteen origin kautta kulkevalla regressiomallilla Y = β 1 X + ε, (2.47 Tällöin siis jokaisen havainnon y i katsotaan olevan realisaatio satunnaismuuttujasta Y i, jonka puolestaan oletetaan olevan muotoa R X 1 : Y i = β 1 x i + ε i, ε i N(0, σ 2. (2.48 Regressiomallin R X 1 tilanteessa parametrin β 1 pienimmän neliösumman estimaatti on muotoa n i=1 ˆβ 1 = x iy i n, (2.49 i=1 x2 i ja siten estimaattori ˆβ 1 noudattaa jakaumaa ( ˆβ 1 N β 1, σ 2 n i=1 x2 i. (2.50 Parametrin β 1 100(1 α prosentin luottamusväli on täten muotoa [ ] [ ˆβ 1 t α/2 Var( ˆβ 1 ; ˆβ 1 + t α/2 Var( ˆβ ˆσ 1 = ˆβ 1 t 2 α/2 n ; ˆβ 1 + t α/2 i=1 x2 i missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys kun t noudattaa Studentin t-jakaumaa vapausastein n 1. ˆσ 2 n i=1 x2 i ] (2.51 P (t > t α/2 = α/2, (2.52 Vastaavasti t-testisuureen avulla voidaan testata parametrille β 1 asetettuja testejä. Esimerkiksi testattaessa hypoteeseja, H 0 : β 1 = 0, H 1 : β 1 0, (2.53a (2.53b regressiomallin R X 1 tilanteessa testaus voidaan suorittaa testisuureen t = ˆβ 1 Var( ˆβ = 1 ˆβ 1 ˆσ 2 n i=1 x2 i (2.54 avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p hav = 2 P (t > t hav, (2.55 missä t noudattaa t-jakaumaa vapausastein n 1. H 0 hypoteesi voidaan hylätä, jos on voimassa p hav < α, missä α testin valittu riskitaso.
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 13 Toisinaan lineaarinen regressiomalli saadaan muodostettua kun alkuperäisille muuttujille X ja Y tehdään sopivia muunnoksia, joidenka seurauksena muuttujista X ja Y muodostettujen muunnettujen muuttujien X ja Y voidaan olettaa noudattavan lineaarista regressiomallia. Yksi useimmin käytetyistä muunnoksista on log-muunnos (luonnollinen logaritmimuunnos. Alkuperäisten muuttujien X ja Y tilanteessa voidaan olettaa, että X vaikuttaa selitettävän muuttujan Y odotusarvoon µ seuraavasti: µ = δx β 1, (2.56 missä δ ja β 1 ovat tuntemattomia parametrejä. Ottamalla yllä olevasta yhtälöstä logaritmit puolittain saadaan odotusarvolle µ rakenne log(µ = log ( δx β 1 = β 0 + β 1 log(x, (2.57 missä β 0 = log(δ. Täten voidaan olettaa, että logaritmoidulle Y muuttujalle on voimassa lineaarinen regressiomalli log(y = β 0 + β 1 log(x + ε, ε N(0, σ 2. (2.58 Muunnosmuuttujille Y = log(y ja X = log(x on siis voimassa lineaarinen regressiomalli Y = β 0 + β 1 X + ε, ε N(0, σ 2, (2.59 ja siten parametrien β 0, β 1 ja σ 2 estimointi ja päättely voidaan suorittaa lineaarisen regressioanalyysin perusteella käyttäen hyväksi muunnosmuuttujien X ja Y havaittuja arvoja. log-muunnos tilanteessa alkuperäisen muuttujan Y estimoidut odotusarvot saadaan laskettua kaavan ˆµ(x = e ˆβ 0 x ˆβ 1 (2.60 avulla. Esimerkki 2.4. Tutkimuksessa haluttiin selvittää, minkälaisen painauman (mm nurmikkojyrän paino (kg aiheuttaa tietyn tyyppiselle nurmikkoalueelle. Alla on esitetty estimointituloksia liittyen malleihin Y = β 1 X + ε, log(y = β 0 + β 1 log(x + ε. > malliorigo<-lm(painauma~paino-1,data=nurmikkojyra > summary(malliorigo Call: lm(formula = painauma ~ paino - 1, data = nurmikkojyra Residuals: Min 1Q Median 3Q Max -8.178-5.976-2.719 6.272 7.692 Coefficients: Estimate Std. Error t value Pr(> t paino 2.3919 0.2993 7.991 2.23e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 6.426 on 9 degrees of freedom Multiple R-squared: 0.8765, Adjusted R-squared: 0.8628 F-statistic: 63.86 on 1 and 9 DF, p-value: 2.233e-05 > mallilog<-lm(log(painauma~log(paino,data=nurmikkojyra > summary(mallilog Call: lm(formula = log(painauma ~ log(paino, data = nurmikkojyra Residuals: Min 1Q Median 3Q Max -1.2563-0.4462 0.1895 0.4910 0.8029 Coefficients: Estimate Std. Error t value Pr(> t (Intercept -0.7193 0.7071-1.017 0.33877 log(paino 1.7462 0.4033 4.330 0.00251 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.682 on 8 degrees of freedom Multiple R-squared: 0.7009, Adjusted R-squared: 0.6635 F-statistic: 18.75 on 1 and 8 DF, p-value: 0.002513 Laske ensimmäisen havainnon odotusarvolle µ 1 piste-estimaatti kummankin mallin tilanteessa.
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 14 2.6 Uuden havainnon ennustaminen Aiemmin ollaan tarkasteltu kuinka esim. selittävän muuttujan X arvoilla X = x 1 ja X = x 2 voidaan lineaarisessa regressiomallissa muodostaa selitettävän muuttujan Y odotusarvojen µ(x 1 ja µ(x 2 piste-estimaatit, luottamusväliestimaatit ja Bonferronin simultaaniluottamusväliestimaatit. Odotusarvojen estimoinnille hyvin läheinen tutkimusongelma lineaarisessa regressioanalyysissä on uusien, toistaiseksi havaitsemattomien, selitettävän muuttujan Y arvojen ennustaminen. Tarkemmin tutkimusongelmana on ennustaa X arvoilla X = x 1 ja X = x 2 mitä arvoja satunnaismuuttujat Y 1 ja Y 2 tulevat (tulevaisuudessa saamaan, kun ajatellaan, että toistaiseksi toteutumattomille satunnaismuuttujille Y j on myös voimassa lineaarinen regressiomalli R X : Y j = β 0 + β 1 x j + ε j, ε j N(0, σ 2. (2.61 Yleisesti uuden havainnon Y j selittävän muuttujan arvolla X = x j paras lineaarinen harhaton piste-ennuste Ŷ j lineaarisen regressiomallin R X tilanteessa on muotoa Ŷ j = ˆβ 0 + ˆβ 1 x j. (2.62 Täten voidaan osoittaa, että (tuntematon ennustevirhe e j = Y j Ŷ j noudattaa normaalijakaumaa Y j Ŷ j N ( 0, σ 2 + Var(ˆµ(x j. (2.63 Yllä olevan normaalijakauman perusteella voidaan edelleen johtaa satunnaismuuttujalle Y j 100(1 α prosentin luottamusväliennuste ] [Ŷ j t α/2 ˆσ 2 + Var(ˆµ(x ; Ŷ j + t α/2 ˆσ 2 + Var(ˆµ(x, (2.64 Jos luottamusväliennusteet halutaan muodostaa yhtä aikaisesti m:lle eri satunnaismuuttujalle Y 1, Y 2,..., Y m, niin silloin luottamusväliennusteita täytyy korjata, jotta muodostettavat luottamusvälit yhdessä toteuttaisivat 100(1 α prosentin luottamusväliennustamisen periaatteet. Niin sanotut Bonferroni korjatut simultaaniluottamusväliennusteet satunnaismuuttujille Y 1, Y 2,..., Y m ovat muotoa ] [Ŷ j t α/2m ˆσ 2 + Var(ˆµ(x j ; Ŷ j + t α/2m ˆσ 2 + Var(ˆµ(x j, j = 1,..., m, missä t α/2m on Bonferroni korjattu luku, jolle on voimassa todennäköisyys kun t noudattaa Studentin t-jakaumaa vapausastein n 2. (2.65 P (t > t α/2m = α 2m, (2.66
kevät 2013 Yhden muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 15 Esimerkki 2.5. Tutkimuksessa haluttiin selvittää, minkälaisen painauman (mm nurmikkojyrän paino (kg aiheuttaa tietyn tyyppiselle nurmikkoalueelle. Alla on esitetty tutkimuksen aineisto ja lineaarisen regressioanalyysin tuloksia. > nurmikkojyra<-read.table ("nurmikkoroller.txt",sep="\t", dec=".",header=true > nurmikkojyra paino painauma 1 1.9 2 2 3.1 1 3 3.3 5 4 4.8 5 5 5.3 20 6 6.1 20 7 6.4 23 8 7.6 10 9 9.8 30 10 12.4 25 painauma 0 5 10 15 20 25 30 2 4 6 8 10 12 paino > malli<-lm(painauma~paino,data=nurmikkojyra > summary(malli Call: lm(formula = painauma ~ paino, data = nurmikkojyra Residuals: Min 1Q Median 3Q Max -8.180-5.580-1.346 5.920 8.020 Coefficients: Estimate Std. Error t value Pr(> t (Intercept -2.0871 4.7543-0.439 0.67227 paino 2.6667 0.7002 3.808 0.00518 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 6.735 on 8 degrees of freedom Multiple R-squared: 0.6445, Adjusted R-squared: 0.6001 F-statistic: 14.5 on 1 and 8 DF, p-value: 0.005175 > vcov(malli (Intercept paino (Intercept 22.603191-2.9763622 paino -2.976362 0.4903397 Muodosta arvoilla x 1 = 1.9 ja x 2 = 3.1 satunnaismuuttujille Y 1, Y 2 Bonferroni korjatut vähintään 95 % simultaaniluottamusväliennusteet.
Tilastollisia malleja 1: Regressio- ja korrelaatiomallit 25.2.2013 Y131A & Y131B Jarkko Isotalo 3 Usean muuttujan lineaarinen regressioanalyysi 3.1 Lineaarinen regressiomalli Usen muuttujan lineaarisessa regressioanalyysissä tarkastellaan usean numeerisen selittävän muuttujan X 1, X 2,... X p vaikutusta numeerisen selitettävän muuttujan Y arvoihin. Lineaarisessa regressioanalyysissä selittävien muuttujien X 1, X 2,... X p oletetaan vaikuttavan satunnaismuuttujan Y odotusarvoihin lineaarisesti. Eli lineaarisessa regressioanalyysissä satunnaismuuttujan Y odotusarvon µ oletetaan riippuvan parametrien suhteen lineaarisesti selittävästä muuttujasta X 1, X 2,... X p : µ = β 0 + β 1 X 1 + β 2 X 2 + + β p X p, (3.1 missä β 0, β 1,..., β p ovat regressiomallin tuntemattomia parametreja. Lineaarisessa regressioanalyysissä usein oletetaan, että selitettävä satunnaismuuttuja Y noudattaa normaalijakaumaa Y N(µ, σ 2, eli Y N(β 0 + β 1 X 1 + β 2 X 2 + + β p X p, σ 2, (3.2 missä σ 2 on tuntematon varianssiparametri. Usein lineaarisen regressioanalyysin tilanteessa selitettävän satunnaismuuttuja Y :n ja selittävän muuttuja X:n välinen riippuvuus esitetään rakennemallina Y = β 0 + β 1 X 1 + β 2 X 2 + + β p X p + ε, (3.3 missä siis β 0, β 1,..., β p ovat kiinteitä tuntemattomia parametreja ja ε kuvaa mallin satunnainen virhetermiä, jonka oletetaan noudattavan normaalijakaumaa ε N(0, σ 2. Lineaarisessa regressiomallissa parametrit β 0, β 1,..., β p ja σ 2 ovat käytännössä aina tuntemattomia lukuja, joita siten pitää estimoida havaitun aineiston avulla. Regressioanalyysin tilanteessa aineisto koostuus havaintoyksiköistä i = 1, 2,..., n mitatuista havaintoarvoista (x i1, x i2,..., x ip, y i, eli käytettävissä oleva aineisto on havaintomatriisimuodossa yleensä seuraavanlainen: X 1 X 2... X p Y x 11 x 12... x 1p y 1 x 21 x 22... x 2p y 2..... x n1 x n2... x np y n
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 2 Lineaarisen regressioanalyysin tilanteessa jokaisen havaintoyksikön i = 1, 2,..., n havaitun y i arvon oletetaan olevan realisaatio lineaarisesta regressiomallista R X1 2... p : Y i = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip + ε i, (3.4 kun arvojen x i1, x i2,..., x ip oletetaan olevan jo tiedossa. Nyt siis oletetaan, että jokainen havaittu arvo y i on realisaatio satunnaismuuttujasta Y i N(µ i, σ 2, Y i N(β 0 + β 1 x i1 + β 2 x i2 + + β p x ip, σ 2, (3.5 jokaiselle i = 1, 2,..., n. Lisäksi oletetaan, että satunnaismuuttujat Y i ovat toisistaan riippumattomia. Usean muuttujan lineaarisen regressioanalyysin tutkimusongelmana on selvittää, kuinka eri selittävät muuttujat X 1, X 2,... X p vaikuttavat selitettävän muuttujan Y odotusarvoon µ. Lineaariseen regressioanalyysiin kuuluu olennaisena osana selitettävän muuttujan Y ennuste- tai sovitearvojen muodostaminen selittävien muuttujien arvoilla X 1 = x 1, X 2 = x 2,... X p = x p. 3.2 Parametrien estimoiminen Tarkastellaan seuraavaksi tuntemattomien parametrien estimoimista lineaarisessa regressiomallissa R X. Parametrien β 0, β 1, β 2,..., β p piste-estimaatit saadaan muodostettua niin sanotun pienemmän neliösumman menetelmän avulla. Pienimmän neliösumman menetelmässä etsitään niitä β 0, β 1, β 2,..., β p arvoja, jotka yhdessä ovat ratkaisuja minimointiongelmaan ˆβ 0, ˆβ 1, ˆβ 2,..., ˆβ p = min β 0,β 1,β 2,...,β p n (y i (β 0 + β 1 x i1 + β 2 x i2 + + β p x ip 2. (3.6 i=1 Yllä olevan minimointiongelman ratkaisuja ˆβ 0, ˆβ 1, ˆβ 2,..., ˆβ p kutsutaan parametrien β 0, β 1, β 2,..., β p pienimmän neliösumman piste-estimaateiksi. Nyt estimaateilla ˆβ 0, ˆβ 1, ˆβ 2,..., ˆβ p ei ole yleisessä tapauksessa yksinkertaisia (matriisilaskennasta riippumattomia esitysmuotoja, joten tässä kohdassa tarkastelemme vain ohjelmistojen tuottamia numeerisia estimaattiarvoja. Saatujen piste-estimaattien avulla voidaan laskea varianssin σ 2 harhaton piste-estimaatti käyttäen kaavaa ˆσ 2 = n i=1 (y i ( ˆβ 0 + ˆβ 1 x i1 + ˆβ 2 x i2 + + ˆβ p x ip 2. (3.7 n (p + 1 Piste-estimaattien ˆβ 0, ˆβ 1, ˆβ 2,..., ˆβ p avulla saadaan muodostettua myös soviteyhtälö ˆµ = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 + + ˆβ p x p, (3.8
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 3 jonka avulla voidaan arvioida kuinka muuttujat X 1, X 2,... X p vaikuttaa satunnaismuuttuja Y :n keskimääräiseen arvoon. Usein kiinnostavaa on laskea ja kuvata soviteyhtälön arvoja havaittujen x i1, x i2,..., x ip arvojen tilanteessa eli muodostaa sovitearvot ˆµ i = ˆβ 0 + ˆβ 1 x i1 + ˆβ 2 x i2 + + ˆβ p x ip. (3.9 Sovitearvoista ˆµ i ja havaituista arvoista y i piirretyn pisteparven avulla voidaan esimerkiksi tarkastella graasesti kuinka hyvin regressiomalli sopii aineistoon. Lisäksi regressiomallin tarkasteluissa tärkeässä roolissa on niin sanottujen residuaalien e i = y i ˆµ i = y i ( ˆβ 0 + ˆβ 1 x i1 + ˆβ 2 x i2 + + ˆβ p x ip (3.10 tarkastelu. Residuaalien e i avulla voidaan tutkia mallin sopivuutta aineistoon ja identifoida esimerkiksi mallin kannalta poikkeavia havaintoja (outliereita. Esimerkki 3.1. Yhdysvaltalainen metsäntutkimusryhmä halusi arvoida kuinka Black Cherry puun (Prunus serotina rinnankorkeudelta mitattu ympärysmitta ja puun korkeus selittävät puun tilavuutta. Tutkimusryhmä mittasi 31 puusta X 1 = ympärysmitan (cm, X 2 = korkeuden (m ja Y = tilavuuden (m3 ja sai alla olevan aineiston. Alla on esitetty lisäksi estimointituloksia liittyen malliin R X1 2 : Y = β 0 + β 1 X 1 + β 2 X 2 + ε. > blackcherry<-read.table("blackcherry.txt",sep="\t",dec=".",header=true > blackcherry ymparysmitta korkeus tilavuus 1 21.08 21.34 0.29 2 21.84 19.81 0.29 3 22.35 19.20 0.29 4 26.67 21.95 0.46.. 30 45.72 24.38 1.44 31 52.32 26.52 2.18 > malli<-lm(tilavuus~ymparysmitta+korkeus,data=blackcherry > summary(malli Call: lm(formula = tilavuus ~ ymparysmitta + korkeus, data = blackcherry Residuals: Min 1Q Median 3Q Max -0.17864-0.07698-0.01217 0.06488 0.23844 Coefficients: Estimate Std. Error t value Pr(> t (Intercept -1.649294 0.243946-6.761 2.42e-07 *** ymparysmitta 0.052483 0.002937 17.870 < 2e-16 *** korkeus 0.031860 0.012059 2.642 0.0133 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1096 on 28 degrees of freedom Multiple R-squared: 0.9483, Adjusted R-squared: 0.9446 F-statistic: 257 on 2 and 28 DF, p-value: < 2.2e-16
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 4 (a Mitä ovat parametrien β 0, β 1 ja β 2 piste-estimaatit? (b Mitä on varianssiparametrin σ 2 harhaton piste-estimaatti? (c Mitä on 30:n havainnon sovitearvo ˆµ 30? (d Mitä on 30:n havainnon residuaali e 30? 3.3 Luottamusväliestimoiminen ja parametrien testaus Piste-estimoinnin lisäksi lineaarisessa regressioanalyysissa halutaan usein tarkastella parametreihin β 0, β 1,..., β p ja odotusarvoon µ liittyviä luottamusväliestimointeja ja hypoteesien testauksia. Luottamusväliestimointi ja testaus perustuu estimaattoreiden ˆβ 0, ˆβ 1, ˆβ 2,..., ˆβ p normaalijakautuneisuuteen. Nyt kuitenkin estimaattoreiden ˆβ 0, ˆβ 1, ˆβ 2,..., ˆβ p variansseilla Var( ˆβ j, j = 0, 1,..., p, ei ole yksinkertaisia esitysmuotoja, joten tällä kurssilla varianssien suhteen tarkastellaan vain ohjelmistojen antamia valmiita numeerisia estimaatteja Var( ˆβ j. Yksittäisen parametrin β j 100(1 α prosentin luottamusväli on muotoa [ ] ˆβ j t α/2 Var( ˆβ j ; ˆβ j + t α/2 Var( ˆβ j, (3.11 missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys P (t > t α/2 = α/2, (3.12 kun t noudattaa Studentin t-jakaumaa vapausastein n (p + 1. Vastaavasti t-testisuureen avulla voidaan testata yksittäiselle parametrille β j asetettuja testejä. Esimerkiksi testattaessa sanallisia hypoteeseja H 0 : X j ei vaikuta Y :n keskimääräisiin arvoihin, H 1 : X j vaikuttaa lineaarisesti Y :n keskimääräisiin arvoihin, (3.13a (3.13b tarkoittaa lineaarisen regressiomallin tilanteessa samaan kuin testattaisiin hypoteeseja H 0 : β j = 0, H 1 : β j 0. (3.14a (3.14b Yllä olevien hypoteesien testaus voidaan suorittaa testisuureen t j = ˆβ j Var( ˆβ j (3.15 avulla. Jos merkitään yllä olevan testisuureen havaittua (numeerista laskettua arvoa t j hav :lla, niin silloin testin havaittu p-arvo on todennäköisyys p j hav = 2 P (t > t j hav, (3.16
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 5 missä t noudattaa t-jakaumaa vapausastein n (p + 1. H 0 hypoteesi voidaan hylätä, jos on voimassa p j hav < α, missä α testin valittu riskitaso. Yleisemmin parametrille β j asetettuja hypoteeseja H 0 : β j = c j, H 1 : β j c j, missä c j on itse asetettu vakio, voidaan suorittaa testisuureen t j = ˆβ j c j Var( ˆβ j (3.17a (3.17b (3.18 avulla, joka noudattaa Studentin t-jakaumaa vapausastein df = n (p + 1 kun H 0 on tosi. Lineaariseen regressioanalyysiin liittyy odotusarvon µ piste-estimoinnin lisäksi odotusarvon luottamusväliestimoiminen tilanteessa, missä selittävät muuttujat ovat saaneet arvot X 1 = x 1, X 2 = x 2,... X p = x p. Soviteyhtälön perusteella siis selitettävän muuttujan Y odotusarvon µ(x 1, x 2,..., x p piste-estimaatti on muotoa ˆµ(x 1, x 2,..., x p = ˆβ 0 + ˆβ 1 x 1 + ˆβ 2 x 2 + + ˆβ p x p. (3.19 Yksittäisen odotusarvon µ(x 1, x 2,..., x p 100(1 α prosentin luottamusväliestimaatti on puolestaan muotoa ] [ˆµ(x 1, x 2,..., x p ± t α/2 Var(ˆµ(x 1, x 2,..., x p, (3.20 missä estimoidun varianssin Var(ˆµ(x 1, x 2,..., x p tarkka esitysmuoto sivuutetaan. Jos luottamusväliestimaatit halutaan muodostaa yhtä aikaisesti m:lle eri odotusarvolle µ(x 1 1, x 1 2,..., x 1 p, µ(x 2 1, x 2 2,..., x 2 p,..., µ(x m1, x m2,..., x mp, niin silloin luottamusväliestimaatteja täytyy korjata, jotta muodostettavat luottamusvälit yhdessä toteuttaisivat 100(1 α prosentin luottamusväliestimoinnin periaatteet. Niin sanotut Bonferroni korjatut simultaaniluottamusväliestimaatit odotusarvoille µ(x 1 1, x 1 2,..., x 1 p, µ(x 2 1, x 2 2,..., x 2 p,..., µ(x m1, x m2,..., x mp ovat muotoa ] [ˆµ(x h1, x h2,..., x hp ± t α/2m Var(ˆµ(x h 1, x h 2,..., x h p, h = 1,..., m, (3.21 missä t α/2m on Bonferroni korjattu luku, jolle on voimassa todennäköisyys P (t > t α/2m = α 2m, (3.22 kun t noudattaa Studentin t-jakaumaa vapausastein n (p + 1. Esimerkki 3.2. Yhdysvaltalainen metsäntutkimusryhmä halusi arvoida kuinka Black Cherry puun (Prunus serotina rinnankorkeudelta mitattu ympärysmitta ja puun korkeus selittävät puun tilavuutta. Tutkimusryhmä mittasi 31 puusta X 1 = ympärysmitan (cm, X 2 = korkeuden (m ja Y = tilavuuden (m3 ja sai alla olevan aineiston. Alla on esitetty lisäksi estimointituloksia liittyen malliin R X1 2 : Y = β 0 + β 1 X 1 + β 2 X 2 + ε.
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 6 > blackcherry<-read.table("blackcherry.txt",sep="\t",dec=".",header=true > blackcherry ymparysmitta korkeus tilavuus 1 21.08 21.34 0.29 2 21.84 19.81 0.29 3 22.35 19.20 0.29 4 26.67 21.95 0.46.. 30 45.72 24.38 1.44 31 52.32 26.52 2.18 > malli<-lm(tilavuus~ymparysmitta+korkeus,data=blackcherry > summary(malli Call: lm(formula = tilavuus ~ ymparysmitta + korkeus, data = blackcherry Residuals: Min 1Q Median 3Q Max -0.17864-0.07698-0.01217 0.06488 0.23844 Coefficients: Estimate Std. Error t value Pr(> t (Intercept -1.649294 0.243946-6.761 2.42e-07 *** ymparysmitta 0.052483 0.002937 17.870 < 2e-16 *** korkeus 0.031860 0.012059 2.642 0.0133 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1096 on 28 degrees of freedom Multiple R-squared: 0.9483, Adjusted R-squared: 0.9446 F-statistic: 257 on 2 and 28 DF, p-value: < 2.2e-16 (a Muodosta parametrille β 2 95 % luottamusväliestimaatti. (b Testaa 5 % riskitasolla hypoteeseja H 0 : β 2 = 0.5, H 1 : β 2 0.5. (c Alla on muodostettu toiseksi viimeisen ja viimeisen havainnon odotusarvoille µ 30 ja µ 31 Bonferroni korjatut vähintään 90 % ja 95 % simultaaniluottamusväliestimaatit. > predict(malli,newdata=blackcherry[30:31,],interval="confidence",level=(1-(0.1/(2*2 fit lwr upr 30 1.526985 1.440967 1.613003 31 1.941555 1.817879 2.065231 > predict(malli,newdata=blackcherry[30:31,],interval="confidence",level=(1-(0.05/(2*2 fit lwr upr 30 1.526985 1.430034 1.623936 31 1.941555 1.802159 2.080950 Esitä graasesti samassa kuvassa estimaattien ˆµ 30, ˆµ 31 ja havaintojen y 30, y 31 arvot sekä yllä olevat luottamusvälirajat.
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 7 3.4 Rakennemallien testaus ja mallin valinta Lineaarisessa regressioanalyysissä parametreihin β 0, β 1,..., β p liittyvät hypoteesin testaukset voidaan usein nähdä myös erilaisten rakennemallien voimassa olon testauksena. Lineaarisessa regressioanalyysissä havaintojen y i katsotaan siis olevan realisaatioita rakennemallista R X1 2... p : Y i = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip + ε i. (3.23 Toisaalta jos selittävistä muuttujista X 1, X 2,... X p yksikään ei vaikuta selitettävän muuttujan Y odotusarvoihin, niin silloin voidaan katsoa havaintojen y i olevan realisaatioita rakennemallista Täten esimerkiksi hypoteesien R 0 : Y i = β 0 + ε i, ε i N(0, σ 2. (3.24 H 0 : β 1 = β 2 = = β p = 0, H 1 : β 1 β 2 β p 0, (3.25a (3.25b testaus vastaa seuraavien rakennemalleihin liittyvien hypoteesien testausta: H 0 : Rakennemalli R 0 on voimassa, (3.26a H 1 : Rakennemalli R X1 2... p on voimassa. (3.26b Yleisesti rakennemallien voimassa olon testauksia voidaan suorittaa F -testin avulla. F -testi perustuu testattavista rakennemalleista laskettujen varianssiparametrin σ 2 suurimman uskottavuuden estimaattien vertailuun. Esimerkiksi rakennemallin R X1 2... p tilanteessa varianssin σ 2 suurimman uskottavuuden estimaatti σ R 2 X1 2... p on muotoa missä siis ˆσ 2 R X1 2... p = ( n (p + 1 σ R 2 X1 2... p = ˆσ R 2 n X1 2... p, (3.27 n i=1 (y i ( ˆβ 0 + ˆβ 1 x i1 + ˆβ 2 x i2 + + ˆβ p x ip 2. (3.28 n (p + 1 Toisaalta rakennemallin R 0 tilanteessa varianssin σ 2 suurimman uskottavuuden estimaatti σ R 2 0 on muotoa ( n 1 σ R 2 0 = ˆσ R 2 n 0, (3.29 missä nyt n ˆσ R 2 i=1 0 = (y i ȳ 2. (3.30 n 1 Huomaa, että rakennemallin R 0 tilanteessa parametrin β 0 pienimmän neliösumman estimaatti on otoskeskiarvo ˆβ 0 = ȳ.
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 8 Nyt hypoteeseja H 0 : Rakennemalli R 0 on voimassa, (3.31a H 1 : Rakennemalli R X1 2... p on voimassa. (3.31b voidaan testata testisuureen ( σ 2 R0 σ 2 ( R X 1 2... p n (p + 1 F = σ R 2 X1 2... p p (3.32 avulla, joka noudattaa F -jakaumaa vapausastein df 1 = p ja df 2 = n (p + 1, kun H 0 hypoteesi on tosi. Kun testisuureen havaittu arvo F hav on laskettu aineistosta, testin havaittu p-arvo (merkitsevyystaso saadaan todennäköisyydestä p hav = P (F > F hav. (3.33 Jos testin riskitasoksi valitaan esimerkiksi α = 0.05, niin H 0 hypoteesi hylätään jos p hav < 0.05. Muuten H 0 jää voimaan. Usein usean muuttujan regressioanalyysissa halutaan testata, riippuuko selitettävän muuttujan Y odotusarvot vain jostakin selittävien muuttujien osajoukosta. Esimerkiksi voidaan testata, että vaikuttavatko selittävät muuttujat X 2,..., X p selitettävän muuttujan Y odotusarvoihin kun tiedetään, että selittävä muuttuja X 1 on merkitsevä muuttuja lineaarisessa regressiomallissa. Tällöin vertaillaan kokomallia R X1 2... p : Y i = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip + ε i, (3.34 suppeampaan yhden selittäjän malliin R X1 : Y i = β 0 + β 1 x i1 + ε i, ε i N(0, σ 2. (3.35 Eli muuttujien X 2,..., X p merkitsevyyttä voidaan tarkastella testaamalla hypoteeseja H 0 : Rakennemalli R X1 on voimassa, (3.36a H 1 : Rakennemalli R X1 2... p on voimassa. (3.36b Yllä olevia hypoteeseja voidaan testata testisuureen ( σ 2 RX1 σ 2 ( R X1 2... p n (p + 1 F = σ R 2 X1 2... p p 1 (3.37 avulla, joka noudattaa F -jakaumaa vapausastein df 1 = p 1 ja df 2 = n (p + 1, kun H 0 hypoteesi on tosi. Yleisemmin kahden eri (hierarkisen mallin voimassa oloa voidaan testata F -testisuureen avulla. Toista vertailtavaa rakennemallia voidaan merkitä yleisesti R H0 :lla ja toista R H1 :lla kun testattavat rakennemallihypoteesit ovat muotoa H 0 : Rakennemalli R H0 on voimassa, (3.38a H 1 : Rakennemalli R H1 on voimassa. (3.38b
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 9 Nyt yllä olevia hypoteeseja voidaan testata F -testisuureella ( σ 2 RH0 σ 2 ( R H1 n fh1 F =, (3.39 σ R 2 H1 f H1 f H0 missä alaindeksit H 0 ja H 1 kuvaavat, minkä hypoteesin mukaisen mallin mukaan arvot lasketaan. Erityisesti f H0 ja f H1 ilmoittavat, kuinka monta odotusarvon rakenteeseen liittyvää tuntematonta parametria on malleissa R H0 ja R H1 estimoitu. Yllä oleva testisuure noudattaa F -jakaumaa vapausastein df 1 = f H1 f H0 ja df 2 = n f H1 kun H 0 hypoteesi on tosi. Rakennemallien testaus on osa oikean lineaarisen regressiomallin valintaa. Usein havaittujen arvon y i voidaan katsoa muodostuvan kilpailevista malleista. Testaamalla eri hierarkisia malleja keskenään voidaan perustella, minkälaisesta mallista havaintojen y i voidaan katsoa muodostuneen. Jokaisen kilpailevan mallin sopivuutta aineistoon (suhteessa malliin R 0 nähden voidaan mitata mallin selitysasteen R 2 perusteella. Esimerkiksi mallin R X1 2... p selitysaste on muotoa R 2 = 1 σ 2 R X1 2... p σ 2 R 0. (3.40 Selitysaste R 2 on aina luku välillä [0, 1]. Tavallaan ideana selitysasteessa on se, että mitä korkeampi selitysaste on, sitä paremmin rakennemalli R X sopii havaittuun aineistoon. Selitysaste kuitenkin aina suurenee mitä enemmän selittäviä muuttujia malliin lisätään riippumatta, ovatko selittävät muuttujat tilastollisesti merkitseviä muuttujia. Täten erilaisia vaihtoehtoisia mallin valinta mittareita on kehitetty, jotka paremmin ottavat huomioon mallin selittävien muuttujien lukumäärän. Esimerkiksi mukautettu selitysaste riippuu selittävien muuttujien määrästä p. Radj 2 = 1 (1 R2 (n 1, (3.41 n (p + 1 Esimerkki 3.3. Yhdysvaltalainen metsäntutkimusryhmä halusi arvoida kuinka Black Cherry puun (Prunus serotina rinnankorkeudelta mitattu ympärysmitta ja puun korkeus selittävät puun tilavuutta. Tutkimusryhmä mittasi 31 puusta X 1 = ympärysmitan (cm, X 2 = korkeuden (m ja Y = tilavuuden (m3 ja sai alla olevan aineiston. Alla on esitetty lisäksi estimointituloksia liittyen malleihin R X1 2 : Y = β 0 + β 1 X 1 + β 2 X 2 + ε, ja R X1 : Y = β 0 + β 1 X 1 + ε.
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 10 > malli<-lm(tilavuus~ymparysmitta+korkeus,data=blackcherry > summary(malli Call: lm(formula = tilavuus ~ ymparysmitta + korkeus, data = blackcherry Residuals: Min 1Q Median 3Q Max -0.17864-0.07698-0.01217 0.06488 0.23844 Coefficients: Estimate Std. Error t value Pr(> t (Intercept -1.649294 0.243946-6.761 2.42e-07 *** ymparysmitta 0.052483 0.002937 17.870 < 2e-16 *** korkeus 0.031860 0.012059 2.642 0.0133 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1096 on 28 degrees of freedom Multiple R-squared: 0.9483, Adjusted R-squared: 0.9446 F-statistic: 257 on 2 and 28 DF, p-value: < 2.2e-16 > malli1<-lm(tilavuus~ymparysmitta,data=blackcherry > summary(malli1 Call: lm(formula = tilavuus ~ ymparysmitta, data = blackcherry Residuals: Min 1Q Median 3Q Max -0.223902-0.087151-0.000325 0.098204 0.270123 Coefficients: Estimate Std. Error t value Pr(> t (Intercept -1.046870 0.095247-10.99 7.42e-12 *** ymparysmitta 0.056513 0.002757 20.50 < 2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1203 on 29 degrees of freedom Multiple R-squared: 0.9355, Adjusted R-squared: 0.9332 F-statistic: 420.3 on 1 and 29 DF, p-value: < 2.2e-16 (a Mitä on rakennemallin R X1 2 selitysaste R 2 ja mukautettu selitysaste Radj 2? Entä mitä ne ovat mallin R X1 tilanteessa? (b Testaa 5 % riskitasolla onko muuttujilla X 1 tai X 2 tilastollisesti merkityksellistä vaikutusta selitettävän muuttujan Y odotusarvoon lineaarisen regressiomallin tilanteessa. (c Testaa 5 % riskitasolla hypoteeseja F -testisuureen avulla. H 0 : Rakennemalli R X1 H 1 : Rakennemalli R X1 X 2 on voimassa, on voimassa,
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 11 3.5 Hyödyllisiä erikoismalleja Usean muuttujan lineaarisen regressiomallin avulla voidaan esittää useita hyödyllisiä erikoismalleja. Esimerkiksi jos selitettävän muuttujan Y odotusarvo µ riippuu selittävästä muuttujasta X kolmannen asteen polynomimallin mukaan, niin malli voidaan esittää lineaarisena regressiomallina R X 3 : Y = β 0 + β 1 X + β 2 X 2 + β 3 X 3 + ε, ε N(0, σ 2. (3.42 Nyt siis polynomitermit X, X 2, X 3 voidaan nähdä omina muuttujinaan X 1 = X, X 2 = X 2, X 3 = X 3, ja siten polynomimalli voidaan nähdä usean muuttujan regressiomallina. Kahden numeerisen selittävän muuttujan X 1 ja X 2 yhdysvaikutusmalli voidaan esittää regressiomallina R X1 X 2 : Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 1 X 2 + ε, ε N(0, σ 2. (3.43 Nyt siis muuttujan X 1 ja X 2 yhdysvaikutus X 1 X 2 voidaan nähdä omana muuttujanaan X 3 = X 1 X 2. Myös erilaisilla alkuperäisten muuttujien muunnoksilla saadaan muodostettua hyödyllisiä usean muuttujan lineaarisia regressiomalleja. Yksi useimmin käytetyistä muunnoksista on log-muunnos (luonnollinen logaritmimuunnos. Alkuperäisten muuttujien X 1, X 2,... X p ja Y tilanteessa voidaan olettaa, että selittävät muuttujat vaikuttavat selitettävän muuttujan Y odotusarvoon µ seuraavasti: µ = δx β 1 1 X β 2 2... X βp p. (3.44 Ottamalla yllä olevasta yhtälöstä logaritmit puolittain saadaan odotusarvolle µ rakenne log(µ = β 0 + β 1 log(x 1 + β 2 log(x 2 + + β p log(x p, (3.45 missä β 0 = log(δ. Täten voidaan olettaa, että logaritmoidulle Y muuttujalle on voimassa lineaarinen regressiomalli log(y = β 0 + β 1 log(x 1 + β 2 log(x 2 + + β p log(x p + ε, ε N(0, σ 2. (3.46 log-muunnos tilanteessa alkuperäisen muuttujan Y estimoidut odotusarvot saadaan laskettua kaavan ˆµ(x 1, x 2,... x p = e ˆβ 0 x ˆβ 1 1x ˆβ 2 2... x ˆβ p p (3.47 avulla.
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 12 3.6 Kovarianssianalyysi Usean muuttujan lineaarista regressioanalyysiä kutsutaan kovarianssianalyysiksi, jos osa selittävistä muuttujista on numeerisia ja osa luokittelu- tai järjestysasteikolla määriteltyjä muuttujia. Tarkastellaan tässä kohtaa kahden selittävän muuttujan kovarianssianalyysiä, missä toinen selittävistä muuttujista on luokittelu- tai järjestysasteikollinen ja toinen numeerinen selittävä muuttuja. Olkoon X 1 numeerinen selittävä muuttuja ja olkoon X 2 luokittelu- tai järjestysasteikollinen selittävä muuttuja, joka voi saada arvokseen k kappaletta erilaisia arvoja, jotka puolestaan voidaan koodata numeroiksi x 21 = 1, x 22 = 2,..., x 2k = k. Valitaan muuttujan X 2 kontrolliluokaksi (perustasoksi viimeinen mahdollinen arvo k. Tällöin niin sanotun päävaikutusmallin tilanteessa selitettävän muuttujan Y odotusarvon µ muuttujan X 2 arvolla X 2 = k oletetaan olevan kovarianssianalyysissä muotoa µ(x 1, X 2 = k = µ k (X 1 = β 0 + β 11 X 1. (3.48 Selittävän muuttujan X 2 muilla arvoilla odotusarvon oletetaan puolestaan olevan muotoa µ(x 1, X 2 = 1 = µ 1 (X 1 = β 0 + β 11 X 1 + β 21, (3.49 µ(x 1, X 2 = 2 = µ 2 (X 1 = β 0 + β 11 X 1 + β 22, (3.50. µ(x 1, X 2 = k 1 = µ k 1 (X 1 = β 0 + β 11 X 1 + β 2k 1. (3.51 missä β 2j :t ovat muuttujan X 2 arvoihin X 2 = j liittyviä tuntemattomia parametreja. Täten selitettävän muuttujan Y odotusarvon µ(x 1, X 2 = j rakenne voidaan esittää muodossa µ(x 1, X 2 = j = µ j (X 1 = β 0 + β 11 X 1 + β 2j, j = 1,..., k, β 2k = 0. (3.52 Vastaavasti X 2 arvolla X 2 = j havaintojen y ij, i = 1,..., n j oletetaan olevan realisaatioita satunnaismuuttujista Y ij, jotka noudattavat päävaikutusmallia K X1 X 2 : Y ij = β 0 + β 11 x i1 + β 2j + ε ij, (3.53 missä ε ij N(0, σ 2, j = 1,..., k, β 2k = 0. Nyt siis kovarianssianalyysin päävaikutusmallissa K X1 X 2 jokaisen X 2 muuttujan arvolla j on oma vakiotasonsa β 0 + β 2j, jonka lisäksi X 1 muuttuja vaikuttaa lineaarisesti selittävän muuttujan Y odotusarvoon µ. Kahden selittävän muuttujan tilanteessa kovarianssimallia kutsutaan yhdysvaikutusmalliksi, jos havaintojen y ij, i = 1,..., n j oletetaan olevan realisaatioita satunnaismuuttujista Y ij, jotka noudattavat mallia K X1 X 2 : Y ij = β 0 + β 11 x i1 + β 2j + β 1j x i1 + ε ij, (3.54 missä ε ij N(0, σ 2, j = 1,..., k, β 2k = 0, β 1k = 0. Eli yhdysvaikutusmallissa K X1 X 2 jokaisen X 2 muuttujan arvolla j on oman vakiotasonsa β 0 +β 2j lisäksi oma kulmakerroin β 11 + β 1j, jonka mukaisesti X 1 muuttuja vaikuttaa lineaarisesti selittävän muuttujan Y odotusarvoon µ.
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 13 3.7 Regressiodiagnostiikkaa Lineaariseen regressioanalyysiin kuuluu tärkeänä osana erilaisten graasten kuvioiden piirtäminen ja tunnuslukujen laskeminen sovitearvoista ˆµ i ja residuaaleista e i, joiden avulla voidaan tarkastella käytetyn regressiomallin soveltuvuutta havaitun aineiston mallintamiseen. Lineaarisen regressiomallin sopivuutta aineistoon voidaan graasesti tarkastella piirtämällä erilaisia keskenäisi pisteparvia havaitusta arvoista y i, sovitearvoista ˆµ i, selittävien muuttujien arvoista x i1,... x ip ja residuaaleista e i. Erilaisten kuvioiden avulla on tärkeätä pyrkiä selvittämään, mallintaako käytetty regressiomalli selitettävän muuttujan Y odotusarvon µ käyttäytymistä kauttaaltaan oikealla tavalla vai antaako malli joissain tilanteissa systemaattisesti virheellisiä estimaatteja odotusarvolle µ. Lineaarinen regressioanalyysissä testaus perustuu oletukseen, että havaintojen y i katsotaan olevan realisaatioita normaalijakaumaa noudattavista satunnaismuuttujista Y i N(µ i, σ 2. Täten kun alustavasti on päätetty minkä mallin mukaisesti odotusarvon µ katsotaan muodostuvan, selittävän muuttujan normaalijakautuneisuutta voidaan graa- sesti tarkastella muodostamalla valitun mallin residuaaleista e i esim. histogrammi ja qq-kuvio. Lisäksi esim. Shapiro-Wilk -testin avulla voidaan testata normaalijakaumaoletuksen voimassa oloa. Myös tämä testi tulee tehdä valitun mallin residuaalien e i perusteella. Esimerkki 3.4. Yhdysvaltalainen metsäntutkimusryhmä halusi arvoida kuinka Black Cherry puun (Prunus serotina rinnankorkeudelta mitattu ympärysmitta ja puun korkeus selittävät puun tilavuutta. Tutkimusryhmä mittasi 31 puusta X 1 = ympärysmitan (cm, X 2 = korkeuden (m ja Y = tilavuuden (m3. > malli2<-lm(tilavuus~ymparysmitta+korkeus,data=blackcherry > summary(malli2 Call: lm(formula = tilavuus ~ ymparysmitta + korkeus, data = blackcherry Residuals: Min 1Q Median 3Q Max -0.17864-0.07698-0.01217 0.06488 0.23844 Coefficients: Estimate Std. Error t value Pr(> t (Intercept -1.649294 0.243946-6.761 2.42e-07 *** ymparysmitta 0.052483 0.002937 17.870 < 2e-16 *** korkeus 0.031860 0.012059 2.642 0.0133 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.1096 on 28 degrees of freedom Multiple R-squared: 0.9483, Adjusted R-squared: 0.9446 F-statistic: 257 on 2 and 28 DF, p-value: < 2.2e-16 > shapiro.test(residuals(malli2 Shapiro-Wilk normality test data: residuals(malli2 W = 0.9727, p-value = 0.5961
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 14 Alla on esitetty graasia tarkasteluja liittyen malliin R 0 : Y = β 0 + ε, tilavuus 0.5 1.0 1.5 2.0 Havaittu Sovite tilavuus 0.5 1.0 1.5 2.0 Havaittu Sovite 20 25 30 35 40 45 50 ympärysmitta 20 22 24 26 korkeus residuaalit 0.5 0.0 0.5 1.0 residuaalit 0.5 0.0 0.5 1.0 20 25 30 35 40 45 50 20 22 24 26 ympärysmitta korkeus tilavuus 0.5 1.0 1.5 2.0 residuaalit 0.5 0.0 0.5 1.0 0.850 0.855 0.860 0.850 0.855 0.860 sovite sovite
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 15 Alla on esitetty graasia tarkesteluja liittyen malliin R X1 : Y = β 0 + β 1 X 1 + ε. tilavuus 0.5 1.0 1.5 2.0 Havaittu Sovite tilavuus 0.5 1.0 1.5 2.0 Havaittu Sovite 20 25 30 35 40 45 50 ympärysmitta 20 22 24 26 korkeus residuaalit 0.2 0.1 0.0 0.1 0.2 residuaalit 0.2 0.1 0.0 0.1 0.2 20 25 30 35 40 45 50 ympärysmitta 20 22 24 26 korkeus tilavuus 0.5 1.0 1.5 2.0 residuaalit 0.2 0.1 0.0 0.1 0.2 0.5 1.0 1.5 sovite 0.5 1.0 1.5 sovite
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 16 Alla on esitetty graasia tarkasteluja liittyen malliin R X1 2 : Y = β 0 + β 1 X 1 + β 2 X 2 + ε, tilavuus 0.5 1.0 1.5 2.0 Havaittu Sovite tilavuus 0.5 1.0 1.5 2.0 Havaittu Sovite 20 25 30 35 40 45 50 ympärysmitta 20 22 24 26 korkeus residuaalit 0.1 0.0 0.1 0.2 residuaalit 0.1 0.0 0.1 0.2 20 25 30 35 40 45 50 ympärysmitta 20 22 24 26 korkeus tilavuus 0.5 1.0 1.5 2.0 residuaalit 0.1 0.0 0.1 0.2 0.5 1.0 1.5 2.0 0.5 1.0 1.5 2.0 sovite sovite
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 17 Alla on esitetty graasia tarkasteluja liittyen malliin R X1 2 1 : Y = β 1 X 1 + β 2 X 2 + ε, tilavuus 0.5 1.0 1.5 2.0 Havaittu Sovite tilavuus 0.5 1.0 1.5 2.0 Havaittu Sovite 20 25 30 35 40 45 50 ympärysmitta 20 22 24 26 korkeus residuaalit 0.4 0.2 0.0 0.2 0.4 residuaalit 0.4 0.2 0.0 0.2 0.4 20 25 30 35 40 45 50 ympärysmitta 20 22 24 26 korkeus tilavuus 0.5 1.0 1.5 2.0 residuaalit 0.4 0.2 0.0 0.2 0.4 0.5 1.0 1.5 sovite 0.5 1.0 1.5 sovite
kevät 2013 Usean muuttujan regressioanalyysi Y131A & Y131B - Jarkko Isotalo 18 Alla on normaalisuus tarkasteluja liittyen malliin R X1 2 : Y = β 0 + β 1 X 1 + β 2 X 2 + ε, Histogram of tilavuus Histogram of residuals(malli2 Frequency 0 5 10 15 Frequency 0 1 2 3 4 5 6 0.0 0.5 1.0 1.5 2.0 2.5 tilavuus 0.2 0.1 0.0 0.1 0.2 residuals(malli2 Normal Q Q Plot Sample Quantiles 0.1 0.0 0.1 0.2 2 1 0 1 2 Theoretical Quantiles
Tilastollisia malleja 1 & 2: Otanta 11.3.2013 Y131B & Y132B Jarkko Isotalo 1 Johdatus otantatutkimukseen 1.1 Tutkimusongelma: äärellisen populaation kokonaissumma Tilastollisen tutkimuksen tarkoituksena on yleensä tehdä päätelmiä, kuinka jokin tarkasteltava (selitettävä muuttuja Y käyttäytyy koko populaation tasolla. Usein tarkasteltava populaatio on tilastollisissa tutkimuksissa hypoteettinen ja siten ääretön, mutta toisinaan populaatio koostuu äärellisestä määrästä havaintoyksiköitä, joiden lukumäärä N on etukäteen tiedossa. Tilastollisessa tutkimuksessa muuttujasta Y tehdään päätelmiä sen perusteella, kuinka populaatiosta poimitun osajoukon, eli otoksen, tilanteessa muuttuja Y käyttäytyy. Täten tehtäviin päättelyihin vaikuttaa suuresti se, mitä havaintoyksiköitä otokseen valikoituu ja kuinka yleensä otos populaatiosta poimitaan. Otantateoria ja erilaisten otantamenetelmien tarkastelu onkin mukana lähes jokaisessa tilastollisessa tutkimuksessa. Otantatutkimus on käsitteenä laaja-alainen tutkimusala ja otanteoria-nimikkeen alla voidaankin tarkastella hyvinkin monenlaisia tutkimusongelmia liittyen otanta-asetelmiin ja päättelyyn otoksen perusteella. Tällä kurssilla tarkastellaan erityisesti tilastollisen päättelyn tekemisestä tilanteessa, missä havaintoyksiköiden muodostama populaatio on äärellinen, mutta kaikkia äärellisen populaation arvoja muuttujan Y suhteen ei voida jostain syystä mitata tai havainnoida. Äärellisen populaation tilanteessa puolestaan ollaan usein kiinnostuneita arvioimaan, mikä on muuttujan Y arvojen kokonaissumma tai keskiarvo populaatiossa, kun käytössä on otos tästä populaatiosta. Tällä kurssilla tarkastellaan nimenomaan muuttujan Y arvojen kokonaissumman ja populaatiokeskiarvon arvioimista äärellisen populaation tilanteessa otoksen perusteella. Alla on esitetty esimerkkejä tutkimusongelmista, missä jonkin muuttujan kokonaissummaa halutaan arvioida äärellisen populaation tilanteessa. Esimerkki 1.1. Metsäkauppojen yhteydessä haluttiin arvioida 250 puun puuerän kokonaistilavuutta. Puuerän puista poimittiin satunnaisesti 12 puun otos ja otokseen valikoituneista puista mitattiin puun tilavuus. Alla on esitetty otokseen valikoituneiden puiden tilavuudet. 0.54, 0.81, 0.63, 1.71, 1.35, 0.45, 1.08, 0.81, 1.80, 0.81, 1.62, 1.17 Tutkimusongelmana on 12 puun otoksen perusteella arvioida (ennustaa, mikä on koko puuerän yhteistilavuus. Esimerkki 1.2. Talousalueella toimii 52 yritystä. Tutkimusongelmana oli selvittää, kuinka paljon nämä yritykset työllistävät ihmisiä. Tätä varten talousalueen yrityksistä poimittiin satunnaisesti 10 yrityksen otos. Otokseen valikoituneiden yritysten henkilöstön lukumäärä selvitettiin ja saatiin alla oleva aineisto. 31, 83, 35, 37, 20, 23, 80, 36, 47, 63
kevät 2013 Johdatus otantateoriaan Y131B & Y132B - Jarkko Isotalo 2 Äärellisen populaation tilanteessa ajatellaan, että populaation jokaiselta havaintoyksiköltä i, (i = 1, 2,..., N, on (ainakin teoriassa mitattavissa tai havaittavissa muuttujan Y arvo Y i, eli muuttujan Y suhteen äärellinen populaatio Ω koostuu arvoista missä siis N on äärellisen populaation koko. Ω = {Y 1, Y 2,..., Y N 1, Y N }, (1.1 Ennen kuin havaintoyksiköön i liittyvää arvoa Y i on mitattu tai havaittu, sitä voidaan pitää itsessään satunnaismuuttujana, eli muuttuja joka voi saada eri arvoja eri todennäköisyyksillä. Esimerkiksi jokaisen Y i :n voidaan olettaa noudattavan normaalijakaumaa, Poissonin jakaumaa tai Bernoullin jakaumaa riippuen muuttujan Y luonteesta. Satunnaismuuttujan Y i jakaumaa kutsutaan myös superpopulaatioksia. Eli jos jokaisen Y i :n oletetaan noudattavan normaalijakaumaa, niin Y :n superpopulaatio on normaalijakauma. Tällä kurssilla edetään mahdollisimman pitkälle ilman tarkan superpopulaation määrittämistä. Satunnaismuuttujien Y i jakaumista tehdään kuitenkin sellaisia oletuksia, että jokaisella satunnaismuuttujalla Y i oletetaan olevan olemassa odotusarvo ja varianssi, eli E(Y i = µ i, (1.2 Var(Y i = σ 2 i, (1.3 missä µ i ja σi 2 ovat mahdollisesti tuntemattomia ja niiden tarkka rakenne riippuu tutkimustilanteesta. Äärellisen populaation tilanteessa ollaan usein kiinnostuneita arvioimaan tai tarkemmin ennustamaan, mikä on muuttujan Y arvojen kokonaissumma populaatiossa juuri tällä hetkellä tai tässä tilanteessa. Eli tutkimusongelmana on arvioida tai ennustaa, mikä olisi suureen Y SΩ = Y 1 + Y 2 + + Y N 1 + Y N = N Y i (1.4 arvo, jos jokaisen satunnaismuuttujan Y i realisoitunut arvo voitaisiin mitata tai havaita. Tutkimusongelmana on siis muodostaa jokin sellainen Y SΩ :n arvio tai ennuste ŶS Ω, joka jonkin mielekkään kriteerin perusteella toimii hyvänä ennusteena Y SΩ :lle. Mikäli populaation jokaisen havaintoyksikön i satunnaismuuttujan Y i realisoitunut arvo y i olisi käytössä, niin silloin populaation kokonaissumman arvio muuttujan Y suhteen olisi tietysti Ŷ SΩ = N i=1 y i. Tällöin siis Y SΩ :n arvo voitaisiin suoraan laskea realisoituneiden arvojen y i perusteella. Varsinaiseksi ennustusongelmaksi tilanne muodostuu siinä vaiheessa, kun ei ole jostain syystä mahdollista havaita tai mitata jokaisen satunnaismuuttujan Y i arvoa. Tässä tilanteessa kokonaissumman Y SΩ arvoa voidaan yrittää ennustaa populaatiosta poimitun otoksen havaittujen tai mitattujen muuttujan Y arvojen perusteella. Poimitaan nyt siis populaatiosta Ω otos, joka sisältää n:ltä havaintoyksilöltä muuttujan Y arvoja Y i, n < N. Otos voidaan poimia populaatiosta Ω usealla eri tavalla. Niin sanottu yksinkertainen satunnaisotos on kaikkein yksinkertaisin otantamenetelmä, jonka perusteella populaatiosta voidaan poimia n:n alkion satunnaisotos. Yksinkertaisessa satunnaisotoksessa poimitaan palauttamatta täysin satunnaisesti n kappaletta i=1
kevät 2013 Johdatus otantateoriaan Y131B & Y132B - Jarkko Isotalo 3 havaintoja populaatiosta Ω. Jos populaatiossa Ω havaintoyksiköiden järjestystä kuvaava indeksi i voidaan arpoa täysin satunnaisesti jokaiselle havaintoyksikölle, niin silloin voidaan ajatella, että yksinkertaiseen satunnaisotokseen poimitaan n ensimmäistä havaintoyksiköä populaatiosta: = {Y 1, Y 2,..., Y n 1, Y n }, n < N. (1.5 Täten siis populaatio jakautuu kahteen erilliseen joukkoon Ω = Ψ, (1.6 missä Ψ = {Y n+1, Y n+2,..., Y N 1, Y N }, ja vastaavasti kokonaissumma voidaan jakaa kahteen osaan Y SΩ = Y 1 + Y 2 + + Y n 1 + Y n + Y n+1 + Y n+2 + + Y N 1 + Y N n N = Y i + Y i = Y S + Y SΨ. (1.7 i=1 i=n+1 Nyt siis otokseen valikoituneiden havaintoyksiköiden i satunnaismuuttujien Y i realisoituneet arvot y i ovat käytössä ja niiden avulla kokonaissummaa Y SΩ pyritään arvioimaan. Koska siis realisaatiot y 1, y 2,..., y n on havaittu, kokonaissumma Y SΩ on muotoa Y SΩ = n N y i + Y i = ŶS + Y SΨ. i=1 i=n+1 Eli otokseen valikoituneiden havaintoyksiköiden summan Y S = n i=1 Y i arvio on tietysti havaittujen arvojen summa ŶS = n i=1 y i. Lisäksi kokonaissumman Y SΩ ennustaminen vastaa otoksesta poisjäänneiden havaintojen summan Y SΨ ennustamista. Tutkimusongelmana on täten muodostaa otoksen realisoituneiden arvojen y 1, y 2,..., y n perusteella jokin sellainen funktio h(y 1, y 2,..., y n, joka toimii summan Y SΨ ennusteena Ŷ SΨ = h(y 1, y 2,..., y n. Esimerkki 1.3. Metsäkauppojen yhteydessä haluttiin arvioida 250 puun puuerän kokonaistilavuutta. Puuerän puista poimittiin satunnaisesti 12 puun otos ja otokseen valikoituneista puista mitattiin puun tilavuus. Alla on esitetty otokseen valikoituneiden puiden tilavuudet. 0.54, 0.81, 0.63, 1.71, 1.35, 0.45, 1.08, 0.81, 1.80, 0.81, 1.62, 1.17 (a Mikä on tässä tutkimustilanteessa tarkasteltava muuttuja Y? (b Mikä voisi olla tässä tapauksessa muuttujan Y superpopulaatiojakauma? (c Mitä ovat N ja n? (d Laske ŶS = n i=1 y i. (e Laske otoksesta otoskeskiarvo ȳ. (f Laske otoksesta otosvarianssi s 2 Y = n i=1 (y i ȳ 2 n 1.
kevät 2013 Johdatus otantateoriaan Y131B & Y132B - Jarkko Isotalo 4 1.2 Ennuste homogeenisessa superpopulaatiossa Tarkastellaan seuraavaksi kokonaissumman Y SΩ = Y 1 + Y 2 + + Y N 1 + Y N = N Y i (1.8 i=1 ennustamista tilanteessa, missä populaation jokaiseen havaintoyksikköön i liittyvä satunnaismuuttuja Y i noudattaa samaa jakaumaa. Eli nyt oletetaan, että satunnaismuuttujien Y i odotusarvo ja varianssi ovat havaintoyksiköstä i riippumattomia, eli ovat muotoa E(Y i = µ, (1.9 Var(Y i = σ 2, (1.10 missä µ ja σ 2 ovat tuntemattomia parametreja, jotka kuvaavat millä tasolla satunnaismuuttujien Y i odotusarvo ja varianssi ovat homogeenisessa superpopulaatiossa. Oletetaan lisäksi, että satunnaismuuttujat Y i ovat toisistaan riippumattomia. Olkoon nyt käytössä n havainnon otos y 1, y 2,..., y n äärellisestä populaatiosta Ω = {Y 1, Y 2,..., Y N 1, Y N }. (1.11 Tutkimusongelmana on siis muodostaa jokin sellainen otosfunktio h(y 1, y 2,..., y n niin, että summa n i=1 y i + h(y 1, y 2,..., y n olisi "paras" mahdollinen ennuste kokonaissummalle Y SΩ. Tutkimusongelman yksinkertaistamisen vuoksi on järkevää tarkastella vain lineaarisia ennusteita Y SΩ :lle, eli pyritään löytämään jotkut sellaiset arvot h 1, h 2,..., h n, että lineaarinen funktio n y i + h 1 y 1 + h 2 y 2 + + h n y n = i=1 olisi hyvä ennuste Y SΩ :lle. n y i + i=1 n h i y i = i=1 n (1 + h i y i (1.12 Yksi mielekäs kriteeri kokonaissumman Y SΩ lineaariselle ennusteelle n i=1 (1 + h iy i on se, että sen pitäisi olla harhaton ennuste eli sen pitäisi keskimäärin ennustaa Y SΩ :n todellista arvoa oikein. Lisäksi ennusteen pitäisi olla harhaton riippumatta siittä, mitkä ovat otokseen valikoituneet havainnot ja mitkä ovat otokseen valikoituneiden havaintojen realisoituneet arvot y i. Ennen kuin otoksen realisoituneet arvot y i on käytössä voidaan lineaarista ennustetta käsitellä satunnaismuuttujana, kun korvataan realisoituneet y i arvot niiden alla olevilla satunnaismuuttujilla Y i. Siis ennen kuin otoksen realisoituneet arvot y i (i = 1, 2,..., n ovat käytössä, voidaan miettiä miten arvot h 1, h 2,..., h n tulisi valita, jotta lineaarinen otosfunktio n i=1 (1 + h iy i ennustaisi kokonaissummaa Y SΩ parhaalla mahdollisella tavalla. Kun luvut h 1, h 2,..., h n on saatu määritettyä ja realisoituneet arvot y i ovat käytössä, varsinainen Y SΩ :n numeerinen ennuste saadaan sitten laskettua summan n i=1 (1 + h iy i avulla. Lineaarista otosfunktiota n i=1 (1 + h iy i kutsutaan kokonaissumman Y SΩ lineaarikseksi i=1
kevät 2013 Johdatus otantateoriaan Y131B & Y132B - Jarkko Isotalo 5 harhattomaksi ennusteeksi jos ennustevirheen Y SΩ n n N n (1 + h i Y i = Y i + Y i (1 + h i Y i i=1 = i=1 N Y i i=n+1 i=n+1 i=1 i=1 n h i Y i (1.13 odotusarvo on nolla, eli on voimassa ( ( n N E Y SΩ (1 + h i Y i = E Y i i=1 i=n+1 n h i Y i = 0. (1.14 i=1 Olkoon ĥ1, ĥ2,..., ĥn nyt sellaisia arvoja, että lineaarinen otosfunktio n i=1 (1 + ĥiy i on kokonaissumman Y SΩ harhaton ennuste. Jos lisäksi otosfunktion n i=1 (1 + ĥiy i tilanteessa ennustevirheen Y SΩ n i=1 (1 + ĥiy i varianssi ( ( n N Var Y SΩ (1 + ĥiy n i = Var Y i ĥ i Y i (1.15 i=1 i=n+1 mahdollisimman pieni kaikkien mahdollisten lineaaristen harhattomien otosfunktion joukosta, niin lineaarista otosfunktiota n i=1 (1 + ĥiy i kutsutaan kokonaissumman Y SΩ parhaaksi lineaariseksi harhattomaksi ennusteeksi (engl. best linear unbiased predictor, BLUP. Kokonaissumman Y SΩ parasta lineaarista harhatonta ennustetta merkitään seuraavasti ŶS Ω = n i=1 (1+ĥiY i ja vastaavasti myös sen lasketulle arvolle käytetään samaa merkintää ŶS Ω = n i=1 (1 + ĥiy i, kun realisaatiot y i ovat käytössä. i=1 Nyt voidaan osoittaa, että kokonaissumman Y SΩ paras lineaarinen harhaton ennuste ŶS Ω on muotoa n n n n n ( N n Ŷ SΩ = (1 + ĥiy i = Y i + ĥ i Y i = Y i + Y i = i=1 n i=1 i=1 ( 1 + N n Y i = n i=1 n i=1 i=1 i=1 N n Y i = NȲ, (1.16 missä siis Ȳ on otokseen valikoituneiden havaintoyksiköiden keskiarvo. Kun otoksen realisaatiot y i ovat käytössä, niin kokonaissumman Y SΩ numeerinen ennuste on muotoa n Ŷ SΩ = n i=1 N n y i = Nȳ. (1.17 Kaavasta (1.16 nähdään myös, että summan Y SΨ Ŷ SΨ = i=1 ennuste on puolestaan muotoa n ( N n Y i = (N nȳ. (1.18 n
kevät 2013 Johdatus otantateoriaan Y131B & Y132B - Jarkko Isotalo 6 Kokonaissumman Y SΩ piste-ennusteen lisäksi on hyödyllistä tarkastella ennusteen ja ennen kaikkea ennustevirheen vaihtelun suuruutta. Parhaan lineaarisen harhattoman ennusteen tilanteessa kokonaissumman Y SΩ ennustevirheen Y SΩ ŶS Ω varianssi on muotoa Var (Y SΩ ŶSΩ = Var ( ( Y SΩ NȲ = σ 2 N 2 n N = σ2 N 2 ( 1 n, (1.19 n N mikä siis riippuu tuntemattomasta parametrista σ 2. Keskeisen raja-arvolauseen perusteella voidaan olettaa, että ennustevirhe Y SΩ ŶS Ω noudattaa likimain normaalijakaumaa ( N Y SΩ ŶS Ω N (0, σ 2 2 n N, (1.20 minkä perusteella kokonaissummalle Y SΩ voidaan johtaa esim. luottamusväliennusteita. Kokonaissumman Y SΩ N i=1 Y i N = lisäksi usein äärellisen populaation tilanteessa ollaan kiinnostuneita arvioimaan tai ennustamaan, mitä olisi koko populaation keskiarvo ȲΩ = Y SΩ N. Kokonaissumman Y S Ω ennustamista koskevien tulosten perusteella on helppo nähdä, että keskiarvon ȲΩ paras lineaarinen harhaton ennuste Ȳ Ω on muotoa ja ennustevirheen ȲΩ Ȳ Ω varianssi on muotoa Ȳ Ω = ŶS Ω N = Ȳ, (1.21 Var (ȲΩ Ȳ ( Ω = σ2 1 n. (1.22 n N Eli ennustevirhe ȲΩ Ȳ Ω noudattaa likimain normaalijakaumaa Ȳ Ω Ȳ ( Ω N (0, σ2 1 n. (1.23 n N Esimerkki 1.4. Metsäkauppojen yhteydessä haluttiin arvioida 250 puun puuerän kokonaistilavuutta. Puuerän puista poimittiin satunnaisesti 12 puun otos ja otokseen valikoituneista puista mitattiin puun tilavuus. Alla on esitetty otokseen valikoituneiden puiden tilavuudet. 0.54, 0.81, 0.63, 1.71, 1.35, 0.45, 1.08, 0.81, 1.80, 0.81, 1.62, 1.17 (a Mitä on paras lineaarinen harhaton ennuste kokonaissummalle Y SΩ? (b Mitä on paras lineaarinen harhaton ennuste summalle Y SΨ? (c Mitä on paras lineaarinen harhaton ennuste keskiarvolle ȲΩ?
kevät 2013 Johdatus otantateoriaan Y131B & Y132B - Jarkko Isotalo 7 1.3 Numeerisen muuttujan ennustaminen Tarkastellaan seuraavaksi vielä hieman tarkemmin kokonaissumman Y SΩ ja keskiarvon Ȳ Ω ennustamista tilanteessa, missä satunnaismuuttujat Y i on numeerisia muuttujia. Numeerisella muuttujalla tarkoitetaan tässä sellaisia muuttujia, jotka ovat joko jatkuvia muuttujia tai sitten sellaisia diskreettejä muuttujia, jotka voivat saada useita eri arvoja. Jatkuvien muuttujien tilanteessa voidaan usein olettaa, että Y i :n superpopulaatiojakauma on likimain normaalijakauma. Jos taas satunnaismuuttujat Y i ovat diskreettejä, esim. voivat saada arvokseen positiivisia kokonaislukuarvoja, niin tällöin voidaan olettaa, että Y i :n superpopulaatiojakauma noudattaa esim. Poissonin jakaumaa. Numeeristen satunnaismuuttujien Y i tilanteessa voidaan siis vähintään olettaa, että satunnaismuuttujille Y i on homogeenisen superpopulaation tilanteessa voimassa E(Y i = µ, (1.24 Var(Y i = σ 2, (1.25 ja että kokonaissumman Y SΩ ja keskiarvon ȲΩ ennustevirheet Y SΩ ŶS Ω ja ȲΩ Ȳ Ω noudattavat (likimain normaalijakaumia ( N Y SΩ ŶS Ω N (0, σ 2 2 n N, (1.26 Ȳ Ω Ȳ ( Ω N (0, σ2 1 n. (1.27 n N Ennustevirheiden varianssit riippuvat varianssiparametrista σ 2, joka on yleensä aina tuntematon. Kun käytössä on otoksen realisoituneet y i arvot, numeeristen satunnaismuuttujien tilanteessa varianssiparametrin σ 2 estimaattina voidaan käyttää otosvarianssia n ˆσ 2 = s 2 i=1 Y = (y i ȳ 2. (1.28 n 1 Estimaattorin ˆσ 2 tilanteessa suhteiden t = Y S Ω ŶS Ω ˆσ ( (1.29 2 N 2 N, n t = ȲΩ Ȳ Ω ( 1 n N ˆσ 2 n, (1.30 voidaan olettaa noudattavan (likimain Studentin t-jakaumaa vapausastein df = n 1. Studentin t-jakaumaa noudattavien suhteiden avulla pystytään sitten muodostamaan kokonaissummalle Y SΩ ja keskiarvolle ȲΩ luottamusväliennusteet. Nyt kokonaissumman Y SΩ 100(1 α prosentin luottamusväliennuste on muotoa ] [Ŷ SΩ t α/2 Var(Y SΩ ŶSΩ ; ŶSΩ + t α/2 Var(Y SΩ ŶS Ω ( ( N 2 = [Nȳ t α/2 ˆσ ; ] N 2 n N 2 Nȳ + t α/2 ˆσ 2 n N, (1.31
kevät 2013 Johdatus otantateoriaan Y131B & Y132B - Jarkko Isotalo 8 missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys P (t > t α/2 = α/2, (1.32 kun t noudattaa Studentin t-jakaumaa vapausastein n 1. Vastaavasti keskiarvon ȲΩ 100(1 α prosentin luottamusväliennuste on muotoa [ Ȳ Ω t α/2 Var(ȲΩ Ȳ Ω ; Ȳ ] Ω + t α/2 Var(ȲΩ Ȳ Ω = [ ȳ t α/2 ˆσ 2 n ( 1 n ˆσ 2 ( ; ȳ + t α/2 1 n ]. (1.33 N n N Esimerkki 1.5. Metsäkauppojen yhteydessä haluttiin arvioida 250 puun puuerän kokonaistilavuutta. Puuerän puista poimittiin satunnaisesti 12 puun otos ja otokseen valikoituneista puista mitattiin puun tilavuus. Alla on esitetty otokseen valikoituneiden puiden tilavuudet. 0.54, 0.81, 0.63, 1.71, 1.35, 0.45, 1.08, 0.81, 1.80, 0.81, 1.62, 1.17 (a Muodosta 95 % luottamusväliennuste kokonaissummalle Y SΩ. (b Muodosta 95 % luottamusväliennuste keskiarvolle ȲΩ.
kevät 2013 Johdatus otantateoriaan Y131B & Y132B - Jarkko Isotalo 9 1.4 Binäärisen muuttujan ennustaminen Tarkastellaan seuraavaksi kokonaissumman Y SΩ ja keskiarvon ȲΩ ennustamista tilanteessa, missä satunnaismuuttujat Y i voivat saada arvoikseen vain kahta eri, toisensa poissulkevaa, tulosvaihtoehtoa. Satunnaismuuttujien Y i saamat mahdolliset arvot voivat olla esim. "Kyllä" ja "Ei" tai "Onnistuminen" ja "Epäonnistuminen" tai jotkin muut numeeriset tai laadulliset kaksi eri tulosvaihtoehtoa. Tällöin voidaan satunnaismuuttujien Y i saamat tulosvaihtoehdot aina koodata arvoiksi 0 ja 1. Kun satunnaismuuttuja Y i voi saada tulosvaihtoehdokseen vain kahta eri arvoa, kutsutaan sitä binääriseksi muuttujaksi. Binäärisen satunnaismuuttujan tilanteessa satunnaismuuttujan Y i voidaan olettaa noudattavan Bernoullin jakaumaa siten, että tulosvaihtoehtojen 0 ja 1 toteutumisille on voimassa todennäköisyydet P (Y i = 1 = p, P (Y i = 0 = 1 p, (1.34 missä p on nyt siis jokin tuntematon todennäköisyys jota ei tunneta. Kun satunnaismuuttujan Y i superpopulaatiojakauma noudattaa Bernoullin jakaumaa, merkitään sitä seuraavasti: Y i Ber(p. Homogeenisen superpopulaation tilanteessa jokaisen äärellisen populaation satunnaismuuttujan Y i, (i = 1,..., N, oletetaan saavan realisoituneeksi arvoksi y i = 1 samalla todennäköisyydella p. Bernoullin jakauman ominaisuuksien perusteella on nyt voimassa homogeenisessa superpopulaatiossa, että E(Y i = µ = p, (1.35 Var(Y i = σ 2 = p(1 p. (1.36 Binäärisen muuttujan tilanteessa kokonaissumman Y SΩ ja keskiarvon ȲΩ parhaat lineaariset harhattomat ennusteet ovat muotoa n i=1 Y i Ŷ SΩ = n i=1 N n Y i = NȲ = N ˆp, (1.37 Ȳ Ω = ŶS Ω N = Ȳ = ˆp, (1.38 missä siis ˆp = on 1 tulosvaihtoehtojen suhteellinen osuus otoksessa. Binäärisen n muuttujan tilanteessa kokonaissumman Y SΩ arvo on aina positiivinen kokonaisluku kun taas ennuste ŶS Ω = N ˆp on yleensä desimaaliluku. Täten tarvittaessa ennuste N ˆp voidaan pyöristää lähimpään kokonaislukuun. Kun superpopulaatio noudattaa Bernoullin jakaumaa, ennustevirheiden Y SΩ ŶS Ω Ȳ Ω Ȳ Ω varianssit ovat muotoa ( N 2 2 Var(Y SΩ ŶS Ω = p(1 p n N p(1 pn = n Var(ȲΩ Ȳ p(1 p ( Ω = 1 n n N ja ( 1 n, (1.39 N, (1.40
kevät 2013 Johdatus otantateoriaan Y131B & Y132B - Jarkko Isotalo 10 eli ennustevirheiden varianssit riippuvat todennäköisyydestä p. Kun varianssien kaavassa todennäköisyys p korvataan estimaatilla ˆp, niin suhteet Z = Z = Y SΩ ŶS Ω ˆp(1 ˆpN 2 n Ȳ Ω Ȳ Ω ˆp(1 ˆp n ( 1 n N ( 1 n N, (1.41, (1.42 voidaan olettaa noudattavan (likimain standardoitua normaalijakaumaa Z N(0, 1. Standardoidun normaalijakauman avulla pystytään sitten muodostamaan kokonaissummalle Y SΩ ja keskiarvolle ȲΩ luottamusväliennusteet. Nyt kokonaissumman Y SΩ 100(1 α prosentin luottamusväliennuste on muotoa ] [Ŷ SΩ z α/2 Var(Y SΩ ŶSΩ ; ŶSΩ + z α/2 Var(Y SΩ ŶS Ω = [ N ˆp z α/2 ˆp(1 ˆpN 2 n ( 1 n ˆp(1 ˆpN 2 ( ; N ˆp + z α/2 1 n ], (1.43 N n N missä z α/2 on sellainen luku, jolle on voimassa todennäköisyys P (Z > z α/2 = α/2, (1.44 kun Z noudattaa standardoitua normaalijakaumaa Z N(0, 1. Vastaavasti keskiarvon Ȳ Ω 100(1 α prosentin luottamusväliennuste on muotoa [ Ȳ Ω z α/2 Var(ȲΩ Ȳ Ω ; Ȳ ] Ω + z α/2 Var(ȲΩ Ȳ Ω = [ ˆp z α/2 ˆp(1 ˆp n ( 1 n ˆp(1 ˆp ( ; ˆp + z α/2 1 n ]. (1.45 N n N Esimerkki 1.6. Oletetaan, että satunnaismuuttuja Y noudattaa Bernoullin jakaumaa Y Ber(p. Osoita, että E(Y = µ = p, Var(Y = σ 2 = p(1 p. Esimerkki 1.7. Leipomoalan yritys halusi kartoittaa työntekijöidensä sitoutumista yritykseen. Yrityksen 352 työntekijän joukosta yrityksen johto yksinkertaisella satunnaisotoksella poimi 25 henkilön otoksen ja tiedustelu otokseen valikoituneilta työntekijöiltä heidän suunnitelmia vaihtaa työpaikkaa seuraavan vuoden aikana. Otokseen valikoituneista työntekijöistä 4 vastasi harkitsevansa työpaikan vaihtoa seuraavan vuoden aikana. (a Muodosta ennuste sille, että kuinka moni yrityksen työntekijöistä suunnittelee työpaikan vaihtoa seuraavan vuoden aikana. (b Muodosta ennuste sille, että mikä osuus yrityksen työntekijöistä suunnittelee työpaikan vaihtoa seuraavan vuoden aikana. (c Muodosta edellisten kohtien ennustekohteille 95 % luottamusväliennusteet.
kevät 2013 Johdatus otantateoriaan Y131B & Y132B - Jarkko Isotalo 11 1.5 Ennuste epävarman populaatiokoon tilanteessa Kokonaissumman Y SΩ ennuste riippuu vahvasti siitä, mikä on äärellisen populaation koko N. Joskus voi tulla tilanteita, jolloin äärellisen populaation koko N ei olekkaan täysin varmasti tiedossa. Esimerkiksi otannan jälkeen populaation koko saattaa kasvaa tai vähentyä. Tilanne voi olla myös sillä lailla hierarkinen, että populaation koon tiedetään olevan äärellinen, mutta otos voidaan poimia vain osajoukosta koko populaatiota ja lopullinen populaation koko ei ole tarkasti tiedossa. Oletetaan nyt, että populaation koko N voidaan jakaa osiin N = N v + N e, missä N v arvo tiedetään varmasti ja N e kuvaa populaation koon epävarmaa osuutta siten, että N e on satunnaismuuttuja, jolla on oma tunnettu todennäköisyysjakauma P (N e = N e = f Ne (N e. Äärellinen populaatio Ω jakautuu siten osiin Ω = Ω v Ω e = {Y 1v, Y 2v,..., Y Nv 1, Y Nv } {Y 1e, Y 2e,..., Y Ne 1, Y Ne }, (1.46 missä siis populaation Ω v tiedetään varmasti olevan olemassa ja populaation Ω e laajuus on tuntematon ja satunnainen. Tässä tilanteessa otos voidaan poimia siis vain varmasta populaatiosta Ω v. Olkoonkin nyt v = {Y 1v, Y 2v,..., Y nv 1, Y nv }, n v < N v. (1.47 yksinkertainen satunnaisotos populaatiosta Ω v. Aikaisemman perusteella kokonaissumman Y SΩ paras lineaarinen ennuste olisi muotoa NȲ v = N v Ȳ v + N e Ȳ v, (1.48 jos N e arvo olisi tiedossa. Koska todellisuudessa N e on ennustehetkellä realisoimaton satunnaismuuttuja, ennusteen NȲ v arvoa voida laskea ennen kuin kaavassa (1.48 satunnaismuuttuja N e on korvattu jollain sen ennusteella. Satunnaismuuttuja N e :n ennusteena voidaan käyttää esimerkiksi N e :n odotusarvoa, joka on laskettavissa jos oletetaan, että todennäköisyysjakauma P (N e = Ne = f Ne (Ne on tunnettu. Täten jos kaavassa (1.48 ennusteesta NȲ v lasketaan odotusarvo satunnaismuuttuja N e :n suhteen, niin saadaan muodostettua (odotetun kokonaissumman Y SΩ odotettu paras lineaarinen harhaton ennuste Ỹ SΩ = E Ne ( N Ȳ v = Nv Ȳ v + E Ne ( Ne Ȳ v = Nv Ȳ v + µ Ne Ȳ v, (1.49 missä µ Ne = E(N e. Keskiarvon ȲΩ ennustaminen epävarman populaatiokoon tilanteessa on huomattavasti yksinkertaisempaa. Itse asiassa paras lineaarinen harhaton ennuste on riippumaton satunnaismuuttujasta N e, eikä täten keskiarvon ȲΩ piste-ennuste muuttu aikaisempaan verrattuna. Satunnaisella N e arvolla on sen sijaan vaikutusta sekä kokonaissumman Y SΩ että keskiarvon ȲΩ luottamusväliennustamiseen. Luottamusväliestimoimiseen epävarman populaatiokoon tilanteessa ei kurssilla ehditä tarkemmin syventyä.
kevät 2013 Johdatus otantateoriaan Y131B & Y132B - Jarkko Isotalo 12 Esimerkki 1.8. Metsäkauppojen yhteydessä haluttiin arvioida puuerän kokonaistilavuutta. Kaupantekohetkellä oltiin täysin varmoja, että puuerä sisältää vähintään 250 puuta. Lisäksi uskottiin, että puuerään kuuluisi lisäpuita seuraavin todennäköisyyksin lisäpuiden lukumäärä N e : 0 1 2 3 P (N e = Ne : 0.5 0.25 0.15 0.1 Varmasti puuerän kuuluvista puista poimittiin satunnaisesti 12 puun otos ja otokseen valikoituneista puista mitattiin puun tilavuus. Alla on esitetty otokseen valikoituneiden puiden tilavuudet. 0.54, 0.81, 0.63, 1.71, 1.35, 0.45, 1.08, 0.81, 1.80, 0.81, 1.62, 1.17 (a Mitä on satunnaismuuttujan N e odotusarvo µ Ne? (b Mitä on (odotetun kokonaissumman Y SΩ ennuste ỸS Ω? odotettu paras lineaarinen harhaton
Tilastollisia malleja 1 & 2: Otanta 18.3.2013 Y131B & Y132B Jarkko Isotalo 2 Otantatutkimus ositetussa ja klusteroidussa populaatiossa 2.1 Ennuste ositetussa populaatiossa Tarkastellaan seuraavaksi muuttujan Y kokonaissumman ennustamista tilanteessa, missä äärellisen populaation voidaan katsoa muodostuvan eri osapopulaatioista. Nyt ajatellaan siis, että taustalla on jokin toinen muuttuja (tai tila- tai aikatekijä, jonka takia äärellisen populaation Ω voidaan katsoa muodostuvan osapopulaatiosta Ω = Ω 1 Ω 2 Ω J, (2.1 missä jokaisen osapopulaation Ω j, j = 1, 2,..., J, oletetaan olevan äärellinen ja muotoa Ω j = {Y 1j, Y 2j,..., Y (Nj 1j, Y Nj j}. (2.2 Jokaisen osapopulaation Ω j tilanteessa satunnaismuuttujan Y ij, (i = 1, 2,..., N j, odotusarvon ja varianssin oletetaan olevan muotoa E(Y ij = µ j, (2.3 Var(Y ij = σ 2 j, (2.4 missä µ j ja σj 2 ovat tuntemattomia parametreja, jotka kuvaavat millä tasolla satunnaismuuttujien Y ij odotusarvo ja varianssi ovat osapopulaatiossa Ω j. Oletetaan lisäksi, että satunnaismuuttujat Y ij ovat toisistaan riippumattomia. Nyt siis satunnaismuuttujan Y ij superpopulaatiojakauma vaihtelee sen mukaan mihin ositteeseen j se kuuluu. Ositteisen populaation tilanteessa kokonaissumma Y SΩ on muotoa Y SΩ = J Y SΩj = j=1 N J j Y ij. (2.5 j=1 i=1 Jotta kokonaissumman arvolle voidaan muodostaa ennuste, täytyy jokaisesta osapopulaatiosta Ω j olla poimittu otos j, joidenka perusteella kokonaissumman ennuste muodostetaan. Jos otos j j = {Y 1j, Y 2j,..., Y (nj 1j, Y nj j}, n j < N j (2.6 on poimittu osapopulaatiosta Ω j yksinkertaisen satunnaisotoksen avulla, saadaan kokonaissumma Y SΩ kirjoitettua muotoon n J j N j n J j N J j J J Y SΩ = Y ij + = Y ij + Y ij = Y S j + Y SΨj. j=1 i=1 i=n j +1 Y ij j=1 i=1 j=1 i=n j +1 j=1 j=1 (2.7
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 2 Voidaan osoittaa, että ositetun populaation tilanteessa kokonaissumman Y SΩ paras lineaarinen harhaton ennuste on muotoa n J J j N j J Ŷ SΩ = Ŷ SΩj = Y ij = N j Ȳ j, (2.8 n j j=1 j=1 i=1 missä siis Ȳ j on otokseen j valikoituneiden havaintoyksiköiden keskiarvo. Kun otoksen realisaatiot y ij ovat käytössä, niin kokonaissumman Y SΩ numeerinen ennuste on muotoa Ŷ SΩ = n J j j=1 i=1 N j n j y ij = Havaitsemattoman summan J j=1 Y S Ψj ennuste on täten muotoa J Ŷ SΨj = j=1 j=1 J N j ȳ j. (2.9 j=1 J (N j n j Ȳ j. (2.10 j=1 Ositetun populaation tilanteessa kokonaissumman Y SΩ ennustevirheen Y SΩ ŶS Ω varianssi on puolestaan muotoa ( J J Var (Y SΩ = Var (Y ŶSΩ SΩj ŶS Ωj = Var (Y SΩj ŶSΩj (2.11 = j=1 J Var (Y SΩj N j Ȳ j = j=1 j=1 J j=1 σ 2 j ( N 2 j n j N j = J j=1 σ 2 j N 2 j n j ( 1 n j, N j mikä siis riippuu tuntemattomista parametreista σj 2. Keskeisen raja-arvolauseen perusteella voidaan olettaa, että ennustevirhe Y SΩ ŶS Ω noudattaa likimain normaalijakaumaa Y SΩ ŶS Ω N ( 0, Var (Y SΩ, ŶSΩ (2.12 minkä perusteella kokonaissummalle Y SΩ voidaan johtaa esim. luottamusväliennusteita. Jos satunnaismuuttujat Y ij ovat luonteeltaan binäärisiä, niin silloin odotusarvon ja varianssin oletetaan olevan ositetun populaation tilanteessa muotoa E(Y ij = µ j = p j, (2.13 Var(Y ij = σ 2 j = p j (1 p j, (2.14 missä P (Y ij = 1 = p j. Eli Y ij Ber(p j. Binääristen satunnaismuuttujien tilanteessa kokonaissumman ennuste voidaan esittää muodossa J J Ŷ SΩ = N j Ȳ j = N j ˆp j, (2.15 missä siis ˆp j = n j i=1 Y ij n j j=1 j=1 on 1 tulosvaihtoehtojen suhteellinen osuus otoksessa j. Binäärisen muuttujan tilanteessa ennustevirheen Y SΩ ŶS Ω ja ȲΩ Ȳ Ω varianssi on muotoa J ( N 2 j J p j (1 p j N 2 ( Var(Y SΩ ŶS j Ω = p j (1 p j N j = 1 n j. (2.16 n j n j N j j=1 j=1
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 3 Esimerkki 2.1. Metsäkauppojen yhteydessä haluttiin arvioida 250 puun puuerän kokonaistilavuutta. Puista 160 oli mäntyjä ja 90 kuusia. Männyistä ja kuusista poimittiin kummastakin satunnaisesti 6 puun otos ja otokseen valikoituneista puista mitattiin puun tilavuus. Alla on esitetty otokseen valikoituneiden puiden tilavuudet. Mänty: 1.71, 1.35, 1.08, 1.80, 1.62, 1.17 Kuusi: 0.54, 0.81, 0.63, 0.45, 0.81, 0.81 Mitä on paras lineaarinen harhaton ennuste kokonaissummalle Y SΩ? Esimerkki 2.2. Leipomoalan yritys halusi kartoittaa työntekijöidensä sitoutumista yritykseen. Yrityksen kaikista 352 työntekijästä 102 on jollain tavalla esimiesasemassa ja siten voidaan luokitella toimihenkilöiksi. Leipomon loput 250 työntekijää työskentelee lähinnä leipomon ydintyötehtävien suorittamisessa. Yrityksen johto poimi yksinkertaisella satunnaisotoksella toimihenkilöistä 10 henkilön otoksen ja muista työntekijöistä 15 henkilön otoksen. Otoksiin valikoituneilta työntekijöiltä johto tiedusteli heidän suunnitelmia vaihtaa työpaikkaa seuraavan vuoden aikana. Toimihenkilöiden otokseen valikoituneista yksi henkilö vastasi harkitsevansa työpaikan vaihtoa seuraavan vuoden aikana. Muiden työntekijöiden otokseen valikoituneista kolme työntekijää vastasi harkitsevansa työpaikan vaihtoa seuraavan vuoden aikana. Muodosta ennuste sille, että kuinka moni yrityksen työntekijöistä suunnittelee työpaikan vaihtoa seuraavan vuoden aikana. 2.2 Luottamusväliennustaminen ositetussa populaatiossa Kokonaissumman Y SΩ ennustevirhe Y SΩ ŶS Ω noudattaa siis (likimain normaalijakaumaa ( Y SΩ ŶS Ω N 0, Var (Y SΩ, ŶSΩ (2.17 missä Var (Y SΩ ŶSΩ = J j=1 σ 2 j ( N 2 j n j N j = J j=1 σ 2 j N 2 j n j ( 1 n j, (2.18 N j Ennustevirheen varianssi riippuu varianssiparametreista σj 2, jotka ovat yleensä aina tuntemattomia. Kun käytössä on otoksien j realisoituneet y ij arvot, numeeristen satunnaismuuttujien tilanteessa varianssiparametrien σj 2 estimaatteina voidaan käyttää otosvariansseja ˆσ 2 j = nj i=1 (y ij ȳ j 2. (2.19 n j 1
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 4 Kun ennustevirheen varianssin Var (Y SΩ ŶSΩ kaavassa korvataan parametrit σj 2 estimaattoreilla ˆσ 2 j, suhteen Z = Y SΩ ŶS Ω (2.20 Var (Y SΩ ŶSΩ voidaan olettaa noudattavan (likimain standardoitua normaalijakaumaa N(0, 1. Nyt kokonaissumman Y SΩ 100(1 α prosentin luottamusväliennuste on muotoa ] [Ŷ SΩ z α/2 Var(Y SΩ ŶSΩ ; ŶSΩ + z α/2 Var(Y SΩ ŶS Ω (2.21 J = N j ȳ j z α/2 J j=1 j=1 ˆσ 2 j ( N 2 j n j N j ; J N j ȳ j + z α/2 J missä z α/2 on sellainen luku, jolle on voimassa todennäköisyys kun Z noudattaa standardoitua normaalijakaumaa N(0, 1. j=1 j=1 ˆσ 2 j ( N 2 j n j N j, P (Z > z α/2 = α/2, (2.22 Binääristen satunnaismuuttujien Y ij tilanteessa ennustevirheen Y SΩ ŶS Ω varianssi on muotoa Var(Y SΩ ŶS Ω = J j=1 ( N 2 j p j (1 p j n j N j = J j=1 p j (1 p j N 2 j n j Korvaamalla varianssissa parametrit p j suhteellisilla osuuksilla ˆp j, suhteen ( 1 n j. (2.23 N j Z = Y SΩ ŶS Ω (2.24 Var (Y SΩ ŶSΩ voidaan myös olettaa noudattavan (likimain standardoitua normaalijakaumaa N(0, 1. Nyt kokonaissumman Y SΩ 100(1 α prosentin luottamusväliennuste on binäärin muuttujan tilanteessa muotoa ] [Ŷ SΩ z α/2 Var(Y SΩ ŶSΩ ; ŶSΩ + z α/2 Var(Y SΩ ŶS Ω (2.25 J = N j ˆp j z α/2 J j=1 j=1 ( N 2 j ˆp j (1 ˆp j n j N j ; J N j ˆp j + z α/2 J j=1 j=1 ( N 2 j ˆp j (1 ˆp j n j N j.
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 5 Esimerkki 2.3. Metsäkauppojen yhteydessä haluttiin arvioida 250 puun puuerän kokonaistilavuutta. Puista 160 oli mäntyjä ja 90 kuusia. Männyistä ja kuusista poimittiin kummastakin satunnaisesti 6 puun otos ja otokseen valikoituneista puista mitattiin puun tilavuus. Alla on esitetty otokseen valikoituneiden puiden tilavuudet. Mänty: 1.71, 1.35, 1.08, 1.80, 1.62, 1.17 Kuusi: 0.54, 0.81, 0.63, 0.45, 0.81, 0.81 Muodosta 90 % luottamusväliennuste kokonaissummalle Y SΩ. Esimerkki 2.4. Leipomoalan yritys halusi kartoittaa työntekijöidensä sitoutumista yritykseen. Yrityksen kaikista 352 työntekijästä 102 on jollain tavalla esimiesasemassa ja siten voidaan luokitella toimihenkilöiksi. Leipomon loput 250 työntekijää työskentelee lähinnä leipomon ydintyötehtävien suorittamisessa. Yrityksen johto poimi yksinkertaisella satunnaisotoksella toimihenkilöistä 10 henkilön otoksen ja muista työntekijöistä 15 henkilön otoksen. Otoksiin valikoituneilta työntekijöiltä johto tiedusteli heidän suunnitelmia vaihtaa työpaikkaa seuraavan vuoden aikana. Toimihenkilöiden otokseen valikoituneista yksi henkilö vastasi harkitsevansa työpaikan vaihtoa seuraavan vuoden aikana. Muiden työntekijöiden otokseen valikoituneista kolme työntekijää vastasi harkitsevansa työpaikan vaihtoa seuraavan vuoden aikana. Muodosta 80 % luottamusväliennuste sille, että kuinka moni yrityksen työntekijöistä suunnittelee työpaikan vaihtoa seuraavan vuoden aikana.
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 6 2.3 Otoskoon määrittäminen ositetussa populaatiossa Otoskoon suuruuteen vaikuttaa vahvasti se, että minkälaiset taloudelliset ja aikaresurssit ovat käytössä otoksen keräämiseen ja toisaalta minkälaiset kustannukset otoksen keräämisestä koituu. Voidaan ajatella, että käytettävissä olevat resurssit rajoittavat kerättävän otoksen koon jollekin tasolle n. Ositetun populaation tilanteessa voi kuitenkin olla mahdollista itse päättää, kuinka nämä n havaintoa otokseen valitaan, eli rajoitteen J j=1 n j = n sisällä on mahdollista itse valita osapopulaatioista Ω j valittavien otosten koot n j. Ositetun populaation tilanteessa peruslähtökohta on se, että jokaisesta osapopulaatiosta Ω j on poimittava havaintoja otokseen, jotta kokonaissumman Y SΩ tasoa voitaisiin ennustaa. Tasakiintiöinnin tilanteessa valittavat otokset j poimitaan (yksinkertaisen satunnaisotoksen avulla suuruudeltaan yhtäsuuriksi eli on voimassa n 1 n = n 2 n = = n J n. (2.26 Suhteellisen kiintiöinnin tilanteessa otoskoot n j valitaan puolestaan siten, että on voimassa n 1 N 1 = n 2 N 2 = = n N, (2.27 missä N = J j=1 = N J. Tästä seuraa, että suhteellisen kiintiöinnin tilanteessa osapopulaatiosta Ω j poimitaan n j = nn J N (2.28 havainnon otos. Optimaalisessa kiintiöinnissä otoksien j otoskoot n j valitaan siten, että ne minimoivat kokonaissumman ennustevirheen varianssin Var (Y SΩ ŶSΩ. Täten siis optimaalisessa kiintiöinnissä etsitään sellaiset n j arvot, jotka ovat ratkaisuja minimointiongelmaan min n j J j=1 σ 2 j ( N 2 j n j N j ehdolla J n j = n. (2.29 Voidaan osoittaa, että yllä olevan minimointiongelman ratkaisuotoskoot ovat muotoa n j = j=1 nn Jσ j J j=1 N jσ j. (2.30 Jotta optimaalisen kiintiöinnin mukaiset otoskoot n j voitaisiin määritellä, täytyisi hajonnoista σ j olla tietoa. Käytännössä optimaaliseen kiintiöintiin voidaan päästä, jos otoskoiden n j määrittelyssä edetään vaiheittain, missä ensimmäisessä vaiheessa pienemmällä otoskoolla estimoidaan hajontojen σ j arvoja ja lopulliset otoskoot määritetään estimaattien ˆσ j avulla.
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 7 Esimerkki 2.5. Metsäkauppojen yhteydessä haluttiin arvioida 250 puun puuerän kokonaistilavuutta. Puista 160 oli mäntyjä ja 90 kuusia. Puuerän kokonaistilavuutta päätettiin ennustaa 30 havainnon otoksen perusteella. Männyistä ja kuusista kummastakin poimittiin kuitenkin aluksi satunnaisesti 6 puun otos ja otokseen valikoituneista puista mitattiin puun tilavuus. Alla on esitetty ensimmäisessä vaiheessa otokseen valikoituneiden puiden tilavuudet. Mänty: 1.71, 1.35, 1.08, 1.80, 1.62, 1.17 Kuusi: 0.54, 0.81, 0.63, 0.45, 0.81, 0.81 (a Kuinka monta mäntyä ja kuusta kaiken kaikkiaan poimitaan otokseen tasakiintiöinnin tilanteessa? Eli kuinka monta mäntyä ja kuusta otokseen vielä poimitaan toisessa vaiheessa? (b Kuinka monta mäntyä ja kuusta kaiken kaikkiaan poimitaan otokseen suhteellisen kiintiöinnin tilanteessa? Eli kuinka monta mäntyä ja kuusta otokseen vielä poimitaan toisessa vaiheessa? (c Kuinka monta mäntyä ja kuusta kaiken kaikkiaan poimitaan otokseen optimaalisen kiintiöinnin tilanteessa? Eli kuinka monta mäntyä ja kuusta otokseen vielä poimitaan toisessa vaiheessa? (d Laske ennustevirheen varianssin Var (Y SΩ ŶSΩ estimaatti eri kiintiöiden tilanteessa lopullisilla otoskoilla n j.
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 8 2.4 Keskiarvon ennustaminen ositetussa populaatiossa Myös ositetun populaation tilanteessa voidaan toisinaan olla kiinnostuneita ennustamaan koko populaation keskiarvoa ȲΩ = Y S Ω. Keskiarvon paras lineaarinen harhaton N ennuste Ȳ Ω ositetussa tilanteessa on muotoa Ȳ Ω = ŶS Ω N = J j=1 N jȳ j. (2.31 N Täten keskiarvon ennustamiseen liittyvä ennustevirhe ȲΩ Ȳ Ω noudattaa likimain normaalijakaumaa Ȳ Ω Ȳ ( Ω N 0, Var (ȲΩ Ȳ Ω, (2.32 missä Var (ȲΩ Ȳ Ω = 1 N 2 J j=1 σ 2 j ( N 2 j n j N j = 1 N 2 J j=1 σ 2 j N 2 j n j ( 1 n j. (2.33 N j Nyt keskiarvon ȲΩ 100(1 α prosentin luottamusväliennuste on muotoa [ Ȳ Ω z α/2 Var(ȲΩ Ȳ Ω ; Ȳ ] Ω + z α/2 Var(ȲΩ Ȳ Ω J = j=1 N jȳ j z α/2 1 J ( N 2 J ˆσ 2 j j=1 N N 2 j N j ; N jȳ j + z α/2 1 N j=1 missä z α/2 on sellainen luku, jolle on voimassa todennäköisyys n j N 2 J ˆσ j 2 j=1 (2.34 ( N 2 j n j N j, kun Z noudattaa standardoitua normaalijakaumaa N(0, 1. P (Z > z α/2 = α/2, (2.35 Esimerkki 2.6. Metsäkauppojen yhteydessä haluttiin arvioida 250 puun puuerän kokonaistilavuutta. Puista 160 oli mäntyjä ja 90 kuusia. Männyistä ja kuusista poimittiin kummastakin satunnaisesti 6 puun otos ja otokseen valikoituneista puista mitattiin puun tilavuus. Alla on esitetty otokseen valikoituneiden puiden tilavuudet. Mänty: 1.71, 1.35, 1.08, 1.80, 1.62, 1.17 Kuusi: 0.54, 0.81, 0.63, 0.45, 0.81, 0.81 Muodosta 90 % luottamusväliennuste keskiarvolle ȲΩ.
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 9 2.5 Klusteroitunut populaatio Tarkastellaan seuraavaksi kokonaissumman ennustamista klusteroidussa populaatiossa. Äärellisen populaation Ω sanotaan olevan klusteroitunut jonkin muuttujat (tai tilan tai ajan suhteen, jos kysyisen tekijän suhteen koko äärellinen populaatio Ω voidaan jakaa sellaisiin osapopulaatiohin Ω h, että osapopulaatioiden sisällä havaintoyksiköt Y ih ovat keskenään riippuvaisia. Klusteroidussa tilanteessa äärellinen populaatio Ω jakautuu osapopulaatioihin Ω = Ω 1 Ω 2 Ω H, (2.36 missä jokaisen osapopulaation Ω h, h = 1, 2,..., H, oletetaan olevan äärellinen ja muotoa Ω j = {Y 1h, Y 2h,..., Y (Nh 1h, Y Nh h}. (2.37 Nyt lisäksi oletetaan, että osapopulaation Ω h tilanteessa satunnaismuuttujan Y ih, (i = 1, 2,..., N h, (ehdollisen odotusarvon, varianssin ja kovarianssin oletetaan olevan muotoa E(Y ih = µ + γ h, (2.38 Var(Y ih = σ 2 + ϕ 2, (2.39 Cov(Y ih, Y i h = ϕ 2. (2.40 missä µ, σ 2 ja ϕ 2 ovat tuntemattomia parametreja ja γ h on tuntematon satunnaismuuttuja, josta oletetaan, että E(γ h = 0, (2.41 Var(γ h = ϕ 2. (2.42 Klusteroitunut populaatio on hyvin lähellä edellä tarkasteltua ositettua populaatiota. Käytännössä onkin usein hankala päättää, että onko kyseessä ositettu populaatio vai klusteroitunut populaatio. Päätös kummanlaisesta osapopulaatiotilanteesta on kyse, riippuu paljon sen muuttujan (tai tila- tai aikatekijän luonteesta, jonka perusteella osapopulaatiojakoa tehdään. Jos osapopulaatiojako tehdään sellaisen muuttujan perusteella, missä havaintoyksiköiden saamat muuttujan arvot eivät helpolla voi vaihtua, on kyseessä ositettu populaatio. Jos taas havaintoyksiköiden saamat muuttujan arvot voivat helposti vaihtua toisiksi arvoiksi jossain toisessa tilanteessa, kysymyksessä on klusteroitunut populaatio. Lisäksi ositetun populaation tilanteessa oletetaan, että havaintoyksiköiden odotusarvo on muotoa E(Y ij = µ j eli jokaisella osapopulaatiolla j on olemassa oma kiinteä odotusarvotaso µ j. Klusteroidussa tilanteessa havaintoyksiköiden odotusarvo on muotoa E(Y ih = µ + γ h, missä jo etukäteen oletetaan, että osapopulaatioefekti γ h on odotusarvoisesti nolla. Eli klusteroidussa tilanteessa etukäteen oletetaan, että klusteroinnilla ei keskimäärin ole vaikutusta muuttujan Y odotettuun arvoon, mutta mahdollisesti klusterin sisällä arvot voivatkin olla keskenään riippuvaisia ja siten eri klustereiden välillä muuttujan Y arvot saattavatkin vaihdella. Klusteroidun populaation tilanteessa äärellisen populaation Ω kokonaissumma Y SΩ on muotoa H H N h Y SΩ = Y SΩh = Y ih. (2.43 h=1 Klusteroidussa tilanteessa kokonaissumma Y SΩ ennuste riippuu siitä, mistä klustereista otokseen valikoituneet havainnot poimitaan. h=1 i=1
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 10 2.6 Ennuste klusteroituneen ryväsotannan tilanteessa Ryväs tarkoittaa käsitteenä kahden tai useamman alkion muodostamaa joukkoa. Lähtökohtana ryväsotannalle on se, että populaation jokainen havaintoyksikkö voidaan osoittaa kuuluvan johonkin yhteen rypääseen. Esimerkkejä ryväistä on esimerkiksi samassa taloudessa asuvat ihmiset eli kotitauloudet, koululuokat, kunnat, eläinlaumat, aluettaiset pellot. Ryväsotannan tilanteessa äärellinen populaatio Ω voidaan jakaa rypäisiin Ω h muuttujan perusteella, eli jonkin Ω = Ω 1 Ω 2 Ω H. (2.44 Tämän jälkeen ryväsotannassa populaatiosta Ω poimitaan satunnaisesti m kappaleita rypäitä Ω h otokseen. Jos rypäiden Ω h indeksit h voidaan täysin satunnaisesti allakoida, niin voidaan olettaa, että otokseen valikoidaan m ensimmäistä ryvästä, eli ja siten = Ω 1 Ω 2 Ω m (2.45 Ω = Ω m+1 Ω m+2 Ω H. (2.46 Ryväsotantaa suoritetaan käytännössä siitä syystä, että usein on kustannuksiltaan halvempaa poimia otos rypäiden muodossa kuin satunnaisesti poimia yksittäisiä havaintoyksiköitä populaatiosta Ω. Ryväsotannan tilanteessa rypään Ω h satunnaismuuttujat Y ih saattavat olla riippuvaisia eli klusteroituneita, eli saattaa olla voimassa oletukset E(Y ih = µ + γ h, (2.47 Var(Y ih = σ 2 + ϕ 2, (2.48 Cov(Y ih, Y i h = ϕ 2. (2.49 missä µ, σ 2 ja ϕ 2 ovat tuntemattomia parametreja ja γ h on tuntematon satunnaismuuttuja, josta oletetaan, että E(γ h = 0, (2.50 Var(γ h = ϕ 2. (2.51 Nyt ryväsotannassa kokonaissumma Y SΩ on muotoa H Y SΩ = Y S + Y SΩh = h=m+1 m N h H Y ih + N h h=1 i=1 h=m+1 i=1 Y ih. (2.52 Koska otos ei sisällä havaintoyksiköitä rypäistä Ω m+1, Ω m+2,..., Ω H, niin näiden klustereiden osalta ei otoksen perusteella pystytä arvioimaan, mitä arvoja ovat satunnaismuuttujat γ h, h = m + 1, m + 2,..., H. Tästä seuraa, että kokonaissumman Y SΩ paras lineaarinen harhaton ennuste ŶS Ω on muotoa Ŷ SΩ = m N h H Y ih + N h Ȳ, (2.53 h=1 i=1 h=m+1
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 11 missä Nh i=1 Y ih m h=1 Ȳ = m h=1 N h. (2.54 Vastaavasti keskiarvon ȲΩ paras lineaarinen harhaton ennuste ryväsotannan tilanteessa on muotoa ( Ȳ Ω = 1 m N h H Y ih + N h Ȳ. (2.55 N h=1 i=1 h=m+1 Esimerkki 2.7. Yrityksellä 15 eri kaupungissa myyntiorganisaatio siten, että työntekijöitä jokaisessa kaupungissa on seuraavanlaisesti. Kaupunki: A B C D E F G O P Q R S T U V Työntekijöitä: 5 4 3 6 10 3 8 12 9 6 8 7 11 14 13 Yritys päätti selvittää kuinka paljon myyntiorganisaatiossa on sairaspoissaolopäiviä vuoden aikana ryväsotannan avulla. Yritys valitsi satunnaisesti otokseen 5 kaupungin myyntiorganisaationsa ja kysyin otokseen valikoituneen organisaation työntekijöiltä heidän vuosittaista sairaspoissaolopäivämääräänsä. Kyselyn tuloksena saatiin seuraava aineisto: Kaupunki: B F O P U Poissaolopäivien yhteismäärä organisaatiossa: 45 37 84 82 78 Laske kokonaissumman Y SΩ ja keskiarvon ȲΩ parhaat lineaariset harhattomat ennusteet.
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 12 Ryväsotannan tilanteessa kokonaissummaan liittyvän ennustevirheen varianssi Y SΩ ŶS Ω on muotoa ( H ( N h H Var (Y SΩ ŶSΩ = Var Y ih + Var N h Ȳ (2.56 = σ 2 H h=m+1 i=1 h=m+1 ( N h + h=m+1 Nh 2 H m h=1 N + ϕ 2 h h=m+1 ( Nh 2 + N h 2( m h=1 N h 2 ( m h=1 N h 2, ja siten riippuu tuntemattomista parametreista σ 2 ja ϕ 2. Näitä parametreja voidaan nyt estimoida otoksen kokonaiskeskiarvon Ȳ ja otokseen valikoituneiden klustereiden Ω 1, Ω 2,..., Ω m otoskeskiarvojen ȲΩ 1, ȲΩ 2,..., ȲΩ m avulla. Käsinlaskettaessa estimaattoreina voidaan käyttää (harhaisia otossuureita Nh m ˆσ 2 h=1 i=1 = (Y ih ȲΩ h 2 m h=1 N, (2.57 h ( m ˆϕ 2 h=1 = N h(ȳω h Ȳ ( 2 ˆσ 2 m m m h=1 N. (2.58 h Estimaattien ˆσ 2 ja ˆϕ 2 avulla voidaan muodostaa ennustevirheen varianssille estimaatti ja sitä kautta kokonaissummalle Y SΩ erilaisia luottamusväliennusteita. Lisäksi estimaattien avulla saadaan satunnaismuuttujille γ h muodostettua arviot ˆγ h = 2 ˆϕ2 ˆσ 2 + 2 ˆϕ 2 (ȲΩ h Ȳ, h = 1, 2,..., m. (2.59 Käytännössä näitä estimaatteja ja sitten ennusteita kannattaa laskea ohjelmistojen avulla ja ennen kaikkea lineaarisiin sekamalleihin liittyvien ohjelmistojen avulla. 2.7 Ennuste yleisessä klusteroituneessa tilanteessa Tarkastellaan kokonaissumman Y SΩ ennustamista klusteroidussa tilanteessa, kun otos koostuu yleisemmin havainnoista eri klustereista. Oletetaan siis, että äärellinen populaatio Ω jakautuu klustereiden Ω = Ω 1 Ω 2 Ω H, (2.60 missä jokaisen klusterin Ω h, h = 1, 2,..., H, oletetaan olevan äärellinen ja muotoa Ω h = {Y 1h, Y 2h,..., Y (Nh 1h, Y Nh h}. (2.61 Lisäksi oletetaan siis, että klusterin Ω h tilanteessa satunnaismuuttujan Y ih, (i = 1, 2,..., N h, (ehdollisen odotusarvon, varianssin ja kovarianssin oletetaan olevan muotoa E(Y ih = µ + γ h, (2.62 Var(Y ih = σ 2 + ϕ 2, (2.63 Cov(Y ih, Y i h = ϕ 2. (2.64
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 13 missä µ, σ 2 ja ϕ 2 ovat tuntemattomia parametreja ja γ h on tuntematon satunnaismuuttuja, josta oletetaan, että E(γ h = 0, (2.65 Var(γ h = ϕ 2. (2.66 Yleisessä tilanteessa voidaan ajatella, että otos poimitaan siten, että otokseen valikoituneet havainnot ovat tulleet klustereista Ω 1, Ω 2,..., Ω m. Verrattuna ryväsotantaan, yleisessä tilanteessa oletetaan, että otokseen ei valikoidu koko klusteria vaan osajoukko havaintoja klustereista Ω 1, Ω 2,..., Ω m. Jos havaintojen Y ih indeksiä i voidaan populaatiossa satunnaisesti sekoittaa, otoksen voidaan katsoa koostuvan havainnoista missä siten että = Ω 1 Ω 2 Ω m, (2.67 Ω h = {Y 1h, Y 2h,..., Y nh h}, n h N h, h = 1, 2,..., m, (2.68 Ω h = Ω h {Y (nh +1h, Y (nh +2h,..., Y (Nh 1h, Y Nh h} (2.69 = Ω h Ω h#. (2.70 Täten kokonaissumma Y SΩ voidaan kirjoittaa muodossa m H Y SΩ = Y S + Y SΩh# + Y SΩh = h=1 h=m+1 m n h Y ih + h=1 i=1 m N h h=1 i=n h +1 Y ih + H N h h=m+1 i=1 Y ih, (2.71 missä m Nh h=1 i=n h +1 Y ih ja H Nh h=m+1 i=1 Y ih ovat tuntemattomia summia, joiden arvoja otoksen perusteella ennustetaan. Koska otos ei sisällä havaintoyksiköitä klustereista Ω m+1, Ω m+2,..., Ω H, niin näiden klustereiden osalta ei otoksen perusteella pystytä arvioimaan, mitä arvoja ovat satunnaismuuttujat γ h, h = m + 1, m + 2,..., H. Sen sijaan satunnaismuuttujien γ h, h = 1, 2,..., m arvoja pystytään arvioimaan ja siten käyttämään hyväksi summan m h=1 ennustamiseen. Kokonaissumman Y SΩ (empiirinen paras lineaarinen harhaton ennuste Ŷ SΩ onkin muotoa Nh i=n h +1 Y ih Ŷ SΩ = m n h m H Y ih + (N h n h (ˆµ + ˆγ h + ˆµ N h, (2.72 h=1 i=1 h=1 h=m+1 missä nh i=1 Y ih m h=1 ˆµ = m h=1 n, (2.73 h ˆγ h = 2 ˆϕ2 ˆσ 2 + 2 ˆϕ 2 (ȲΩ h Ȳ, h = 1, 2,..., m, (2.74 kun estimaatit ˆσ 2 ja ˆϕ 2 muodostettu suurimman uskottavuuden estimoinnin avulla.
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 14 Esimerkki 2.8. Tukkimäntyjä ostava suuryritys on huolissaan, vastaako heidän metsänomistajilta kaupahetkellä ostamansa puun määrä todellista tehtaalle saapuvaa tukkimännyn määrää. Yritys halusi ennustaa, kuinka paljon kuukauden aikana hankituista puista tulee hävikkiä/ekstraa. Yritys teki kuukauden aikana alueittain alla olevan taulukon verran puukauppoja. Alue: E-Suomi K-Suomi Savo-Karjala Kymi-Savo E-P.maa Kainuu-P.maa Lappi Kauppoja: 51 43 36 65 37 21 14 Lisäksi Etelä-Suomen, Keski-Suomen ja Etelä-Pohjanmaan 15 kaupoista tehtiin tarkat mittaukset mitä oli hävikkin/ekstran määrä tilavuutena. Alla on esitetty estimointi- ja ennustustuloksia kun ajatellaan, että alueella voi mahdollisesti klusteroida koko populaation. > puukauppa<-read.table("puukauppa.txt", header=true, sep="\t", dec="." > malli<-lme(y~1, random=~1 alue, data=puukauppa > summary(malli Linear mixed-effects model fit by REML Data: puukauppa AIC BIC loglik 205.0069 210.3595-99.50345 Random effects: Formula: ~1 alue (Intercept Residual StdDev: 1.49723 2.118325 Fixed effects: y ~ 1 Value Std.Error DF t-value p-value (Intercept -0.6447593 0.9202989 42-0.7005977 0.4874 Standardized Within-Group Residuals: Min Q1 Med Q3 Max -2.2686855-0.7307881 0.1154520 0.6822853 1.9523176 Number of Observations: 45 Number of Groups: 3 > ranef(malli (Intercept Etelä-Pohjanmaa 1.5142485 Etelä-Suomi -0.2491344 Keski-Suomi -1.2651141 (a Mitä ovat estimaatit ˆσ 2 ja ˆϕ 2 ja ˆµ? (b Mitä ovat satunnaisefektien γ h ennusteet eri alueilla? (c Laske kokonaissumman Y SΩ paras lineaarinen harhatton ennuste.
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 15 2.8 Systemaattinen otanta Tarkastellaan lopuksi vielä kokonaissumman ennustamista systeemaattisen otannan tilanteessa. Systemaattista otantaa voidaan käyttää silloin kun äärellinen populaatio voidaan laittaa järjestykseen jonkin tekijän tai indeksin suhteen. Systemaattisessa otannassa äärellisestä populaatiosta Ω poimitaan otos käyttäen hyödyksi populaation jokaiseen havaintoyksikköön Y i liittyvää indeksiarvoa i. Eli systemaattisen otannan tilanteessa äärellisen populaation Ω = {Y 1, Y 2,..., Y N 1, Y N } = {Y i }, i = 1,..., N, (2.75 indeksillä i on nyt merkitystä ja siten havaintoyksiköitä ei saa indeksin i suhteen satunnaisesti sekoittaa otantaa poimittaessa. Käytännössä systemaattisessa otannassa otanta poimitaan seuraavasti. 1. Päätetään otoskoko n. 2. Lasketaan niin sanottu poimintaväli k = N n. 3. Arvotaan satunnaisesti jokin kokonaisluku k 0 indeksin i arvoista i = 1, 2,..., N. 4. Lasketaan indeksiarvot i k =..., k 0 3k, k 0 2k, k 0 k, k 0, k 0 + k, k 0 + 2k, k 0 + 3k,... kunnes lukuja i k on otoskoon n verran. 5. Jos 1 i k N, niin silloin asetetaan, että i k = i k. Jos i k < 1, niin silloin asetetaan, että i k = N + i k. Jos i k > N, niin silloin asetetaan, että i k = i k N. 6. Poimitaan otokseen ne havaintoyksiköt Y i, joiden indeksi i saa arvot i k. Systemaattista otantaa käytetään usein silloin kun havaintoyksiköistä on olemassa jokin indeksirekisteri tai havaintoyksiköt Y i toteutuvat esimerkiksi ajan tai paikan suhteen, missä silloin indeksi i kuvaa aikaa tai paikkaa. Yleensä systemaattista otantaa käytetään otannan teknisen helpouden vuoksi ja siten systemaattisesta otannan avulla otantaan käytetyt kustannukset pysyvät alhaisina. Esimerkki 2.9. Leipomon tuotantolinja tuottaa päivän aikana 800 leipää. Leipomossa haluttaisiin ennustaa, paljonko tuotantolinjan päivän aikana tuottamat leivät kokonaisuudessaan painavat. Otoskooksi on päätetty valita 20 leipää. Kuinka poimisit otoksen systemaattista otantamenetelmää käyttäen. Mitkä tuotantolinjan päivän leivistä valitsisit otokseesi?
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 16 hyvänlaa- Systemaattisen otannan avulla saadaan muodostettu kokonaissummalle Y SΩ tuinen ennuste, jos voidaan olettaa, että on voimassa E(Y i = µ, (2.76 Var(Y i = σ 2. (2.77 Näiden oletusten vallitessa kokonaissumman Y SΩ paras lineaarinen harhaton ennuste on tuttuun tyyliin muotoa ŶS Ω = NȲ ja kokonaissumman Y SΩ 100(1 α prosentin luottamusväliennuste on muotoa ] [Ŷ SΩ t α/2 Var(Y SΩ ŶSΩ ; ŶSΩ + t α/2 Var(Y SΩ ŶS Ω ( ( N 2 = [Nȳ t α/2 ˆσ ; ] N 2 n N 2 Nȳ + t α/2 ˆσ 2 n N, (2.78 missä t α/2 on sellainen luku, jolle on voimassa todennäköisyys kun t noudattaa Studentin t-jakaumaa vapausastein n 1. P (t > t α/2 = α/2, (2.79 Jos kuitenkin havainnot Y i ovat indeksinsä i suhteen jotenkin riippuvaisia, niin silloin voi käydä niin, että otokseen valikoituneille havaintoyksiköille Y ik on voimassa E(Y ik = µ + γ k, (2.80 Var(Y ik = σ 2 + ϕ 2, (2.81 missä γ k on satunnaismuuttuja, jolle on voimassa E(γ k = 0, (2.82 Var(γ k = ϕ 2. (2.83 Eli jos havainnot Y i ovat indeksinsä i suhteen jotenkin riippuvaisia, voi systemaattisen otannan takia otos muodostaa oman klusterinsa, johon liittyy oma satunnaisefekti γ k. Tämän satunnaisefektin γ k suurutta on mahdotonta arvioida yhden otoksen perusteella. Tästä puolestaan seuraa, että kokonaissumman ennusteesta ŶS Ω tulee (N nγ k verran harhainen ennuste, jos otokseen valikoituneille havaintoyksiköille Y ik on voimassa E(Y ik = µ+γ k. Täten systemaattisen otannan tilanteessa tulisi miettiä tarkkaan, ovatko havainnot Y i indeksinsä i suhteen jotenkin riippuvaisia ja seuraako mahdollisesta riippuvuudesta, että otoksen havainnot mahdollisesti muodostavat oman klusterinsa. = {Y ik } (2.84 Jos voidaan heti sanoa, että systemaattinen otanta muodostaa otoksesta oman klusterinsa johon liittyy oma satunnaisefektinsä γ k, niin on syytä miettiä mahdollisia muita otantamenetelmiä otoksen poimiseen. Jos taas on epäselvää, aiheuttaako systemaattinen otantamenetelmä klusterointia, voidaan tätä yrittää tutkia poimimalla useampia (pienemmän kokoisia systemaattisia otoksia eri k 0 :lla arvoilla.
kevät 2013 Ositettu ja klusteroitunut populaatio Y131B & Y132B - Jarkko Isotalo 17 Esimerkki 2.10. Leipomon tuotantolinja tuottaa päivän aikana 800 leipää. Leipomossa haluttaisiin ennustaa, paljonko tuotantolinjan päivän aikana tuottamat leivät kokonaisuudessaan painavat ja jatkossa seurata pysyykö päivätuotos samana päivästä toiseen. Leipomossa ollaan ajateltu, että päivittäistä kokonaissummaa ennustettaisiin tuotantolinjalta poimitun systemaattisen 20 leivän otannan avulla. Leipomossa ollaan kuitenkin huolissaan, olisivatko systemaattisella otoksella saatavat havainnot klusteroituneita. Tätä varten leipomo päättää tutkia systemaattisen otannan klusteroituneisuutta ottamalla yhden päivän aikana neljällä eri k 0 arvolla 20 havainnon systemaattisen otannan ja tarkastella aineiston pohjalta ovatko satunnaisefektit γ h arvot merkitsevän suuria eri k 0 tilanteissa. > leipa<-read.table("sysotanta.txt", header=true, sep="\t", dec="." > leipa k0 y 1 232 773 2 232 800 3 232 808 4 232 805. 78 769 776 79 769 816 80 769 807 > library(nlme > malli<-lme(y~1, random=~1 k0, data=leipa > summary(malli Linear mixed-effects model fit by REML Data: leipa AIC BIC loglik 656.0174 663.1257-325.0087 Random effects: Formula: ~1 k0 (Intercept Residual StdDev: 0.001220034 14.40192 Fixed effects: y ~ 1 Value Std.Error DF t-value p-value (Intercept 797.55 1.610183 76 495.3163 0 Standardized Within-Group Residuals: Min Q1 Med Q3 Max -2.051810287-0.749900193-0.003471741 0.673521504 2.253172359 Number of Observations: 80 Number of Groups: 4 > ranef(malli (Intercept 232-2.942300e-07 421-2.152903e-08 660-2.798773e-07 769 5.956364e-07 (a Mitä ovat estimaatit ˆσ 2 ja ˆϕ 2? (b Mitä ovat satunnaisefektien γ h ennusteet eri klustereissa k 0 = 232, 421, 660, 769? (c Arvioi tulosten perusteella, onko systemaattinen otos klusteroitunut.
Tilastollisia malleja 1 & 2: Otanta 27.3.2013 Y131B & Y132B Jarkko Isotalo 3 Otantatutkimus lineaarisessa regressiomallissa 3.1 Ennuste origon kautta kulkevassa regressiomallissa Lineaaristen regressiomallien tilanteessa muuttujan Y arvojen oletetaan riippuvan odotusarvonsa suhteen lineaarisesti selittävästä muuttujasta X. Lineaarisissa regressiomalleissa täten ajatellaan, että äärellisen populaation Ω = {Y 1, Y 2,..., Y N 1, Y N } (3.1 jokaisen havaintoyksikön i arvon Y i oletetaan riippuvan selittävän muuttujan arvosta x i. Selittävän muuttujan arvoja x i kohdellaan regressiomalleissa ei-satunnaisina arvoina (siksi merkitty pienellä x i :llä, jotka ovat joko kontroloitavissa tai vähintään havaittavissa ennen kuin satunnaismuuttujan Y i arvo realisoituu. Yksinkertaisimmillaan selittävän muuttujan X voidaan ajatella vaikuttavan Y :n arvoihin siten, että satunnaismuuttujien Y i, (i = 1, 2,..., N j, odotusarvojen ja varianssien oletetaan olevan muotoa E(Y i = β 1 x i, (3.2 Var(Y i = σ 2, (3.3 missä β 1 ja σ 2 ovat tuntemattomia parametreja. Yllä olevaa mallia voidaan kutsua origon kautta kulkevaksi lineaariseksi regressiomalliksi ja se voidaan toisaalta kirjoittaa muodossa Y i = β 1 x i + ε i, (3.4 missä ε i on tuntematon satunnainen virhetermi, josta oletetaan, että E(ε i = 0, Var(ε i = σ 2 kaikille i = 1, 2,..., N. Lisäksi regressiomallissa oletetaan, että satunnaismuuttujat Y i ovat toisistaan riippumattomia. Nyt siis satunnaismuuttujan Y i superpopulaatiojakauma vaihtelee sen mukaan mikä x i on arvoltaan. Olkoon = {Y 1, Y 2,..., Y n 1, Y n }, n < N. (3.5 nyt otos populaatiosta Ω. Tällöin kokonaissumma Y SΩ on muotoa Y SΩ = n N N Y i + Y i = Y S + β 1 x i + ε i i=1 i=n+1 i=n+1 N = Y S + β 1 x i + i=n+1 i=n+1 N ε i. (3.6
kevät 2013 Otantatutkimus regressiomallissa Y131B & Y132B - Jarkko Isotalo 2 Kokonaissumman ennustetta muodostettaessa käytössä on myös otokseen valikoituneisiin havaintoihin Y i liittyvät selittävän muuttujan arvot x i. Havaittujen havaintoparien (y i, x i avulla parametrille β 1 voidaan muodostaa niin sanottu pienimmän neliösumman estimaatti n i=1 ˆβ 1 = x iy i n, (3.7 i=1 x2 i ja siten parametrin β 1 pienimmän neliösumman estimaattori on muotoa n i=1 ˆβ 1 = x iy i n. (3.8 i=1 x2 i Toisaalta kokonaissummassa Y SΩ satunnaisvirhetermien summa N i=n+1 ε i on sellainen tuntemattomien riippumattomien satunnaismuuttujien summa, jonka suuruutta ei otoksen perusteella pystytä mitenkään ennustamaan. Täten voidaankin osoittaa, että kokonaissumman Y SΩ paras lineaarinen harhaton ennuste on muotoa Ŷ SΩ = n Y i + ˆβ 1 i=1 N i=n+1 x i, (3.9 ja kun käytössä otoksen realisoituneet arvot y i, niin numeerinen ennuste on muotoa n Ŷ SΩ = y i + ˆβ N n ( ( n i=1 x N iy i i=n+1 x i 1 x i = y i +. (3.10 i=1 i=n+1 i=1 n i=1 x2 i Origon kautta kulkevan regressiomallin tilanteessa kokonaissumman ennuste ŶS Ω voidaan muodostaa, jos otoksen lisäksi on summan N i=n+1 x i, eli käytännössä kokonaissumman N i=1 x i, arvo on ennustehetkellä tiedossa. Ennustevirheen Y SΩ ŶS Ω varianssi on nyt muotoa ( N N Var(Y SΩ ŶS Ω = Var β 1 x i + ε i ˆβ 1 = Var ( N i=n+1 i=n+1 i=n+1 ε i + Var ( ˆβ 1 N i=n+1 N i=n+1 x i x i = σ 2 (N n + ( N (3.11 i=n+1 x i n i=1 x2 i Varianssiparametrin estimaattina voidaan origon kautta kulkevassa regressiomallissa käyttää harhatonta estimaattoria n ˆσ 2 i=1 = (Y i ˆβ 1 x i 2, (3.12 n 1 ja täten kokonaissumman Y SΩ 100(1 α prosentin luottamusväliennuste on muotoa ] [Ŷ SΩ z α/2 Var(Y SΩ ŶSΩ ; ŶSΩ + z α/2 Var(Y SΩ ŶS Ω n = y i + ˆβ 1 i=1 N i=n+1 x i ± z α/2 ˆσ2 (N n + ( N i=n+1 x i n i=1 x2 i 2 2, (3.13.
kevät 2013 Otantatutkimus regressiomallissa Y131B & Y132B - Jarkko Isotalo 3 missä z α/2 on sellainen luku, jolle on voimassa todennäköisyys kun Z N(0, 1. P (Z > z α/2 = α/2, (3.14 Esimerkki 3.1. Yhdysvalloissa metsäarvioija halusi arvoida kuinka paljon metsäalueella on Black Cherry puiden (Prunus serotina puumassaa, kun tiedetään, että alueella yhteensä 86 Black Cherry puuta. Jokaisesta alueen puusta metsänarvioija on mitannut rinnankorkeudelta ympärysmitta x i, jonka myös uskotaan korreloivan puun tilavuuden Y i kanssa. Alueen puiden ympärysmitan kokonaissummaksi metsänarvioija sai 86 i=1 x i = 3483 (cm. Lisäksi metsänarvioija poimi puista 6 puun otoksen ja mittasi tarkkaan näistä ympärysmitan (cm lisäksi tilavuuden (m3. Otoksen osalta aineisto on seuraavanlainen: ympärysmitta x i : 28.19, 36.07, 27.94, 45.72, 52.32, 28.96 tilavuus y i : 0.64, 0.90, 0.44, 1.44, 2.18, 0.61 Oletetaan nyt, että metsäalueen yksittäisen puun tilavuus Y i riippuu ympärysmitasta x i seuraavasti: E(Y i = β 1 x i, Var(Y i = σ 2, missä β 1 ja σ 2 ovat tuntemattomia parametreja. (a Muodosta aineiston perusteella pienimmän neliösumman estimaatti ˆβ1. (b Muodosta aineiston perusteella harhaton estimaatti ˆσ 2. (c Muodosta paras lineaarinen harhaton ennuste kokonaissummalle Y SΩ. (d Muodosta 80 % luottamusväliennuste kokonaissummalle Y SΩ.
kevät 2013 Otantatutkimus regressiomallissa Y131B & Y132B - Jarkko Isotalo 4 3.2 Ennuste suhdepopulaatiomallin tilanteessa Otantatutkimuksissa usein käytetty regressiomalli on niin sanottu suhdemalli, missä satunnaismuuttujien Y i (i = 1, 2,..., N oletetaan riippuvan x i arvosta seuraavasti: E(Y i = β 1 x i, (3.15 Var(Y i = σ 2 x i, (3.16 missä β 1 ja σ 2 ovat tuntemattomia parametreja. Suhdemalli eroaa origon kautta kulkevasta regressiomallista siis siten, että varianssin Var(Y i oletetaan myös riippuvan x i arvosta. Suhdemalli voidaan kirjoittaa muodossa Y i = β 1 x i + ε i, (3.17 missä ε i on tuntematon satunnainen virhetermi, josta oletetaan, että E(ε i = 0, Var(ε i = σ 2 x i kaikille i = 1, 2,..., N. Suhdemallissa oletetaan myös, että satunnaismuuttujat Y i ovat toisistaan riippumattomia. Suhdemallin tilanteessa kokonaissumma Y SΩ on edelleen muotoa Y SΩ = n N N Y i + Y i = Y S + β 1 x i + ε i i=1 i=n+1 i=n+1 N = Y S + β 1 x i + i=n+1 i=n+1 N ε i. (3.18 Nyt kuitenkin parametrin β 1 estimoinnissa kannattaa ottaa huomioon varianssin Var(Y i riippuvuus selittävän muuttujan arvosta x i. Otoksesta saatavien havaittujen havaintoparien (y i, x i avulla parametrille β 1 voidaan muodostaa niin sanottu painotettu pienimmän neliösumman estimaatti ˆβ 1 = n i=1 y i n i=1 x i = n i=1 y i/n n i=1 x i/n = ȳ x, (3.19 ja siten parametrin β 1 painotettu pienimmän neliösumman estimaattori on muotoa n i=1 ˆβ 1 = Y n i n i=1 x = i=1 Y i/n n i i=1 x i/n = Ȳ. (3.20 x Suhdemallin tilanteessa ei myöskään ole mahdollista ennustaa satunnaisvirhetermien summan N i=n+1 ε i arvoa. Kokonaissumman Y SΩ parhaalla lineaarisella harhattomalla ennusteella onkin suhdemallin tilanteessa esitysmuodot Ŷ SΩ = = n Y i + ˆβ 1 i=1 n i=1 Y i/n n i=1 x i/n N i=n+1 n i=1 x i = x i + Ȳ x n i=1 Y i + Ȳ x N i=n+1 N i=n+1 x i = Ȳ x x i N x i = ˆβ 1 i=1 N i=1 x i. (3.21 Kokonaissumman ennusteeseen tarvitaan suhdemallissakin selittävien muuttujien summan N i=1 x i tietämistä ennustehetkellä.
kevät 2013 Otantatutkimus regressiomallissa Y131B & Y132B - Jarkko Isotalo 5 Ennustevirheen Y SΩ ŶS Ω varianssi on suhdemallin tilanteessa muotoa ( N N N Var(Y SΩ ŶS Ω = Var β 1 x i + ε i ˆβ 1 x i = Var ( N i=n+1 i=n+1 i=n+1 ε i + Var ( ˆβ 1 N i=n+1 i=n+1 x i = σ 2 N i=n+1 x i + ( N i=n+1 x i n i=1 x i (3.22 Varianssiparametrin harhaton estimaatti suhdemallin tilanteessa on muotoa n ˆσ 2 i=1 = (Y i ȳ x x i 2 /x i, (3.23 n 1 ja täten suhdemallin tilanteessa kokonaissumman Y SΩ 100(1 α prosentin luottamusväliennuste on muotoa ] [Ŷ SΩ z α/2 Var(Y SΩ ŶSΩ ; ŶSΩ + z α/2 Var(Y SΩ ŶS Ω = ȳ x N x i ± z α/2 ˆσ2 i=1 N i=n+1 x i + ( N i=n+1 x i n i=1 x i 2 2.. (3.24 Esimerkki 3.2. Yhdysvalloissa metsäarvioija halusi arvoida kuinka paljon metsäalueella on Black Cherry puiden (Prunus serotina puumassaa, kun tiedetään, että alueella yhteensä 86 Black Cherry puuta. Jokaisesta alueen puusta metsänarvioija on mitannut rinnankorkeudelta ympärysmitta x i, jonka myös uskotaan korreloivan puun tilavuuden Y i kanssa. Alueen puiden ympärysmitan kokonaissummaksi metsänarvioija sai 86 i=1 x i = 3483 (cm. Lisäksi metsänarvioija poimi puista 6 puun otoksen ja mittasi tarkkaan näistä ympärysmitan (cm lisäksi tilavuuden (m3. Otoksen osalta aineisto on seuraavanlainen: ympärysmitta x i : 28.19, 36.07, 27.94, 45.72, 52.32, 28.96 tilavuus y i : 0.64, 0.90, 0.44, 1.44, 2.18, 0.61 Oletetaan nyt, että metsäalueen yksittäisen puun tilavuus Y i riippuu ympärysmitasta x i seuraavasti: E(Y i = β 1 x i, Var(Y i = σ 2 x i, missä β 1 ja σ 2 ovat tuntemattomia parametreja. (a Muodosta aineiston perusteella pienimmän neliösumman estimaatti ˆβ1. (b Muodosta aineiston perusteella harhaton estimaatti ˆσ 2. (c Muodosta paras lineaarinen harhaton ennuste kokonaissummalle Y SΩ. (d Muodosta 80 % luottamusväliennuste kokonaissummalle Y SΩ.
kevät 2013 Otantatutkimus regressiomallissa Y131B & Y132B - Jarkko Isotalo 6 3.3 Ennuste lineaarisen regressiomallin tilanteessa Yhden selittävän muuttujan lineaarisessa regressiomallissa satunnaismuuttujien Y i (i = 1, 2,..., N oletetaan riippuvan x i arvosta seuraavasti: E(Y i = β 0 + β 1 x i, (3.25 Var(Y i = σ 2, (3.26 missä β 0, β 1 ja σ 2 ovat tuntemattomia parametreja. Lineaarinen regressiomalli voidaan kirjoittaa muodossa Y i = β 0 + β 1 x i + ε i, (3.27 missä ε i on tuntematon satunnainen virhetermi, josta oletetaan, että E(ε i = 0, Var(ε i = σ 2 kaikille i = 1, 2,..., N. Lineaarisessa regressiomallissa oletetaan myös, että satunnaismuuttujat Y i ovat toisistaan riippumattomia. Lineaarisen regressiomallin tilanteessa kokonaissumma Y SΩ on muotoa Y SΩ = n N N Y i + Y i = Y S + (β 0 + β 1 x i + ε i i=1 i=n+1 i=n+1 N = Y S + β 0 (N n + β 1 x i + i=n+1 i=n+1 N ε i. (3.28 Otoksesta saatavien havaittujen havaintoparien (y i, x i avulla parametreille β 0 ja β 1 voidaan muodostaa niin sanotut pienimmän neliösumman estimaatit ˆβ 0 = ȳ ˆβ 1 x, (3.29 ˆβ 1 = n i=1 (x i x(y i ȳ n i=1 (x i x 2 = s xy s 2 x = s 2 y s 2 x r xy, (3.30 missä s 2 x ja s2 y ovat otoksesta lasketut otosvarianssit muuttujille X ja Y, sekä r xy on havaintoparien (y i, x i perusteella laskettu otoskorrelaatiokerroin. Lineaarisen regressiomallin tilanteessa ei myöskään ole mahdollista ennustaa satunnaisvirhetermien summan N i=n+1 ε i arvoa. Kokonaissumman Y SΩ parhaalla lineaarisella harhattomalla ennusteella on lineaarisen regressiomallin tilanteessa esitysmuodot Ŷ SΩ = = n Y i + ˆβ 0 (N n + ˆβ 1 i=1 N i=n+1 x i n Y i + (ȳ ˆβ 1 x (N n + ˆβ 1 i=1 N i=n+1 ( n = Y i + Nȳ nȳ N ˆβ 1 x + n ˆβ 1 x + ˆβ N 1 = N i=1 x i i=n+1 ( ȳ + ˆβ 1 ( x Ω x, (3.31 x i
kevät 2013 Otantatutkimus regressiomallissa Y131B & Y132B - Jarkko Isotalo 7 missä siis x Ω on koko populaatiosta Ω muuttujan X arvoista laskettu keskiarvo. Täten kokonaissumman ennusteeseen tarvitaan lineaarisessa regressiomallissakin selittävien muuttujien summan N i=1 x i tietämistä ennustehetkellä. Ennustevirheen Y SΩ ŶS Ω varianssi on lineaarisen regressiomallin tilanteessa muotoa ( N N N Var(Y SΩ ŶS Ω = Var β 0 (N n + β 1 x i + ε i ˆβ 0 (N n ˆβ 1 x i = Var ( N i=n+1 ε i + Var i=n+1 ( i=n+1 ˆβ 0 (N n + ˆβ 1 = σ 2 (N n + (N n 2 Var( ˆβ 0 + ( N i=n+1 + 2(N n ( 1 = σ 2 (N n + σ 2 (N n 2 n + x2 SS x N i=n+1 x i x i 2 Var( ˆβ 1 ( N + σ 2 i=n+1 ( N i=n+1 x i Cov( ˆβ 0, ˆβ 1 i=n+1 x i SS x 2 ( σ 2 2(N n N i=n+1 x i x, (3.32 SS x missä SS x = n (x i x 2 = (n 1s 2 x. (3.33 i=1 Varianssiparametrin harhaton estimaatti lineaarisen regressiomallin tilanteessa on muotoa ˆσ 2 = n i=1 (Y i ( ˆβ 0 + ˆβ 1 x i 2. (3.34 n 2 Kokonaissumman Y SΩ 100(1 α prosentin luottamusväliennuste saadaan muodostettua välillä ] [Ŷ SΩ z α/2 Var(Y SΩ ŶSΩ ; ŶSΩ + z α/2 Var(Y SΩ ŶS Ω, missä Var(Y SΩ ŶS Ω saadaan lineaarisen regressiomallin tilanteessa muodostettua kun varianssiparametri σ 2 korvataan estimaatilla ˆσ 2 ennustevirheen varianssissa. Esimerkki 3.3. Yhdysvalloissa metsäarvioija halusi arvoida kuinka paljon metsäalueella on Black Cherry puiden (Prunus serotina puumassaa, kun tiedetään, että alueella yhteensä 86 Black Cherry puuta. Jokaisesta alueen puusta metsänarvioija on mitannut rinnankorkeudelta ympärysmitta x i, jonka myös uskotaan korreloivan puun tilavuuden Y i kanssa. Alueen puiden ympärysmitan kokonaissummaksi metsänarvioija sai 86 i=1 x i = 3483 (cm. Lisäksi metsänarvioija poimi puista 6 puun otoksen ja mittasi
kevät 2013 Otantatutkimus regressiomallissa Y131B & Y132B - Jarkko Isotalo 8 tarkkaan näistä ympärysmitan (cm lisäksi tilavuuden (m3. Otoksen osalta aineisto on seuraavanlainen: ympärysmitta x i : 28.19, 36.07, 27.94, 45.72, 52.32, 28.96 tilavuus y i : 0.64, 0.90, 0.44, 1.44, 2.18, 0.61 Oletetaan nyt, että metsäalueen yksittäisen puun tilavuus Y i riippuu ympärysmitasta x i seuraavasti: E(Y i = β 0 + β 1 x i, Var(Y i = σ 2, missä β 0, β 1 ja σ 2 ovat tuntemattomia parametreja. (a Muodosta aineiston perusteella pienimmän neliösumman estimaatit ˆβ 0 ja ˆβ 1. (b Muodosta aineiston perusteella harhaton estimaatti ˆσ 2. (c Muodosta paras lineaarinen harhaton ennuste kokonaissummalle Y SΩ. (d Muodosta 80 % luottamusväliennuste kokonaissummalle Y SΩ.