TKK (c) Ilkka Mellin (005) Koesuunnittelu TKK (c) Ilkka Mellin (005) : Mitä opimme? Tarkastelemme tässä luvussa seuraavaa kysymystä: Miten varianssianalyysissa tutkitaan yhden tekijän vaikutusta vastemuuttujaan, kun asetelmassa on mukana kaksi kiusatekijää, joiden vaikutukset sekoittuvat kiinnostuksen kohteena olevan tekijän vaikutukseen? Esitiedot: Yksisuuntainen varianssianalyysi Kaksisuuntainen varianssianalyysi Useampisuuntainen varianssianalyysi Avainsanat Aritmeettinen keskiarvo Estimointi F-testi Interaktio Jäännösneliösumma Kiusatekijä Kokonaisvaihtelu Kolmisuuntainen varianssianalyysi Kontrollointi Latinalainen neliö Käsittely Käsittelyvaikutus Neliösumma Odotusarvo Rivivaikutus Ryhmä Ryhmäkeskiarvo Sarakevaikutus Sekoittuminen Taso Testaus Vapausaste Varianssi Varianssianalyysihajotelma Varianssianalyysitaulukko Vaste Yhdysvaikutus Yleiskeskiarvo TKK (c) Ilkka Mellin (005) 3 TKK (c) Ilkka Mellin (005) 4 Latinalaisten neliöiden koeasetelma /5 >> TKK (c) Ilkka Mellin (005) 5 Oletetaan, että kokeen tavoitteena on verrata, miten käsittelyt A, B, C, ( kpl) vaikuttavat kiinnostuksen kohteena olevan vastemuuttujan y keskimääräisiin arvoihin. Asetelmassa on kuitenkin mukana kaksi kiusatekijää R ja C, joiden vaikutus saattaa sekoittua käsittelyiden A, B, C, vaikutukseen ja saattaa jopa peittää käsittelyiden vaikutuksen alleen. Jos kiusatekijöiden R ja C vaikutusta ei pystytä kontrolloimaan, käsittelyiden vaikutuksista saatetaan tehdä täysin virheellisiä johtopäätöksiä. TKK (c) Ilkka Mellin (005) 6
TKK (c) Ilkka Mellin (005) 7 Latinalaisten neliöiden koeasetelma /5 Latinalaisten neliöiden koeasetelma 3/5 Kiusatekijöiden R ja C vaikutusta voidaan kontrolloida, jos voimme tehdä seuraavan oletuksen: Tutkimuksen kohteena oleva perusjoukko voidaan jakaa kiusatekijöiden R ja C tasojen suhteen homogeenisiin ryhmiin. Ryhmiä kutsutaan koesuunnittelussa lohkoiksi ja tavoitteena on estää lohkovaikutuksen sekoittuminen käsittelyiden vaikutukseen. Valitaan kiusatekijälle R tasot R, R,, R ja kiusatekijälle C tasot C, C,, C jolloin perusjoukko voidaan jakaa = lohkoon. TKK (c) Ilkka Mellin (005) 8 Latinalaisten neliöiden koeasetelma 4/5 Latinalaisten neliöiden koeasetelma 5/5 Latinalaisten neliöiden koeasetelmassa havainnot kerätään seuraavalla tavalla: (i) Olkoon vertailtavia käsittelyitä kpl: A, B, C, ( kpl) (ii) Jaetaan tutkimuksen kohteet = lohkoon kiusatekijöille R ja C valittujen tasojen suhteen. () Kohdistetaan jokaisessa lohkossa yksi käsittelyistä satunnaisesti yhteen tutkimuksen kohteeseen niin, että käsittelyitä vastaavat kirjaimet A, B, C, ( kpl) muodostavat ns. latinalaisen neliön. Satunnaistaminen voidaan tehdä niin, että kaikkien mahdollisten latinalaisten neliöiden joukosta arvotaan yksi neliö, jonka kirjainten järjestys määrää käsittelyiden A, B, C, ( kpl) soveltamisjärjestyksen. Huomautus: Latinalaisten neliöiden koeasetelmassa satunnaistamista on rajoitettu siinä mielessä, että kirjainten A, B, C ( kpl) on aina muodostettava latinalainen neliö. TKK (c) Ilkka Mellin (005) 9 TKK (c) Ilkka Mellin (005) 0 : Lukumäärä -matriisi on latinalainen neliö, jos sen alkioina ovat kirjaimet A, B, C, ( kpl) ja jokainen kirjain esiintyy täsmälleen kerran matriisin jokaisella rivillä ja sarakkeella. Huomautus: Samankokoisia latinalaisia neliöitä on useita kappaleita; ks. seuraavaa kalvoa. -neliöiden lukumäärä, kun =,, 3, 4, 5, 6, 7: 3 4 5 6 7 Standardineliöiden lukumäärä 4 56 9,408 6,94,080 K Neliöiden kokonaislukumäärä 576 6,80 88,85,00 6,479,49,904,000!( )! K Standardineliöksi kutsutaan latinalaista neliötä, jonka. rivin ja. sarakkeen kirjaimet ovat aakkosjärjestyksessä. TKK (c) Ilkka Mellin (005) TKK (c) Ilkka Mellin (005)
TKK (c) Ilkka Mellin (005) 3 : Esimerkkejä Esimerkkejä latinalaisista neliöistä, kun =,, 3, 4, 5, 6: 3 3 4 4 5 5 6 6 A D C E B F A D B E C A B D C B A E C F D ABC D A C B E B A B C A D C E D F A B BC A C B E D A AB CDB A DC F B E A C A B B E A C D D A C B F B A D C E E C D A B E F B A D C Standardineliö nollahypoteesi Käsittelyiden vaikutusta koskeva nollahypoteesi on muotoa H A : Ei käsittelyvaikutusta analyysi tarkoittaa nollahypoteesin H A testaamista, kun asetelmassa on mukana kaksi kiusatekijää R ja C. TKK (c) Ilkka Mellin (005) 4 havainnot ja niiden tilastollinen malli y = vastemuuttujan arvo, kun i. rivillä ja j. sarakkeessa on käytetty käsittelyä k i =,,,, j =,,,, k =,,, Käytetystä otantamenetelmästä seuraa, että havainnot y voidaan olettaa riippumattomiksi (ja siten myös korreloimattomiksi) satunnaismuuttujiksi. Oletetaan, että havainnot y ovat normaalijakautuneita: y N(µ, σ ) i =,,,, j =,,,, k =,,, tilastollisen mallin parametrointi /3 tilastollinen malli voidaan parametroida seuraavalla tavalla: y = µ + α i + β j + τ k + ε i=,,,, j =,,,, k =,,, jossa jäännöstermit ε ovat riippumattomia ja normaalijakautuneita: ε N(0, σ ) i=,,,, j =,,,, k =,,, TKK (c) Ilkka Mellin (005) 5 TKK (c) Ilkka Mellin (005) 6 tilastollisen mallin parametrointi /3 Ei-satunnaiset vakiot µ, α i, β j, τ k i =,,,, j =,,,, k =,,, ja jäännösvarianssi σ ovat latinalaisten neliöiden koeasetelman tilastollisen mallin parametreja. Mallin parametrien on toteutettava seuraavat ehdot: α = β = τ = 0 i j k i= j= k= tilastollisen mallin parametrointi 3/3 Mallia koskevista oletuksista seuraa, että E( y ) = µ + α i + β j + τ k i =,,,, j =,,,, k =,,, ja D( y ) = σ i=,,,, j =,,,, k =,,, TKK (c) Ilkka Mellin (005) 7 TKK (c) Ilkka Mellin (005) 8
TKK (c) Ilkka Mellin (005) 9 mallin parametrit ja mallia koskeva nollahypoteesi nollahypoteesi H A voidaan ilmaista mallin parametrien avulla seuraavassa muodossa: H A : τ = τ = = τ k = 0 >> TKK (c) Ilkka Mellin (005) 0 Havainnot y = vastemuuttujan arvo, kun i. rivillä ja j. sarakkeessa on käytetty käsittelyä k, i =,,,, j =,,,, k =,,, Rivikeskiarvot, sarakekeksiarvot ja käsittelykeskiarvot Määritellään havaintoarvojen y rivikeskiarvot: y = y, i=,,, Määritellään havaintoarvojen y sarakekeskiarvot: Määritellään havaintoarvojen y käsittelykeskiarvot: y = y, k =,,, ii k j = k = y = y, j =,,, i ji i = k = i = j = TKK (c) Ilkka Mellin (005) TKK (c) Ilkka Mellin (005) Kokonaiskeskiarvo oikkeamat keskiarvoista Jos havainnot yhdistetään yhdeksi otokseksi, yhdistetyn otoksen havaintoarvojen yleis- eli kokonaiskeskiarvo on y I J K y i = j = k = = jossa = = N on yhdistetyn otoksen havaintojen kokonaislukumäärä. Kirjoitetaan identiteetti y y = ( y y) + ( yi ji y) + ( yiik y) + ( y y yi ji yiik + y) perustuvat näiden sulkulausekkeilla esitettyjen poikkeamien neliösummille. TKK (c) Ilkka Mellin (005) 3 TKK (c) Ilkka Mellin (005) 4
TKK (c) Ilkka Mellin (005) 5 Kokonaisneliösumma Määritellään havaintoarvojen kokonaisvaihtelua kuvaava kokonaisneliösumma: SST = ( y y ) i= j= k= Jos kaikki havainnot yhdistetään yhdeksi otokseksi, saadun yhdistetyn otoksen varianssi on s y = SST jossa = = N on yhdistetyn otoksen havaintojen kokonaislukumäärä. Rivivaikutuksen, sarakevaikutuksen ja käsittelyvaikutuksen neliösummat Määritellään rivivaikutusta kuvaava neliösumma: SSR = ( y y ) i= Määritellään sarakevaikutusta kuvaava neliösumma: SSC = ( y y ) i ji j= Määritellään käsittelyvaikutusta kuvaava neliösumma: SSA = ( y y ) iik k = TKK (c) Ilkka Mellin (005) 6 Jäännösneliösumma Varianssianalyysihajotelma Määritellään jäännösneliösumma: I J K ( i ji iik ) i= j= k= SSE = y y y y + y Neliösummat SST, SSR, SSC, SSA, SSE toteuttavat varianssianalyysihajotelman SST = SSR + SSC + SSA + SSE ja neliösummiin liittyvät vapausasteiden lukumäärät toteuttavat yhtälön = (I ) + (J ) + (K ) + ( )( ) TKK (c) Ilkka Mellin (005) 7 TKK (c) Ilkka Mellin (005) 8 Testi käsittelyvaikutukselle Rivivaikutus Määritellään F-testisuure ( )( ) SSA FA = SSE jossa SSA on käsittelyvaikutusta kuvaava neliösumma ja SSE on jäännösvaihtelua kuvaava neliösumma. Jos nollahypoteesi H A : Ei käsittelyvaikutusta pätee, niin FA F(( ),( )( )) Suuret testisuureen F A arvot johtavat nollahypoteesin hylkäämiseen. ( )( ) SSR FR = SSE jossa SSR on rivivaikutusta kuvaava neliösumma ja SSE on jäännösvaihtelua kuvaava neliösumma. Suureen F R suurten arvojen tulkitaan tavallisesti indikoivan sitä, että lohkoihin jako on ollut tarpeellinen. TKK (c) Ilkka Mellin (005) 9 TKK (c) Ilkka Mellin (005) 30
TKK (c) Ilkka Mellin (005) 3 Sarakevaikutus Varianssianalyysitaulukko / ( )( ) SSR FC = SSE jossa SSC on rivivaikutusta kuvaava neliösumma ja SSE on jäännösvaihtelua kuvaava neliösumma. Suureen F C suurten arvojen tulkitaan tavallisesti indikoivan sitä, että lohkoihin jako on ollut tarpeellinen. Varianssianalyysin tulokset esitetään tavallisesti varianssianalyysitaulukon muodossa: Vaihtelun lähde A R C Kokonaisvaihtelu Jäännösvaihtelu SS SSA SSR SSC SSE SST df ( )( ) MS MSA = SSA/df MSR = SSR/df MSC = SSC/df MSE = SSE/df F F A = MSA/MSE TKK (c) Ilkka Mellin (005) 3 Varianssianalyysitaulukko / Varianssianalyysitaulukon neliösummat toteuttavat yhtälön SST = SSA + SSR + SSC + SSE Yhtälö on varianssianalyysihajotelma. Varianssianalyysitaulukon neliösummien vapausasteet toteuttavat yhtälön = ( ) + ( ) + ( ) + ( )( ) Latinalaisten neliöiden koeasetelma ja kolmisuuntainen varianssianalyysi analyysi tapahtuu samalla tavalla kuin kolmisuuntaisessa varianssianalyysissa seuraavassa tilanteessa: Jokaisessa solussa on vain yksi havainto, jolloin ryhmien sisäistä vaihtelua ei ole ja interaktiovaikutukset sekoittuvat jäännösvaihteluun. TKK (c) Ilkka Mellin (005) 33 TKK (c) Ilkka Mellin (005) 34 Havainnot >> y = vastemuuttujan arvo, kun i. rivillä ja j. sarakkeessa on käytetty käsittelyä k, i =,,,, j =,,,, k =,,, TKK (c) Ilkka Mellin (005) 35 TKK (c) Ilkka Mellin (005) 36
TKK (c) Ilkka Mellin (005) 37 Kokonaissumma Rivisummat, sarakesummat ja käsittelysummat Määritellään havaintoarvojen y kokonaissumma: T = y i= j= k= Määritellään havaintoarvojen y rivisummat: T = y, i=,,, j= k= Määritellään havaintoarvojen y sarakesummat: T = y, j =,,, i ji i= k= Määritellään havaintoarvojen y käsittelysummat: T = y, k =,,, ii k i= j= TKK (c) Ilkka Mellin (005) 38 Havaintoarvojen neliöiden summa Kokonaisvarianssin laskeminen Määritellään havaintoarvojen y neliöiden summa: y i= j= k= Havaintoarvojen y kokonaisvarianssi saadaan kaavalla s y T = I= j= j= TKK (c) Ilkka Mellin (005) 39 TKK (c) Ilkka Mellin (005) 40 Kokonaisneliösumman laskeminen Kokonaisneliösumma SST voidaan laskea kaavalla SST = y T i= j= k= Rivivaikutuksen, sarakevaikutuksen ja käsittelyvaikutusten neliösummien laskeminen Rivivaikutusta kuvaava neliösumma saadaan kaavalla SSR = T T i= Sarakevaikutusta kuvaava neliösumma saadaan kaavalla SSC = T T i ji j= Käsittelyvaikutusta kuvaava neliösumma saadaan kaavalla SSA = T T iik k = TKK (c) Ilkka Mellin (005) 4 TKK (c) Ilkka Mellin (005) 4
TKK (c) Ilkka Mellin (005) 43 Jäännösneliösumman laskeminen Jäännösneliösumma SSE saadaan varianssianalyysihajotelman nojalla kaavalla SSE = SST SSA SSR SSC