Kertausluento. Vilkkumaa / Kuusinen 1

Kertausluento Vilkkumaa / Kuusinen 1

Kokeellinen tutkimus Kokeellisessa tutkimuksessa on tavoitteena selvittää, miten erilaiset käsittelyt vaikuttavat tutkimuksen kohteisiin - Esim. miten lämpötila ja reaktioaika vaikuttavat kemiallisen prosessin vasteeseen Käsittelyllä tarkoitetaan tutkimuksen kohteiden olosuhteiden aktiivista, suunnitelmallista ja järjestelmällistä muuttamista. - Valitaan lämpötilalle ja reaktioajalle tutkittavat tasot (esim. 30 ja 40 min, 70 ja 90 C) ja havainnoidaan prosessin vastetta eri tasokombinaatioilla (30 min, 70 C), (30 min, 90 C), (40 min, 70 C), (40 min, 90 C) Vilkkumaa / Kuusinen 2

Kontrolloidut kokeet Kokeesta ei voida tehdä luotettavia johtopäätöksiä, ellei koe ole kontrolloitu: (i) Kokeessa on vertailtava vähintään kahden erilaisen käsittelyn vaikutuksia - Esim. lääketutkimuksessa yhdelle ryhmälle lääkettä, toiselle plaseboa (ii) Käsittelyiden kohdistamisessa on käytettävä satunnaistusta - Koehenkilöt jaetaan satunnaisesti lääke- ja plasebo-ryhmiin, ts. eliminoidaan systemaattisten erojen vaikutus (iii) Kokeessa on tehtävä riittävästi koetoistoja - Vähennetään satunnaisvaihtelun vaikutusta Vilkkumaa / Kuusinen 3

Tilastolliset mallit Jotta kokeista voidaan tehdä johtopäätöksiä, tulee tehdä oletuksia siitä, millaisella tilastollisella mallilla tutkimuksen kohteen havaittuja arvoja voidaan kuvata Tilastollisella mallilla tarkoitetaan satunnaismuuttujaa (jonka ilmentymiä havainnot ovat) ja sen todennäköisyysjakaumaa Esim. suomalaisen miehen pituuden (y cm) tilastollinen malli voisi olla y = 180 + ε, ε N(0, 7 2 ) Vilkkumaa / Kuusinen 4

Kurssilla käsitellyt asiat 1/2 Estimointi: Arvioidaan havaintoaineiston perusteella jotakin havainnot generoineen jakauman parametria. Tilastollinen testaus: Testataan hypoteeseja koskien havainnot generoineen jakauman muotoa tai parametreja. Lineaarinen regressio: Oletetaan tutkimuksen kohteen havaittujen arvojen riippuvan lineaarisesti selittävistä muuttujista - estimoidaan tämän lineaarisen mallin parametrit Varianssianalyysi: Tutkitaan ryhmäkohtaisten odotusarvojen eroja, kun aineisto on ryhmitelty k:n tekijän suhteen - k = 1 yksisuuntainen varianssianalyysi - k = 2 kaksisuuntainen varianssianalyysi Vilkkumaa / Kuusinen 5

Kurssilla käsitellyt asiat 2/2 Varianssianalyysin erikoistapaukset: - Kullakin tekijällä vain kaksi tasoa (matala ja korkea) 2 k -faktorikokeet ja osafaktorikokeet - Aineisto jaettu ryhmiin kahden tekijän suhteen, joista toinen ei kiinnostava satunnaistettu täydellinen lohkoasetelma - Aineisto jaettu ryhmiin kolmen tekijän suhteen, joista kaksi eivät kiinnostavia latinalaisten neliöiden koeasetelma Vastepintamenetelmä: Halutaan etsiä sellainen tekijöiden tasokombinaatio, jolla vaste on optimaalinen (mahdollisimman suuri / pieni). Optimin löytämiseksi estimoidaan vasteen ja tekijöiden välistä riippuvuutta kuvaava vastepinta. Vilkkumaa / Kuusinen 6

Estimointi Havaintoja generoivan tilastollisen mallin parametreja ei usein tunneta, vaan ne on estimoitava havaintoaineistosta - Esim. tiedetään x N(μ, σ 2 ), mutta ei μ:n arvoa - Estimoidaan odotusarvoa μ harhattoman estimaattorinsa ˉX = 1 n n i x i avulla Estimaatille on useimmiten hyvä muodostaa luottamusväli, jossa parametrin todellisen arvon voi riittävän suurella todennäköisyydellä olettaa olevan Luottamustason 1 α luottamusväli sisältää parametrin todellisen arvon todennäköisyydellä 1 α. Vilkkumaa / Kuusinen 7

Esimerkki: Normaalijakauman odotusarvon luottamusväli, kun varianssi σ 2 on tuntematon Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos normaalijakaumasta N(μ, σ 2 ) ja olkoon ˉX = havaintojen aritmeettinen keskiarvo s 2 = havaintojen harhaton otosvarianssi n = havaintojen lukumäärä t α/2 = t-jakauman arvo merkitsevyystasolla α/2 ja vapausasteilla (n 1). Normaalijakauman odotusarvon μ luottamusväli luottamustasolla (1 α) on muotoa ( ˉX t α/2 ) s s, ˉX + tα/2 n n Vilkkumaa / Kuusinen 8

Tilastollinen testaaminen Tilastollisen testin suorittaminen sisältää seuraavat vaiheet: (1) Asetetaan testin hypoteesit. (2) Valitaan testisuure. (3) Valitaan merkitsevyystaso α ja muodostetaan sitä vastaava hylkäysalue. (4) Poimitaan otos niin, että yleisen hypoteesin oletukset pitävät. (5) Lasketaan testisuureen arvo havainnoista. (6) Tehdään päätös nollahypoteesin hylkäämisestä Vilkkumaa / Kuusinen 9

Esimerkki: testi perusjoukon odotusarvolle, kun otos on normaalijakaumasta Yleinen hypoteesi H : (1) X i N(μ, σ 2 ), i = 1,..., n (2) Satunnaismuuttujat X 1,..., X n ovat riippumattomia Nollahypoteesi H 0 : μ = μ 0 Vaihtoehtoiset hypoteesit H 1 : μ > μ 0, H 1 : μ < μ 0, H 1 : μ μ 0 Testisuure T = ˉX μ 0 s/ n Testisuureen jakauma: jos nollahypoteesi pätee, T t(n 1). Vilkkumaa / Kuusinen 10

Johtopäätöksen tekeminen - α vs. p-arvo Nollahypoteesin hylkäys- ja hyväksymisalueet määrittyvät valitun merkitsevyystason α perusteella Jos merkitsevyystasoa ei haluta etukäteen kiinnittää, voidaan johtopäätös tehdä havaintoaineiston määrittämän p-arvon perusteella Testin p-arvo on todennäköisyys sille, että saataisiin vielä saatuakin poikkeuksellisempi testisuureen arvo H 0 :n pätiessä Pieni p-arvo kertoo, että saatu testisuure on H 0 :n kannalta erittäin poikkeuksellinen H 0 on syytä hylätä p-arvo onkin pienin merkitsevyystaso, jolla H 0 voidaan hylätä Vilkkumaa / Kuusinen 11

Hylkäys- ja hyväksymisvirheet Hylkäysvirhe: H 0 hylätään sen pätiessä - Hylkäysvirheen tn merkitsevyystasolla α on α Hyväksymisvirhe: H 0 hyväksytään, vaikka se ei todellisuudessa päde - Hyväksymisvirheen tn β riippuu "todellisuudesta", siis esim. parametrin θ todellisesta arvosta θ - Testin voimakkuus γ(θ ) = 1 β(θ ) on tn sille, että H 0 hylätään kun testattavan paramterin todellinen arvo on θ Vilkkumaa / Kuusinen 12

Lineaarinen regressio Oletetaan, että selitettävän muuttujan y havaitut arvot riippuvat selittävien muuttujien x 1,..., x k arvoista lineaarisesti y = β 0 + β 1 x 1 +... + β k x k + ε Lineaarisen regression tavoite on estimoida paramterit β j s.e. estimoitu regressiotaso ŷ = b 0 + b 1 x 1 +... + b k x k kulkee mahdollisimman läheltä havaittuja arvoja y Tämä tehdään minimoimalla jäännöstermien ε j neliösummaa havainnoissa j = 1,..., n, ts. PNS-menetelmällä Vilkkumaa / Kuusinen 13

Varianssianalyysihajotelma Lineaarisessa regressiossa pätee varianssianalyysihajotelma SST = SSM + SSE, missä SST = SSE = SSM = n (y j ȳ) 2 (Kokonaisvaihtelu) j=1 n (y j ŷ j ) 2 (Mallin selittämättä jättämä vaihtelu) j=1 n (ŷ j ȳ) 2 (Mallin selittämä vaihtelu) j=1 Mallin selitysaste R 2 = SSM/SST Vilkkumaa / Kuusinen 14

Lineaarinen regressio - esimerkki Vilkkumaa / Kuusinen 15

Yksisuuntainen varianssianalyysi Oletetaan, että perusjoukko voidaan jakaa k ryhmään tekijän A suhteen. Yksisuuntaisen varianssianalyysin tilastollinen malli: y ji = μ i + ε ij, ε ij N(0, σ 2 ), j = 1, 2,..., n i, i = 1, 2,..., k Testataan nollahypoteesia H 0 : μ i = μ i - Jos nollahypoteesi H 0 pätee, ryhmät voidaan yhdistää havaintojen keskimääräisiä arvoja koskevissa tarkasteluissa. - Jos nollahypoteesi H 0 ei päde, tiedetään, että muuttujan y ryhmäkohtaiset odotusarvot eroavat toisistaan ainakin kahdessa ryhmässä. Vilkkumaa / Kuusinen 16

Varianssianalyysihajotelma Yksisuuntaisessa varianssianalyysissa pätee varianssianalyysihajotelma on Neliösummat: Vapausasteet: SST = SSG + SSE, N 1 = (k 1) + (N k), H 0 :n pätiessä F = N k k 1 SSG SSE F (k 1, N k) Vilkkumaa / Kuusinen 17

Varianssianalyysitaulukko Vaihtelun SS df M S F lähde Ryhmien välinen SSG k 1 MSG = 1 k 1 SSG vaihtelu F = N k k 1 SSG SSE Ryhmien sisäinen SSE N k MSE = 1 N k SSE vaihtelu Kokonaisvaihtelu SST N 1 Vilkkumaa / Kuusinen 18

Yksisuuntainen varianssianalyysi - esimerkki Vilkkumaa / Kuusinen 19

Kontrastit Kontrastien avulla voidaan testata parivertaiua monimutkaisempia nollahypoteeseja, esim. H 0 : μ 1 + μ 2 = μ 3 + μ 4 tai H 0 : 2μ 1 = μ 2 + μ 3. Muodollisesti: parametrien μ 1, μ 2,..., μ k lineaarikombinaatio Γ = k i=1 c i μ i on kontrasti, jos k i=1 c i = 0. Kontrastia koskeva nollahypoteesi: H 0 : Γ = 0 Vilkkumaa / Kuusinen 20

F -testi kontrasteille Nollahypoteesin pätiessä testisuure F = SS C MSE F (1, N k), missä MSE = SSE/(N k) ja SS C = ( k i=1 c i ȳ i ) 2 / k i=1 c 2 i n i. SS C on kontrastin neliösumma Vilkkumaa / Kuusinen 21

Ortogonaaliset kontrastit Kontrastit Γ = k i=1 c iμ i ja Δ = k i=1 d iμ i ovat ortogonaalisia, jos k i=1 c i d i n i = 0. Jos ryhmiä on k kpl, on ortogonaalisia kontrasteja k 1 kpl k 1 kpl ortogonaalisia kontrasteja dekomponoi ryhmittelyn selittämää vaihtelua kuvaavan neliösumman k 1 osaan, joista kunkin vapausaste on 1: Neliösummat: SSG = SS C1 +... + SS Ck 1 Vapausasteet: k 1 = 1 +... + 1. Vilkkumaa / Kuusinen 22

Kaksisuuntainen varianssianalyysi Perusjoukko jaetaan ryhmiin tekijöiden A ja B suhteen siten, että tekijällä A on I ja tekijällä B on J tasoa IJ ryhmää Testataan kolmea nollahypoteesia: H AB : H A : H B : Ei yhdysvaikutusta Ei A-vaikutusta Ei B-vaikutusta Jos H AB pätee, voidaan A- ja B-vaikutuksia tarkastella erillisinä Jos myös H A ja H B pätevät, voidaan ryhmät yhdistää havaintojen keskimääräisiä arvoja koskevissa tarkasteluissa. Vilkkumaa / Kuusinen 23

Testit Kaksisuuntaiselle varianssianalyysille päätee varianssianalyysihajotelma Neliösummat SST = SSA + SSB + SSAB + SSE Vapausasteet IJK 1 = (I 1) + (J 1) + (I 1)(J 1) + IJ(K 1) Nollahypoteesin H pätiessä IJ(K 1) df( ) SS SSE F (df( ), IJ(K 1)). Vilkkumaa / Kuusinen 24

Varianssianalyysitaulukko Vaihtelun SS df M S F lähde A SSA I 1 MSA = SSA/df F A = MSA/MSE B SSB J 1 MSB = SSB/df F B = MSB/MSE AB SSAB (I 1)(J 1) MSAB = SSAB/df F AB = MSAB/MSE Jäännös SSE IJ(K 1) M SE = SSE/df Kokonais- SST IJK 1 vaihtelu Vilkkumaa / Kuusinen 25

Kaksisuuntainen varianssianalyysi - esimerkki Vilkkumaa / Kuusinen 26

2 k -faktorkokeet 2 k -faktorikoe on k-suuntaisen varianssianalyysin erikoistapaus, jossa kaikilla tekijöillä on vain kaksi tasoa, matala (-) ja korkea (+). 2 k -faktorikoetta käytetään usein tutkimuksen alkuvaiheessa, jossa tutkittavia faktoreita on yleensä paljon - 2 k -faktorikoe vaatii pienimmän mahdollisen havaintomäärän k:n tekijän vaikutusten tutkimisessa (2 k+1 kpl) - Koeasetelman erityisrakenteen takia neliösummien laskemisessa ja testien tekemisessä voidaan käyttää kontrasteja koskevia tuloksia, mikä yksinkertaistaa laskutoimituksia - Kokeen perusteella voidaan tunnistaa tärkeimmät tekijät, joiden tasojen määrää voidaan lisätä Vilkkumaa / Kuusinen 27

Yhden toiston 2 k -faktorikoe Täyden k-suuntaisen varianssianalyysin suorittamiseen tarvitaan vähintään 2 k+1 havaintoja, ts. 2 kpl kustakin ryhmästä Ottamalla vai yksi havainto kustakin ryhmästä saadaan havaintojen määrä puolitettua Tällöin vaikutuksia ei voi testata Vaikutuksia kuvaavat neliösummat voivat kuitenkin antaa osviittaa niiden merkityksellisyydestä / merkityksettömyydestä Merkittäviä vaikutuksia voidaan testata muodostamalla jäännösneliösumma merkityksettömiä vaikutuksia vastaavista neliösummista Vilkkumaa / Kuusinen 28

Esimerkki Vilkkumaa / Kuusinen 29

Yhden toiston 2 k -faktorikoe Vilkkumaa / Kuusinen 30

Yhden toiston 2 k -faktorikoe Vaikutusta B vastaavat summat pieniä asetetaan satunnaisvaihteluksi SSE = SSB + SSAB + SSBC +... + SSABCD Source SS df M S F p-value A 1870.56 1 1870.56 83.36 0.00002 C 390.06 1 390.06 17.38 0.003 D 855.56 1 855.56 38.12 0.0003 AC 1314.06 1 1314.06 58.56 0.00006 AD 1105.56 1 1105.56 49.27 0.0001 CD 5.06 1 5.06 0.2255 0.65 ACD 10.56 1 10.56 0.4706 0.51 Within 179.52 8 22.44 Total 5730.94 15 Vilkkumaa / Kuusinen 31

Osafaktorikokeet Jos voidaan olettaa, että tietyt korkeamman asteen yhdysvaikutukset ovat merkityksettömiä, on kiinnostavien vaikutusten selvittäminen mahdollista ottamalla vain 1/2, 1/4, 1/8 jne. täyden 2 k -faktorikokeen havainnoista, eli 2 k p havaintoa. Poimittavat havainnot valitaan siten, että saadusta datasta voidaan estimoida mahdollisimman hyvin päävaikutukset ja matalan asteen yhdysvaikutukset, ts. kokeen resoluutio on mahdollisimman korkea. Myöhemmässä vaiheessa merkityksellisiä tekijöitä voidaan tutkia tarkemmin uusilla koejärjestelyillä. Vilkkumaa / Kuusinen 32

2 k 1 -osafaktorikoesuunnitelman muodostaminen Korkeimman mahdollisen resoluutio 2 k 1 -osafaktorikoesuunnitelma muodostetaan seuraavasti: 1. Muodostetaan täysi faktorikoesuunnitelma (k 1):lle faktorille 2. Asetetaan k:nnen faktorin tasoiksi kussakin havainnossa sama kuin on korkeimman asteen yhdysvaikutuksen ABC (K 1) merkki: K = ABC (K 1) Vilkkumaa / Kuusinen 33

Esimerkki: 2 3 1 -koesuunnitelma Vaikutus Käsittely I A B C AB AC BC ABC a + + + + b + + + + c + + + + abc + + + + + + + + 34-1

Määrittelevä relaatio ja aliakset Kokeen määrittelevä relaatio on niiden yhdysvaikutusten joukko, jotka ovat aina korkealla (+) tasolla (esim. edellä ABC) Myös identiteettisarake on aina korkealla tasolla, jolloin I = ABC Määrittelevän relaation avulla voidaan laskea alias-vaikutukset, ts. ne, joita ei voi osafaktorikokeessa erottaa toisistaan Esim. edellä A = A ABC = A 2 BC = BC, eli A ja BC ovat aliasvaikutuksia Täten kun estimoidaan A-vaikutusta, estimoidaan oikeasti vaikutusta A + BC Tämä on se hinta, joka pienemmästä havaintomäärästä on maksettava Vilkkumaa / Kuusinen 34

Esimerkki Esim. tekijän A vaikutus: A = 1 ( (1) + ad bd + ab cd + ac bc + abcd) 24 1 1 = 1 ( 45 + 100 45 + 65 75 + 60 80 + 96) = 19.00 4 Koska A = A ABCD = A 2 BCD = BCD, estimoidaan itse asiassa vaikutusta A + BCD Vilkkumaa / Kuusinen 36

Esimerkki Vaikutus A = 19.00 B = 1.50 C = 14.00 D = 16.50 AB = 1.00 AC = 18.50 AD = 19.00 Alias-rakenne A A + BCD B B + ACD C C + ABD D D + ABC AB AB + CD AC AC + BD AD AD + BC Havainnot muodostavat merkittäville tekijöille A, C ja D yhden otoksen 2 3 -faktorikokeen. Vilkkumaa / Kuusinen 37

Vastepintamenetelmä Vastepintamenetelmässä on tavoitteena löytää se tekijöiden tasokombinaatio, joka optimoi (minimoi/maksimoi) vasteen Tämä edellyttää tekijöiden ja vasteen välisen funktionaalisen riippuvuuden eli vastepinnan estimointia Useimmiten vastepintaa voidaan riittävän hyvin estimoida 1. tai 2. asteen polynomilla: ŷ = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 ŷ = b 0 + b 1 x 1 + b 2 x 2 + b 12 x 1 x 2 + b 11 x 2 1 + b 22 x 2 2 Estimointi tehdään vastepintamenetelmällä Vilkkumaa / Kuusinen 38

Vastepintamenetelmän vaiheet 1/2 Valitaan tekijöiden korkeat ja matalat tasot sopivaksi katsotun aloituspisteen ympärillä (2 2 -faktorikoeasetelma) Siirrytään koodattuihin muuttujiin (matala taso -1, korkea +1) tekijöiden skaalaerojen tasoittamiseksi Testataan koodatussa neliössä (kulma- ja keskipistehavaintojen avulla) vastepinnan kvadraattista kaarevuutta Jos kaarevuutta ei ole, estimoidaan ensimmäisen asteen vastepinta ja lähdetään ottamaan havaintoja vastepinnan gradientin suunnassa (tai minimoitaessa sitä vastaan) sopivaksi katsotulla askelpituudella Lopetetaan, kun vaste ei enää kasva (tai minimoitaessa vähene) Vilkkumaa / Kuusinen 39

Vastepintamenetelmän vaiheet 2/2 Testataan gradienttimentetelmän antaman maksimi- tai minimivasteen ympäristössä jälleen kvadraattista kaarevuutta Jos kaarevuutta löytyy, estimoidaan toisen asteen vastepinta ottamalla lisähavaintoja ns. tähtipisteistä Määritetään ne tekijöiden tasot, jotka maksimoivat / minimoivat estimoidun vastepinnan arvon Vilkkumaa / Kuusinen 40

Satunnaistettu täydellinen lohkoasetelma Kaksisuuntaisessa varianssianalyysissa tarvitaan vähintään 2 IJ havaintoa Tarvittavien havaintojen määrää voidaan vähentää, jos toisen tekijän B (kiusatekijän) vaikutuksesta ei olla kiinnostuneita Satunnaistetussa täydellisessä lohkoasetelmassa - Jaetaan perusjoukko B:n tasojen suhteen homogeenisiin lohkoihin - Arvotaan A-käsittelyn tasot satunnaisesti tutkimuksen kohteille kunkin lohkon sisällä Satunnaistetun täydellisen lohkoasetelman nollahypoteesi: H A : Ei A-vaikutusta Jos A:lla ja B:llä on kummallakin P tasoa, tarvitaan H A :n testaamiseen vähintään P 2 < 2P 2 havaintoa Vilkkumaa / Kuusinen 42

Varianssianalyysihajotelma ja testit Satunnaistetussa täydellisessä lohkoasetelmassa pätee varianssianalyysihajotelma SST = SSA + SSB + SSE IJ 1 = (I 1) + (J 1) + (I 1)(J 1) H A :n pätiessä F A = (I 1)(J 1) I 1 SSA SSE F (I 1, (I 1)(J 1)) Vilkkumaa / Kuusinen 43

Varianssiananlyysitaulukko Vaihtelun SS df M S F lähde A SSA I 1 MSA = SSA/df F A = MSA/MSE B SSB J 1 MSB = SSB/df Jäännös SSE (I 1)(J 1) MSE = SSE/df Kokonais- SST IJ 1 vaihtelu Vilkkumaa / Kuusinen 44

Latinalaisten neliöiden koeasetelma Jos perusjoukko on ryhmitelty kolmen tekijän (A, R, C) suhteen siten, että kullakin on P tasoa, vaatisi kolmisuuntaisen varianssianalyysin suorittaminen 2 P 3 havaintoa Jos kahden tekijän (R, C) vaikutuksista ei olla kiinnostuneita, selvitään A-vaikutuksen testaamisesta P 2 havainnolla Tämä tehdään jakamalla perusjoukko R- ja C-tekijöiden tasojen kannalta homogeenisiin lohkoihin (P 2 kappaletta) Jokaisesta lohkosta poimitaan satunnaisesti yksi yksilö kokeeseen ja arvotaan A-käsittelyt ko. yksilöille siten, että A:n tasot muodostavat ns. latinalaisen neliön. Nollahypoteesi on tällöin H A : Ei käsittelyvaikutusta Vilkkumaa / Kuusinen 45

Varianssianalyysihajotelma ja testaus Latinalaisten neliöiden koeasetelmassa pätee varianssianalyysihajotelma SST = SSA + SSR + SSC + SSE P 2 1 = (P 1) + (P 1) + (P 1) + (P 2)(P 1) Nollahypoteesin pätiessä F A = (P 2)(P 1) P 1 SSA SSE F (P 1, (P 2)(P 1)) Vilkkumaa / Kuusinen 46

Varianssianalyysitaulukko Vaihtelun SS df M S F lähde A SSA P 1 MSA = SSA/df F A = MSA/MSE R SSR P 1 MSR = SSR/df C SSC P 1 MSC = SSC/df Jäännös SSE (P 2)(P 1) MSE = SSE/df Kokonais- SST P 2 1 vaihtelu Vilkkumaa / Kuusinen 47