Simuloinnin strategisia kysymyksiä

Samankaltaiset tiedostot
Simuloinnin strategisia kysymyksiä

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Johdatus regressioanalyysiin. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Harjoitus 9: Excel - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Mat Tilastollisen analyysin perusteet, kevät 2007

2. Teoriaharjoitukset

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Korrelaatiokertoinen määrittely 165

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Simuloinnin taktisia kysymyksiä

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

4.0.2 Kuinka hyvä ennuste on?

Identifiointiprosessi

Yleistetyistä lineaarisista malleista

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Osafaktorikokeet. Heliövaara 1

Simuloinnin taktisia kysymyksiä

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Todennäköisyyden ominaisuuksia

Väliestimointi (jatkoa) Heliövaara 1

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Sovellettu todennäköisyyslaskenta B

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Osafaktorikokeet. Kurssipalautetta voi antaa Oodissa Kuusinen/Heliövaara 1

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Moniulotteisia todennäköisyysjakaumia

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Lohkoasetelmat. Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lohkoasetelmat. Kuusinen/Heliövaara 1

Dynaamiset regressiomallit

Sovellettu todennäköisyyslaskenta B

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

3.6 Su-estimaattorien asymptotiikka

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Osa 2: Otokset, otosjakaumat ja estimointi

2 Osittaisderivaattojen sovelluksia

Batch means -menetelmä

pitkittäisaineistoissa

Yleinen lineaarinen malli

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Sovellettu todennäköisyyslaskenta B

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

1 Kertaus. Lineaarinen optimointitehtävä on muotoa:

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Harha mallin arvioinnissa

MS-C1340 Lineaarialgebra ja

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

9. laskuharjoituskierros, vko 12-13, ratkaisut

1 Rajoittamaton optimointi

Numeeriset menetelmät TIEA381. Luento 12. Kirsi Valjus. Jyväskylän yliopisto. Luento 12 () Numeeriset menetelmät / 33

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Harjoitukset 2 : Monimuuttujaregressio (Palautus )

MATEMATIIKAN KOE, PITKÄ OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Vastepintamenetelmä. Heliövaara 1

Olkoon R S otosavaruuksien R ja S karteesinen tulo: Satunnaismuuttujien X ja Y järjestetty pari (X, Y) määrittelee kaksiulotteisen satunnaismuuttujan:

Mat Tilastollisen analyysin perusteet, kevät 2007

Kanta ja Kannan-vaihto

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

MS-C1340 Lineaarialgebra ja

Mat Tilastollisen analyysin perusteet, kevät 2007

Yhtälöryhmät 1/6 Sisältö ESITIEDOT: yhtälöt

Identifiointiprosessi

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Transkriptio:

Simuloinnin strategisia kysymyksiä Timo Tiihonen Tietotekniikan laitos 2010

Simuloinnin strategisia kysymyksiä Miten toimitaan, kun halutaan tietää enemmän kuin yhden simulointimallin tulos. Miten tulos riippuu mallin syöttötiedoista. Miten tulos riippuu mallin rakenteellisista vaihtoehdoista. Miten parametrien epävarmuus vaikuttaa tuloksen luotettavuuteen. Mikä systeemivariantti tai parametrikombinaatio antaa parhaan tuloksen. Miten kysymyksiin vastataan systemaattisemmin kuin tekemällä runsaasti kokeita ja vertailemalla tuloksia silmämääräisesti (graaen ja yhteenvetojen avulla).

Metamallinnus Metamallinnuksessa Kiinnitetään yksinkertainen malliluokka selittämään tutkittavaa ilmiötä. Sovitetaan apumalli eri simulointikokeista saatuun dataan. Tutkitaan selittääkö apumalli havainnot. Tarvitaanko kaikkia apumallin muuttujia. Tuotetaan pieni malli, joka selittää havainnot.

Formaali metamallinnus Todellinen systeemi voidaan kuvata funktiolla y = f 0 (V 1, V 2,...), missä, f 0 on tuntematon ja vain osa muuttujista V i tunnetaan. Simulointimalli on muotoa y = f 1 (z 1,..., z k, R 0 ), jossa funktio f 1 tunnetaan implisiittisesti (evaluoidaan simulointikoodilla), R 0 kuvaa satunnaislukujen siemenarvoa.

Formaali metamallinnus Etsittävä metamalli on yleensä muotoa y = q 1 β i x i + e, i=0 missä x i :t ovat tunnettuja funktioita z j :stä (potensseja, logaritmeja, jne). (Tarvittaessa myös y voi olla muunnos oikeasta tuloksesta). Tällaista mallia kutsutaan regressiomalliksi, x i :t ovat regressiomuuttujia ja β i :t regressiokertoimia. e on nollakeskiarvoinen stokastinen virhe.

Regressioanalyysi Regressioanalyysissä suoritetaan n (n q) koetta eri z k :den arvokombinaatioilla. Tällöin myös x j :den arvot vaihtelevat. Merkitään X ij = x j kokeessa i, i = 1,..., n, j = 0,..., q 1. (X i0 = 1, i). X = {X ij } ij. Kokeiden tuloksia merkitään vektorilla Y = {y i } i, i = 1,..., n. Tavoitteena on määrätä kertoimet β = {β l } l, l = 0,..., q 1. Yleensä yhtälö Y = X β ei ole ratkeava (jos n > q). Etsitään ns. PNS-ratkaisu β, joka minimoi virheen Y X β 2, β = (X t X ) 1 X t Y. Koska Y on satunnaismuuttuja, myös β on satunnaissuure.

Regressioanalyysi Millainen malli on hyvä ja miten se määrätään: Tarvitaanko kaikki muuttujat x i (onko β i 0). Selittävätkö x i :t tuloksen (onko Y X β pieni). Miten luotettavia ovat β:t. Miten β:t löydetään tehokkaasti ja luotettavasti. Analysoidaan kertoimien määräämistä tapauksessa, jossa malli on tarkka. Ts. annetuille X, y i = (X β) i + e i, jollekin β, e i :t riippumattomia N(0, σ 2 ) muuttujia. Siis, kokeet ovat riipumattomia ja Var(y) = σ 2 kaikissa koepisteissä.

Regressioanalyysi Tällöin ˆβ = (X t X ) 1 X t Y on harhaton estimaatti β:lle. β:n komponentit ovat keskenään korreloituneita Cov(β) = Cov(β i, β j ) ij = (X t X ) 1 X t Cov(Y )[(X t X ) 1 X t ] t = (X t X ) 1 σ 2 koska Cov(Y ) = σ 2 I. Yksittäisen koepisteen varianssi σ 2 voidaan määrätä toistamalla yksittäisiä kokeita riittävän usein tai tekemällä n >> q koetta, jolloin n ˆσ 2 (y i (X = ˆβ) i ) 2. i=1 n q

Regressioanalyysi Miten tunnistaa tarpeettomat muuttujat x? Muodostetaan aluksi kaikki potentiaaliset regressiomuuttujat (z j :t, z 2 j :t, z i z j :t, jne). Tehdään n koetta (n > 2q). Poistetaan x i :t, joille β i 0. Lasketaan uudet β:t käyttäen jo suoritettuja kokeita (samat y :n arvot, mutta matriisissa X vähemmän sarakkeita).

Oletukset Onko tehty oletus y = X β + e, e:t riippumattomia ja N(0, σ 2 ) realistinen. Jos koepisteet valitaan sopivasti ja valitaan riittävän rikas joukko regressiomuuttujia x, perusoletus y = X β on OK. Riippumattomuus voidaan taata valitsemalla riippumattomat satunnaislukujonot eri kokeisiin (jos näin halutaan). Havaintoarvojen normaalisuus pätee yleensä, jos simuloinnit ovat riittävän pitkiä. Varianssia ei käytännössä ole mahdollista vakioida koepisteiden välillä. Varianssin vaihtelujen huomioimiseksi jokainen koepiste on uusittava useaan kertaan, jotta varianssi voidaan estimoida.

Riippuvat kokeet Jos koepisteet ovat keskenään riippuvia (samat satunnaisluvut), myös kovarianssi on estimoitava. Jos tehdään m toistoa jokaiselle kokeelle, kovarianssille saadaan estimaatti 1 ˆσ ij = m(m 1) m (y il ȳ i )(y jl ȳ j ). Regressiokertoimet määrätään yleistetystä PNS-tehtävästä l=1 min β (y X β) t (Cov(y)) 1 (y X β) jonka ratkaisun kovarianssimatriisi on Cov(β) = (X t (Cov(y)) 1 X ) 1

Riippuvat kokeet Miten yhteiset satunnaisluvut vaikuttavat. Tarkastellaan yksinkertaisinta regressiomallia y = β 0 + β 1 x. Voidaan olettaa, että kokeessa x = 0 ja (merkintöjen helpottamiseksi) ȳ = 0. Oletetaan, että varianssi on vakio (σ 2 ) jokaisessa koepisteessä. Tällöin PNS-estimaatit ovat ja ˆβ 0 = ȳ ˆβ 1 x. ˆβ 1 = i (x i x)(y i ȳ) i (x i x) 2 = i x i y i i x 2 i

Riippuvat kokeet Merkitään a i = P x i, jolloin ˆβ j x2 1 = i a i y i. j Jos kokeet riippumattomia, Var( ˆβ 1 ) = i a2 i Var(y i) = σ 2 i a2 i. Jos kokeet ovat riippuvia, Var(A t Y ) = ACov(Y )A t, Var( ˆβ 1 ) = σ 2 ai 2 + a i a j Cov(y i, y j ) i i j Nyt i j a i a j < 0. Jos Cov(y i, y j ) on ei-negatiivinen i, j, ˆβ 1 :n varianssi on pienempi, kuin riippumattomille kokeille. Positiivinen korrelaatio saadaan mm. käyttämällä samoja satunnaislukuja eri koepisteissä. Vastaavasti Var( ˆβ 0 ) on suurempi, jos kokeilla on positiivinen korrelaatio.

Mallin validointi Regressiomallin rakentaminen ja validointi etenevät seuraavasti Määritetään mallin yleinen muoto (y = X β + e), Määrätään mallin kertoimet (ˆβ = (X t X ) 1 X t y). Testataan mallin ennustuskykyä. Suoritetaan uusi koe pisteessä x n+1 ja verrataan tulosta y n+1 ennusteeseen x t n+1 ˆβ. Testisuureen z n+1 = y n+1 x t n+1 ˆβ Var(y n+1 ) + Var( ˆβx n+1 ) tulisi noudattaa N(0, 1) jakaumaa. Jos z n+1 liian suuri, regressiomalli hylätään. Yleensä kertoimien β määräämiseen käytetään input muuttujien äärimmäisiä arvoja, testaamiseen puolestaan keskimääräisiä arvoja. (Paljastaa kvadraattisen riippuvuuden).

Mallin validointi Toinen suosittu tapa on ristiin validointi. Jätetään vuorotellen yksi koe huomioimatta mallia kalibroitaessa ja ennustetaan sen tulos. Saadaan n eri validointitestiä. Jos riittävän moni testi menee läpi, hyväksytään malli. Kun malli on validoitu, voidaan testata, mitkä yhteisvaikutukset ovat merkittäviä (vastaava β poikkeaa merkittävästi nollasta). Poistamalla muut yhteisvaikutukset saadaan pienempi (vähemmän kertoimia/tuntemattomia) malli, joka selitää havainnot. Jos malli ei ole validi, sitä voidaan joko täydentää (korkeamman asteen termeillä ja yhteisvaikutuksilla) tai muokata (muuttamalla regressiomuuttujia).

Mallin validointi Esimerkki: haetaan mallia jonosysteemin odotusajalle w palveluajan s ja saapumisajan a funktiona. Malli w = β 0 + β 1 s + β 2 a ei ole luonteva (odotusaika kasvaa oikeasti rajatta jos s ylittää a:n). as Sopivampi malli on esim. w = (β 0 ) + aβ 1 + β 2. Tässä w kasvaa rajatta kun s lähestyy a:ta. a s

Koesuunnittelu Koesuunnittelun (Experiment design) tavoite on määrittää koejärjestely, jolla konstruoidaan tehokkaasti ja luotettavasti sopiva regressiomalli selittämään todellista systeemiä/simulointimallia. Alunperin kehitetty vaativia, pitkäkestoisia ja ulkoisista olosuhteista riippuvia koejärjestelyjä varten (esim. kasvinjalostuskokeet). Simulointikokeiden yhteydessä koesuunnittelu on periaatteessa helppoa. Kaikkia koeparametreja voi hallita täydellisesti. Jokainen koe(piste) on tarvittaessa toistettavissa. Yksittäisen kokeen vaatima aika on yleensä kohtuullisen lyhyt.

Koesuunnittelu Tavoitteena on sovittaa malli y = q i=1 β i x i käyttäen n (n q) koetta. Minimiehto on, että q q matriisi X t X on kääntyvä. Muuten koepisteet ovat vapaasti valittavissa. Jos regressiomuuttujat ovat simulointimallin parametrien potensseja, tuloja jne, kaikkia x:n arvoja ei voi varioida vapaasti toisista riippumatta. Tekijää, jonka arvoa varioidaan itsenäisesti koesarjan aikana, kutsutaan faktoriksi. Tasolla puolestaan tarkoitetaan faktorin mahdollista arvoa (koesarjassa). Yksittäisen faktorin osalta lineaarisen riippuvuuden havaitseminen edellyttää kahta tasoa, kvadraattisen kolmea jne.

Koesuunnittelu Jos meillä on k faktoria, i:nnellä faktorilla L i tasoa, täydellisen mallin määrääminen edellyttää (kaikkine yhteisvaikutuksineen) L 1 L 2... L k kerrointa/koetta, mikä yleensä on liikaa, jos vaikuttavia tekijöitä (faktoreita) on paljon. Koesuunnittelulla pyritään siihen, että Halutut vaikutukset voidaan määrätä luotettavasti. Kokeiden määrää minimoidaan jättämällä vähäisiksi arvioituja yhteisvaikutuksia määrittämättä. Yhteisvaikutukset eivät sekoita päävaikutusten arviointia. Havaittujen vaikutusten luotettavuus on suuri (kerrointen kovarianssimatriisi on pieni).

Koesuunnittelu Kaksi äärimmäistä lähestymistapaa ovat: yksi faktori kerrallaan (yhteensä 1 + i (L i 1) koetta, joilla saadaan päävaikutukset, mutta yhteisvaikutuksia ei pyritä hallitsemaan mitenkään. Kaikki faktori-taso kombinaatiot (täydellinen koe, joka on kallis ja antaa kaiken tarvittavan tiedon). Näiden väliin sijoittuvat menettelyt kuuluvat koesuunnittelun piiriin.

Esimerkki Tarkastellaan yksinkertaista tapausta, jossa kaikilla faktoreilla on kaksi tasoa. Ts vain lineaariset efektit (ja niiden yhteisvaikutukset) esiintyvät mallissa. Yleensä tasoja merkitään + ja - (+1 ja 1 riippumatta siitä, mitä arvoja oikea faktori saa (reaalinen, kokonaisluku, looginen)). Tarkastellaan esimerkkinä kolmen faktorin mallia, y = β 0 + 3 i=1 β i x i.

Esimerkki Yksi faktori kerrallaan koejärjestely voi olla esim. Koe x 1 x 2 x 3 1 2 + 3 + 4 + Faktorin j vaikutusta voi arvioida laskemalla estimaatin ˆβ j = (y j+1 y j )/2. (Oletettiin faktorien tasoiksi +1 ja 1). Jos lineaarinen malli on validi (ei yhteisvaikutuksia), estimaatti on harhaton E( ˆβ j ) = 1 2 (E(y j+1) E(y j )) = β j.

Esimerkki Jos kokeet ovat riippumattomia ja y i :n varianssi on σ 2, Var( ˆβ j ) = σ 2 /2. Jos malli sisältääkin yhteisvaikutuksia (y = β 0 i β i x i + i j β ij x i x j, estimaatti on harhainen. Koe x 1 x 2 x 3 x 1 x 2 x 2 x 3 x 3 x 1 x 1 x 2 x 3 1 + + + 2 + + + 3 + + + 4 + + + E( ˆβ 1 ) = β 1 β 13 β 12 (+β 123 )

Esimerkki Tekemällä kaikki faktori-taso kombinaatiot Koe x 1 x 2 x 3 x 1 x 2 x 2 x 3 x 3 x 1 x 1 x 2 x 3 1 + + + 2 + + + 3 + + + 4 + + + 5 + + + 6 + + + 7 + + + 8 + + + + + + + teemme kaksi kertaa enemmän työtä.

Esimerkki Jotta kaikki informaatio tulee käytettyä, estimoimme ˆβ j = x ij y j /n i Koska matriisille X pätee x ij = 0 j, saamme i x ij x il = 0, j q i E( ˆβ j ) = 1 x ij E(y i ) n i = 1 x ij (β 0 + n i l β l x il ) = β j

Esimerkki Vastaavasti varianssi on Var( ˆβ j ) = 1 x 2 n 2 ij Var(y i) = σ 2 /n i Kolmen faktorin tapauksessa varianssi pieneni neljäsosaan kaksinkertaisella työllä, joten täysi koe on tehokkaampi kuin faktoreittain tehty. Lisäksi yhteisvaikutukset eivät aiheuta harhoja (ja ne voidaan jopa ratkaista).

Esimerkki Miten samaan tehokkuuteen päästään muilla kuin täysillä kokeilla. Tehdään ns valikoitu koe (2 3 1 ) koe. Valitaan täydestä kokeesta ne, joille x 1 x 2 x 3 = +1. Ts suoritetaan kokeet Koe x 1 x 2 x 3 x 1 x 2 x 2 x 3 x 3 x 1 x 1 x 2 x 3 2 + + + 3 + + + 5 + + + 8 + + + + + + +

Esimerkki Päävaikutuksille saadaan estimaatit samalla tavalla kuin täydessä kokeessa ˆβ j = x ij y j /n i Estimaatin varianssi Var( ˆβ) = σ 2 /4 on pienempi kuin yksi faktori kerrallaan kokeessa, vaikka työmäärä on sama. Jos yhteisvaikutukset ovat merkittäviä, aiheuttavat ne harhan päävaikutuksiin. Esimerkiksi E( ˆβ 1 ) = β 1 + β 23.

2 k p - kaaviot Edellä valitsimme neljä (q + 1) koetta kahdeksasta (2 q ) mahdollisesta. Yleisessä tapauksessa (suuremmille q) tämä voidaan tehdä hyvin monella tavalla. Miten valinnalla voidaan hallita malliin jääviä harhoja. Esimerkissä valittiin kokeet, joissa x 1 x 2 x 3 = 1. Tällöin kolmen muuttujan yhteisvaikutus samaistuu vakiotekijään x 0 ja aiheuttaa vastaavan harhan kertoimeen β 0. Vastaavasti x 1 ja tulo x 2 x 3 samaistuvat (kuten mikä tahansa päävaikutus kaikkien muiden faktorien yhteisvaikutukseen).

2 k p - kaaviot Jos faktoreita on enemmän, valitsemalla osakokeet, joissa kaikkien faktorien tulo saa vakioarvon, kokeiden määrä puolittuu ja päävaikutukset samaistuvat kaikkien muiden faktorien yhteisvaikutukseen. (Eivät siis sekoitu esim. kahden faktorin yhteisvaikutuksiin). Puolet täydestä kokeesta on yleensä vielä liikaa, joten kokeiden määrää halutaan rajoittaa enemmän. Yleinen menettely on ns 2 k p kokeiden konstruointi. Näissä valitaan p yhteisvaikutusta, jotka samaistetaan vakiotapaukseen. (Edellä p = 1 ja samaistettavana kaikkien faktorien yhteisvaikutus.) Samaistettavia yhteisvaikutuksia kutsutaan kaavion generaattoreiksi.

2 k p - kaaviot Esimerkiksi, jos q = 5, tarvitsemme minimissään n = q + 1 = 6 < 2 q 2 koetta. Tällöin päävaikutusten ratkaisemiseksi voimme luoda kaavion, jossa on kaksi vakiotapaukseen samaistettavaa yhteisvaikutusta. Nämä voidaan valita monella tavalla. Jos valitaan 1 = x 1 x 2 x 3 = x 1 x 4 x 5, seuraa, että samaistetaan myös mm. x 1 = x 2 x 3 = x 4 x 5, x 2 = x 1 x 3, jne. Jos voimme perustellusti olettaa, että jokin yhteisvaikutus on pieni ja toisaalta haluamme saada luotettavan arvion tietylle päävaikutukselle, voimme valita samaistettavat vaikutukset sopivasti.

2 k p - kaaviot Jos halutaan välttää kahden muuttujan yhteisvaikutusten sekoittuminen päävaikutuksiin, kokeita on tehtävä enemmän kuin q + 1. Tarkastellaan tapausta q = 5 ja luodaan 2 5 1 koe samaistamalla x 1 x 2 x 3 x 4 x 5 vakioon. Tällöin päävaikutukset samaistuvat neljän faktorin yhteisvaikutuksiin ja kahden faktorin yhteisvaikutukset kolmen faktorin yhteisvaikutuksiin, joten sekä päävaikutukset että kahden faktorin yhteisvaikutukset saadaan suhteellisen harhattomiksi. Hintana on 16 koetta 6 kerrointa varten. Yleisessä tapauksessa 2 k p ei ole aina tehokain tapa luoda kaaviota.

2 k p - kaaviot Yleiset kaaviot luokitellaan erottelukykynsä mukaisesti seuraavasti: Resoluutio III, joille mitkään päävaikutukset eivät sekoitu Resoluutio IV, joille päävaikutukset eivät sekoitu kahden faktorin yhteivaikutuksiin. Resoluutio V, joille kahden faktorin yhteisvaikutukset eivät sekoitu keskenään Luokkien nimillä on yhteys vastaavan erottelukyvyn omaavien 2 k p kaavioiden generaattoreiden pituuksiin.

2 k p - kaaviot R-III kaaviossa on vähintään q + 1 koetta, (vrt faktori kerrallaan). Optimaalinen varianssi voidaan saavuttaa, jos kokeita on neljällä jaollinen määrä (n = 4m). Jos 4m = 2 s, saadaan kaavio 2 k p tekniikalla. Muille arvoille yleistä menettelyä ei ole, mutta kaavioita on taulukoitu eri lähteissä. R-IV kaavio saadaan toistamalla R-III kaavio vaihtamalla kaikki faktorit vastaluvuikseen (päävaikutusten merkki vaihtuu, mutta yhteisvaikutusten ei). R-V kaaviossa tarvitaan minimissään 1 + q + (q 1)q/2 koetta.