Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?



Samankaltaiset tiedostot
pitkittäisaineistoissa

pitkittäisaineistoissa

Bayesilaisen mallintamisen perusteet

Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost)

p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion)

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2005) 1

Testejä suhdeasteikollisille muuttujille

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tilastollisten aineistojen kerääminen ja mittaaminen

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Identifiointiprosessi

Tutkimustiedonhallinnan peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

BECS Bayesilainen mallintaminen Lyhyt englanti-suomi sanasto

Bayesilainen päätöksenteko / Bayesian decision theory

Sovellettu todennäköisyyslaskenta B

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Osa 2: Otokset, otosjakaumat ja estimointi

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Otannasta ja mittaamisesta

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

Sovellettu todennäköisyyslaskenta B

Poimi yrityksistä i) neljän, ii) kymmenen suuruinen otos. a) yksinkertaisella satunnaisotannalla palauttaen, b) systemaattisella otannalla

Kemometriasta. Matti Hotokka Fysikaalisen kemian laitos Åbo Akademi

Parametrin estimointi ja bootstrap-otanta

Teema 8: Parametrien estimointi ja luottamusvälit

MTTTP5, luento Luottamusväli, määritelmä

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Harjoitus 7: NCSS - Tilastollinen analyysi

Solmu 3/2001 Solmu 3/2001. Kevään 2001 ylioppilaskirjoitusten pitkän matematiikan kokeessa oli seuraava tehtävä:

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Tilastollisten aineistojen kerääminen ja mittaaminen. TKK (c) Ilkka Mellin (2004) 1

Tilastollisten aineistojen kerääminen ja mittaaminen. Tilastollisten aineistojen kerääminen ja mittaaminen

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Luento 11. Muutama hyödyllinen Monte Carlo-menetelmä. Muutama hyödyllinen Monte Carlo-menetelmä. Mitä muuta hyödyllistä Gelman et al kirjasta löytyy

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tn-laskentaan perjantai

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Matemaatikot ja tilastotieteilijät

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

tilastotieteen kertaus

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Otoskoko 107 kpl. a) 27 b) 2654

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ongelma: Poikkeaako perusjoukon suhteellinen osuus vertailuarvosta?

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Peliteoria luento 2. May 26, Peliteoria luento 2

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Hypoteesin testaus Alkeet

Sovellettu todennäköisyyslaskenta B

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

dx=5&uilang=fi&lang=fi&lvv=2014

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy Jatkossa ratkaisuehdotukset ovat tyypillisesti paljon lakonisempia.

Estimointi. Vilkkumaa / Kuusinen 1

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Mat Tilastollisen analyysin perusteet, kevät 2007

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Väliestimointi (jatkoa) Heliövaara 1

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Sovellettu todennäköisyyslaskenta B

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Osafaktorikokeet. Heliövaara 1

11. laskuharjoituskierros, vko 15, ratkaisut

Havaitsevan tähtitieteen peruskurssi I

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Osafaktorikokeet. Kurssipalautetta voi antaa Oodissa Kuusinen/Heliövaara 1

Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin

S OPTIIKKA 1/10 Laboratoriotyö: Polarisaatio POLARISAATIO. Laboratoriotyö

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Todennäköisyyden ominaisuuksia

Lohkoasetelmat. Heliövaara 1

Testit järjestysasteikollisille muuttujille

9. Tila-avaruusmallit

Kone- ja rakentamistekniikan laboratoriotyöt KON-C3004. Koesuunnitelma: Paineen mittaus venymäliuskojen avulla. Ryhmä C

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Transkriptio:

Viime kerralla Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn? Mallin herkkyysanalyysi - kuinka paljon päättely muuttuu jos mallioletuksia muutetaan? Mallien vertailu ja valinta Slide 1 - posterioritodennäköisyys ja Bayes factor - prediktiivinen tarkkkuus Mallien vertailu ja valinta Valmennuskurssiesimerkki - 8 koulua - jokaisessa koulussa osa oppilaista sai valmennusta ja osa ei ja näistä tuloksista laskettiin koululle kurssin tehon odotusarvo ja hajonta voitaisiin olettaa, että tulokset koulujen sisällä vaihtokelpoisia ja koulujen kurssien tuntemattomat oikeat vaikutukset keskenään vaihtokelpoisia Slide 2 Mallivaihtoehdot - erillismalli 7 koulun tuloksen tietäminen ei vaikuta arvioomme 8. koulun tuloksesta - yhteismalli kaikkien koulujen kurssit yhtä tehokkaita - hierarkinen malli koulujen välillä voi olla eroja, koulujen kurssien tuntemattomille vaikutuksille yhteinen populaatiopriori

Mallien vertailu ja valinta Valmennuskurssiesimerkki Slide 3 Mitä mallilta halutaan? - haluammeko tutkia vain näitä 8 koulua? ennusteet näille kouluille - haluammeko tutkia muita kouluja? ennusteet uusille kouluille Mallien vertailu ja valinta Valmennuskurssiesimerkki Slide 4 Kuinka hyvin malli yleistyy uusille kouluille? - ulkoinen validointi tehdään ennuste ja toistetaan koe uusissa kouluissa - ulkoisen validoinnin approksimointi ristiinvalidointi informaatiokriteerit

Ristiinvalidointi (cross-validation (CV))* Ulkoinen validointi p(y (n+ j) x (n+ j), D, M); j = 1, 2,..., m Ristiinvalidointi {p(y (i) x (i), D (\i), M); i = 1, 2,..., n} Slide 5 missä D (\i) on D:n kaikki alkiot paitsi (x (i), y (i) ) CV-prediktiivisiä jakaumia verrataan havaittuihin y (i) :hin hyötyfunktion u avulla ja otetaan odotusarvo i:n yli Informaatiokriteerit Saivat alkunsa Akaiken paperista, jossa Akaike perusteli hyötyfunktion valintaa ja "odotetun hyödyn" approksimaation johtamista informaatioteoreettisesti - Akaike mainitsee termin an information criterium - Akaike pohti myös muita kriteerejä ja Akaiken opiskelija koodatessaan näitä vaihtoehtoisia merkitsee näistä ensimmäistä AIC ja kun Akaike julkaisi näitä tuloksia, jäi termi käyttöön Slide 6 Valitettavasti Akaike tiivisti informaatiokriteerin muotoon IC = fit + complexity - valitettavaa siksi, että alkuperäinen idea odotetun hyödyn estimoinnista unohtui - myös DIC esitetty tässä muodossa DIC = D(E θ [θ]) + p eff missä efektiivinen parametrien määrä p eff kuvaa mallin kompleksisuutta

Deviance Information Criterion (DIC) Tärkeimmät asiat mitä DIC:stä pitäisi muistaa - asymptoottisesti sama kuin ristiinvalidointi usein myös äärellisillä näytemäärillä vastaavia tuloksia - tulokset riippuvat parametrisoinnista vaatii tapauskohtaista miettimistä - kuinka lasketaan Slide 7 DIC = D(E θ [θ]) + 2p eff Deviance Information Criterion (DIC) vs. CV* Valmennuskurssiesimerkki Malli D(E θ [θ]) p eff DIC CV erillismalli (τ = ) 54.6 7.8 70.4 yhteismalli (τ = 0) 59.3 1.0 61.3 61.5 hierarkinen 57.4 2.8 62.9 62.0 Slide 8 Erillismallissa populaatiopriorin leveys on ääretön, joten uuden koulun prediktiivisen jakauman leveys on myös ääretön, ja siten ulkoinen validointi ja ristiinvalidointi arvioivat tämän mallin äärettömän huonoksi - esim9_5a.m Onko mallien välillä merkittävää eroa? - esim9_5b.m

Deviance Information Criterion (DIC) vs. CV* Onko mallien välillä merkittävää eroa? - ristiinvalidoinnille voidaan helposti arvioida epävarmuus tulevan havainnon jakauman epävarmuudesta tästä helppo estimoida todennäköisyys sille onko toinen malli parempi - DIC:llä voidaan approksimoida karkeasti (vrt. BF) Slide 9 DF(M 1, M 2 ) = exp((dic 2 DIC 1 )/2) p(dic 1 < DIC 2 ) DF/(1 + DF) eli arviolta, ero on merkittävä, jos suurempi kuin 6 tämä kuitenkin vain suuntaa antava, ei kunnon perustelua Esimerkkejä sovelluskohtaisista hyötyfunktioista Esim. Draper ja Fouskakis - sairaalaan tulevalle potilalle tehtävien kustannukset - kustannus virheelliselle päätökselle luonnolisesti vaikea valita, mutta Draper ja Fouskakis viittavaat yleisesti käytettyihin lukuihin - minimoidaan odotettu kustannus Slide 10 Esim. valuuttakurssit, osakkeet yms., hyötynä raha Esim. luokittelu - missä tahansa luokitteluongelmassa on luonnollista arvioida muiden hyötyjen lisäksi odotettu luokittelutarkkuus tasapainotettu luokittelutarkkuus confusion matrix

Datankeruuprosessin mallintaminen Kurssin tavoitteet: opiskelija osaa - määritellä perustermit lyhyesti - lukea matemaattista notaatiota - lukea aiheeseen liittyvä tekstiä Slide 11 - tunnistaa kyselykokeet, suunnitellut kokeet, havaintokokeet, sensuroinnin ja katkaisun - luetella edellisiin liittyvät perusoletukset Datankeruuprosessin mallintaminen - Esimerkki Heitetty noppaa ja saatu 10 kertaa 6 Vaikuttaako seuravaat lisätiedot päättelyysi nopasta - nämä olivat ainoat heiteyt heitot - noppaa heitettiin 60 kertaa, mutta vain kuutoset raportoitiin Slide 12 - noppaa heitettiin kunnes saatiin 10 kuutosta, mutta heittojen lukumäärä ei ole tiedossa

Datankeruuprosessin mallintaminen - Esimerkki Kurssipalaute kysytään - kaikilta opiskelijoilta - satunnaisesti osalta opiskelijoita - vain luennolla käyneiltä - vain arvosanan 5 saaneilta Slide 13 Datankeruuprosessin mallintaminen Datankeruutavalla on merkitystä ja kaikki relevantti informaatio kannattaa käyttää Koesuunnittelut (design) jotka voidaan jättää mallintamatta (ignorable) - päättely usein vähemmän herkkää mallissa tehdyille valinnoille - esim. satunnaistamiseen (randomization) perustuvat Slide 14 Mitä enemmän selittäviä muuttujia käytetään sitä pätevämpiä johtopäätökset ovat ehdollisesti, mutta mahdollisesti myös herkempiä mallin määrityksille jotka yhdistävät seuraamukset selittäviin muuttujiin

Datankeruuprosessin mallintaminen Havaittu (observed) vs. puuttuva (missing) data - on olemassa suurempi täydellinen data, josta osa havaittu ja osa ei - esim: kurssipalaute täydellinen data: kaikki vastaavat havaittu data: vain osa opiskelijoista vastannut puuttuva data: osa opiskelijoista ei vastannut Slide 15 Päättely on ehdolla havaittu data ja havaintojen puuttumisen rakenne Puutuva data voi olla - tahatonta esim: kyselyihin vastaamattomuus ja sensuroidut mittaukset - tahallinen esim: kysellään vain osalta tai kokeillaan vain yhtä hoitoa per ihminen Datankeruuprosessin mallintaminen - Esimerkkejä Otanta - havaittu: arvot n havainnosta - koko data: arvot populaation kaikista N yksiköstä Lääketieteellinen koe - havaittu: tulos hoidosta jokaiselle hoidetulle Slide 16 - koko data: tulos kaikista hoidoista kaikille hoidetuille Pyöristys - havaittu: pyöristetyt luvut - koko data: pyöristämättömät luvut Tahaton puuttuva data - havaittu: havaitut arvot - koko data: sekä havaitut että puuttuvat arvot

Datankeruuprosessin mallintaminen Notaatio - koko data: y = (y 1,..., y N ) - y i voi olla vektori jonka komponentit ovat y i j - I = (I 1,..., I N ) - I i voi olla vektori jonka komponentit ovat I i j Slide 17 - jos I i j = 1, y i j on havaittu - jos I i j = 0, y i j on puuttuva - obs = (i, j) : I i j = 1 - mis = (i, j) : I i j = 0 - tähän asti y = y obs - 0/1 indikaattoria monimutkaisemmatkin puuttuvan datan rakenteet mahdollisia Datankeruuprosessin mallintaminen Stabiilisuus (stability) - mittaustapahtuma ei muuta datan arvoja Stabiili käsittely (treatment) oletus - yhden yksikön käsittely ei vaikuta muiden yksiköiden tuloksiin - vastaesimerkki: lannoitetestaus pellolla liian lähekkäisissä alueissa Slide 18 Ilman stabiiliusoletuksia notaatio monimutkaisempaa

Datankeruuprosessin mallintaminen Koko datan likelihood p(y, I θ, φ) missä φ on inkluusiovektorin parametrit Havaitun datan likelihood p(y obs, I θ, φ) = p(y, I θ, φ)dy mis Superpopulaatio päättely p(θ, φ x, y obs, I) Slide 19 Äärellisen populaation päättely p(y mis x, y obs, I, θ, φ) - jos äärellisen populaation kaikki yksiköt havaittuja, äärellisen populaation päättely tarkkaa, mutta superpopulaation päättelyssä edelleen epävarmuutta - esim. jos luennolla olevien kaikkien pituus mitataan, tiedetään kaikkien luennolla olevien pituuksien havainnot, mutta jos mittaväline on epätarkka, voi todellisissa pituuksissa silti olla epävarmuutta Posterioriprediktiiviset jakaumat - tuleva koko data periaatteesa helpompi - tulevaa havaittua dataa varten huomioitava inkluusiomekanismi Datankeruuprosessin mallintaminen Ignorability jos p(θ x, y obs, I) = p(θ x, y obs ) datankeruuprosessia ei tarvitse mallittaa ja datankeruuprosessi on ignorable - erittäin hyödyllinen ominaisuus - tähän asti käsitellyissä esimerkeissä oletettu näin Slide 20 Riittävät ehdot takaamaan ignorability - satunnainen puuttuminen (missing at random) p(i x, y, φ) = p(i x, y obs, φ) annettuna φ puuttuminen riippuu vain x:stä ja y obs :sta pätee myös deterministiselle inkluusiolle joka riippuu vain x:stä - erilliset parametrit (distinct parameters) p(φ x, θ) = p(φ x) inkluusioprosessin ja datan generoivan prosessin parametrit ovat riippumattomat Tunnettu vs. tuntematon datankeruusuunnitelma

Datankeruuprosessin mallintaminen - Otantatutkimukset Yksinkertainen satunnaisotos äärellisestä populaatiosta - esim. kurssilla olevien opsikelijoiden viikossa käyttämä aika kurssin aiheiden opiskeluun - oletetaan yksilöiden vaihtokelpoisuus - strongly ignorable p(i x, y, φ) = p(i x) ja tunnettu Slide 21 - esim. äärellisen populaation keskiarvo ȳ = n N ȳobs + N n N ja ȳ ȳ obs t n 1 (ȳ obs, ȳmis ( 1 n 1 ) ) sobs 2 N Datankeruuprosessin mallintaminen - Otantatutkimukset Ositettu otanta (stratified sampling) - N yksikköä jaetaan J :n ositteeseen - yksinkertaisella satunnaisotannalla n j näytettä jokaisesta ositteesta j = 1,..., J - ignorable annettuna J indikaatorivektoria x 1,..., x J jotka kertovat mitkä yksiköt kuuluvat mihinkin ositteeseen Slide 22 - usein lunnollista käyttää hierarkista mallia tällaiselle datalle - esim. valmennuskurssiesimerkki ja meta-analyysi

Datankeruuprosessin mallintaminen - Otantatutkimukset Ryväsotanta (cluster sampling) - N yksikköä jaetaan K :n rypäkseen - ensin arvotaan J ryvästä ja sitten joka ryppäästä n j yksikköä - ignorable annettuna indikaattorimuuttujat ja jokaisen ryppään yksiköiden määrät Slide 23 - analyysi vastaa ositettua otantaa paitsi, että huomioitava että osasta ryppäitä ei havaintoja - esim. valmennuskurssiesimerkissä olisi voinut olla enemmänkin kouluja, joista vain osasta saatiin havaintoja Datankeruuprosessin mallintaminen - Otantatutkimukset Erisuuruiset valintatodennäköisyydet otannassa - Otantatutkimus on ignorable annettuna todennäköisyydet yksikön valinnalle Slide 24

Datankeruuprosessin mallintaminen - Suunnitellut kokeet Kokeessa (experiment) yksiköihin kohdistuu kokeen tekijän valitsema käsittely (treatment) Usein yhdelle yksikölle voidaan toteuttaa vain yksi käsittely - puuttuvana tietona mikä olisi lopputulos muilla käsittelyillä Kokeen suunnittelu (design of experiment) tärkeää Slide 25 Datankeruuprosessin mallintaminen - Suunnitellut kokeet Täysin satunnaistettu koe - käsittelyiden valinta kohteille täysin satunnaista - tai käsiteltävät jaetaan satunnaisesti yhtä moneen ryhmään kuin käsittelyitä - oletetaan stabiili käsittely - yksikkö voi saada vain yhden käsittelyn Slide 26 - käsittelyiden valinta on tunnettu ja ignorable

Datankeruuprosessin mallintaminen - Suunnitellut kokeet Latin square - esimerkki kompleksisemmasta kokeesta - jokaisella rivillä ja sarakkeella sama määrä eri käsittelyitä - etuna tasapainotuksen tuoma lisätarkkuus - esim. peltoalue jaettu 5x5 alueisiin ja testataan 5 eri lannoitusmäärää Slide 27 - oletetaan stabiili käsittely - ignorable malliin otettava mukaan selittäviksi muuttujiksi palstojen koordinaatit täysin satunnaistetussa ei tarvitsisi näin kuitenkin relevantimpi ja tarkempi - mahdollista ottaa myös mukaan selittäviksi muuttujiksi maantietelliset koordinaatit, etäisyys joesta, jne. Datankeruuprosessin mallintaminen - Suunnitellut kokeet Peräkkäiskokeet (sequential design) - satunnaistettu koe, missä käsittelyiden valintatodennäköisyydet yksikölle i riippuvat satunnaistuksesta tai aiemmin kohdeltujen yksiköiden lopputuloksista - ignorable ehdolla kaikki muuttujat joita käytettiin päättämään käsittelyiden valinta, mukaanlukien ajanhetki ja edellisten yksiköiden lopputulokset Slide 28

Datankeruuprosessin mallintaminen - Suunnitellut kokeet Pienin riittävä selittävien muuttujien joukko - suunnitellulle satunnaistetulle kokeelle voidaan päätellä pienin tarvittava selittävien muuttujien joukko (adequate summary) ja siihen perustuva minimaalinen analyysi - usein käytössä lisäinformaatiota ja useimmiten kaikki tämä kannattaa käyttää esim. pellolla eri alueiden maanperäominaisuudet, etäisyys joesta, jne. Slide 29 Datankeruuprosessin mallintaminen Täysi satunnaistus vs. systemaattiset koesuunnitelmat - molemmat voivat olla ignorable Täysi satunnaistus - mahdollisuus arvioida mitä vaikuttaa jos selittävät muuttujat x jätetään mallista pois Slide 30 - helpompi posterioriprediktiivinen tarkistus - vähemmän herkkä mallioletuksille y annettuna x - pienempi mahdollisuus "huijata" vahingossa tai tahallaan Systemaattiset koesuunnitelmat - tasapainotusten vuoksi pienempi posterioriepävarmuus kiinnostavista suureista (muista herkkyys mallioletuksille)

Datankeruuprosessin mallintaminen Täysi satunnaistus vs. systemaattiset koesuunnitelmat - esimerkki: haastatellaan TKK:n päärakennuksen ovesta kello 11 ja 12 välillä kulkevat opiskelijat - voidaan mallittaa kahdella tavalla Slide 31 (1) nonignorable koska todennäköisyys, että TKK:n opiskelija i on mukana otoksessa riippuu ei havaitusta N n opiskelijan kulkureiteistä (2) ignorable koska todennäköisyys, että TKK:n opiskelija i on mukana riippuu täysin havaitusta indikaattorimuuttujsta x i joka on 1 jos opiskelija kulki ovesta annettuna aikana ja muuten 0 - tapauksessa (1) on mallinnettava I annettuna y - tapauksessa (2) päätellään y:n jakauma annettuna x ja dataa ei saatvissa jos x = 0 - kummassakin tapauksessa tulos on herkkä priorioletuksille, ellei n/n melkein 1 Datankeruuprosessin mallintaminen - Havaintotutkimukset Havaintotutkimukset (observational studies) - eroavat suunnitelluista kokeista siten, että käsittelyt ovat vain havaittuja, mutta tutkimuksen tekijä ei voi vaikuttaa niihin Slide 32 - esim. valmennuskurssiesimerkissä valmennusta saaneet opiskelijat oli valittu satunnaisesti havaintotutkimuksessa opiskelijat olisivat itse saaneet valita, ja tulokset olisivat voineet olla varsin erilaiset - hyvässä havaintotukimuksessa tiedossa yksiköiden taustaerot riittävästi riippumattomia yksiköitä kussakin käsittelyssä tutkimus suunnitellaan ilman viittausta analyysin lopputulokseen tahatoman puutuvan datan määrä minimoidaan (esim. vastaamattomuus) analyysissa huomioidaan suunnittelussa käytetty informaatio - vaikeinta on taustaerojen huomiominen esim. valmennuskurssiesimerkissä mitkä ovat opiskelijoiden aiempi menestys ja motivaatio

Datankeruuprosessin mallintaminen - Havaintotutkimukset Havaintotutkimukset (observationa studies) - ehdolla riittävä määrä selittäviä muuttujia voidaan olettaa, että havaintotutkimus on ignorable - kausaalisuuden päättely on vielä asia erikseen Slide 33 Datankeruuprosessin mallintaminen - Sensurointi ja katkaisu Punnitaan kappale 100 kertaa vaa alla, jolla tunnettu mittausmalli N(θ, 1) ja sadaan 91 lukemaa 1. Täysin satunnainen puuttuminen tunnetulla todennäköisyydellä - inkluusio ei riipu y:stä, joten ignorable 2. Täysin satunnainen puuttuminen tuntemattomalla todennäköisyydellä π Slide 34 - ignorable jos π ja θ a priori riippumattomat - nonignorable jos π ja θ a priori riippuvaiset ja nyt tehtävä yhteismalli π:lle ja θ:lle 3. Sensuroitu data: yli 200kg lukemat ilmoitetaan vain, että "liian painava" - 9 sensuroitua mittausta tuovat myös lisäinformaatiota - tehtävä yhteismalli, missä y mis tuntematon ja integroitava sen yli 4. Sensuroitu data tuntemattomalla sensurointipisteellä - sama kuin 3. mutta yhteismalliin otettava mukaan myös sensurointipiste

Datankeruuprosessin mallintaminen - Sensurointi ja katkaisu Punnitaan kappale 100 kertaa vaa alla, jolla tunnettu mittausmalli N(θ, 1) ja sadaan 91 lukemaa 5. Katkaistu data: yli 200kg lukemia ei havaita, ei edes tiedetä kuinka monta niitä on - katkaisupiste katkaisee havaitun datan likelihoodin Slide 35 - voidaan myös laskea sensuroituna datana, missä N tuntematon ja priorilla p(n) 1/N 5. Katkaistu data tuntemattomalla katkaisupisteellä - sama kuin 5. mutta yhteismallin mukaan myös katkaisupiste - ei-informatiivisella priorilla katkaisupisteestä ei tietoa ja θ:n marginaaliposteriorijakauma on sama kuin kohdassa 1. Datankeruuprosessin mallintaminen - Sensurointi ja katkaisu Tyypillinen sensuroitu data on elinaikatutkimuksissa - vaihtoehtoisia lääketieteellisiä hoitoja testatessa kokeen päättyessä osa potilaista edelleen elossa, joten heidän elinaikansa on sensuroitu tunnetulla sensurointipisteellä - vastaava myös teknisten laitteiden rasituskokeissa Slide 36

Datankeruuprosessin mallintaminen Monimuutkaisempiakin puuttuvan datan tapauksia on, mutta tämä riittää tälle kerralle Slide 37