Viime kerralla Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn? Mallin herkkyysanalyysi - kuinka paljon päättely muuttuu jos mallioletuksia muutetaan? Mallien vertailu ja valinta Slide 1 - posterioritodennäköisyys ja Bayes factor - prediktiivinen tarkkkuus Mallien vertailu ja valinta Valmennuskurssiesimerkki - 8 koulua - jokaisessa koulussa osa oppilaista sai valmennusta ja osa ei ja näistä tuloksista laskettiin koululle kurssin tehon odotusarvo ja hajonta voitaisiin olettaa, että tulokset koulujen sisällä vaihtokelpoisia ja koulujen kurssien tuntemattomat oikeat vaikutukset keskenään vaihtokelpoisia Slide 2 Mallivaihtoehdot - erillismalli 7 koulun tuloksen tietäminen ei vaikuta arvioomme 8. koulun tuloksesta - yhteismalli kaikkien koulujen kurssit yhtä tehokkaita - hierarkinen malli koulujen välillä voi olla eroja, koulujen kurssien tuntemattomille vaikutuksille yhteinen populaatiopriori
Mallien vertailu ja valinta Valmennuskurssiesimerkki Slide 3 Mitä mallilta halutaan? - haluammeko tutkia vain näitä 8 koulua? ennusteet näille kouluille - haluammeko tutkia muita kouluja? ennusteet uusille kouluille Mallien vertailu ja valinta Valmennuskurssiesimerkki Slide 4 Kuinka hyvin malli yleistyy uusille kouluille? - ulkoinen validointi tehdään ennuste ja toistetaan koe uusissa kouluissa - ulkoisen validoinnin approksimointi ristiinvalidointi informaatiokriteerit
Ristiinvalidointi (cross-validation (CV))* Ulkoinen validointi p(y (n+ j) x (n+ j), D, M); j = 1, 2,..., m Ristiinvalidointi {p(y (i) x (i), D (\i), M); i = 1, 2,..., n} Slide 5 missä D (\i) on D:n kaikki alkiot paitsi (x (i), y (i) ) CV-prediktiivisiä jakaumia verrataan havaittuihin y (i) :hin hyötyfunktion u avulla ja otetaan odotusarvo i:n yli Informaatiokriteerit Saivat alkunsa Akaiken paperista, jossa Akaike perusteli hyötyfunktion valintaa ja "odotetun hyödyn" approksimaation johtamista informaatioteoreettisesti - Akaike mainitsee termin an information criterium - Akaike pohti myös muita kriteerejä ja Akaiken opiskelija koodatessaan näitä vaihtoehtoisia merkitsee näistä ensimmäistä AIC ja kun Akaike julkaisi näitä tuloksia, jäi termi käyttöön Slide 6 Valitettavasti Akaike tiivisti informaatiokriteerin muotoon IC = fit + complexity - valitettavaa siksi, että alkuperäinen idea odotetun hyödyn estimoinnista unohtui - myös DIC esitetty tässä muodossa DIC = D(E θ [θ]) + p eff missä efektiivinen parametrien määrä p eff kuvaa mallin kompleksisuutta
Deviance Information Criterion (DIC) Tärkeimmät asiat mitä DIC:stä pitäisi muistaa - asymptoottisesti sama kuin ristiinvalidointi usein myös äärellisillä näytemäärillä vastaavia tuloksia - tulokset riippuvat parametrisoinnista vaatii tapauskohtaista miettimistä - kuinka lasketaan Slide 7 DIC = D(E θ [θ]) + 2p eff Deviance Information Criterion (DIC) vs. CV* Valmennuskurssiesimerkki Malli D(E θ [θ]) p eff DIC CV erillismalli (τ = ) 54.6 7.8 70.4 yhteismalli (τ = 0) 59.3 1.0 61.3 61.5 hierarkinen 57.4 2.8 62.9 62.0 Slide 8 Erillismallissa populaatiopriorin leveys on ääretön, joten uuden koulun prediktiivisen jakauman leveys on myös ääretön, ja siten ulkoinen validointi ja ristiinvalidointi arvioivat tämän mallin äärettömän huonoksi - esim9_5a.m Onko mallien välillä merkittävää eroa? - esim9_5b.m
Deviance Information Criterion (DIC) vs. CV* Onko mallien välillä merkittävää eroa? - ristiinvalidoinnille voidaan helposti arvioida epävarmuus tulevan havainnon jakauman epävarmuudesta tästä helppo estimoida todennäköisyys sille onko toinen malli parempi - DIC:llä voidaan approksimoida karkeasti (vrt. BF) Slide 9 DF(M 1, M 2 ) = exp((dic 2 DIC 1 )/2) p(dic 1 < DIC 2 ) DF/(1 + DF) eli arviolta, ero on merkittävä, jos suurempi kuin 6 tämä kuitenkin vain suuntaa antava, ei kunnon perustelua Esimerkkejä sovelluskohtaisista hyötyfunktioista Esim. Draper ja Fouskakis - sairaalaan tulevalle potilalle tehtävien kustannukset - kustannus virheelliselle päätökselle luonnolisesti vaikea valita, mutta Draper ja Fouskakis viittavaat yleisesti käytettyihin lukuihin - minimoidaan odotettu kustannus Slide 10 Esim. valuuttakurssit, osakkeet yms., hyötynä raha Esim. luokittelu - missä tahansa luokitteluongelmassa on luonnollista arvioida muiden hyötyjen lisäksi odotettu luokittelutarkkuus tasapainotettu luokittelutarkkuus confusion matrix
Datankeruuprosessin mallintaminen Kurssin tavoitteet: opiskelija osaa - määritellä perustermit lyhyesti - lukea matemaattista notaatiota - lukea aiheeseen liittyvä tekstiä Slide 11 - tunnistaa kyselykokeet, suunnitellut kokeet, havaintokokeet, sensuroinnin ja katkaisun - luetella edellisiin liittyvät perusoletukset Datankeruuprosessin mallintaminen - Esimerkki Heitetty noppaa ja saatu 10 kertaa 6 Vaikuttaako seuravaat lisätiedot päättelyysi nopasta - nämä olivat ainoat heiteyt heitot - noppaa heitettiin 60 kertaa, mutta vain kuutoset raportoitiin Slide 12 - noppaa heitettiin kunnes saatiin 10 kuutosta, mutta heittojen lukumäärä ei ole tiedossa
Datankeruuprosessin mallintaminen - Esimerkki Kurssipalaute kysytään - kaikilta opiskelijoilta - satunnaisesti osalta opiskelijoita - vain luennolla käyneiltä - vain arvosanan 5 saaneilta Slide 13 Datankeruuprosessin mallintaminen Datankeruutavalla on merkitystä ja kaikki relevantti informaatio kannattaa käyttää Koesuunnittelut (design) jotka voidaan jättää mallintamatta (ignorable) - päättely usein vähemmän herkkää mallissa tehdyille valinnoille - esim. satunnaistamiseen (randomization) perustuvat Slide 14 Mitä enemmän selittäviä muuttujia käytetään sitä pätevämpiä johtopäätökset ovat ehdollisesti, mutta mahdollisesti myös herkempiä mallin määrityksille jotka yhdistävät seuraamukset selittäviin muuttujiin
Datankeruuprosessin mallintaminen Havaittu (observed) vs. puuttuva (missing) data - on olemassa suurempi täydellinen data, josta osa havaittu ja osa ei - esim: kurssipalaute täydellinen data: kaikki vastaavat havaittu data: vain osa opiskelijoista vastannut puuttuva data: osa opiskelijoista ei vastannut Slide 15 Päättely on ehdolla havaittu data ja havaintojen puuttumisen rakenne Puutuva data voi olla - tahatonta esim: kyselyihin vastaamattomuus ja sensuroidut mittaukset - tahallinen esim: kysellään vain osalta tai kokeillaan vain yhtä hoitoa per ihminen Datankeruuprosessin mallintaminen - Esimerkkejä Otanta - havaittu: arvot n havainnosta - koko data: arvot populaation kaikista N yksiköstä Lääketieteellinen koe - havaittu: tulos hoidosta jokaiselle hoidetulle Slide 16 - koko data: tulos kaikista hoidoista kaikille hoidetuille Pyöristys - havaittu: pyöristetyt luvut - koko data: pyöristämättömät luvut Tahaton puuttuva data - havaittu: havaitut arvot - koko data: sekä havaitut että puuttuvat arvot
Datankeruuprosessin mallintaminen Notaatio - koko data: y = (y 1,..., y N ) - y i voi olla vektori jonka komponentit ovat y i j - I = (I 1,..., I N ) - I i voi olla vektori jonka komponentit ovat I i j Slide 17 - jos I i j = 1, y i j on havaittu - jos I i j = 0, y i j on puuttuva - obs = (i, j) : I i j = 1 - mis = (i, j) : I i j = 0 - tähän asti y = y obs - 0/1 indikaattoria monimutkaisemmatkin puuttuvan datan rakenteet mahdollisia Datankeruuprosessin mallintaminen Stabiilisuus (stability) - mittaustapahtuma ei muuta datan arvoja Stabiili käsittely (treatment) oletus - yhden yksikön käsittely ei vaikuta muiden yksiköiden tuloksiin - vastaesimerkki: lannoitetestaus pellolla liian lähekkäisissä alueissa Slide 18 Ilman stabiiliusoletuksia notaatio monimutkaisempaa
Datankeruuprosessin mallintaminen Koko datan likelihood p(y, I θ, φ) missä φ on inkluusiovektorin parametrit Havaitun datan likelihood p(y obs, I θ, φ) = p(y, I θ, φ)dy mis Superpopulaatio päättely p(θ, φ x, y obs, I) Slide 19 Äärellisen populaation päättely p(y mis x, y obs, I, θ, φ) - jos äärellisen populaation kaikki yksiköt havaittuja, äärellisen populaation päättely tarkkaa, mutta superpopulaation päättelyssä edelleen epävarmuutta - esim. jos luennolla olevien kaikkien pituus mitataan, tiedetään kaikkien luennolla olevien pituuksien havainnot, mutta jos mittaväline on epätarkka, voi todellisissa pituuksissa silti olla epävarmuutta Posterioriprediktiiviset jakaumat - tuleva koko data periaatteesa helpompi - tulevaa havaittua dataa varten huomioitava inkluusiomekanismi Datankeruuprosessin mallintaminen Ignorability jos p(θ x, y obs, I) = p(θ x, y obs ) datankeruuprosessia ei tarvitse mallittaa ja datankeruuprosessi on ignorable - erittäin hyödyllinen ominaisuus - tähän asti käsitellyissä esimerkeissä oletettu näin Slide 20 Riittävät ehdot takaamaan ignorability - satunnainen puuttuminen (missing at random) p(i x, y, φ) = p(i x, y obs, φ) annettuna φ puuttuminen riippuu vain x:stä ja y obs :sta pätee myös deterministiselle inkluusiolle joka riippuu vain x:stä - erilliset parametrit (distinct parameters) p(φ x, θ) = p(φ x) inkluusioprosessin ja datan generoivan prosessin parametrit ovat riippumattomat Tunnettu vs. tuntematon datankeruusuunnitelma
Datankeruuprosessin mallintaminen - Otantatutkimukset Yksinkertainen satunnaisotos äärellisestä populaatiosta - esim. kurssilla olevien opsikelijoiden viikossa käyttämä aika kurssin aiheiden opiskeluun - oletetaan yksilöiden vaihtokelpoisuus - strongly ignorable p(i x, y, φ) = p(i x) ja tunnettu Slide 21 - esim. äärellisen populaation keskiarvo ȳ = n N ȳobs + N n N ja ȳ ȳ obs t n 1 (ȳ obs, ȳmis ( 1 n 1 ) ) sobs 2 N Datankeruuprosessin mallintaminen - Otantatutkimukset Ositettu otanta (stratified sampling) - N yksikköä jaetaan J :n ositteeseen - yksinkertaisella satunnaisotannalla n j näytettä jokaisesta ositteesta j = 1,..., J - ignorable annettuna J indikaatorivektoria x 1,..., x J jotka kertovat mitkä yksiköt kuuluvat mihinkin ositteeseen Slide 22 - usein lunnollista käyttää hierarkista mallia tällaiselle datalle - esim. valmennuskurssiesimerkki ja meta-analyysi
Datankeruuprosessin mallintaminen - Otantatutkimukset Ryväsotanta (cluster sampling) - N yksikköä jaetaan K :n rypäkseen - ensin arvotaan J ryvästä ja sitten joka ryppäästä n j yksikköä - ignorable annettuna indikaattorimuuttujat ja jokaisen ryppään yksiköiden määrät Slide 23 - analyysi vastaa ositettua otantaa paitsi, että huomioitava että osasta ryppäitä ei havaintoja - esim. valmennuskurssiesimerkissä olisi voinut olla enemmänkin kouluja, joista vain osasta saatiin havaintoja Datankeruuprosessin mallintaminen - Otantatutkimukset Erisuuruiset valintatodennäköisyydet otannassa - Otantatutkimus on ignorable annettuna todennäköisyydet yksikön valinnalle Slide 24
Datankeruuprosessin mallintaminen - Suunnitellut kokeet Kokeessa (experiment) yksiköihin kohdistuu kokeen tekijän valitsema käsittely (treatment) Usein yhdelle yksikölle voidaan toteuttaa vain yksi käsittely - puuttuvana tietona mikä olisi lopputulos muilla käsittelyillä Kokeen suunnittelu (design of experiment) tärkeää Slide 25 Datankeruuprosessin mallintaminen - Suunnitellut kokeet Täysin satunnaistettu koe - käsittelyiden valinta kohteille täysin satunnaista - tai käsiteltävät jaetaan satunnaisesti yhtä moneen ryhmään kuin käsittelyitä - oletetaan stabiili käsittely - yksikkö voi saada vain yhden käsittelyn Slide 26 - käsittelyiden valinta on tunnettu ja ignorable
Datankeruuprosessin mallintaminen - Suunnitellut kokeet Latin square - esimerkki kompleksisemmasta kokeesta - jokaisella rivillä ja sarakkeella sama määrä eri käsittelyitä - etuna tasapainotuksen tuoma lisätarkkuus - esim. peltoalue jaettu 5x5 alueisiin ja testataan 5 eri lannoitusmäärää Slide 27 - oletetaan stabiili käsittely - ignorable malliin otettava mukaan selittäviksi muuttujiksi palstojen koordinaatit täysin satunnaistetussa ei tarvitsisi näin kuitenkin relevantimpi ja tarkempi - mahdollista ottaa myös mukaan selittäviksi muuttujiksi maantietelliset koordinaatit, etäisyys joesta, jne. Datankeruuprosessin mallintaminen - Suunnitellut kokeet Peräkkäiskokeet (sequential design) - satunnaistettu koe, missä käsittelyiden valintatodennäköisyydet yksikölle i riippuvat satunnaistuksesta tai aiemmin kohdeltujen yksiköiden lopputuloksista - ignorable ehdolla kaikki muuttujat joita käytettiin päättämään käsittelyiden valinta, mukaanlukien ajanhetki ja edellisten yksiköiden lopputulokset Slide 28
Datankeruuprosessin mallintaminen - Suunnitellut kokeet Pienin riittävä selittävien muuttujien joukko - suunnitellulle satunnaistetulle kokeelle voidaan päätellä pienin tarvittava selittävien muuttujien joukko (adequate summary) ja siihen perustuva minimaalinen analyysi - usein käytössä lisäinformaatiota ja useimmiten kaikki tämä kannattaa käyttää esim. pellolla eri alueiden maanperäominaisuudet, etäisyys joesta, jne. Slide 29 Datankeruuprosessin mallintaminen Täysi satunnaistus vs. systemaattiset koesuunnitelmat - molemmat voivat olla ignorable Täysi satunnaistus - mahdollisuus arvioida mitä vaikuttaa jos selittävät muuttujat x jätetään mallista pois Slide 30 - helpompi posterioriprediktiivinen tarkistus - vähemmän herkkä mallioletuksille y annettuna x - pienempi mahdollisuus "huijata" vahingossa tai tahallaan Systemaattiset koesuunnitelmat - tasapainotusten vuoksi pienempi posterioriepävarmuus kiinnostavista suureista (muista herkkyys mallioletuksille)
Datankeruuprosessin mallintaminen Täysi satunnaistus vs. systemaattiset koesuunnitelmat - esimerkki: haastatellaan TKK:n päärakennuksen ovesta kello 11 ja 12 välillä kulkevat opiskelijat - voidaan mallittaa kahdella tavalla Slide 31 (1) nonignorable koska todennäköisyys, että TKK:n opiskelija i on mukana otoksessa riippuu ei havaitusta N n opiskelijan kulkureiteistä (2) ignorable koska todennäköisyys, että TKK:n opiskelija i on mukana riippuu täysin havaitusta indikaattorimuuttujsta x i joka on 1 jos opiskelija kulki ovesta annettuna aikana ja muuten 0 - tapauksessa (1) on mallinnettava I annettuna y - tapauksessa (2) päätellään y:n jakauma annettuna x ja dataa ei saatvissa jos x = 0 - kummassakin tapauksessa tulos on herkkä priorioletuksille, ellei n/n melkein 1 Datankeruuprosessin mallintaminen - Havaintotutkimukset Havaintotutkimukset (observational studies) - eroavat suunnitelluista kokeista siten, että käsittelyt ovat vain havaittuja, mutta tutkimuksen tekijä ei voi vaikuttaa niihin Slide 32 - esim. valmennuskurssiesimerkissä valmennusta saaneet opiskelijat oli valittu satunnaisesti havaintotutkimuksessa opiskelijat olisivat itse saaneet valita, ja tulokset olisivat voineet olla varsin erilaiset - hyvässä havaintotukimuksessa tiedossa yksiköiden taustaerot riittävästi riippumattomia yksiköitä kussakin käsittelyssä tutkimus suunnitellaan ilman viittausta analyysin lopputulokseen tahatoman puutuvan datan määrä minimoidaan (esim. vastaamattomuus) analyysissa huomioidaan suunnittelussa käytetty informaatio - vaikeinta on taustaerojen huomiominen esim. valmennuskurssiesimerkissä mitkä ovat opiskelijoiden aiempi menestys ja motivaatio
Datankeruuprosessin mallintaminen - Havaintotutkimukset Havaintotutkimukset (observationa studies) - ehdolla riittävä määrä selittäviä muuttujia voidaan olettaa, että havaintotutkimus on ignorable - kausaalisuuden päättely on vielä asia erikseen Slide 33 Datankeruuprosessin mallintaminen - Sensurointi ja katkaisu Punnitaan kappale 100 kertaa vaa alla, jolla tunnettu mittausmalli N(θ, 1) ja sadaan 91 lukemaa 1. Täysin satunnainen puuttuminen tunnetulla todennäköisyydellä - inkluusio ei riipu y:stä, joten ignorable 2. Täysin satunnainen puuttuminen tuntemattomalla todennäköisyydellä π Slide 34 - ignorable jos π ja θ a priori riippumattomat - nonignorable jos π ja θ a priori riippuvaiset ja nyt tehtävä yhteismalli π:lle ja θ:lle 3. Sensuroitu data: yli 200kg lukemat ilmoitetaan vain, että "liian painava" - 9 sensuroitua mittausta tuovat myös lisäinformaatiota - tehtävä yhteismalli, missä y mis tuntematon ja integroitava sen yli 4. Sensuroitu data tuntemattomalla sensurointipisteellä - sama kuin 3. mutta yhteismalliin otettava mukaan myös sensurointipiste
Datankeruuprosessin mallintaminen - Sensurointi ja katkaisu Punnitaan kappale 100 kertaa vaa alla, jolla tunnettu mittausmalli N(θ, 1) ja sadaan 91 lukemaa 5. Katkaistu data: yli 200kg lukemia ei havaita, ei edes tiedetä kuinka monta niitä on - katkaisupiste katkaisee havaitun datan likelihoodin Slide 35 - voidaan myös laskea sensuroituna datana, missä N tuntematon ja priorilla p(n) 1/N 5. Katkaistu data tuntemattomalla katkaisupisteellä - sama kuin 5. mutta yhteismallin mukaan myös katkaisupiste - ei-informatiivisella priorilla katkaisupisteestä ei tietoa ja θ:n marginaaliposteriorijakauma on sama kuin kohdassa 1. Datankeruuprosessin mallintaminen - Sensurointi ja katkaisu Tyypillinen sensuroitu data on elinaikatutkimuksissa - vaihtoehtoisia lääketieteellisiä hoitoja testatessa kokeen päättyessä osa potilaista edelleen elossa, joten heidän elinaikansa on sensuroitu tunnetulla sensurointipisteellä - vastaava myös teknisten laitteiden rasituskokeissa Slide 36
Datankeruuprosessin mallintaminen Monimuutkaisempiakin puuttuvan datan tapauksia on, mutta tämä riittää tälle kerralle Slide 37