Bayesilaisen mallintamisen perusteet

Samankaltaiset tiedostot
Luento 11. Muutama hyödyllinen Monte Carlo-menetelmä. Muutama hyödyllinen Monte Carlo-menetelmä. Mitä muuta hyödyllistä Gelman et al kirjasta löytyy

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

S Bayesilaisen mallintamisen perusteet

Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost)

Tilastotieteen aihehakemisto

Bayesilainen päätöksenteko / Bayesian decision theory

BECS Bayesilainen mallintaminen Lyhyt englanti-suomi sanasto

Kuinka monta riippumatonta simulaationäytettä tarvitaan. - tämä varianssi on riippumaton jakauman ulottuvuuksien määrästä

Binomi Jacob Bernoulli ( ), Bayes ( ) Normaali de Moivre ( ), Laplace ( ), Gauss ( )

p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma

Jos oletetaan, että sairaaloissa on eroja, kaikki potilaat eivät ole vaihtokelpoisia keskenään

Log-tiheydet - yli- ja alivuotojen välttämiseksi laskenta usein suoritettava log-tiheyksillä

- kuinka monta riippuvaa simulaationäytettä tarvitaan. - hyödyllisiä perus-mcmc-menetelmien parannuksia

p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion)

Viime kerralla. Luento 6. Normaalijakauma-approksimaatio - moodi. - havaittu informaatio

Posteriorijakauman normaalijakauma-approksimaatio. Usein posteriorijakauma lähestyy normaalijakaumaa kun n

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

Bayesilaisen mallintamisen perusteet kurssin sisältö

Tilastollinen päättely, 10 op, 4 ov

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

S Bayesilaisen mallintamisen perusteet

Mallin tarkistus (luku 6) - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?

Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin

exp p(y θ) = 1 2πσ θ)2 2σ 2(y y N(θ, σ 2 ) Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Satunnaislukujen generointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

The Metropolis-Hastings Algorithm

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

exp Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli

Parametristen mallien identifiointiprosessi

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

Tutkimustiedonhallinnan peruskurssi

Parametrin estimointi ja bootstrap-otanta

Mallipohjainen klusterointi

θ 1 θ 2 θ n y i1 y i2 y in Luento 6 Hierarkkinen malli Johdatus hierarkkisiin malleihin - joskus myös termillä multilevel model

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola

Parametristen mallien identifiointiprosessi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

Laskennallinen data-analyysi II

6. laskuharjoitusten vastaukset (viikot 10 11)

Osa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat

Johdatus tn-laskentaan perjantai

805306A Johdatus monimuuttujamenetelmiin, 5 op

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Mitä on bayesilainen päättely?

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Sovellettu todennäköisyyslaskenta B

Epävarmuuden hallinta bootstrap-menetelmillä

Laskennallinen data-analyysi II

TEKNILLINEN KORKEAKOULU ERIKOISTYÖ. koulutusohjelma MUUTOSPISTEIDEN TUNNISTAMINEN BAYESILAISELLA ANALYYSILLA

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Osakesalkun optimointi

pitkittäisaineistoissa

Pohdiskeleva ajattelu ja tasapainotarkennukset

30A02000 Tilastotieteen perusteet

T DATASTA TIETOON

Bayesiläinen tilastollinen vaihtelu

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

5.7 Uskottavuusfunktioon perustuvia testejä II

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

MCMC-menetelmien ongelmakohtia ja ratkaisuja

Todennäköisyyden ominaisuuksia

Tracking and Filtering. Petteri Nurmi

&idx=2&uilang=fi&lang=fi&lvv=2015

&idx=2&uilang=fi&lang=fi&lvv=2015

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Tautikartoitus CAR- ja partitiomalleilla

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Yhteistyötä sisältämätön peliteoria jatkuu

pitkittäisaineistoissa

Testit järjestysasteikollisille muuttujille

Luottoluokitusten siirtymätodennäköisyyksien estimointi ja kalibrointi

Tilastotiede ottaa aivoon

Sovellettu todennäköisyyslaskenta B

1. Tilastollinen malli??

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Teema 8: Parametrien estimointi ja luottamusvälit

ABHELSINKI UNIVERSITY OF TECHNOLOGY

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

MTTTP5, luento Kahden jakauman sijainnin vertailu (jatkoa) Tutkimustilanteita y = neliöhinta x = sijainti (2 aluetta)

3.7 Todennäköisyysjakaumia

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Epävarmuus ja sen huomioiminen hydrologisessa mallinnuksessa

Transkriptio:

Bayesilaisen mallintamisen perusteet Johdanto Yksiparametrisia malleja Moniparametrisia malleja Slide 1 Päättely suurten otosten tapauksessa ja bayesilaisen päättelyn frekvenssiominaisuudet Hierarkiset mallit Laskennallisia menetelmiä, Markov-ketju Monte Carlo Päätösanalyysi Mallien tarkistus, vertailu ja parannus Datankeruuprosessin mallintaminen Johdanto (luku 1) Termit ja notaatio Bayesin kaava, summa- ja tulosääntö Prediktiivinen jakauma Todennäköisyys epävarmuuden mittana Slide 2 Subjektiivisuus vs. objektiivisuus Yksinkertainen simulaatio Inverse-cdf -menetelmä

Aksiomaattiset perustelut todennäköisyydelle* Todennäköisyyskalkyyli voidaan perustella aksiomaattisesti - useita variaatioita, joissa samat perusideat, mutta hieman esitystavassa eroa - kaksi peruslinjaa todennäköisyys ja hyöty erikseen (esim. Cox) todennäköisyys ja hyöty erottamattomia (esim. Bernardo & Smith) - Bernardo & Smith:in esitys olisi mukava esitää, mutta pitkä Slide 3 Päättelyn vaatimukset (Cox 1946)* 1. Uskottavuuden asteet esitetään reaaliluvuilla 2. Kvalitatiivisesti "järkevä" a) jos (H I ) > (H I) niin ( H I ) < ( H I) b) jos lisäksi (D H I ) = (D H I) niin (H D I ) (H D I) 3. Johdonmukaisuus Slide 4 a) sisäinen johdonmukaisuus b) asianmukaisuus c) yhdenmukaisuus nämä ehdot toteuttava on ekvivalentti bayeislaisen kalkyylin kanssa

Yksiparametrisia malleja (luku 2) Termit ja notaatio Binomi-jakauma - minkälaiselle datalle, kaava ja parametrit, konjugaattipriori Normaalijakauma - minkälaiselle datalle, kaava ja parametrit, konjugaattipriorit Slide 5 - (ei tarvitse tentissä osata johtaa posteriorijakaumia tms.) Posteriorijakauman esitäminen - odotusarvo, hajonta, kvantiilit, intervallit, ja hpd Konjugaattipriorin vs. ei-konjugaatipriori - kummankin edut ja ongelmat, esim. vaikutus laskentaan Informatiivinen priori vs. ei-informatiivinen priori - kummankin edut ja ongelmat Moniparametrisia malleja (luku 3) Termit ja notaatio Marginaalijakauma ja marginalisaatio Normaalijakauma - ei-informatiivinen priori ja sen ehdolliset jakaumat ja marginaalijakaumat Slide 6 - konjugaattipriori - (ei tarvitse tentissä osata johtaa posteriorijakaumia tms.) Semi-konjugaattisuus Multinomi-malli - millaiselle datalle, konjugaatipriori

Päättely suurten otosten tapauksessa (luku 4) Normaalijakauma-approksimaatio - Taylor-sarjakehitelmä log-posteriorille - approksimaation parametrit - havaittu informaatio - kuinka voidaan laskea Slide 7 - edut ja ongelmat - asymptootisuuden merkitys Termit lyhyesti - ali-identifioituva malli ja ei-identifoituvat parametrit - valetoisto - rajoittamaton likelihood - ei-aito posteriori Frekvenssiominaisuuksia ei kysytä tentissä Hierarkiset mallit (luku 5) Hierarkinen malli - määrittely - millaiselle datalle - edut Slide 8 - laskenta ja poiminta yleisellä tasolla ja eri vaihtoehdot (ei yksityiskohtaisia kaavoja) Vaihtokelpoisuus - määritelmä - esimerkkejä - suhde riippumattomuuteen - vaihtokelpoisuus kun yksiköistä on lisäinformaatiota Erillis- ja yhteismalli ja niiden yhteys hierarkiseen mallin

Laskennallisia menetelmiä (luku 10) Karkean estimoinnin merkitys Montako simulaationäytettä tarvitaan - simulaatioepävarmuus (Monte carlo error) - odotusarvolle - posterioritodennäköisyydelle Slide 9 Laskennallisia menetelmiä (luku 11) Lyhyet kuvaukset seuraavista sekä edut ja ongelmat - suora simulointi - hilapoiminta - hylkäyspoiminta Slide 10

Markov-ketju Monte Carlo (luku 11) Markov-ketju Monte Carlo - määritelmä - termit: siirtymäjakauma, alkupiste, stationaarinen jakauma, konvergenssi - edut ja ongelmat Slide 11 Gibbs-poiminta, Metropolis ja Metropolis-Hastings-algoritmit - kuvaus pseudokooditasolla - edut ja ongelmat - Gibbs-poiminta jos osa ehdollisista jakaumista ei suljetussa muodossa Markov-ketju Monte Carlo (luku 11) Sisäänajo Peräkkäisten näytteiden riippuvuus - termi efektiivinen näytteiden määrä Konvergenssidiagnostiikka - määritelmä Slide 12 - useat ketjut - PSRF (sanallisesti kuvattuna riittää)

Päätösanalyysi (luku 22) Päätösanalyyin termit ja vaiheet - päätös - lopputulos ja sen jakauma annettuna päätös - hyöty- tai kustannusfunktio - hyödyn jakauma Slide 13 - odotettu hyöty Päätösanalyysilasku - tasoltaan vastaava kuin luku 22.3, tehtävä 22.1 tai luentoesimerkki (testaa samalla Bayesin kaavan käytön) Mallien tarkistus, vertailu ja parannus (luku 6) Onko mallin tuloksissa järkeä? Ulkoinen validointi Posterioriprediktiivinen tarkistus - posterioriorediktiiviset replikaatit ja p-arvot - edut ja ongelmat Slide 14 Herkkyysanalyysi DIC - määritelmä ja kuinka lasketaan - efektiviinen parametrien määrä - edut ja ongelmat Bayes factor - määritelmä ja ongelmat

Datankeruuprosessin mallintaminen (luku 7) Perustermien määrittelyt lyhyesti - havaittu, puuttuva, koko data - stabiilisuus - super- ja äärellisen populaation päättely - ignorability Slide 15 - satunnaistus, deteriministen koesuunnitelma - otantatutkimus, staunnaistettu otanta, ositettu otanta, ryväsotanta - sunnitellut kokeet, täysin satunnaistetut, deterministiset - koesuunnitelmaan herkkyys - havaintotutkimukset - sensurointi, katkaisu Tentti Termit, menetelmät ja algoritmit kuvauksia - lyhyet tai pidemmät kuvaukset - aina mukaan edut ja ongelmat - eri termien tai menetelmien välisiä suhteita ja eroja - alogritmit pseudokoodilla Slide 16 - tärkeimmistä asioista myös kaavat - kysymykset esim. muotoa Kuvaile lyhyesti vaihtoehtoisia tapoja <tehdä jotakin> Kerro lyhyesti mitä seuraavat termit tarkoittavat ja mihin niitä käytetään Kuvaa lyhyesti <z>-algoritmi/menetelmä ja kerro sen edut ja ongelmat Kuvaa lyhesti algoritmit/menetelmät/termit <x> ja <y> ja vertaile niiden ominaisuuksia Mitä on <x> ja mihin sitä käytetään? Yksi laskutehtävä

Mahdollisia jatkokurssin aiheita Priorit - ei-informatiiviset priorit - referenssipriorit - maksimientropiapriorit - herkkyysanalyysi Slide 17 - "prior elicitation" eli priori-informaation hankkiminen asiantuntijoilta Mahdollisia jatkokurssin aiheita Monte Carlo - teoriaa - perfect sampling - hybrid Monte Carlo - population Monte Carlo Slide 18 - slice sampling - adaptiiviset - mahdollisuus vähentää satunnaiskävelyä - importance sampling - tempering-menetelmät - trans-dimensionaaliset - konevergenssidiagnostiikat Variaatiolaskennan menetelmät

Mahdollisia jatkokurssin aiheita Päätösanalyysi Mallin valinta - Bayes-factor ja evidenssitermin laskenta - trans-dimensionaalinen MCMC - ristiinvalidointi Slide 19 - DIC ja muut informaatiokriteerit Mahdollisia jatkokurssin aiheita Regressiomallit - lineaarimalli - hierarkinen lineaarimalli - yleistetty lineaarimalli - robustit mallit Slide 20 - sekamallit (mixture models) - puuttuvan datan mallit - faktorianalyysi - large p, small n - epälineaariset mallit MLP-neuroverkot gaussiset prosessit Bayesian support vector machine jne.

Jatkokurssin aiheita Dynaamiset mallit - aikasarjamallinnus - hidden Markov models Slide 21 - Bayesian tracking and filtering Kalman filter extended Kalman filter unscented Kalman filter sequential Monte Carlo particle filter jne. Jatkokurssin aiheita Tiheysestimointi Bayes-verkot - binaariset - diskreetit - gaussiset Slide 22 - dynaamiset Spatiaalimallit - conditional auto regressive (CAR) - Markov random field (MRF) Survival models

Jatkokurssin aiheita Sovellukset - kuva-analyysi, konenäkö - bioinformatiikka, lääketiede, dna-analyysi - econometrics, econophysics - fysiikkaa Slide 23 - jne.