Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost)

Koko: px
Aloita esitys sivulta:

Download "Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - odotettu hyöty tai kustannus (expected utility or cost)"

Transkriptio

1 Viime kerralla Markov-ketju Monte Carlo - konvergenssidiagnostiikka (convergence diagnostics) - kuinka monta riippuvaa simulaationäytettä tarvitaan - joitakin perus-mcmc-menetelmien parannuksia Slide 1 Päätösanalyysi - hyöty- ja kustannusfunktiot (utility and cost functions) - odotettu hyöty tai kustannus (expected utility or cost) Bayesilainen päätöksenteko Mahdolliset päätökset d (decision) Mahdolliset seuraamukset x Seuraamuksien todennäköisyysjakaumat annettuna päätökset p(x d) Hyötyfunktio U(x) (utility function) kuvaa seuraamuksen reaaliluvuksi Slide 2 Hyödyn todennäköisyysjakauma p(u(x) d) Odotettu hyöty E(U(x) d) (expected utility) Valitaan päätös d, joka maksimoi odotetun hyödyn E(U(x) d)

2 Yhteys mallien arviointiin ja valintaan Mikä on odotettu hyöty jos käytämme mallia ennustamiseen ja päätöksentekoon tulevaisuudessa - mallin odotettu hyöty - voidaan arvioida onko mallista käytännön hyötyä - voidaan vertailla mallien odotettuja hyötyjä Slide 3 Luento 9 Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn? Mallin herkkyysanalyysi - kuinka paljon päättely muuttuu jos mallioletuksia muutetaan? Mallien vertailu ja valinta Slide 4 - posterioritodennäköisyys ja Bayes factor - prediktiivinen tarkkkuus

3 Onko mallin tuloksissa järkeä? Käytännön ongelmissa on usein tietämystä, jota ei ole formaalisti sisällytetty malliin (likelihood ja priori) - jos mallin tulokset ristiriidassa muun tietämyksen kanssa, on syytä miettiä mallin formaalit oletukset uudestaan Slide 5 Ulkoinen validointi (external validation) Verrataan mallin ennusteita uusiin havaintoihin - paras tapa - yleisesti tieteen tekemisessä käytetty tapa - jos mahdollista, ennustetaan jotkain mitä ei aiemmin mitattu vertaa esim. suhteellisuuteorian ennusteet Slide 6 - pahimmat mallin heikkoudet mahdollista havaita ilman ulkoista validointiakin

4 Posterioriprediktiivinen tarkistus Onko malli johdonmukainen? - mallin posterioriprediktiivisestä jakaumasta pomittujen näytteiden pitäisi muistuttaa alkuperäistä dataa - poimitaan posterioriprediktiivisiä näytteitä ja verrataan dataan systemaattiset poikkeamat viittavat puuteisiin mallissa Slide 7 - matkii ulkoista validointia tuottamalla uudet havainnot mallin avulla ongelmana datan käyttö kahteen kertaan paljastaa pahimmat ongelmat Gelmanin et al. posterioriprediktiivinen tarkistus on pragmaattinen menetelmä, ei formaali Posterioriprediktiivinen tarkistus - Esimerkki Newcombin valonnopeusmittaukset - malli y N(µ, σ 2 ) - priori (µ, log σ ) 1 Matlab9_1.m Slide 8

5 Posterioriprediktiivinen tarkistus Data y Parametrit θ Slide 9 Toistettu (replicated) data y rep - oletetaan, että havaitun datan generoi prosessi jota kuvaa hyvin malli M parametreilla θ - toistettu data havaittaisiin jos koe toistettaisiin - korvataan "oikea" generoiva prosessi mallilla ja parametreilla θ p(y rep y) = p(y rep θ)p(θ y)dθ Testisuure (test quantity) tai poikkeavuusmitta (discrepancy measure) T (y, θ) - yhteenvetoluku jota käytetään vertaamaan dataa ja prediktiivisiä näytteitä Posterioriprediktiivinen tarkistus Posterioriprediktiivinen p-arvo p = Pr(T (y rep, θ) T (y, θ) y) = I T (y rep,θ) T (y,θ) p(y rep θ)p(θ y)dy rep dθ Slide 10 missä I on indikaattorifunktio - jos näytteitä (y rep l, θ l ) posterioriprediktiivisestä jakaumasta, voidaan tämä laskea helposti laskemalla suhde kuinka moni näyte toteuttaa T (y rep l, θ l ) T (y, θ l ), l = 1,..., L

6 Posterioriprediktiivinen tarkistus - Esimerkki Riippumattomuus binomikokeissa - malli y N(µ, σ 2 ) - priori (µ, log σ ) 1 Havainnot järjestyksessä 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0 Slide 11 T = vaihtojen määrä sarjassa - havaittu T (y) = 3 Matlab9_2.m Posterioriprediktiivinen tarkistus Testisuureiden valinta - mallin parametreja vastaavia ominaisuuksia ei kannata testa, koska ne ovat sovittuneet dataan - testattava ominaisuuksia, jotka eivät mallin paramtereina - eri testeillä voi olla suuret erot Slide 12 Matlab9_3.m

7 Posterioriprediktiivinen tarkistus Monikäyttöiset (omnibus) testit - χ 2 -poikkeama (discrepancy) T (y, θ) = i (y i E(Y i θ)) 2 var(y i θ) - deviance Slide 13 T (y, θ) = 2 log p(y θ) = 2 i log p(y i θ) missä 2 johtuu historiallisesta syystä ja normaalijakaumasta Kumpikaan näistä ei huomaa mitään vikaa valonnopeusdatassa, koska ongelmallisia havaintoja on vain 2/66 - voitaisiin tutkia myös max i ( 2 log p(y i θ)) Matlab9_4.m Posterioriprediktiivinen tarkistus Posterioriprediktiivisten p-arvojen tulkinta - jos p-arvo lähes 0 tai 1 viittaa siihen, että malli ei mallinna hvyin tätä datan ominaisuutta - jos p-arvo hyvin lähellä 0:a tai 1:ä, ei tarkemmalla arvolla ole väliä - tarkoitus ei ole arvioida onko malli "oikea", vaan verrata mallin ja datan eroavaisuuksia ja arvioida voisivatko erot olla sattumaa annettuna Slide 14 mallioletukset

8 Posterioriprediktiivinen tarkistus Useat vertailut - jos tehdään monta testiä kasvaa mahdollisuus, että joku testeistä tuotaa sattumalta p-arvon joka lähellä 0:a tai 1:ä Slide 15 - on olemassa "usean vertailun" korjaustermejä, mutta Gelman et al: tarkoitus ei ole hyväksyä tai hylätä mallia vaan ymmärtää sen rajoituksia realistisissa sovelluksissa Vehtari: koska eri testisuureiden riippuvuudet eivät ole tiedossa, ei korjaustermiä voida laskea kuitenkaan Posterioriprediktiivinen tarkistus Hyvin pieni tai iso p-arvo - kuinka mallia voisi parantaa? - esim. valonnopeusesimerkissä sekamalli jossa oma komponetti poikkeaville mittauksille Keskikokoinen p-arvo Slide 16 - kuinka mallin sopivuutta voisi arvioida lisää? - esim. valmennuskurssiesimerkissä yhteismallia ei voi datan perusteella hylätä, mutta hierarkisen mallin kanssa oleelliset johtopäätökset muuttuvat paljon

9 Herkkysanalyysi (sensitivity analysis) Kuinka paljon erilaiset mallissa ja priorissa olevat fiksatut asiat vaikuttavat päättelyyn? - testaa vaihtoehtoisia malleja ja prioreja Slide 17 - vaihtoehtoiset mallit tai priorit voi mahdollisesti muuttaa yhdeksi malliksi, jossa hyperparametrin avulla jatkumo eri mallien välillä esim. hierarkinen malli erillis- ja yhteismallin sijaan esim. t-jakauma fiksatun pitkähäntäisen ja normaalijakauman sijaan - robustit mallit hyviä testaamaan herkkyyttä poikkeaville havainnoille esim. t-jakauma normaalijakauman sijaan Vertaa oleellisten päättelyn tuloksia - äärikvantiilit herkempiä kuin keskiarvot tai mediaanit - extrapolointi herkempää kuin interpolointi Mallien vertailu ja valinta Mallin valinnan lähtökohta on mallien vertailu Mallin valinta voidaan korvata - integroimalla yli diskreetin mallijoukon - korvaamalla diskreetti joukko malleja jatkuvalla malliperheellä Teoriassa integrointi on parempi vaihtoehto Slide 18 - integrointi ottaa huomioon epävarmuuden mallissa Käytännössä - priorijakaumien valinta vaikeutuu mallien määrän kasvaessa tai malliperheiden monimutkaistuessa - rajallinen kohinainen data aiheuttaa ongelmia - tarve tehdä mallista helpommin tulkittava - tarve vähentää mittauskustannuksia - tarve vähentää laskenta-aikaa

10 Mallien vertailu ja valinta Usein mallien vertailu jaetaan kahteen tapaukseen - sisäkkäiset (nested) laajempi malli sisältää kaikki pienemmät mallit mallin valinnassa kyse sopivan kompleksisuustason valinnasta - ei-sisäkkäiset (nonnested) mallien oletukset voivat olla hyvinkin erilaisia Slide 19 Tällä jaolla pääasiassa historiallista merkitystä (eräät todistukset olettavat sisäkkäisyyden) Mallin posterioritodennäköisyys ja Bayes factor Kaksi vaihtoehtoista mallia M 1 ja M 2 ja muu taustatieto I, joka sisältää mallivaihtoehtojen prioritodennäköisyydet Mallin M 1 posterioritodennäköisyys p(m 1 y, I) = p(y M 1, I)p(M 1 I) p(y I) Slide 20 kun lasketaan suhteita, normalisointitermi p(y I) kumoutuu pois p(m 1 y, I) p(y M 1, I)p(M 1 I) lasketaan suhde ja jätetään vielä I merkitsemättä p(m 2 y) p(m 1 y) = p(y M 2) p(m 2 ) p(y M 1 ) p(m 1 )

11 Mallin posterioritodennäköisyys ja Bayes factor Mallien posterioritodennäköisyyksien suhde p(m 2 y) p(m 1 y) = p(y M 2) p(m 2 ) p(y M 1 ) p(m 1 ) Slide 21 p(m 2 )/p(m 1 ) määräytyy priorista ja p(y M 2 )/p(y M 1 ) määräytyy likelihoodien kautta datasta p(y M 2 ) p(y M 1 ) = BF(M 2; M 1 ) Bayes factorin termit ovat tuttuja Bayesin kaavasta eli p(θ 1 y, M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 ) p(y M 1 ) p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 tätä termiä kutsutaan usein mallin evidenssiksi (evidence) Mallin posterioritodennäköisyys ja Bayes factor Evidenssitermien laskeminen usein hyvin vaikeaa p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 Joitakin vaihtoehtoja - analyyttinen ratkaisu vain suljettua muotoa oleville posteriorijakaumille Slide 22 - normaalijakauma-approksimaatio - variaatiolaskenta - MCMC-menetelmät Evidenssitermin arvioiminen MCMC:llä huomattavasti vaikeampaa kuin vain posteriorijakaumasta näytteiden poimiminen - tällä hetkellä suosituin tapa on käyttää trans-dimensionaalisia MCMC-menetelmiä (esim. RJMCMC)

12 Mallin posterioritodennäköisyys ja Bayes factor Mallien posterioritodennäköisyyksiä voidaan käyttää intergoimaan yli eri mallivaihtoehtojen (Bayesian model averaging (BMA)) - BMA ei eroa tavallisesta mallin parametrien yli integroinnista vaikka sille on erillinen termi keksitty - jos mahdollista usein järkevämpää laajentaa erilliset mallit jatkuvaksi malliperheeksi Slide 23 - esim. valmennuskurssiesimerkissä voitaisiin integroida yli erillis- ja yhteismallin, mutta hierarkinen malli sisältää molemmat ja jatkuvuuden niiden välillä Mallin posterioritodennäköisyys ja Bayes factor Mallien posterioritodennäköisyyksiä voidaan käyttää valitsemaan todennäköisin malli - todennäköisimmän mallin valinta vastaa marginaalisen posterioritiheyden maksimointia - toimii hyvin jos mallissa ei parametreja Slide 24 - mitä enemmän mallissa on dataan sovitettavia parametreja sitä huonommin Bayes factor toimii

13 Mallin posterioritodennäköisyys ja Bayes factor Esim. geeni-esimerkki kirjan luvussa 1 - ainoana parametrina oli onko äiti kantaja - vaihtoehtoisesti voidaan ajatella olevan kaksi mallia: M 1 äiti on kantaja, M 2 äiti ei kantaja - laskut samat kuin ennenkin Slide 25 Mallin posterioritodennäköisyys ja Bayes factor Bayes factorin prioriherkkyys johtuu priorijakauman yli integroinnista p(y M 1 ) = p(y θ 1, M 1 )p(θ 1 M 1 )dθ 1 - jos p(θ 1 M 1 ) ei aito, BF ei määritelty - vaikka p(θ 1 M 1 ) aito, termi silti herkkä priorille Slide 26 - ongelma pahenee θ:n ulottuvuuksien määrän kasvaessa - ongelma pahenee jos priori-informaatio ei tarkkaa Bayes factorin prioriherkkyyttä voi hahmottaa myös ketjusäännön avulla p(y M 1 ) = p(y 1 M 1 )p(y 2 y 1, M 1 ),..., p(y n y 1,..., y n 1, M 1 ) tässä tulossa ensimmäiset termit ovat herkkiä priorille Jos dataa paljon suhteessa mallin kompleksisuuteen, Bayes factor toimii ok

14 Prediktiivinen tarkkuus ja mallin odotettu hyöty Prediktiivinen tarkkuus - minkä mallin ennusteet ovat ovat tarkimmat? - onko mallien ennusteissa eroa? Mallin odotettu hyöty - minkä mallin odotettu hyöty on suurin? Slide 27 - onko mallien odotetuissa hyödyissä käytännön eroa? Prediktiivinen tarkkuus ja mallin odotettu hyöty - prediktiivistä tarkkuutta voidaan mitata sopivilla hyötyfunktioilla Prediktiivinen tarkkuus ja mallin odotettu hyöty Slide 28 Annettuna - data D = {(x (i), y (i) ); i = 1, 2,..., n}, missä x (i) kovariaatteja - malli M - tuleva havainto x (n+1) - posterioriprediktiivinen jakauma p(y (n+1) x (n+1), D, M) hyötyfunktio u vertaa prediktiivistä jakaumaa havaintoon (x (n+1), y (n+1) ) Esim: yleiskäyttöinen hyötyfunktio - prediktiivinen likelihood u = p(y (n+1) x (n+1), D, M) (prediktiivisen jakauman tiheys pisteessä y (n+1) ) Mallin odotettu hyötyy saadaan laskemalla odotuasrvo ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M)

15 Prediktiivinen tarkkuus ja mallin odotettu hyöty Mallin odotettu hyötyy saadaan laskemalla odotuasrvo ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M) Slide 29 Jakauma p(x (n+1), y (n+1) ) tuntematon - jos havainto (x (n+1), y (n+1) ) olisi käytettävissä, olisi kyseessä ulkoinen validointi Mallin odotettu hyöty voidaan approksimoida - posteriorivalidointi - osavalidointi - ristiinvalidointi - asymptoottiset approksimaatiot Ristiinvalidointi (cross-validation (CV))* Mallin odotettu hyöty ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M) Jakauma p(x (n+1), y (n+1) ) estoimidaan käyttäen havaintoja (x (i), y (i) ) ja prediktiiviset jakaumat korvataan CV-prediktiivisten jakaumien joukolla Slide 30 {p(y (i) x (i), D (\i), M); i = 1, 2,..., n} missä D (\i) on D:n kaikki alkiot paitsi (x (i), y (i) ) CV-prediktiivisiä jakaumia verrataan havaittuihin y (i) :hin hyötyfunktion u avulla ja otetaan odotusarvo i:n yli mikä on harhaton estimaatti ] ū CV = E i [u(y (i), x (i), D (\i), M)

16 Mallin odotettu hyöty Mallin odotettu hyötyä arvioitaessa voidaan käyttää vapaavalintaista hyötyfunktiota Sovelluskohtaiset hyötyfunktiot tärkeitä Slide 31 Jos kiinnostuksen kohteena on prediktiivisen jakauman yleinen tarkkuus tai sovelluskohtaista hyötyfunktiota ei ole tiedossa, sopiva hyötyfunktio on prediktiivinen likelihood Ristiinvalidointi* Jos p(x (n+1), y (n+1) ):n jakauman oletetaan poikkeavan havaintojen (x (i), y (i) ) jakaumasta, voidaan havaintoja painottaa sopivasti - hyödyllistä esimerkiksi jos x i valittu koesuunnittelussa Perusoletuksena oli, että (x (i), y (i) ) vaihtokelpoisia Slide 32 - sopivilla muutoksilla voidaan ristiinvalidointia käyttää myös jos havainnoilla hierarkinen vaihtokelpoisuus tai muu riittävän rajoitettu riippuvuusrakenne Perusmuodossa laskenta vaatii n kertaa posteriorijakauman laskemisen - yksinkertaisille malleille nopeata analyyttisilla ratkaisuilla - monimutkaisille malleille voidaan laskennallista raskautta vähentää painotuspoimintaristiinvalidoinnilla k-kertaisella ristiinvalidoinnilla

17 Posteriorivalidointi* Posteriorivalidointi - jos dataa paljon verrattuna efektiiviseen parametrien määrään verrattuna, ristiinvalidointiprediktiiviset jakaumat {p(y (i) x (i), D (\i), M); i = 1, 2,..., n} voidaan approksimoida posterioriprediktiivisillä jakaumilla Slide 33 {p(y (i) x (i), D, M); i = 1, 2,..., n} missä merkintäsyistä joudutaan merkitsemään D, joka on datan D täsmällinen kopio - tällöin yksi posteriorijakauman estimointi riittää - kun käytetään virhefunktiota, tunnetaan tämä estimaatti myös nimellä "opetusvirhe" Efektiivinen parametrien määrä* Kun hyötyfunktiona log-likelihood kertaa n L( θ) = i log p(y (i) x (i), θ, D, M) Slide 34 posterioriprediktiivisen estimaatin ja ristiinvalidointiprediktiivisen estimaatin välinen ero on efektiivinen parametrien määrä p eff,cv = i [ ] log p(y (i) x (i), D, M) i [ ] log p(y (i) x (i), D (\i), M) = L PO L CV Efektiiviiseen parametrien määrään vaikuttaa - priorin vaikutus - parametrien välinen riippuvuus - havaintojen määrä (p eff n) - epävarmuuden määrä ja allaolevan ilmiön kompleksisuus - eli kuinka paljon parametrit ovat sovittuneet dataan

18 Osavalidointi* Osavalidointi - jos dataa paljon, voidaan data jakaa kahtia ja käyttää toista osaa ulkoisen validoinnin tavoin {p(y (i) x (i), D (1,..., j), M); i = j + 1,..., n} missä esim. j = n/2 Slide 35 - tätä voidaan kutsua partial predictive arvioinniksi Informaatiokriteerit Odotettu hyöty ū = E (x (n+1),y (n+1) ) [ ] u(y (n+1), x (n+1), D, M) Oikea prediktiivinen jakauma korvataan jakaumalla, jossa parametrien integroinnin sijaan käytetään parametrien piste-estimaattia θ Slide 36 p(y (n+1) x (n+1), θ, D, M) Taylorin sarjakehitelmällä (asymptoottinen approksimaatio) saadaan odotetun hyödyn estimaatti ] ū NIC = E i [u(y (i), x (i), θ, D, M) + tr(k J 1 ) missä K = Var[ū( θ) ] ja J = E[ū( θ) ], missä ū( θ) ja ū( θ) ovat ensimmäiset ja toiset derivaatat θ:n suhteen

19 Informaatiokriteerit Oikea prediktiivinen jakauma korvataan jakaumalla, jossa parametrien integroinnin sijaan käytetään parametrien piste-estimaattia θ p(y (n+1) x (n+1), θ, D, M) Vaihtoehtoisia plug-in estimaatteja θ - AIC: maximum likelihood Slide 37 - NIC: maximum a posteriori - DIC: posterioriodotusarvo Informaatiokriteerit* Taylorin sarjakehitelmällä (asymptoottinen approksimaatio) saadaan odotetun hyödyn estimaatti ] ū NIC = E i [u(y (i), x (i), θ, D, M) + tr(k J 1 ) Slide 38 AIC: Oletetaan "oikea" malli ja käytetään n kertaa log-likelihoodia L( θ) = i log p(y(i) x (i), θ, D, M) jolloin tr(k J 1 ) = p, ja L AIC = L( θ) p

20 Deviance Information Criterion (DIC) Taylorin sarjakehitelmällä (asymptoottinen approksimaatio) saadaan odotetun hyödyn estimaatti ] ū NIC = E i [u(y (i), x (i), θ, D, M) + tr(k J 1 ) DIC:ssä tehdään Monte Carlo -approksimaatio Slide 39 2 (E θ [ū(θ)] ū(e θ [θ])) tr(k J 1 ) missä odotusarvot estoimidaan käyttäen posteriorijakaumasta poimittuja näytteitä Yleistetty DIC vapaavalintaiselle hyötyfunktiolle (Vehtari, 2001) ū DIC = ū(e θ [θ]) + 2 (E θ [ū(θ)] ū(e θ [θ])) Alunperin DIC määriteltiin vain deviance:lle D = 2 log p(y θ) jolloin saadaan DIC = 2E θ [ D(θ)] D(E θ [θ]) Deviance Information Criterion (DIC) DIC:n johto alunperin ja kirjassa eri tavalla kuin luennolla DIC on nopea ja helppo laskea, BUGSissa valmiina DIC:n ongelmia - piste-estimaatin käyttö prediktiivisessä jakaumassa aliarvioi epävarmuuden Slide 40 - asymptoottisessa approksimaatiossa tehdyt oletukset eivät pidä paikkansa, pahimmat ongelmat ovat jos likelihoodin jakauma kaukana normaalista jos havainnot eivät riippumattomia - tulos riippuu parametrisoinnista - odotetun hyödyn epävarmuuden arviointi vaikeaa - voi arvioida p eff :n negatiiviseksi

21 Deviance Information Criterion (DIC) Valmennuskurssiesimerkki Malli D(E θ [θ]) p eff DIC erillismalli yhteismalli hierarkinen Slide 41 ongelma: onko yhteismallin ja hierarkisen mallin ero merkittävä?

p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion)

p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion) Luento 10 Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion) Mallin valinta Slide 1 Marginaaliuskottavuus Bayesin kaava missä p(θ y, M) = p(y M) = p(y θ, M)p(θ M) p(y M) p(y θ, M)

Lisätiedot

Mallin tarkistus (luku 6) - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?

Mallin tarkistus (luku 6) - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn? Luento 9 Päätösanalyysi (luku 22) - hyöty- ja kustannusfunktiot (utility and cost functions) - odotettu hyöty tai kustannus (expected utility or cost) Mallin tarkistus (luku 6) - onko mallin puutteilla

Lisätiedot

Bayesilainen päätöksenteko / Bayesian decision theory

Bayesilainen päätöksenteko / Bayesian decision theory Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena

Lisätiedot

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence Tentin materiaali Sivia: luvut 1,2,3.1-3.3,4.1-4.2,5 MacKay: luku 30 Gelman, 1995: Inference and monitoring convergence Gelman & Meng, 1995: Model checking and model improvement Kalvot Harjoitustyöt Tentin

Lisätiedot

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori. Luento 2 Binomi-malli Posteriorijakauman esittämisestä Informatiivisista priorijakaumista Konjugaattipriori Slide 1 Yksiparametrisia malleja Binomi Jacob Bernoulli (1654-1705), Bayes (1702-1761) Normaali

Lisätiedot

Bayesilaisen mallintamisen perusteet

Bayesilaisen mallintamisen perusteet Bayesilaisen mallintamisen perusteet Johdanto Yksiparametrisia malleja Moniparametrisia malleja Slide 1 Päättely suurten otosten tapauksessa ja bayesilaisen päättelyn frekvenssiominaisuudet Hierarkiset

Lisätiedot

Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn?

Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn? Viime kerralla Mallin tarkistus - onko mallin puutteilla havaittava vaikutus oleelliseen päättelyyn? Mallin herkkyysanalyysi - kuinka paljon päättely muuttuu jos mallioletuksia muutetaan? Mallien vertailu

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi

Lisätiedot

p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma

p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma Viime kerralla Marginalisointi Marginaalijakauma Posteriorijakauman faktorointi Ehdollinen posteriorijakauma Slide 1 Posteriorijakaumasta simulointi Normaalijakauma - tuntematon keskiarvo ja varianssi

Lisätiedot

Viime kerralla. Luento 6. Normaalijakauma-approksimaatio - moodi. - havaittu informaatio

Viime kerralla. Luento 6. Normaalijakauma-approksimaatio - moodi. - havaittu informaatio Viime kerralla Normaalijakauma-approksimaatio - moodi - havaittu informaatio Suurten otosten teoria - asymptoottinen normaalius ja konsistenttisuus Slide 1 - vastaesimerkkejä Bayesilaisen päättelyn frekvenssiarviointi

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten Viime kerralla Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli Exponentiaalinen malli Slide 1 Cauchy-jakauma Ei-informatiivisista priorijakaumista Bayesilaisen

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

Luento 11. Muutama hyödyllinen Monte Carlo-menetelmä. Muutama hyödyllinen Monte Carlo-menetelmä. Mitä muuta hyödyllistä Gelman et al kirjasta löytyy

Luento 11. Muutama hyödyllinen Monte Carlo-menetelmä. Muutama hyödyllinen Monte Carlo-menetelmä. Mitä muuta hyödyllistä Gelman et al kirjasta löytyy Luento 11 Muutama hyödyllinen Monte Carlo-menetelmä Mitä muuta hyödyllistä Gelman et al kirjasta löytyy Kertaus koko kurssiin - tenttiinlukuohjeet Slide 1 Muutama hyödyllinen Monte Carlo-menetelmä Hylkäyspoiminta

Lisätiedot

Kuinka monta riippumatonta simulaationäytettä tarvitaan. - tämä varianssi on riippumaton jakauman ulottuvuuksien määrästä

Kuinka monta riippumatonta simulaationäytettä tarvitaan. - tämä varianssi on riippumaton jakauman ulottuvuuksien määrästä Viime kerralla Karkea laskenta Kuinka monta riippumatonta simulaationäytettä tarvitaan Monte Carlo (luku 11) - suora simulointi - hiladiskretointi Slide 1 - hylkäyspoiminta Markov-ketju Monte Carlo - Gibbs-poiminta

Lisätiedot

Posteriorijakauman normaalijakauma-approksimaatio. Usein posteriorijakauma lähestyy normaalijakaumaa kun n

Posteriorijakauman normaalijakauma-approksimaatio. Usein posteriorijakauma lähestyy normaalijakaumaa kun n Luento 5 Päättely suurten otosten tapauksessa, n - normaalijakauma-approksimaatio - suurten otosten teoria - asymptoottinen normaalius ja konsistenttisuus - vastaesimerkkejä Slide 1 Bayesilaisen päättelyn

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan

Lisätiedot

exp p(y θ) = 1 2πσ θ)2 2σ 2(y y N(θ, σ 2 ) Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla

exp p(y θ) = 1 2πσ θ)2 2σ 2(y y N(θ, σ 2 ) Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla Luento 3 Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-malli Exponentiaalinen malli Slide 1 Cauchy-jakauma Lisää konjugaattiprioreista Ei-informatiivisista priorijakaumista

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

Maximum likelihood-estimointi Alkeet

Maximum likelihood-estimointi Alkeet Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X

Lisätiedot

Binomi Jacob Bernoulli ( ), Bayes ( ) Normaali de Moivre ( ), Laplace ( ), Gauss ( )

Binomi Jacob Bernoulli ( ), Bayes ( ) Normaali de Moivre ( ), Laplace ( ), Gauss ( ) Luento 2 Binomi-malli Posteriorijakauman esittämisestä Informatiivisista priorijakaumista Konjugaattipriori Slide 1 Yksiparametrisia malleja Binomi Jacob Bernoulli (1654-1705), Bayes (1702-1761) Normaali

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin

Pikajohdatus bayesilaiseen tilastoanalyysiin ja monimuuttuja-analyysiin ja monimuuttuja-analyysiin Loppuseminaari: Terveydenhuollon uudet analyysimenetelmät (TERANA) Aki Vehtari AB HELSINKI UNIVERSITY OF TECHNOLOGY Department of Biomedical Engineering and Computational Science

Lisätiedot

exp Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli

exp Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli Luento 3 Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli Exponentiaalinen malli Slide Cauchy-jakauma Ei-informatiivisista priorijakaumista *-merkatut kalvot

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa 6. luento Pertti Palo 1.11.2012 Käytännön asioita Harjoitustöiden palautus sittenkin sähköpostilla. PalautusDL:n jälkeen tiistaina netistä löytyy

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

S-114.600 Bayesilaisen mallintamisen perusteet

S-114.600 Bayesilaisen mallintamisen perusteet S-114.600 Bayesilaisen mallintamisen perusteet Laajuus: 2 ov Opettajat: TkT Aki Vehtari, DI Toni Tamminen Slide 1 Sisältö: Bayesilainen todennäköisyysteoria ja bayesilainen päättely. Bayesilaiset mallit

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

BECS Bayesilainen mallintaminen Lyhyt englanti-suomi sanasto

BECS Bayesilainen mallintaminen Lyhyt englanti-suomi sanasto BECS-114.2601 Bayesilainen mallintaminen Lyhyt englanti-suomi sanasto Aki Vehtari ja Jarno Vanhatalo September 23, 2013 Lyhyt englanti-suomi-sanasto kurssin termeistä. Osalle termeistä emme tiedä virallista

Lisätiedot

Testejä suhdeasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille Ilkka Mellin Tilastolliset menetelmät Osa 3: Tilastolliset testit Testejä suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (007) 1 Testejä suhdeasteikollisille muuttujille >> Testit normaalijakauman

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden 1.12.2006 1. Satunnaisjakauman tiheysfunktio on Ü µ Üe Ü, kun Ü ja kun Ü. Määritä parametrin estimaattori momenttimenetelmällä ja suurimman uskottavuuden menetelmällä. Ratkaisu: Jotta kyseessä todella

Lisätiedot

θ 1 θ 2 θ n y i1 y i2 y in Luento 6 Hierarkkinen malli Johdatus hierarkkisiin malleihin - joskus myös termillä multilevel model

θ 1 θ 2 θ n y i1 y i2 y in Luento 6 Hierarkkinen malli Johdatus hierarkkisiin malleihin - joskus myös termillä multilevel model Luento 6 Johdatus hierarkkisiin malleihin - joskus myös termillä multilevel model Vaihtokelpoisuus (exchangeability) Slide 1 Hierarkkinen malli Esimerkki: sydäntautien hoidon tehokkuus - sairaalassa j

Lisätiedot

Mallipohjainen klusterointi

Mallipohjainen klusterointi Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1 Johdatus varianssianalyysiin Vilkkumaa / Kuusinen 1 Motivointi Luento 4: kahden riippumattoman otoksen odotusarvoja voidaan vertailla t-testillä H 0 : μ 1 = μ 2, T = ˉX 1 ˉX 2 s 2 1 + s2 2 n 1 n 2 a t(min[(n

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (004) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut Mat-2.091 Sovellettu todennäköisyyslasku /Ratkaisut Aiheet: Yhteensopivuuden testaaminen Homogeenisuuden testaaminen Riippumattomuuden testaaminen Avainsanat: Estimointi, Havaittu frekvenssi, Homogeenisuus,

Lisätiedot

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely) Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely) Ohjaaja: TkT Aki Vehtari Valvoja: Prof. Harri Ehtamo Kandidaattiseminaari 21 1.11.21 Esityksen rakenne Tausta Derivaattahavaintojen

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 2. luento: Tilastolliset testit Kai Virtanen 1 Tilastollinen testaus Tutkimuksen kohteena olevasta perusjoukosta esitetään väitteitä oletuksia joita

Lisätiedot

5.7 Uskottavuusfunktioon perustuvia testejä II

5.7 Uskottavuusfunktioon perustuvia testejä II 5.7 Uskottavuusfunktioon perustuvia testejä II Tässä pykälässä pohditaan edellä tarkasteltujen kolmen testisuureen yleistystä malleihin, joiden parametri on useampiulotteinen, ja testausasetelmiin, joissa

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

Jos oletetaan, että sairaaloissa on eroja, kaikki potilaat eivät ole vaihtokelpoisia keskenään

Jos oletetaan, että sairaaloissa on eroja, kaikki potilaat eivät ole vaihtokelpoisia keskenään Viime kerralla Johdatus hierarkisiin malleihin Vaihtokelpoisuus Slide 1 Hierarkinen malli Esimerkki: sydäntautien hoidon tehokkuus Jos oletetaan, että sairaaloissa on eroja, kaikki potilaat eivät ole vaihtokelpoisia

Lisätiedot

TILASTOLLINEN OPPIMINEN

TILASTOLLINEN OPPIMINEN 301 TILASTOLLINEN OPPIMINEN Salmiakki- ja hedelmämakeisia on pakattu samanlaisiin käärepapereihin suurissa säkeissä, joissa on seuraavat sekoitussuhteet h 1 : 100% salmiakkia h 2 : 75% salmiakkia + 25%

Lisätiedot

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1 Tilastotieteen kertaus Vilkkumaa / Kuusinen 1 Motivointi Reaalimaailman ilmiöihin liittyy tyypillisesti satunnaisuutta ja epävarmuutta Ilmiöihin liittyvien havaintojen ajatellaan usein olevan peräisin

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Tilastollisen merkitsevyyden testaus Osa II Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Tilastollisen merkitsevyyden testaus (+ jatkuvan parametrin Bayes-päättely) Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden

Lisätiedot

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0. 806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy 2012 1. Olkoon (X 1,X 2,...,X 25 ) satunnaisotos normaalijakaumasta N(µ,3 2 ) eli µ

Lisätiedot

ABHELSINKI UNIVERSITY OF TECHNOLOGY

ABHELSINKI UNIVERSITY OF TECHNOLOGY Tilastollinen testaus Tilastollinen testaus Tilastollisessa testauksessa tutkitaan tutkimuskohteita koskevien oletusten tai väitteiden paikkansapitävyyttä havaintojen avulla. Testattavat oletukset tai

Lisätiedot

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu) 21.11.2017/1 MTTTP5, luento 21.11.2017 Otossuureita ja niiden jakaumia (jatkuu) 4) Olkoot X 1, X 2,..., X n satunnaisotos (, ):sta ja Y 1, Y 2,..., Y m satunnaisotos (, ):sta sekä otokset riippumattomia.

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Frekventistiset vs. bayeslaiset menetelmät Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Identifiointiprosessi

Identifiointiprosessi Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi

Lisätiedot

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 018 Harjoitus B Ratkaisuehdotuksia Tehtäväsarja I 1 (Monisteen tehtävä 14) Olkoon f Y (y; θ) tilastollinen malli, jonka

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

2. Uskottavuus ja informaatio

2. Uskottavuus ja informaatio 2. Uskottavuus ja informaatio Aluksi käsittelemme uskottavuus- ja log-uskottavuusfunktioita Seuraavaksi esittelemme suurimman uskottavuuden estimointimenetelmän Ensi viikolla perehdymme aiheeseen lisääkö

Lisätiedot

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä Antti Penttinen Jyväskylän yliopisto Matematiikan ja tilastotieteen laitos Metodifestivaalit Jyväskylän yliopisto 21.5.2013 Suunnitelma

Lisätiedot

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017 Luku 1 Bayesläiset estimaattorit Lasse Leskelä Aalto-yliopisto 18. lokakuuta 217 1.1 Bayesläiset piste-estimaatit Tarkastellaan datalähdettä, joka tuottaa tiheysfunktion f(x θ) mukaan jakautuneita riippumattomia

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta MS-A00 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta 7.. Gripenberg Kirjoita jokaiseen koepaperiin nimesi, opiskelijanumerosi ym. tiedot ja minkä kokeen suoritat! Laskin,

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille TKK (c) Ilkka Mellin (005) 1 Testit suhdeasteikollisille muuttujille Testit normaalijakauman parametreille Yhden otoksen t-testi Kahden

Lisätiedot

Tilastotieteen aihehakemisto

Tilastotieteen aihehakemisto Tilastotieteen aihehakemisto hakusana ARIMA ARMA autokorrelaatio autokovarianssi autoregressiivinen malli Bayes-verkot, alkeet TILS350 Bayes-tilastotiede 2 Bayes-verkot, kausaalitulkinta bootstrap, alkeet

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

6. laskuharjoitusten vastaukset (viikot 10 11)

6. laskuharjoitusten vastaukset (viikot 10 11) 6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287

Lisätiedot

Laskennallinen data-analyysi II

Laskennallinen data-analyysi II Laskennallinen data-analyysi II Patrik Hoyer Epävarmuuden mallintaminen 16 17.4.2008 LDA II, osa 3: epävarmuuden mallintaminen Luennot (16.4 ja 17.4) - ongelma, menetelmät, esimerkkejä (kalvot verkossa

Lisätiedot

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille TKK (c) Ilkka Mellin (2004) 1 Testit laatueroasteikollisille muuttujille Laatueroasteikollisten muuttujien testit Testi suhteelliselle

Lisätiedot

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),

Lisätiedot

Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri

Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri Mikrobikriteereiden arviointi esimerkkinä kampylobakteeri Taustaa: NMDD-projekti 2011-2012 Rahoitus: pohjoismaiden ministerineuvosto Vast.tutkija: Maarten Nauta, DTU Epävarmuusanalyysin Bayes-mallinnus,

Lisätiedot

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit Sisältö Tilastollisia testejä tehdään jatkuvasti lukemattomilla aloilla. Meitä saattaa kiinnostaa esimerkiksi se, että onko miesten ja

Lisätiedot

Mitä on bayesilainen päättely?

Mitä on bayesilainen päättely? Metodifestivaali 29.5.2009 Aki Vehtari AB TEKNILLINEN KORKEAKOULU Lääketieteellisen tekniikan ja laskennallisen tieteen laitos Esityksen sisältö Miksi? Epävarmuuden esittäminen Tietämyksen päivittäminen

Lisätiedot

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan 17.11.2006 1. Kahdesta kohteesta (A ja K) kerättiin maanäytteitä ja näistä mitattiin SiO -pitoisuus. Tulokset (otoskoot ja otosten tunnusluvut): A K 10 16 Ü 64.94 57.06 9.0 7.29 Oletetaan mittaustulosten

Lisätiedot

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisten kielten tilastollinen käsittely T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu 5.3.2018/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 5.3.2018, osa 1 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2017

Lisätiedot

Parametrin estimointi ja bootstrap-otanta

Parametrin estimointi ja bootstrap-otanta Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 1/27 Kevät 2003 Käytännön asioista

Lisätiedot

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu 10.1.2019/1 MTTTA1 Tilastomenetelmien perusteet 5 op Luento 10.1.2019 1 Kokonaisuudet johon opintojakso kuuluu https://www10.uta.fi/opas/opintojakso.htm?rid=14600 &idx=1&uilang=fi&lang=fi&lvv=2018 10.1.2019/2

Lisätiedot

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto Kytkentäanalyysin teoriaa Pyritään selvittämään tiettyyn ominaisuuteen vaikuttavien eenien paikka enomissa Perustavoite: löytää markkerilokus jonka alleelit ja tutkittava ominaisuus (esim. sairaus) periytyvät

Lisätiedot

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia. HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia Tehtäväsarja I 1. Jatkoa Harjoitus 8A tehtävään 3. Muodosta odotusarvolle µ approksimatiivinen

Lisätiedot

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin 3 Yleistä estimointiteoriaa Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin 3.1 Johdanto Tähän mennessä olemme tarkastelleet estimointia

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Teema 8: Parametrien estimointi ja luottamusvälit

Teema 8: Parametrien estimointi ja luottamusvälit Teema 8: Parametrien estimointi ja luottamusvälit Todennäköisyyslaskennan perusteet (Teemat 6 ja 7) antavat hyvän pohjan siirtyä kurssin viimeiseen laajempaan kokonaisuuteen, nimittäin tilastolliseen päättelyyn.

Lisätiedot

Log-tiheydet - yli- ja alivuotojen välttämiseksi laskenta usein suoritettava log-tiheyksillä

Log-tiheydet - yli- ja alivuotojen välttämiseksi laskenta usein suoritettava log-tiheyksillä Luento 7 Yleistä laskennasta mm. (luvut 10 ja 12) - karkea estimointi - posteriorimoodit - kuinka monta simulaationäytettä tarvitaan Monte Carlo (luku 11) Slide 1 - suora simulointi - hiladiskretointi

Lisätiedot

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Mallin arviointi ja valinta Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Sisältö Otoksen ennustevirheen estimointi AIC - Akaiken informaatiokriteeri mallin valintaan Parametrimäärän

Lisätiedot

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B Tilastollinen päättömyys, kevät 7 Harjoitus 6B Heikki Korpela 8. helmikuuta 7 Tehtävä. Monisteen teht. 6... Olkoot Y,..., Y 5 Nµ, σ, ja merkitään S 5 i Y i Y /4. Näytä, että S/σ on saranasuure eli sen

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 18. lokakuuta 2007 Antti Rasila () TodB 18. lokakuuta 2007 1 / 19 1 Tilastollinen aineisto 2 Tilastollinen malli Yksinkertainen satunnaisotos 3 Otostunnusluvut

Lisätiedot

Tilastollinen päättely, 10 op, 4 ov

Tilastollinen päättely, 10 op, 4 ov Tilastollinen päättely, 0 op, 4 ov Arto Luoma Matematiikan, tilastotieteen ja filosofian laitos Tilastotiede 3304 TAMPEREEN YLIOPISTO Syksy 2006 Kirjallisuutta Garthwaite, Jolliffe, Jones Statistical Inference,

Lisätiedot