TEKNILLINEN KORKEAKOULU ERIKOISTYÖ. koulutusohjelma MUUTOSPISTEIDEN TUNNISTAMINEN BAYESILAISELLA ANALYYSILLA

Koko: px
Aloita esitys sivulta:

Download "TEKNILLINEN KORKEAKOULU ERIKOISTYÖ. koulutusohjelma MUUTOSPISTEIDEN TUNNISTAMINEN BAYESILAISELLA ANALYYSILLA"

Transkriptio

1 TEKNILLINEN KORKEAKOULU ERIKOISTYÖ Teknillisen fysiikan Mat Sovellettu matematiikka koulutusohjelma MUUTOSPISTEIDEN TUNNISTAMINEN BAYESILAISELLA ANALYYSILLA Pyry-Matti Hjalmar Niemelä 55448H

2 Sisältö 1 Johdanto 1 2 Bayes-menetelmä muutospisteiden tunnistamiseen Muutospisteongelman määrittely Bayesilainen lähestymistapa Priorijakauma Likelihoodfunktio Posteriorijakauma Ennustaminen Bayes-mallilla Markov Chain Monte Carlo -menetelmä Viipalepoiminta Hyväksymis/hylkäämispoiminta Potentiaalinen skaalanvähennyskerroin Puuttuvan datan käsittely Havainnollistaminen 16 4 Johtopäätökset 20 i

3 Luku 1 Johdanto Muutospisteongelmaa joudutaan käsittelemään useinlaisissa käytännön tilanteissa esimerkiksi signaalinkäsittelyssä, teollisuussysteemien säädössä, taloustieteessä, lääketieteessä ja luotettavuustekniikassa. Tyypillisesti muutospisteongelmassa on kronologisessa järjestyksessä kerättyä dataa, jonka tuottaneessa prosessi on tai uskotaan olevan yksi tai useampi muutos. Yksinkertaisimmillaan tavoitteena on selvittää näiden muutosten tapahtumishetket (Stephens, 1994). Otetaan todelliseen dataan perustuva esimerkki muutospisteongelmasta. Taulukossa 1.1 on esitty havaittujen vikaantumisten määrä 52 venttiilin vuosittaisessa vuototestauksessa ydinvoimalassa (Pulkkinen & Simola, 1999). Tarkasteltaessa dataa herää epäilys, että vuosien 7 ja 8 välillä olisi prosessissa saattanut tapahtua muutos. Mikäli epäilys osoittautuu todeksi, tulee mieleen uusia kysymyksiä: kuinka suuri muutos on tapahtunut, mistä muutos on johtunut ja miten prosessi käyttäytyy vuoden 9 jälkeen. Muutoksen syytä on etsittävä datan tuottaneesta ilmiöstä, mutta muihin kysymyksiin voidaan löytää ratkaisu osana muutospisteongelman ratkaisemista. Muutospisteongelman ratkaisemiseen on erilaisia lähestymistapoja. Perättäisessä muutospisteiden määrittelyssä testataan erilaisilla datapisteiden mää- Taulukko 1.1: Vikaantuneet venttiilit vuototestin perusteella. Vuosi Vikaantuneet venttiilit

4 rillä, löytyykö muutospistettä. Tätä testausongelmaa on pääasiassa lähestytty frekventistisesti. Bayesilaisittain ongelmaa lähestytään yleensä taaksepäin katsovalla menetelmällä, jossa käsiteltävien datapisteiden määrä on kiinteä (Moreno et al., 2005). Tässä työssä hyödynnetään nimenomaan taaksepäin katsovaa Bayes-menetelmää. Toteutan työvälineen ratkaisemaan usean muutospisteen ongelman datalle, jota voidaan pitää Poisson-prosessin muodostamana. Hyödynnän Markov chain Monte Carlo -simulointimenetelmiin kuuluvaa Gibbsin otantaa. Vaikka pyrin ratkaisemaan usean muutospisteen ongelmaa, ensisijaisena tavoitteena on löytää ratkaisu yhden muutospisteen tilanteeseen. Luvussa 2 esittelen ongelma yksityiskohtaisesti sekä tutustun tarkemmin bayesilaiseen lähestymistapaan ja Gibbsin otantaan. Luvussa 3 havainnollistan ongelman ratkaisemiseen kehittämäni työvälineen toimintaa simuloidulla datalla. Luvussa 4 käsittelen sekä toteutetun työvälineen että käytettyjen menetelmien soveltuvuutta muutospisteongelman ratkaisemiseen. 2

5 Luku 2 Bayes-menetelmä muutospisteiden tunnistamiseen 2.1 Muutospisteongelman määrittely Käsittelemme Poisson-prosessia, jonka intensiteetissä on saattanut tapahtua muutoksia. Tavoitteenamme on selvittää mahdolliset muutospisteet ja intensiteetit muutospisteiden välillä sekä ennustamaa tulevaisuutta. Käytössämme on dataa, joka voidaan esittää yleisesti muodossa D = (N 1, T 1 ),..., (N m, T m ) (2.1) missä N i on tapahtumien lukumäärä jakson i aikana ja T i jakson i pituus. Käytössä on dataa m:ltä jaksolta. Toteutettavan työvälineen käyttäjä määrittelee mahdollisten muutospisteiden lukumäärän C <= m. Tehtävä koostuu kahdesta osasta: ensimmäisessä käsitellään tapahtumien määriä ja toisessa niiden välisiä aikoja. Ensimmäisessä osassa T i :t ovat vakiomittaisia. Tavoitteena on selvittää muutospisteet x 1 < x 2 <... < x C, muutospisteiden väliset intensiteetit λ j (1 <= j <= C) ja ennustaa P (N m+l D). Muutospisteet saavat arvoja indeksiavaruudessa. Tehtävän toisessa osassa N i = 1 kaikilla jaksoilla i. Muutospisteiden ja intensiteettien selvittämisen lisäksi tehtävänä on ennustaa P (T m+l < t D). 3

6 Työväliseen luodaan mahdollisuus antaa prioritietona rajoite λ j < λ j+1 tai λ j > λ j+1 kaikilla j. Työvälineen on myös kyettävä käsittelemään puuttuvaa dataa. 2.2 Bayesilainen lähestymistapa Ratkaisemme tehtävän käyttämällä bayesilaista lähestymistapaa. Bayesilainen lähestymistapa perustuu Bayesin kaavaan. Bayesin kaavan mukaan p(θ D) = p(θ, D) p(d) = p(θ)p(d θ) p(d) (2.2) missä p(d) = θ p(θ)p(d θ) (Gelman et al., 1997). Jos θ on jatkuva, summa korvataan integraalilla. Merkitään D:llä havaittuja muuttujia (=data) ja θ:lla kiinnostuksen kohteena olevia parametreja. Yhtälössä 2.2 p(θ) on priorijakauma, joka ilmaisee ennen analyysia olemassa olevan ennakkotiedon kiinnostuksen kohteena olevista parametreista θ. Mikäli ennakkotietoa ei ole, käytetään epäinformatiivista eli mahdollisimman vähän informaatiota sisältävää priorijakaumaa. Merkitään p(d θ):lla likelihoodfunktiota. Likelihoodfunktio on θ:n funktio, jossa D on vakio. Likelihoodfunktio kuvaa datan todennäköisyyttä tietyin parametrein. Priorin ja likelihoodfunktion tulona saadaan malli p(θ, D). Mallin muodostaminen on ensisijainen tehtävä sovellutuksissa (Gelman et al., 1997). Merkitään p(θ D):lla posteriorijakaumaa, joka saadaan mallista jakamalle se skaalaustekijällä p(d) = θ p(θ)p(d θ) (jos θ on jatkuva, summa korvataan integraalilla). Posteriorijakauma antaa parametrien todennäköisyyden ehdollistettuna datalle. Posteriorijakaumasta saadaan eri parametrien arvojen todennäköisyydet. Useamman parametrin tapauksessa posteriorijakauman reunajakaumat ovat yksittäisten parametrien jakaumia. Jakaumien avulla voidaan selvittää esimerkiksi parametrien odotusarvot, varianssit ja bayesilaiset luottamusvälit. Sovelletaan Bayes-mallia tehtäväämme. Bayes-mallin parametrivektori θ sisältää intensiteetit λ j sekä muutospisteet x j. Datamatriisi D sisältää tapah- 4

7 tumamäärät N i ja jaksojen pituudet T i. 2.3 Priorijakauma Priorijakauma on valittava tarkoituksenmukaisesti. Yleisesti priorijakauma voi olla joko informatiivinen tai epäinformatiivinen. Mikäli kiinnostuksen kohteena olevista parametreista on ennakkotietoa, käytetään informatiivista priorijakaumaa. Mikäli ennakkotietoa ei ole, käytetään epäinformatiivista priorijakaumaa, joka sisältää mahdollisimman vähän tietoa. Epäinformatiivisen priorijakauman käyttöä perustellaan sillä, että näin annetaan datalle mahdollisimman suuri rooli. Epäinformatiivisten priorijakaumien löytämiseen ja käyttämiseen liittyy tiettyjä hankaluuksia (Gelman et al., 1997). Priorijakauman valinnassa on otettava huomioon myös käytännöllisyys. Konjugaattipriorit ovat hyvä esimerkki käytännöllisyydestä. Konjugaattipriori on sellainen priorijakauma, jonka tuottama posteriorijakauma kuuluu samaan jakaumaperheeseen. Monimutkaisissa tehtävissä konjugaattijakaumien löytäminen on hankalaa tai jopa mahdotonta. Käytännössä priorijakauman valinnassa tehdään kompromissi käytännöllisyyden ja paikkansapitävyyden välillä (Gelman et al., 1997). Perustapauksissa oletamme, että intensiteetit λ j eivät riipu toisistaan. Tällöin priorijakauma on muotoa p(λ 1,..., λ C, x 1...x C ) = p(λ 1 )...p(λ C )p(x 1,..., x C ) (2.3) Priorijakauman intensiteettejä λ j koskeva osa saadaan siis yksittäisten parametrien priorijakaumien tulona. Parametrit λ j ovat intensiteettejä, joten ne voivat saadaa positiivisia reaalilukuarvoja. Valitaan intensiteettien priorijakaumaksi gammajakauma. Priorijakauman muutospisteitä koskeva osa voidaan kirjoittaa p(x 1,..., x C ) = p(x 1 )p(x 2 x 1 )...p(x C x C 1 ) (2.4) 5

8 Muutospisteet x j saavat arvokseen indeksejä eli luonnollisia lukuja. Muutospisteet riippuvat toisistaan, koska ne ovat suuruusjärjestyksessä. Käytetään p(x 1 ):n jakaumana geometrista jakaumaa. Ehdolliset jakaumat p(x j x j 1 ) voidaan valita siten, että valitaan sopiva jakauma p(x j ):lle (tässä tapauksessa geometrinen jakauma) ja asetetaan se nollaksi ennen kohtaa x j 1 ja loppuosa skaalataan summautumaan ykköseksi. Gammajakauman tiheysfunktio on p(λ) = βα Γ(α) λα 1 e βλ (2.5) missä λ > 0, α > 0, β > 0 ja Γ(α) gammafunktio. Gammajakauman odotusarvo on α ja varianssi α. Gammajakauma on sopiva priori Poissonprosessin intensiteetille. Gammajakauman epäinformatiivisuus kasvaa, β β 2 kun α 0 ja β 0 (Gelman et al., 1997). Geometrinen jakauma on toistokokeen ensimmäistä tulosta edeltävien kokeiden lukumäärän jakauma. Geometrisen jakauman pistetodennäköisyysfunktio on p(x = i) = p(1 p) i (2.6) missä 0 p 1. Jakauman odotusarvo on 1 p ja varianssi 1 p (Weisstein, p p ). Geometrisen jakauman sijaan x j :n priorijakaumana voitaisiin käyttää esimerkiksi tasajakaumaa, mutta siinä olisi erikseen huomioitava vielä tapaukset, joissa muutosta ei tapahdu. Geometrisessa jakaumassa tarkastelualueen ulkopuolelle ylettyvä jakauman osa vastaa tilanteita, joissa muutosta ei tapahdu. Tarkastellaan vielä priorijakauman valintaa tilanteissa, joissa on prioritietona rajoite λ j 1 < λ j tai λ j 1 > λ j kaikilla j. Tällöin λ j :t riippuvat toisistaan. Tapauksessa λ j 1 < λ j yhtälön 2.3 sijaan on käytettävä yhtälöä p(λ 1,..., λ C, x 1...x C ) = p(λ 1...λ C )p(x 1,..., x C ) (2.7) 6

9 jossa p(λ 1,..., λ C ) = p(λ 1 )p(λ 2 λ 1 )...p(λ C λ C 1 ) (2.8) Tapauksessa λ j 1 > λ j indeksit on vain asetettava vastakkaiseen järjestykseen yhtälössä 2.8. Nyt on vain muotoiltava p(λ j λ j 1 ) ja p(λ j 1 λ j ). Kun on asetettu rajoite λ j 1 < λ j ja haetaan priorijakaumaan osaa p(λ j λ j 1 ), voidaan käyttää jakaumaa p(λ j ), mutta asettaa sen arvo nollaksi ennen kohtaa λ j 1 ja skaalata loppuosa summautumaan ykköseksi. Kun rajoite on toisinpäin ja etsitään priorijakaumaan osaa p(λ j 1 λ j ), voidaan käyttää jakaumaa p(λ j 1 ), mutta asetetaan jakauma nollaksi kohdan λ j jälkeen ja skaalataan loppuosa summautumaan ykköseksi. 2.4 Likelihoodfunktio Likelihoodfunktio p(d θ) on θ:n funktio, jossa D on vakio. Likelihoodfunktio kuvaa datan todennäköisyyttä tietyin parametrein. Käsittelemme Poisson-prosessia. Tapahtumien lukumäärät jaksoilla kuten myös tapahtumien väliset ajat ovat riippumattomia. Riippumattomien tapahtumien yhteistodennäköisyys voidaan esittää yksittäisten tapahtumien todennäköisyyksien tulona, joten likelihoodfunktio voidaan esittää tulona p(d θ) = m p((n i, T i ) θ) (2.9) i=1 Tehtävän ensimmäisessä osassa T i :t ovat vakiomittaisia. Tapahtumat jakson aikana N i ovat Poisson-jakautuneita parametrilla λ j T i. Tämän perusteella p((n i, T i ) θ) = p(n i θ) = (λ jt i ) N i N i! e λ jt i missä j on s.e.x j 1 < i <= x j (2.10) 7

10 Tehtävän toisessa osassa N i = 1 kaikilla i. Merkitään tapahtumien välisiä aikoja T i :llä. Poisson-prosessissa tapahtumien väliset ajat ovat eksponenttijakautuneita. Tämän perusteella p((t i, N i ) θ) = p(t i θ) = λ j e λ jt i missä j on s.e.x j 1 < i <= x j (2.11) 2.5 Posteriorijakauma Posteriorijakauma p(θ D) antaa parametrien todennäköisyyden ehdollistettuna datalle. Posteriorijakauma saadaan mallista eli priorijakauman ja likelihoodfunktion tulosta jakamalle se skaalaustekijällä p(d) = θ p(θ)p(d θ) (jos θ on jatkuva, summa korvataan integraalilla). Tehtävässämme parametrivektorin θ muutospisteet x j :t ovat diskreettejä ja intensiteetit λ j :t jatkuvia. Skaalaustekijässä näin ollen summataan yli muutospisteiden x j ja integroidaan yli intensiteettien λ j. Tehtävämme voi olla suuridimensioinen. Likelihoodfunktio on muodoltaan hankala sisältäen monimutkaisten todennäköisyysfunktioiden tuloja. Myös priorijakauma voi olla hankala. Posteriorijakaumaa ei voida ilmaista suljetussa muodossa. Tämän vuoksi käytämme posteriorijakauman ratkaisemiseen numeerista Markov chain Monte Carlo -menetelmää, joka esitellään kappaleessa 2.7. Posteriorijakauman reunajakaumina saadaan yksittäisten parametrien jakaumat. Jakaumien avulla voidaan selvittää esimerkiksi parametrien odotusarvot, varianssit ja bayesilaiset luottamusvälit. 2.6 Ennustaminen Bayes-mallilla Bayes-mallilla ennustaminen perustuu ennustavaan posteriorijakaumaan. Kun ennustetaan tulevaa Ñ datan D perusteella, ennustava posteriorijakauma on 8

11 p(ñ D) = θ p(ñ θ)p(θ D) (2.12) Jatkuva-aikaisen θ:n tapauksessa summa korvataan integraalilla. Havaitaan, että jälkimmäinen tekijöistä on posteriorijakauma (Gelman et al., 1997). Ensimmäisessä tehtävässä ennustetaan p(n m+l D). Tätä varten on ratkaistava p(n m+l θ). Prosessin muutokset ovat tapahtuneet datan aikana, joten ennustettavat N m+l :t noudattavat Poisson-jakaumaa intensiteetillä λ j T m+l, missä j saa suurimman mahdollisen arvon ehdolla x j 1 < m. Toisessa tehtävässä ennustetaan p(t m+l < t D). Tätä varten on ratkaistava p(t m+l < t θ). Kuten edellä prosessin muutokset ovat tapahtuneet datan aikana, joten T m+l :t noudattavat eksponenttijakaumaa intensiteetillä λ j, missä j saa suurimman mahdollisen arvon ehdolla x j 1 < m. Mielenkiinnon kohteena on p(t m+l < t θ), joten olemme kiinnostuneita kertymäfunktiosta. Kertymäfuntio pystytään muodostamaan todennäköisyystiheysfunktion avulla, joten voidaan pyrkiä selvittämään jakauma p(t m+l θ) ja sen avulla muodostamaan p(t m+l < t θ). Prosessi pysyy annetun datan jälkeen muuttumattomana, joten l:n arvolla ei ole vaikutusta ennusteisiin. 2.7 Markov Chain Monte Carlo -menetelmä Markov chain Monte Carlo eli MCMC-menetelmä on Markovin ketjuun perustuva simulointi, joka tuottaa näytteitä halutusta jakaumasta. Menetelmä on monimutkainen, mutta useimmiten helpoin tapa selvittää posteriorijakauma p(θ D) suuridimensioisissa tehtävissä. Menetelmällä on monia sovellutuksia myös muilla aloilla kuin Bayes-analyysissä (Gelman et al., 1997). Menetelmän ideana on simuloida kiinnostuksen kohteena olevan muuttujan θ avaruuteen satunnaiskulku, joka konvergoi tasapainojakaumaan. Tasapainojakaumana on posteriorijakauma p(θ D), jota tässä yhteydessä voidaan kutsua kohdejakaumaksi (Gelman et al., 1997). Menetelmässä luodaan Markov-prosessi, jonka tasapainojakauma on kohdejakauma. Prosessia toistetaan kunnes simuloitujen lukujen jakauma on riit- 9

12 tävän lähdellä kohdejakaumaa. Simulointialgoritmi voidaan luoda erilaisilla tavoilla (Gelman et al., 1997). Tässä käytämme algoritmina monidimensioisiin tehtäviin hyvin soveltuvaa vuorottaista ehdollista otantaa eli Gibbsin otantaa. Gibbsin otannassa parametrivektori θ on jaettavissa komponentteihin θ = (θ 1,...θ d ). Kullakin iteraatiokierroksella käydään läpi kukin komponentti valitussa järjestyksessä. Kullekin komponentille arvotaan uusi arvo käyttäen muille komponenteille ehdollista jakaumaa p(θ j θ t 1 j, D) (2.13) missä t on iteraatiokierros ja θ j t 1 vektori, joka sisältää θ:n komponentit j:nnettä lukuunottamatta. Komponenttia j pienemmän indeksin komponentit ovat mukana jo päivitetyin eli iteraatiokierroksen t arvoin ja muut edellisen iteraatiokierroksen t 1 arvoin (Gelman et al., 1997). Gibbsin otantaa käytettäessä on vain pystyttävä muodostamaan jakaumat p(θ j θ t 1 j, D). Useille ongelmille on mahdollista muodostaa suurin osa tai kaikki parametrien ehdolliset posteriorijakaumat. Muodostetaan ehdolliset posteriorijakaumat ensimmäiseen tehtävään. Muutospisteiden x j ehdollisia posteriorijakaumia muodostettaessa tehtävä muuttui yhden muutospisteen ongelmaksi. Muutospisteiden ehdollisiksi posteriorijakaumiksi saadaan p(x j x 1,...x j 1, x j+1,..., x C, λ 1,..., λ C, D) = p(x j x j 1, x j+1, λ j, λ j+1, N xj 1 +1,..., N Xj+1 ) x j i=x j 1 +1 p(n i λ j ) x j+1 i=x j +1 p(n i λ j+1 )p(x j x j 1, x j+1 ) (2.14) Yhtäsuuruusmerkki seuraa jättämällä ehdollistamisesta pois osa, josta x j ei riipu. Suoraan verrannollisuus saadaan soveltamalla Bayesin kaavaa 2.2 ja 10

13 jättämällä skaalaustekijä pois. Alimmalla rivillä ovat ehdollistettu likelihoodfunktio ja priori. Priorin ehdollisuus seuraa siitä, että muutospisteen x j alasekä yläraja tunnetaan. Ehdollinen priori p(x j x j 1, x j+1 ) voidaan muodostaa priorista p(x j ) siten, että välillä ]x j 1, x j+1 [ ehdollinen priori on skaalausta vaille priori ja muualla jakauma saa arvon nolla. Tarkastellaan intensiteettien λ j ehdollisia posteriorijakaumia p(λ j x 1,...x C, λ 1,...λ j 1, λ j+1,..., λ C, D) = p(λ j x j 1, x j, N xj 1 +1,..., N xj ) x j i=x j 1 +1 p(n i λ j )p(λ j ) (2.15) Ehdollistettu posteriorijakauma on muodostettu kuten Stephens (1994) kuvaa perusteellisesti ehdollisten posteriorijakaumien muodostamista muutospisteongelmille. Ensimmäisessä tehtävässä p(n i λ j ):t ovat Poisson-jakaumia parametrilla λ j T i kuten on esitetty luvussa 2.4. Toisessa tehtävässä voidaan käyttää samoja ehdollistettuja posteriorijakaumia korvaamalla vain tapahtumien määrät N i jaksojen pituuksilla T i. Jakaumat p(t i λ j ):t ovat eksponenttijakaumia parametrilla λ j. Mikäli prioritietona on annettu rajoita λ j < λ j+1 tai λ j > λ j+1 kaikilla j, tämä on huomioitava ehdollisissa posteriorijakaumissa. Tällöin kaavassa 2.15 on käytettävä ehdollisena priorina jakaumaa p(λ j λ j 1, λ j+1 ) jakauman p(λ j ) sijaan. Jakauma p(λ j λ j 1, λ j+1 ) saadaan hyödyntämällä samaa menettelyä kuin aiemmin muutospisteiden kohdalla. On muodostettu ehdolliset posteriorijakaumat skaalaustekijää lukuunottamatta. Nyt tarvitaan soveltuva menetelmä näytteiden poimimiseen jakaumista. Menetelmän on oltava sellainen, joka soveltuu kaikkiin jakaumiin, koska käyttäjä valitsee priorijakauman. Soveltuva menetelmä on viipalepoiminta (slice sampling). 11

14 2.7.1 Viipalepoiminta Viipalepoiminta on eräänlainen Markov chain Monte Carlo -algoritmi. Se perustuu havaintoon, että satunnaismuuttujaa voidaan näytteistää poimimalla tasajakautuneita pisteitä tiheysfunktion kuvaajan alle jäävästä alueesta (Neal, 2000). Sovellamme viipalepoimintaa näytteiden poimimiseen jakaumasta p(x) seuraavasti: 1. Valitaan alkuarvo x = x 0 2. Arvotaan apumuuttujan y arvo tasajakaumasta (0, p(x)) 3. Asetetaan satunnaiseen kohtaan x:n ympärille väli, jonka leveys on w 4. Laajennetaan väliä kummastakin päästä w:n pituisin askelin siihen asti kunnes välin kumpikin pää x l ja x r toteuttavat ehdon y > p(x) ('stepping out' -prosessi) 5. Arvotaan tasajakaumasta (x l, x r ) muuttujalle ehdokasarvo x e 6. Mikäli y < p(x e ), asetetaan x = x e ja siirrytään kohtaan 2 uuden näytteen muodostamiseksi. Muuten jatketaan kohtaan Mikäli x e < x, asetetaan x l = x e. Muuten asetetaan x r = x e. Palataan kohtaan Hyväksymis/hylkäämispoiminta Viipalepoiminta on helppo implementoida yleiskäyttöiseksi, mutta se on melko hidas menetelmä. Tämän vuoksi käytän tietylle välille rajoitettujen satunnaismuuttujien jakaumien kohdalla tehokkaampaa hyväksymis/hylkäämispoimintaa (acception rejection algorithm / rejection sampling). Menetelmä olisi toki yleiskäyttöisempikin, mutta implementointi tietylle välille rajoitetuille jakaumille on erityisen yksinkertaista. Muutospisteiden ehdolliset posteriorijakaumat ovat työvälineessä aina rajoitettuja. Ne ovat myös diskreettejä. 12

15 Hyväksymis/hylkäämispoiminnan käyttö näytteiden poimimiseen jakaumasta p(x) edellyttää sitä, että pystymme määrittelemään kaikille x, joilla p(x) > 0, funktion g(x), jolla on seuraavat ominaisuudet: Funktion g(x) määrittelemästä jakaumasta pystytään poimimaan näytteitä On oltava tunnettu vakio M, jolle p(x) g(x) M kaikille x Funktion g(x) ei tarvitse integroitua ykköseksi, mutta sillä on oltava rajoitettu integraali Hyväksymis/hylkäämispoiminta toimii seuraavasti: 1. Poimitaan x satunnaisesti funktion g(x) mukaisesta jakaumasta 2. Hyväksytään x näytteeksi p(x):stä todennäköisyydellä p(x) Mg(x), muuten palataan kohtaan 1 Rajoitus p(x) g(x) M takaa sen, että toisella askeleella todennäköisyydet eivät ylitä ykköstä (Gelman et al., 1997). Rajoitetun satunnaismuuttujan kohdalla menetelmän implementointi on yksinkertaista. Valitaan g(x) 1. Selvitetään p(x):n maksimiarvo ja asetetaan se M:n arvoksi. Näin saatu menetelmä ei ole mitenkään tehokas hyväksymis/hylkäämispoiminta, sillä hyväksymistodennäköisyys voi jäädä usein pieneksi. Se on kuitenkin helppo toteuttaa yleisille rajoitetun satunnaismuuttujan jakaumille Potentiaalinen skaalanvähennyskerroin Gibbsin otannassa simuloidaan kohdejakauman arvoja niin pitkään kunnes jakauma on riittävän lähellä kohdejakaumaa. Valitut alkuarvot vaikuttavat simuloinnin alussa saataviin arvoihin. Yleinen tapa on jättää simuloinnin alussa saadut arvot käyttämättä tämän vuoksi. Jätetään käyttämättä puolet simuloinnilla saatavista arvoista. 13

16 On valittava kohta, jolloin simuloinnin jälkimmäisen puolikkaan arvot ovat riittävän konvergoituneet. Sovelletaan potentiaalista skaalanvähennyskerrointa ˆR ja vaaditaan, että sen arvo on lähellä 1 (esimerkiksi selvästi alle 1.2) kaikille estimoinnin kohteena oleville parametreille. Potentiaalisen skaalanvähennyskertoimen laskemiseksi on simuloitava useampia eri alkuarvoista lähteviä sekvenssejä kullekin parametrille. Kun kaikki skaalanvähennyskertoimet ovat riittävän pieniä, yhdistetään parametrien sekvenssien jälkimmäiset puoliskot jakaumaestimaattien muodostamiseksi (Gelman et al., 1997). Potentiaalisen skaalanvähennyskertoimen selvittämiseksi on laskettava sekvensien väliset ja sekvensien sisäiset varianssit B ja W. Estimoitava parametri ψ saa simuloinnissa arvoja ψ ij (i = 1,..., n; j = 1,..., J). Indeksi i viittaa simulointikierrokseen (kun alkukierrokset jätetty huomiotta) ja j sekvenssiin. Tällöin B ja W ovat B = n J 1 J J ( ψ.j ψ.. ) 2 j=1 W = 1 J j=1 s 2 j missä ψ.j = 1 n n i=1 ψ ij, ψ.. = 1 J J j=1 ψ.j ja s 2 j = 1 n 1 n i=1 (ψ ij ψ.j ) 2. Varianssien B ja W painotettuna keskiarvona saadaan estimoitavan parametrin reunaposteriorivarianssin estimaatti var ˆ + (ψ D) = n 1 n W + 1 n B (2.16) Tämän avulla saadaan potentiaalinen skaalanvähennyskerroin var ˆ + (ψ D) ˆR = W (2.17) jonka arvo lähestyy ykköstä, kun n Gelman et al. (1997). 14

17 2.8 Puuttuvan datan käsittely Puuttuvan datan käsittely on yksinkertaista Gibbsin otannassa. Käsitellään puuttuvaa dataa kuten mitä tahansa simuloitavaa parametria. Määritellään puuttuvalle datapisteelle arvo mallin muiden parametrien avulla ja käytetään näin saatua puuttuvan datapisteen arvoa muiden parametrien määrittämiseen. Puuttuvan datapisteen arvon määrittely tapahtuu lähes kuten tulevan arvon ennustaminen. Lähtökohtana voidaan pitää kappaleessa 2.6 esiteltyä kaavaa Kaavassa esiintyvä Ñ on nyt ennustettavan arvon sijaan puuttuva arvo, jota pyritään määrittelemään. Data D sisältää vain havaitun datan. Kaavassa jälkimmäinen tekijöistä on posteriorijakauma. Ensimmäisessä tehtävässä on selvitettävä p(n i,mis D). Tätä varten on ratkaistava p(n i,mis θ). Puuttuva tapahtumamäärä N i,mis noudattaa Poissonjakaumaa intensiteetillä λ j T i, missä j saa arvon, jolla x j 1 < i x j. Toisessa tehtävässä on selvitettävä p(t i,mis D). Tätä varten on ratkaistava p(t i,mis θ). Puuttuva tapahtumien välinen aika T i,mis noudattaa eksponenttijakaumaa intensiteetillä λ j, missä j saa arvon, jolla x j 1 < i x j. Gibbsin otannassa puuttuvalle datalle arvotaan alkuarvot. Kullakin iteraatiokierroksella puuttuvalle datalle arvotaan uudet arvot käytteän simulaation antamia parametreja. Puuttuvalle datalle annettuja arvoja käytetään simulaation aikana aivan kuten havaittuakin dataa. 15

18 Luku 3 Havainnollistaminen Toteutin työvälineen muutospisteongelman ratkaisemiseen käyttäen luvussa 2 esitettyjä menetelmiä. Havainnollistetaan työvälineen toimintaa yksittäisellä simuloituun dataan perustuvalla esimerkillä. Simuloidaan 20 datapistettä sisältävä Poisson-prosessi, jossa on muutospiste seitsemännessä datapisteessä. Kukin aikaväli T i on kaksi yksikköä pitkä. Intensiteetti seitsemänteen datapisteeseen asti ovat 3 ja sen jälkeen 6. Simuloinnilla saatu data on taulukossa 3.1 Syötetään tämä data työvälineelle. Asetetaan muutospisteiden määrä yhdeksi. Ei anneta lisäinformaatiota intensiteeteistä. Vaaditaan vähintään 200 näytettä. Simulointi pyörii 79 kierrosta ja palauttaa 200 näytettä muutospisteestä, intensiteetistä siihen asti ja sen jälkeen sekä tapahtumien määrästä tulevilla aikaväleillä. Muutospisteen näytteet ja niistä muodostettu histogrammi on esitetty kuvassa 3.1. Näytteiden keskiarvo on 10.07, varianssi ja mediaani 7. Keskiarvo ja mediaani eivät ole tilanteessa kovinkaan hyviä mittoja, sillä histogrammissa havaitaan kolme huippua. Moodin käyttö on perustellumpaa. Taulukko 3.1: Poisson-prosessin tuottama data. Muutospiste seitsemännessä datapisteessä. Intensiteetti muutospisteeseen asti on 3 ja sen jälkeen 6. i N i T i

19 Kuva 3.1: Vasemmalla näytteet muutospisteestä ja oikeilla niistä muodostettu histogrammi tilanteessa, jossa tarkastelun kohteena tapahtumien määrä, datassa yksi muutospiste, ei puuttuvaa dataa eikä lisäinformaatiota intensiteeteistä. Korkein huippu on indeksillä seitsemän, toiseksi korkein indeksillä 19 ja kolmanneksi korkein indeksillä 11. Tarkastelemalla taulukon 3.1 dataa tulosta voidaan pitää järkevänä. Työväline löysi muutospisteen indeksistä seitsemän, joka on myös datan generoineen prosessin muutospiste. Tarkastellaan intensiteettejä. Muutospisteeseen asti vallitsevasta intensiteetistä saadut näytteet ja niistä muodostettu histogrammi on esitetty kuvassa 3.2. Näytteiden keskiarvo on 3.35, varianssi 0.66 ja mediaani Histogrammin mukaan jakauma on yksihuippuinen. Keskiarvon sekä mediaanin mukaisella tarkastelulla päästään melko lähelle generoivassa prosessissa käytettyä intensiteettiä 3. Muutospisteen jälkeen vallitsevasta intensiteetistä saadut näytteet ja niistä muodostettu histogrammi on esitetty kuvassa 3.3. Näytteiden keskiarvo on 7.31, varianssi 8.70 ja mediaani Histogrammin mukaan jakauma on yksihuippuinen ja vino oikealle. Keskiarvon sekä mediaanin mukaisella tarkastelulla päästään melko lähelle generoivassa prosessissa käytettyä intensiteettiä 6, mutta jonkin verran suurempiin arvoihin. Tarkastellaan näytteitä tapahtumien määristä tulevilla ajanjaksoilla. Näytteet ja niistä muodostettu histogrammi on esitetty kuvassa 3.4. Näytteiden 17

20 Kuva 3.2: Vasemmalla näytteet muutospisteeseen asti vallitsevasta intensiteetistä ja oikeilla niistä muodostettu histogrammi tilanteessa, jossa tarkastelun kohteena tapahtumien määrä, datassa yksi muutospiste, ei puuttuvaa dataa eikä lisäinformaatiota intensiteeteistä Kuva 3.3: Vasemmalla näytteet muutospisteen jälkeen vallitsevasta intensiteetistä ja oikeilla niistä muodostettu histogrammi tilanteessa, jossa tarkastelun kohteena tapahtumien määrä, datassa yksi muutospiste, ei puuttuvaa dataa eikä lisäinformaatiota intensiteeteistä. 18

21 Kuva 3.4: Vasemmalla näytteet tuleville aikaväleille ennustettavasta tapahtumien määrästä ja oikeilla niistä muodostettu histogrammi tilanteessa, jossa tarkastelun kohteena tapahtumien määrä, datassa yksi muutospiste, ei puuttuvaa dataa eikä lisäinformaatiota intensiteeteistä. keskiarvo on 14.46, varianssi ja mediaani 13. Histogrammi muistuttaa melko hyvin Poisson-jakaumaa. Kahden aikayksikön mittaisella välillä tapahtumien määrän pitäisi olla odotusarvoisesti 12 intensiteetin ollessa 6. Keskiarvo jää melko kauaksi tästä. Havaitaan työvälineen toimivan melko hyvin tässä yksittäisellä datalla toteutetussa hyvin yksinkertaisessa yhden muutospisteen tapauksessa. Menetelmän ja työvälineen toimivuuden ja tehokkuuden arvioimiseksi olisi toteutettava useita erilaisilla datoilla toteutettuja simulaatioita, joiden perusteella voitaisiin todeta, kuinka monessa tapauksessa ollaan onnistuttu löytämään muutospisteet. 19

22 Luku 4 Johtopäätökset Tehtävänä oli ratkaista muutospisteongelma Poisson-prosessin tuottamalle datalle. Oli kyettävä ratkaisemaan tapahtumien määrää käsittelevä tehtävä jakson pituuden ollessa vakio sekä yksittäisten tapahtumien välistä aikaa käsittelevä tehtävä. Muutospisteongelman ratkaisemisella tarkoitettiin muutospisteiden ja intensiteettien selvittämistä sekä ennusteen luomista tulevaisuuteen. Lisäksi oli kyettävä käsittelemään puuttuvaa dataa. Hyödynsin bayesilaista lähestymistapaa. Bayes-menetelmissä on ratkaistava parametrien posteriorijakauma. Posteriorijakaumaa ei pystytä näin monimutkaisessa tehtävässä lausumaan suljetussa muodossa. Hyödynsin tämän vuoksi numeerista Markov chain Monte Carlo -menetelmiin kuuluvaa Gibbsin otantaa kappaleessa 2.7 esitetyllä tavalla. Markov chain Monte Carlo -menetelmä on monimutkainen, mutta useimmiten helpoin tapa selvittää posteriorijakauma suuridimensioisissa tehtävissä (Gelman et al., 1997). Havainnollistin luvussa 3 menetelmän toimintaa yksinkertaisessa simuloituun dataan perustuneessa yhden muutospisteen tapauksessa. Tässä yksittäistapauksessa menetelmä onnistui löytämään muutospisteen. Intensiteetit ja ennusteet olivat myös oikean suuntaisia, vaikkakin arvoiltaan hieman liian suuria. Menetelmän toimivuuden ja tehokkuuden arvioimiseksi olisi toteutettava useita erilaisiin datoihin perustuvia simulaatioita. Gibbsin otanta vaikutti käyttökelpoiselta menetelmältä muutospisteiden tunnistamiseen. Gibbsin otannan implementointi oli kohtuullisen vaivatonta. 20

23 Esimerkiksi puuttuvan datan käsittely onnistui erittäin yksinkertaisesti. Menetelmään perustuvaan työvälineeseeni sisältyy monia ominaisuuksia ja toimintoja. Se ottaa vastaan lisäinformaatiota intensiteettien kasvamisesta/pienenemisestä, käsittelee puuttuvaa dataa ja seuraa simuloitavien sekvenssien konvergoitumista. Työvälinettä voisi toki edelleen kehittää. Kokeillessani työvälineeni toimintaa havaitsin simulaation pyörivän ajoittain erittäin hitaasti. Aikaa vievät nimenomaan hitaasti toimivat ja usein tarvittavat otantamenetelmät, viipalepoiminta ja hyväksymis/hylkkäämispoiminta. Tehostamalla näitä otantamenetelmiä tai korvaamalla ne muilla menetelmillä pystytään työvälineen toimintaa nopeuttamaan merkittävästi. Sekvenssien konvergoitumisen tarkkaileminen käyttämällä vain potentiaalisia skaalanvähennyskertoimia esittämälläni tavalla ei ole riittävää. Menetelmän mukaan konvergoituminen saavutetaan hyvin aikaisessa vaiheessa. Työvälineen käyttäjälle jää melko suuri vastuu siitä, että pyytää näytteitä riittävästi, jolloin myös simulaatiota pyöritetään riittävän kauan. Konvergoitumisen seuraamista voisi kehittää ja etenkin, jos on tiedossa, mistä parametreista ollaan erityisesti kiinnostuneita. 21

24 Kirjallisuutta Gelman, A., Carlin, J. B., Stern, H. S., & Rubin, D. B. (1997). Bayesian Data Analysis. Texts in Statistical Science. London: Chapman & Hall, 1. edition. Moreno, E., Casella, G., & Garcia-Ferrer, A. (2005). An objective bayesian analysis of the change point problem. Stochastic Environmental Research and Risk Assessment (SERRA), 19(3), Neal, R. M. (2000). Slice Sampling. Technical Report 2005, Department of Statictics, University of Toronto, radford/. Pulkkinen, U. & Simola, K. (1999). Bayesian ageing models and indicators for repairable components. In K. Simola (Ed.), Reliability methods in nuclear power plant ageing management, volume 379 of VTT Publications. Espoo: VTT Technical Research Centre of Finland. Stephens, D. A. (1994). Bayesian retrospective multiple-changepoint identi- cation. Applied Statistics, 43(1), Weisstein, E. W. (2006). Geometric Distribution. MathWorld. A Wolfram Web Resource., [ ]. 22

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Frekventistiset vs. bayeslaiset menetelmät Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Tilastollinen päättely, 10 op, 4 ov

Tilastollinen päättely, 10 op, 4 ov Tilastollinen päättely, 0 op, 4 ov Arto Luoma Matematiikan, tilastotieteen ja filosofian laitos Tilastotiede 3304 TAMPEREEN YLIOPISTO Syksy 2006 Kirjallisuutta Garthwaite, Jolliffe, Jones Statistical Inference,

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi

Lisätiedot

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori. Luento 2 Binomi-malli Posteriorijakauman esittämisestä Informatiivisista priorijakaumista Konjugaattipriori Slide 1 Yksiparametrisia malleja Binomi Jacob Bernoulli (1654-1705), Bayes (1702-1761) Normaali

Lisätiedot

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (007) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4A Parametrien estimointi Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016, periodi

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017 Luku 1 Bayesläiset estimaattorit Lasse Leskelä Aalto-yliopisto 18. lokakuuta 217 1.1 Bayesläiset piste-estimaatit Tarkastellaan datalähdettä, joka tuottaa tiheysfunktion f(x θ) mukaan jakautuneita riippumattomia

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (006) 1 Moniulotteisia todennäköisyysjakaumia >> Multinomijakauma Kaksiulotteinen

Lisätiedot

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1) Harjoitustehtäviä (erä 1) 1 1. Käytetään yksinkertaisesti Bayesin kaavaa: P (A B) = P (A)P (B A). P (B) Tapauksessa B = 1 saadaan P (A = 0 B = 1) = P (A = 1 B = 1) = P (A = 0)P (B = 1 A = 0) P (A = 1)P

Lisätiedot

Todennäköisyyden ominaisuuksia

Todennäköisyyden ominaisuuksia Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A050 Todennäköisyyslaskennan ja tilastotieteen peruskurssi B Satunnaismuuttujat ja todennäköisyysjakaumat Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 3. marraskuuta 2007 Antti Rasila () TodB 3. marraskuuta 2007 1 / 18 1 Varianssin luottamusväli, jatkoa 2 Bernoulli-jakauman odotusarvon luottamusväli 3

Lisätiedot

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

Harjoitus 2: Matlab - Statistical Toolbox

Harjoitus 2: Matlab - Statistical Toolbox Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat

Lisätiedot

Bayesilainen päätöksenteko / Bayesian decision theory

Bayesilainen päätöksenteko / Bayesian decision theory Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena

Lisätiedot

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla? 6.10.2006 1. Keppi, jonka pituus on m, taitetaan kahtia täysin satunnaisesti valitusta kohdasta ja muodostetaan kolmio, jonka kateetteina ovat syntyneet palaset. Kolmion pinta-ala on satunnaismuuttuja.

Lisätiedot

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2005) 1 Normaalijakaumasta johdettuja jakaumia Johdanto χ 2 -jakauma F-jakauma t-jakauma TKK (c) Ilkka Mellin

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta MS-A00 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta 7.. Gripenberg Kirjoita jokaiseen koepaperiin nimesi, opiskelijanumerosi ym. tiedot ja minkä kokeen suoritat! Laskin,

Lisätiedot

1. Tilastollinen malli??

1. Tilastollinen malli?? 1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen

Lisätiedot

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi. Algoritmien DP ja MF vertaileminen tapahtuu suoraviivaisesti kirjoittamalla kummankin leskimääräinen kustannus eksplisiittisesti todennäköisyyksien avulla. Lause T MF ave = 1 + 2 1 i

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 28. syyskuuta 2007 Antti Rasila () TodB 28. syyskuuta 2007 1 / 20 1 Jatkoa diskreeteille jakaumille Negatiivinen binomijakauma Poisson-jakauma Diskreettien

Lisätiedot

The Metropolis-Hastings Algorithm

The Metropolis-Hastings Algorithm The Metropolis-Hastings Algorithm Chapters 6.1 6.3 from Monte Carlo Statistical Methods by Christian P. Robert and George Casella 08.03.2004 Harri Lähdesmäki The Metropolis-Hastings Algorithm p. 1/21 Taustaa

Lisätiedot

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia

Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Lisää Diskreettejä jakaumia Lisää Jatkuvia jakaumia Normaalijakaumasta johdettuja jakaumia KE (2014) 1 Hypergeometrinen jakauma Hypergeometrinen jakauma

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto Matemaattinen tilastotiede Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto Alkusanat Tämä moniste perustuu vuosina 2002-2004 pitämiini matemaattisen tilastotieteen luentoihin

Lisätiedot

Dynaamiset regressiomallit

Dynaamiset regressiomallit MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen

Lisätiedot

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko

Otosavaruus ja todennäköisyys Otosavaruus Ë on joukko, jonka alkiot ovat kokeen tulokset Tapahtuma on otosavaruuden osajoukko ÌÓÒÒĐĐÓ ÝÝ ÔÖÙ ØØ Naiiveja määritelmiä Suhteellinen frekvenssi kun ilmiö toistuu Jos tehdas on valmistanut 1000000 kpl erästä tuotetta, joista 5013 ovat viallisia, niin todennäköisyys, että tuote on viallinen

Lisätiedot

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016

Lisätiedot

MS-A0004/A0006 Matriisilaskenta

MS-A0004/A0006 Matriisilaskenta 4. MS-A4/A6 Matriisilaskenta 4. Nuutti Hyvönen, c Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto..25 Tarkastellaan neliömatriiseja. Kun matriisilla kerrotaan vektoria, vektorin

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016 Osakesalkun optimointi Anni Halkola Turun yliopisto 2016 Artikkeli Gleb Beliakov & Adil Bagirov (2006) Non-smooth optimization methods for computation of the Conditional Value-at-risk and portfolio optimization.

Lisätiedot

2. Uskottavuus ja informaatio

2. Uskottavuus ja informaatio 2. Uskottavuus ja informaatio Aluksi käsittelemme uskottavuus- ja log-uskottavuusfunktioita Seuraavaksi esittelemme suurimman uskottavuuden estimointimenetelmän Ensi viikolla perehdymme aiheeseen lisääkö

Lisätiedot

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten

- voidaan käyttä lisämään tieteellistä ymmärrystä ilmiöstä. - joidenkin havaittavien suureiden vaikutus voi olla paljon suurempi kuin toisten Viime kerralla Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli Exponentiaalinen malli Slide 1 Cauchy-jakauma Ei-informatiivisista priorijakaumista Bayesilaisen

Lisätiedot

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

Kertausluento. Tilastollinen päättely II - 2. kurssikoe Kertausluento Tilastollinen päättely II - 2. kurssikoe Yleistä tietoa TP II -2. kurssikokeesta 2. kurssikoe maanantaina 6.5.2019 klo 12.00-14.30 jossakin Exactumin auditoriossa Kurssikokeeseen ilmoittaudutaan

Lisätiedot

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty Juuri 0 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty 9..08 Kertaus K. a) Alapaineiden pienin arvo on ja suurin arvo 74, joten vaihteluväli on [, 74]. b) Alapaineiden keskiarvo on 6676870774

Lisätiedot

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1 Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman

Lisätiedot

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence

Tentin materiaali. Sivia: luvut 1,2, , ,5. MacKay: luku 30. Gelman, 1995: Inference and monitoring convergence Tentin materiaali Sivia: luvut 1,2,3.1-3.3,4.1-4.2,5 MacKay: luku 30 Gelman, 1995: Inference and monitoring convergence Gelman & Meng, 1995: Model checking and model improvement Kalvot Harjoitustyöt Tentin

Lisätiedot

Maximum likelihood-estimointi Alkeet

Maximum likelihood-estimointi Alkeet Maximum likelihood-estimointi Alkeet Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Maximum likelihood-estimointi p.1/20 Maximum Likelihood-estimointi satunnaismuuttujan X

Lisätiedot

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1 Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää

Lisätiedot

Talousmatematiikan perusteet: Luento 17. Integraalin sovelluksia kassavirta-analyysissa Integraalin sovelluksia todennäköisyyslaskennassa

Talousmatematiikan perusteet: Luento 17. Integraalin sovelluksia kassavirta-analyysissa Integraalin sovelluksia todennäköisyyslaskennassa Talousmatematiikan perusteet: Luento 17 Integraalin sovelluksia kassavirta-analyysissa Integraalin sovelluksia todennäköisyyslaskennassa Motivointi Kahdella edellisellä luennolla olemme oppineet integrointisääntöjä

Lisätiedot

Tilastollinen aineisto Luottamusväli

Tilastollinen aineisto Luottamusväli Tilastollinen aineisto Luottamusväli Keijo Ruotsalainen Oulun yliopisto, Teknillinen tiedekunta Matematiikan jaos Tilastollinen aineisto p.1/20 Johdanto Kokeellisessa tutkimuksessa tutkittavien suureiden

Lisätiedot

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta Tilastollisen analyysin perusteet Luento 1: ja hajonta Sisältö Havaittujen arvojen jakauma Havaittujen arvojen jakaumaa voidaan kuvailla ja esitellä tiivistämällä havaintoarvot sopivaan muotoon. Jakauman

Lisätiedot

Mat Sovellettu todennäköisyyslasku A

Mat Sovellettu todennäköisyyslasku A TKK / Systeemianalyysin laboratorio Nordlund Mat-2.090 Sovellettu todennäköisyyslasku A Harjoitus 4 (vko 41/2003) (Aihe: diskreettejä satunnaismuuttujia ja jakaumia, Laininen luvut 4.1 4.7) 1. Kone tekee

Lisätiedot

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8. HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 8 Harjoitus Ratkaisuehdotuksia Tehtäväsarja I Tehtävät -5 perustuvat monisteen kappaleisiin..7 ja tehtävä 6 kappaleeseen.8..

Lisätiedot

Normaalijakaumasta johdettuja jakaumia

Normaalijakaumasta johdettuja jakaumia Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Normaalijakaumasta johdettuja jakaumia TKK (c) Ilkka Mellin (2007) 1 Normaalijakaumasta johdettuja jakaumia >> Johdanto χ 2 -jakauma F-jakauma

Lisätiedot

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1 Tilastotieteen kertaus Kuusinen/Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla reaalimaailman ilmiöistä voidaan tehdä johtopäätöksiä tilanteissa, joissa

Lisätiedot

3.6 Su-estimaattorien asymptotiikka

3.6 Su-estimaattorien asymptotiikka 3.6 Su-estimaattorien asymptotiikka su-estimaattorit ovat usein olleet puutteellisia : ne ovat usein harhaisia ja eikä ne välttämättä ole täystehokkaita asymptoottisilta ominaisuuksiltaan ne ovat yleensä

Lisätiedot

x 4 e 2x dx Γ(r) = x r 1 e x dx (1)

x 4 e 2x dx Γ(r) = x r 1 e x dx (1) HY / Matematiikan ja tilastotieteen laitos Todennäköisyyslaskenta IIA, syksy 217 217 Harjoitus 6 Ratkaisuehdotuksia Tehtäväsarja I 1. Laske numeeriset arvot seuraaville integraaleille: x 4 e 2x dx ja 1

Lisätiedot

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme? TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (4) Moniulotteisia todennäköisyysjakaumia: Mitä

Lisätiedot

Mallipohjainen klusterointi

Mallipohjainen klusterointi Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio

Lisätiedot

Johdatus tn-laskentaan torstai 16.2.2012

Johdatus tn-laskentaan torstai 16.2.2012 Johdatus tn-laskentaan torstai 16.2.2012 Muunnoksen jakauma (ei pelkkä odotusarvo ja hajonta) Satunnaismuuttujien summa; Tas ja N Vakiokerroin (ax) ja vakiolisäys (X+b) Yleinen muunnos: neulanheittoesimerkki

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

Satunnaislukujen generointi

Satunnaislukujen generointi Satunnaislukujen generointi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaislukujen generointi 1/27 Kevät 2003 Lähteet Knuth, D., The Art of Computer Programming,

Lisätiedot

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Otanta Poisson- Jakaumien tunnusluvut Diskreetit jakaumat Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen

Lisätiedot

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio Ilkka Mellin Todennäköisyyslaskenta Osa : Satunnaismuuttujat ja todennäköisyysjakaumat Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (7) 1 Momenttiemäfunktio ja karakteristinen funktio

Lisätiedot

Generointi yksinkertaisista diskreeteistä jakaumista

Generointi yksinkertaisista diskreeteistä jakaumista S-38.148 Tietoverkkojen simulointi / Satunnaismuuttujien generointi 1(18) Generointi yksinkertaisista diskreeteistä jakaumista Seuraavassa U, U 1,..., U n tarkoittavat riippumattomia U(0,1)-jakautuneita

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

tilastotieteen kertaus

tilastotieteen kertaus tilastotieteen kertaus Keskiviikon 24.1. harjoitukset pidetään poikkeuksellisesti klo 14-16 luokassa Y228. Heliövaara 1 Mitä tilastotiede on? Tilastotiede kehittää ja soveltaa menetelmiä, joiden avulla

Lisätiedot

Todennäköisyyslaskenta IIa, syys lokakuu 2019 / Hytönen 3. laskuharjoitus, ratkaisuehdotukset

Todennäköisyyslaskenta IIa, syys lokakuu 2019 / Hytönen 3. laskuharjoitus, ratkaisuehdotukset Todennäköisyyslaskenta IIa, syys lokakuu 2019 / Hytönen 3. laskuharjoitus, ratkaisuehdotukset 1. Olkoon X satunnaismuuttuja, ja olkoot a R \ {0}, b R ja Y = ax + b. (a) Olkoon X diskreetti ja f sen pistetodennäköisyysfunktio.

Lisätiedot

Esimerkki: Tietoliikennekytkin

Esimerkki: Tietoliikennekytkin Esimerkki: Tietoliikennekytkin Tämä Mathematica - notebook sisältää luennolla 2A (2..26) käsitellyn esimerkin laskut. Esimerkin kuvailu Tarkastellaan yksinkertaista mallia tietoliikennekytkimelle. Kytkimeen

Lisätiedot

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista 6 Epäyhtälöitä Epäyhtälöt ovat yksi matemaatikon voimakkaimmista työvälineistä. Yhtälö a = b kertoo sen, että kaksi ehkä näennäisesti erilaista asiaa ovat samoja. Epäyhtälö a b saattaa antaa keinon analysoida

Lisätiedot

Generoivat funktiot, Poisson- ja eksponenttijakaumat

Generoivat funktiot, Poisson- ja eksponenttijakaumat 4A Generoivat funktiot, Poisson- ja eksponenttijakaumat Tämän harjoituksen tavoitteena on edelleen tutustua generoivien funktioiden sovelluksiin ja lisäksi harjoitella ratkaisemaan Poisson- ja eksponenttijakaumiin

Lisätiedot

Multinomijakauman ja Dirichlet-jakauman käytöstä bayesilaisessa päättelyssä

Multinomijakauman ja Dirichlet-jakauman käytöstä bayesilaisessa päättelyssä Multinomijakauman ja Dirichlet-jakauman käytöstä bayesilaisessa päättelyssä Pro gradu -tutkielma Tiia Piipponen Matematiikan ja tilastotieteen laitos Helsingin yliopisto 28.3.2014 HELSINGIN YLIOPISTO HELSINGFORS

Lisätiedot

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio TKK (c) Ilkka Mellin (5) 1 Momenttiemäfunktio ja karakteristinen funktio Momenttiemäfunktio Diskreettien jakaumien momenttiemäfunktioita

Lisätiedot

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia TKK (c) Ilkka Mellin (005) 1 Moniulotteisia todennäköisyysjakaumia Multinomijakauma Kaksiulotteinen normaalijakauma TKK (c) Ilkka

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen

Lisätiedot

Tilastotieteen aihehakemisto

Tilastotieteen aihehakemisto Tilastotieteen aihehakemisto hakusana ARIMA ARMA autokorrelaatio autokovarianssi autoregressiivinen malli Bayes-verkot, alkeet TILS350 Bayes-tilastotiede 2 Bayes-verkot, kausaalitulkinta bootstrap, alkeet

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Maksimit ja minimit 1/5 Sisältö ESITIEDOT: reaalifunktiot, derivaatta

Maksimit ja minimit 1/5 Sisältö ESITIEDOT: reaalifunktiot, derivaatta Maksimit ja minimit 1/5 Sisältö Funktion kasvavuus ja vähenevyys; paikalliset ääriarvot Jos derivoituvan reaalifunktion f derivaatta tietyssä pisteessä on positiivinen, f (x 0 ) > 0, niin funktion tangentti

Lisätiedot

Poisson-prosessien ominaisuuksia ja esimerkkilaskuja

Poisson-prosessien ominaisuuksia ja esimerkkilaskuja 4B Poisson-prosessien ominaisuuksia ja esimerkkilaskuja Tuntitehtävät 4B1 Eksponentiaalisten odotusaikojen toistuva odottaminen. Satunnaisluvun X sanotaan noudattavan Gamma-jakaumaa parametrein k ja λ,

Lisätiedot

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

Tilastollinen päättely II, kevät 2017 Harjoitus 1A Tilastollinen päättely II, kevät 207 Harjoitus A Heikki Korpela 23. tammikuuta 207 Tehtävä. Kertausta todennäköisyyslaskennasta. Ilmoita satunnaismuuttujan Y jakauman nimi ja pistetodennäköisyys- tai tiheysfunktio

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

Väliestimointi (jatkoa) Heliövaara 1

Väliestimointi (jatkoa) Heliövaara 1 Väliestimointi (jatkoa) Heliövaara 1 Bernoulli-jakauman odotusarvon luottamusväli 1/2 Olkoon havainnot X 1,..., X n yksinkertainen satunnaisotos Bernoulli-jakaumasta parametrilla p. Eli X Bernoulli(p).

Lisätiedot

Mat Sovellettu todennäköisyyslasku A

Mat Sovellettu todennäköisyyslasku A TKK / Systeemianalyysin laboratorio Nordlund Mat-.090 Sovellettu todennäköisyyslasku A Harjoitus 5 (vko 4/003) (Aihe: jatkuvia satunnaismuuttujia ja jakaumia, sekamalli, Laininen luvut 5.1 5.7, 6.1 6.3)

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

D ( ) E( ) E( ) 2.917

D ( ) E( ) E( ) 2.917 Mat-2.091 Sovellettu todennäköisyyslasku 4. harjoitukset/ratkaisut Aiheet: Diskreetit jakaumat Avainsanat: Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen jakauma, Kertymäfunktio,

Lisätiedot

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet

2. Jatkoa HT 4.5:teen ja edelliseen tehtavään: Määrää X:n kertymäfunktio F (x) ja laske sen avulla todennäköisyydet Tilastotieteen jatkokurssi Sosiaalitieteiden laitos Harjoitus 5 (viikko 9) Ratkaisuehdotuksia (Laura Tuohilampi). Jatkoa HT 4.5:teen. Määrää E(X) ja D (X). E(X) = 5X p i x i =0.8 0+0.39 +0.4 +0.4 3+0.04

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen Yhden faktorin malli: n kpl sijoituskohteita, joiden tuotot ovat r i, i =, 2,..., n. Olkoon f satunnaismuuttuja ja oletetaan, että tuotot voidaan selittää yhtälön r i = a i + b i f + e i avulla, missä

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä Antti Penttinen Jyväskylän yliopisto Matematiikan ja tilastotieteen laitos Metodifestivaalit Jyväskylän yliopisto 21.5.2013 Suunnitelma

Lisätiedot

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella: 8.1 Satunnaismuuttuja Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella: Esim. Nopanheitossa (d6) satunnaismuuttuja X kertoo silmäluvun arvon. a) listaa kaikki satunnaismuuttujan arvot b)

Lisätiedot

0 kun x < 0, 1/3 kun 0 x < 1/4, 7/11 kun 1/4 x < 6/7, 1 kun x 1, 1 kun x 6/7,

0 kun x < 0, 1/3 kun 0 x < 1/4, 7/11 kun 1/4 x < 6/7, 1 kun x 1, 1 kun x 6/7, HY / Matematiikan ja tilastotieteen laitos Todennäköisyyslaskenta II, syksy 07 Harjoitus Ratkaisuehdotuksia Tehtäväsarja I. Mitkä seuraavista funktioista F, F, F ja F 4 ovat kertymäfunktioita? Mitkä niistä

Lisätiedot

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisten kielten tilastollinen käsittely T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4. HY / Matematiikan ja tilastotieteen laitos Todennäköisyyslaskenta II, syksy 206 Kurssikoe 28.0.206 Ratkaisuehdotuksia. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden

Lisätiedot

T Rinnakkaiset ja hajautetut digitaaliset järjestelmät Stokastinen analyysi

T Rinnakkaiset ja hajautetut digitaaliset järjestelmät Stokastinen analyysi T-79.179 Rinnakkaiset ja hajautetut digitaaliset järjestelmät Stokastinen analyysi 12. maaliskuuta 2002 T-79.179: Stokastinen analyysi 8-1 Stokastinen analyysi, miksi? Tavallinen Petri-verkkojen saavutettavuusanalyysi

Lisätiedot

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof. Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes 11.06.2012 Ohjaaja: TkT Arto Klami Valvoja: Prof. Harri Ehtamo Työn saa tallentaa ja julkistaa Aalto-yliopiston avoimilla

Lisätiedot

a) Sievennä lauseke 1+x , kun x 0jax 1. b) Aseta luvut 2, 5 suuruusjärjestykseen ja perustele vastauksesi. 3 3 ja

a) Sievennä lauseke 1+x , kun x 0jax 1. b) Aseta luvut 2, 5 suuruusjärjestykseen ja perustele vastauksesi. 3 3 ja 1 YLIOPPILASTUTKINTO- LAUTAKUNTA 1.10.2018 MATEMATIIKAN KOE PITKÄ OPPIMÄÄRÄ A-osa Ratkaise kaikki tämän osan tehtävät 1 4. Tehtävät arvostellaan pistein 0 6. Kunkin tehtävän ratkaisu kirjoitetaan tehtävän

Lisätiedot

8.1 Ehdolliset jakaumat

8.1 Ehdolliset jakaumat 8 Ehdollinen jakauma Tämän kappaleen tärkeitä käsitteitä: Ehdollinen jakauma; ehdollinen ptnf/tf. Kertolaskusääntö eli ketjusääntö yhteisjakauman esittämiseksi. Ehdollinen odotusarvo ja ehdollinen varianssi.

Lisätiedot

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx. Yhteenveto: Satunnaisvektorit ovat kuvauksia tn-avaruudelta seillaiselle avaruudelle, johon sisältyy satunnaisvektorin kaikki mahdolliset reaalisaatiot. Satunnaisvektorin realisaatio eli otos on jokin

Lisätiedot