Luento 3 Normaalijakauma tunnetulla varianssilla Normaalijakauma tunnetulla keskiarvolla Poisson-mallli Exponentiaalinen malli Slide Cauchy-jakauma Ei-informatiivisista priorijakaumista *-merkatut kalvot extra-materiaalia ei kysytä tentissä) Normaalijakauma Gaussian) Usein käytetty ja hyödyllinen osa monimutkaisempiakin malleja Havainto y voi saada reaaliarvoja Slide 2 Normaalijakauman parametrit keskiarvo θ ja varianssi σ 2 oletetaan ensin σ 2 tunnetuksi) py θ) = 2πσ exp ) y θ)2 2σ 2 4 2 0 2 4
Normaalijakaumasta Sopiva jos oletetaan, että epävarmuus syntyy useiden tuntemattomien vaihtokelpoisten tai riippumattomien tekijöiden summana Käytetään myös positiivisen datan logaritmille, jolloin oletetaan, että epävarmuus syntyy useiden tuntemattomien vaihtokelpoisten tai riippumattomien tekijöiden tulona Slide 3 Normaalijakauman perusteluita* Keskeinen raja-arvolause Central limit theorem) Vaihtokelpoisuus ja pallosymmetrisyys Maxent Laskennallinen helppous Slide 4
Keskeisestä raja-arvolauseesta* De Moivre, Laplace, Gauss, Chebysev, Liapounov, Markov, et al. Tietyt ehdot täyttävistä jakaumista tulevien satunnaismuuttujien summa keskiarvo) lähestyy normaalijakautunutta kun n Esim. jos eri kohinalähteitä, niin oletetaan, että summa lähellä normaalijakaumaa Slide 5 Ongelmia - ei päde kaikille, esim. Cauchy-jakauma - voi tarvita paljon näytteitä ennenkuin pätee, esim. Binomi-jakauma, kun θ melkein 0 tai - vaikka keskiarvo olisikin, koko jakauma ei Vaihtokelpoisuus ja pallosymmetrisyys* Satunnaisia reaalilukuja x_,...,x_n Oletetaan vaihtokelpoisuus ja pallosymmetria, eli identtinen uskomus kaikille tuloksille x,..., x n joilla sama arvo luvulle x 2 + + x2 n - voidaan toimia aivan kuin havainnot olisivat ehdollisesti riippumattomia normaalijakautuneita varianssilla σ 2 Slide 6 Oletetaan vaihtokelpoisuus ja keskitetty pallosymmetria - voidaan toimia aivan kuin havainnot olisivat ehdollisesti riippumattomia normaalijakautuneita keskiarvolla θ ja varianssilla σ 2 Ongelma - milloin pallosymmetria oletus aiheellinen?
Maxent* Maksimoidaan entropia ehdoilla - keskiarvo tuntematon - varianssi äärellinen - korkeammat momentit ovat 0 Slide 7 Ongelma - ehdot varsin tiukat esim. 3. momentti kertoo paljon vinoudesta esim. 4. momentti kertoo paljon häntien pituudesta Laskennallinen helppous* Negatiivinen log-likelihood mukavaa muotoa py θ) = 2πσ exp log py θ) = αy θ) 2 + C ) y θ)2 2σ 2 Slide 8 Neg-log-likelihoodin minimointi sama kuin pienimmän neliösumman menetelmä Lineaariregressiossa selvitään analyytisella matriisilaskennalla Ennen tehokkaita tietokoneita laskennallinen helppous oli erittäin tärkeää
Normaalijakauma - konjugaattipriori θ:lle Slide 9 Oletetaan, että σ 2 tunnettu Likelihood Priori py θ) exp ) y θ)2 2σ 2 pθ) exp ) 2τ0 2 θ µ 0 ) 2 Normaalijakauma - konjugaattipriori θ:lle Oletetaan, että σ tunnettu Likelihood py θ) exp ) y θ)2 2σ 2 Slide 0 Priori Posteriori pθ) exp pθ y) exp ) 2τ0 2 θ µ 0 ) 2 2 [ ]) y θ) 2 σ 2 + θ µ 0) 2 τ0 2
Normaalijakauma - konjugaattipriori θ:lle Posteriori [ ]) pθ y) exp y θ) 2 2 σ 2 + θ µ 0) 2 τ0 2 ) exp 2τ 2 θ µ ) 2 Slide θ y Nµ, τ 2 ), missä µ = µ τ0 2 0 + y σ 2 τ 2 0 + σ 2 ja τ 2 = τ 2 0 + σ 2 /variance = precision posterioritarkkuus on prioritarkkuus plus datan tarkkuus posteriorikeskiarvo on tarkkuuksilla painotettu keskiarvo priorikeskiarvosta ja datan keskiarvosta Normaalijakauma - esimerkki Populaatio ÄO: θ N00, 5 2 ) ja mittaus: y θ Nθ, 0 2 ) arvio henkilön ÄO:lle annettuna mittaus y Slide 2 Eθ y) = τ 0 2 τ0 2 + σ 2 y + σ 2 τ0 2 + σ 2 µ 0 ) /2 Stdθ y) = + σ 2 τ 2 0 τ 0 = 5, σ = 0 : Eθ y) 0.7y + 30 ja Stdθ y) 8 vrt. maximum likelihood vastaus Eθ y) = y ja Stdθ y) = 0
Normaalijakauma Posterioriprediktiivinen jakauma pỹ y) = pỹ θ)pθ y)dθ ỹ y Nµ, σ 2 + τ 2 ) Slide 3 Ennusteen varianssi on mallin varianssin σ 2 ja parametrin posteriorivarianssin τ 2 summa Normaalijakauma - esimerkki Populaatio ÄÖ: θ N00, 5 2 ) ja mittaus: y θ Nθ, 0 2 ) arvio saman henkilön toisen testin tulokselle ỹ annettuna ensimmäisen testin tulos y Eỹ y) = µ 0.7y + 30 Stdỹ y) = σ 2 + τ 2 )/2 3 Slide 4
Normaalijakauma - useita havaintoja Useita havaintoja y = y,..., y n ) ja oletetan, että voidaan toimia aivan kuin olisivat riippumattomia ja identtisesti jakatuneita Slide 5 pθ y) pθ)py θ) n = pθ) py i θ) i= = Nθ µ n, τ 2 n ) missä µ n = missä ȳ = n µ τ0 2 0 + n ȳ σ 2 τ0 2 i y i + n σ 2 ja τ 2 n = τ 2 0 + n σ 2 Sufficient statistic ty) on sufficient statistic, jos θ:n likelihoodin arvo riippuu datasta y vain ty):n kautta Esimerkkejä - Binomi-malli: ty,..., y n ) = i y i, n) - Normaalijakauma tunnetulla varianssilla: ty,..., y n ) = ȳ = n i y i Slide 6
Normaalijakauma - useita havaintoja Useita havaintoja y = y,..., y n ) pθ y) = Nθ µ n, τ 2 n ) Slide 7 missä µ n = µ τ0 2 0 + n ȳ σ 2 τ 2 0 + n σ 2 ja τ 2 n = τ 2 0 Jos τ 2 0 = σ 2, vastaa priori yhtä priorinäytettä arvolla µ 0 + n σ 2 Jos τ 0 kun n kiinteä tai jos n kun τ 0 kiinteä pθ y) Nθ ȳ, σ 2 /n) Normaalijakauma - tunnettu keskiarvo Likelihood ) py σ 2 ) σ n exp n 2σ 2 y i θ) 2 i= = σ 2 ) n/2 exp n ) 2σ 2 v Slide 8 missä v = n n y i θ) 2 i= Konjugaattipriori on inverse-gamma pσ 2 ) σ 2 ) α+) exp βσ ) 2
Normaalijakauma - tunnettu keskiarvo Mukava parametrisointi konjugaattipriorille on σ 2 Inv χ 2 ν 0, σ 2 0 ) Slide 9 jolloin posteriori on σ 2 y Inv χ 2 ν 0 + n, ν 0σ0 2 + nv ) ν 0 + n Priorin voidaan ajatella tarjoavana vastaavan informaation kuin ν 0 havaintoa varianssilla σ 2 0 Normaalijakauma - tunnettu keskiarvo - esimerkki Jalkapallodata kirjasta ν 0 = 0 vastaa pσ 2 ) σ 2 ei proper) Posteriori on kuitenkin proper, n = 672 ja v = 3.85 2 Slide 20 3 4 5
Poisson-jakauma Malli tapahtumien lukumäärälle kun vaihtokelpoisia tapahtumia ajassa - ajallisesti riippumattomia tapahtumia, joka ajanhetkellä yhtä suuri todennäköisyys tapahtua Usein käytetty epidemilogiassa arvioimaan tautien esiintymistodennäköisyyksiä Likelihood yhdelle havainnolle, missä θ on keskimääräinen tapahtumataajuus Slide 2 py θ) = θ y e θ, y = 0,, 2,... y! Likelihood usealle havainnolle py θ) θ ty) e nθ, missä ty) = n i= y i Poisson-jakauma Likelihood usealle havainnolle py θ) θ ty) e nθ, missä ty) = Konjugaattipriori on gamma-jakauma pθ) e βθ θ α n i= y i Slide 22 Posteriori on θ y Gammaα + nȳ, β + n) Priorin voidaan ajatella olevan lukumäärien summa α ), β priorihavainnosta Prediktiivinen jakauma on negative binomial ỹ y Neg binα + nȳ, β + n) Neg biny α, β) = Poissony θ)gammaθ α, β)dθ
Poisson-jakauma - esimerkki Espoossa syntyi vuoden 2002 alkupuoliskolla y=784 lasta Espoossa syntyi vuoden 2003 alkupuoliskolla 944 lasta Onko tämä poikkeuksellisen paljon? Valitaan väljä priori jolloin prediktiivinen jakauma vuoden 2002 perusteella suunnilleen Slide 23 Neg bin784, ) pỹ > 944 y = 784) % 600 700 800 900 2000 Exponentiaalinen jakauma Malli tapahtumien odotusajalle kun vaihtokelpoisia tapahtumia ajassa - ajallisesti riippumattomia tapahtumia, joka ajanhetkellä yhtä suuri todennäköisyys tapahtua Esimerkiksi elinaikadata Likelihood Slide 24 py θ) = θ exp yθ), y > 0 Konjugaattipriori on gamma-jakauma Gammaθ α, β) Posteriori Gammaθ α + n, β + nȳ)
Cauchy-jakauma Likelihood py i θ) = / + y i θ) 2 ) Varianssi ääretön, eli hyvin pitkähäntäinen Slide 25 Esimerkki: Merellä olevan majakan pyörivä vilkkuva valo havaitaan suoralla rannalla eri kohdissa. Missä kohtaa kohtaa rantaa majakka on? Järkevämpiä esimerkkejä fysiikasta Priorijakaumista Jos pθ)dθ =, pθ) on improper Jos pθ)dθ = Z =, pθ) on normalisoimaton Jos pθ)dθ =, pθ) on proper ja normalisoitu Slide 26 Improper priori voi tuottaa proper posteriorin, mutta ei välttämättä!
Esimerkkejä ei-informatiivista priorijakaumista Normaalijakaumamalli tunnetulla varianssilla σ 2 ja θ:n priorilla Nµ 0, τ0 2 ), jos prioriprecision /τ0 2 pieni verrattuna data precisioniin n/σ 2, niin posteriorijakauma on melkein sama kuin jos τ 2 0 pθ y) Nθ ȳ, σ 2 /n) =, eli pθ) Slide 27 Normaalijakaumamalli tunnetulla keskiarvolla ja scaled inverse-χ 2 priori σ 2 :lle, jos priorin vapauasteet ν 0 pieni verrattuna datan vapausasteisiin n, niin posteriorijakauma on melkein sama kuin jos ν 0 = 0, eli pσ 2 ) /σ 2 pσ 2 y)inv χ 2 σ 2 n, v) Ei-informatiivisia prioreja Indifference Transformation groups Jeffreysin priorit) Maximum entropy Slide 28 Referenssi priorit Hierarkiset priorit
Principle of insufficient reason / indifference If we can enumerate a set of basic mutually exclusive possibilities, and have no reason to believe that any one of these is more likely to be true than another, then we should assign the same probability to all Vaihtokelpoisuus Slide 29 Suljettu vs. avoin maailma Rajoitettu Indifference jatkuville parametreille* transformation group / invariance arguments Esimerkki: paikkaparametrit Jos meille kerrotaan, että origon määrittämisessä oli tehty virhe siten, että aiemmin ilmoitettu paikka x olikin oikeasti x + x 0, pitäiskö tämän vaikuttaa prioriin joka on valittu X:lle. Jos vastaus on ei, niin Slide 30 px I)d X = px + x 0 I)dX + x 0 ) koska x 0 on vakio, dx + x 0 ) = d X px I) = vakio
Indifference jatkuville parametreille* Esimerkki: Skaalaparametrit Jos meille kerrotaan, että mittayksikkö on ilmoitettu väärin siten, että ångstromien sijaan olisi pitänyt olla nanometrejä, pitäiskö tämän vaikuttaa skaalaparamterin L prioriin. Jos vastaus on ei, niin pl I)d L = pβ L I)dβ L), missä β on positiivinen vakio Slide 3 koska dβ L) = βd L pl I) /L Kutsutaan myös Jeffreysin prioriksi Huomaa, että tulos on yhtäläinen priorin plogl) I) = constant kanssa, mikä saadaan helposti muuttujanvaihdoksella Jeffreysin priori indifferencen yleistys) ) Fisherin informaatiomatriisi on I θ), missä I θ) i j = E 2 l θ i θ j Valitaan priori siten, että pθ) deti θ)) /2 Slide 32 Tämä priori on invariantti muuttujanvaihdoksille Ongelmallinen usean muuttujan malleille Usean muuttujien malleissa, paikka-, skaala- ja mixingparametrit käsitellään erikseen Esim: y Binn, θ) : pθ) θ /2 θ) /2 y Nµ, σ 2 ) : pµ, σ ) /σ
Referenssiprioreja* Yleinen nimi priorille joka valitaan tietyn formaalin säännön mukaan Yleensä tavoitteetna kuvata tietämättömyyttä, mikä ei yleensä ole helppo ongelma Slide 33 Esimerkiksi - Indifference principle - Invariance - Transformation groups - Jeffreys priors) - Maximum Entropy - Berger-Bernardo method - Geometry - Coverage matching methods - Zellner s method - Decision-theoretic methods Hierarkisista prioreista* Jos et tiedä sopivaa arvoa jonkun priorijakauman parametreille, tee siitä parametrista tunteman ja aseta ylemmän tason priori Näin fiksatut, tai arvatut, valinnat voidaan siirtää hierarkisen mallin ylemmille tasoille Slide 34 Hierarkisissa malleissa data sisältää vähemmän informaatiota korkeamman tason hyperparametreista, jolloin priori ja posteriori näille hyperparametreille on samankaltainen Siten, nämä mallit ovat vähemmän herkkiä ylemmällä tasolla tehdyille valinnoille, josta seuraa, että ylemmän tason priorit ovat yleisesti vähemmän informatiivisia