1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Samankaltaiset tiedostot
1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TILASTOLLINEN HAHMONTUNNISTUS

Hahmontunnistuksen perusteet. Tik (3 ov) L. Syksy 2000

Hahmontunnistuksen perusteet T , 3ov, L Syksy Harjoitustyö: Matti Aksela

Maximum likelihood-estimointi Alkeet

Mallipohjainen klusterointi

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. LINEAARISET LUOKITTIMET

3.6 Su-estimaattorien asymptotiikka

Osa 2: Otokset, otosjakaumat ja estimointi

Estimointi. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen aineisto Luottamusväli

Sovellettu todennäköisyyslaskenta B

2. Uskottavuus ja informaatio

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

9. laskuharjoituskierros, vko 12-13, ratkaisut

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Parametrin estimointi ja bootstrap-otanta

4.2.2 Uskottavuusfunktio f Y (y 0 X = x)

tilastotieteen kertaus

5.7 Uskottavuusfunktioon perustuvia testejä II

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luku 5. Estimointiteorian perusteita

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1. Tilastollinen malli??

Harjoitus 2: Matlab - Statistical Toolbox

Tämän luvun sisältö. Luku 5. Estimointiteorian perusteita. Perusjakaumat 1-ulotteisina (2) Perusjakaumat 1-ulotteisina

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

031021P Tilastomatematiikka (5 op) viikko 4

Todennäköisyyden ominaisuuksia

1. LINEAARISET LUOKITTIMET (jatkoa)

Tilastollisia peruskäsitteitä ja Monte Carlo

11 Raja-arvolauseita ja approksimaatioita

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

Tutkimustiedonhallinnan peruskurssi

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Väliestimointi (jatkoa) Heliövaara 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

4.0.2 Kuinka hyvä ennuste on?

TILASTOLLINEN OPPIMINEN

Harha mallin arvioinnissa

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Suodatus ja näytteistys, kertaus

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

2. Uskottavuus ja informaatio

Bayesilainen päätöksenteko / Bayesian decision theory

Batch means -menetelmä

Uskottavuuden ominaisuuksia

6.1.2 Luottamusjoukon määritelmä

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 4

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma

6. laskuharjoitusten vastaukset (viikot 10 11)

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Nollasummapelit ja bayesilaiset pelit

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Tilastollinen päättely, 10 op, 4 ov

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Inversio-ongelmien laskennallinen peruskurssi Luento 7

riippumattomia ja noudattavat samaa jakaumaa.

30A02000 Tilastotieteen perusteet

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 7: NCSS - Tilastollinen analyysi

Transkriptio:

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia ei tunneta, vaan ne on estimoitava havainnoista Voi olla, että tunnetaan tnjakauman tyyppi (esim. normaalijakauma), mutta ei parametrejä (esim. odotusarvo, varianssi); tilanne voi olla myös täysin päinvastainen Seuraavaksi käydään läpi menetelmiä, joiden avulla voidaan estimoida tilastollisessa tunnistuksessa tarvittavia tnjakaumia

1.1 Suurimman uskottavuuden menetelmä Maximum Likelihood Estimation, ML-estimaatti Tarkastellaan M:n luokan tunnistusongelmaa Tehdään seuraavat oletukset: Ol., että tunnetaan tnjakaumien p(x ω i ) tyyppi ja että ne voidaan määrittää parametrivektoreiden Θ i avulla. Merkitään siis p(x ω i ; Θ i ) Ol., että eri luokista tehdyt havainnot eivät riipu toisistaan ja tnjakaumat voidaan estimoida erikseen luokkakohtaisesti Ol., että tehdyt havainnot ovat toisistaan riippumattomia myös luokkien sisällä 2

Ongelma: kuinka valitaan tnjakauman p(x Θ) parametrit Θ, kun on tehty havainnot X = {x 1,..., x N }? Vastaus: Maksimoidaan parametrien uskottavuusfunktio ( likelihood function ) p(x; Θ): p(x; Θ) = p(x 1,..., x N ; Θ) = N p(x k ; Θ) (1) Eli valitaan estimaatti ˆΘML seuraavasti: N ˆΘ ML = arg max p(x k ; Θ) (2) Θ Välttämätön ehto optimiratkaisulle ˆΘ ML : k=1 N k=1 p(x k; Θ) Θ k=1 = 0 (3) 3

Voidaan yhtä hyvin tarkastella uskottavuusfunktion logaritmiä ( loglikelihood function ) L(Θ): N L(Θ) = ln( p(x k ; Θ)) = k=1 N ln(p(x k ; Θ)) (4) k=1 Silloin ehto (3) saa muodon ˆΘ ML : L(Θ) Θ = N = = 0 k=1 N k=1 ln(p(x k ; Θ)) Θ 1 p(x k ; Θ) p(x k ; Θ) Θ (5) 1.2 Suurimman a posteriori tn:n menetelmä 4

Maximum A Posteriori Probability Estimation, MAP-estimaatti Tarkastellaan M:n luokan tunnistusongelma ja tehdään samanlaiset lähtöoletuk kuin ML-estimaatin tapauksessa Maksimoidaan parametrien uskottavuusfunktion p(x; Θ) sijasta parametrien a posteriori tn:ttä p(θ X) Bayes-säännön perusteella: p(θ X) = p(θ)p(x Θ) p(x) (6) MAP-estimaatti ˆΘMAP löytyy p(θ X):n (tai sen logaritmin!) maksimikohdasta eli ˆΘ MAP : p(θ X) Θ = p(θ)p(x Θ) = 0 (7) Θ Ero ML- ja MAP-estimaatin välillä on a priori tn:n p(θ) käytössä. Jos p(θ) on tasajakauma, ML- ja MAP-estimaatit ovat samat. Jos p(θ):iin liittyvä 5

varianssi on suuri, estimaatit ovat lähestulkoon samat Silloin kun σ2 µ σ 2 1 ML- ja MAP-estimaatit ovat lähestulkoon samat 6

Seuraavassa kuvassa kaksi tapausta, joissa erilaiset uskottavuusfunktiot ja a priori tnjakaumat. Tapauksessa a) ML- ja MAP-estimaatit ovat samankaltaiset, tapauksessa b) niiden ero on selvä 7

8

1.3 Bayesiläinen päättely ML- ja MAP-menetelmät löytävät tnjakaumien p(x ω i ; Θ i ) parametreille arvot käyttäen hyväksi tehtyjä havaintoja X i ja a priori tnjakaumia p(θ i ) Miksi emme suoraan laskisi tnjakaumia p(x X i ) ja suorittaisi luokittelua näiden avulla? Tehdään taas samat lähtöoletukset kuin ML- ja MAP-estimaattien tapauksissa Tiedetään, että p(x X) = p(x Θ)p(Θ X)dΘ, (8) 9

missä p(θ X) = p(x Θ)p(Θ) = p(x Θ)p(Θ) (9) p(x) p(x Θ)p(Θ)dΘ N p(x Θ) = p(x k Θ) (10) k=1 Tämän menetelmän haittapuoli on sen monimutkaisuus analyyttinen ratkaisu on olemassa vain erikoistapauksille Kun havaintojen määrä lähestyy ääretöntä, bayesiläisellä päättelyllä saatu normaalijakauman estimaatti lähestyy piikkiä, jonka huipun kohta on MLestimaatti. Tämä tulos yleistyy useille muillekin paljon käytetyille tnjakaumille Huom! Kun N lähestyy ääretöntä, ML- ja MAP-menetelmillä sekä bayesiläisellä päättelyllä saadut tulokset lähestyvät toisiaan. Menetelmien erot ovat merkittäviä, kun käytettävissä on vain rajallisesti havaintoja 10

1.4 Maksimientropiamenetelmä Edellä esitetyissä menetelmissä oletettiin tnjakauman tyyppi tunnetuksi ja estimoitiin sille sopivat parametrit Entä jos tunnetaan joitain tilastollisia tunnuslukuja, mutta ei tiedetä mikä tnjakaumatyyppi on kyseessä? Valitaan sellainen tnjakauma, jolla on tunnetut ominaisuudet ja maksimaalinen entropia (ei aina mikään helppo ongelma!) Tnjakauman p(x) entropia H on määritelty seuraavasti: H = p(x) ln(p(x))dx (11) Entropia kuvaa ilmiön satunnaisuutta tai yllätyksellisyyttä. x Tnjakauman entropian maksimointi vastaa minimimaalisinta a priori -tiedon käyttöä. 11

Huom! Voidaan osoittaa, että jos tunnetaan odotusarvo ja varianssi, maksimientropiaratkaisu on normaalijakauma 1.5 Mikstuurimallit Mikstuurimalleissa lähdetään siitä, että p(x):n muodostumiseen vaikuttaa joukko jakaumia. Tuntematon p(x) mallinnetaan seuraavanlaisten tiheysjakaumien lineaariyhdistelmänä: p(x) = J p(x j)p j (12) j=1 missä J j=1 P j = 1, p(x j)dx = 1 (13) x 12

1.6 EM-algoritmi EM = Expectation Maximization EM-algoritmi sopii erityisen hyvin tilanteisiin, joissa on puuttuvaa dataa. Algoritmi maksimoi loglikelihood-funktion odotusarvon ehdolla havainnot ja nykyinen estimaatti. Algoritmissa toistetaan kahta askelta: E (expectation) ja M (maximization). 1.7 Epäparametriset menetelmät Edellä esitetyissä menetelmissä oletettiin, että tnjakauma voidaan määrittää parametrivektorin avulla. Seuraavaksi tarkastellaan menetelmiä, joissa tätä oletusta ei tehdä. Sekä Parzen-ikkunat ja k:n lähimmän naapurin menetelmä ovat eräänlaisia variaatioita tnjakauman approksimoinnista histogrammin avulla. 13

Tnjakaumaa voidaan approksimoida histogrammin avulla seuraavasti: Tarkastellaan vain yhtä piirrettä x, eli 1-ulotteista tapausta, ja pyritään approksimoimaan tnjakauma p(x) Jaetaan x-akseli h:n pituisiksi intervalleiksi Approksimoidaan tn P, että x:n arvo osuu tietylle intervallille. Olkoot N havaintojen lkm ja k N intervallille osuneiden havaintojen lkm. Silloin P k N /N Kun N lähestyy ääretöntä, missä ˆx on intervallin keskikohta ˆp(x) ˆp(ˆx) 1 h k N N, x ˆx h 2, (14) Approksimaatio on hyvä silloin, kun p(x) on jatkuva ja h on riittävän pieni eli oletus p(x) = vakio intervallilla on järkevä 14

Voidaan osoittaa, että ˆp(x) p(x), jos N ja seuraavat oletukset toteutuvat: h N 0 k N k N N 0 Käytännössä N on rajoitettu ja sopiva h pitää valita itse Seuraavassa kuvassa tnjakaumaa approksimoidaan histogrammin avulla. Tapauksessa a) on valittu h:lle pieni ja tapauksessa b) suuri arvo 15

16

Parzen-ikkunat Moniulotteisessa tapauksessa l-ulotteinen piirreavaruus jaetaan hyperkuutioksi, joiden tilavuus on h l Määritellään jokaiselle havainnolle x i kantafunktio Φ(x i ) seuraavasti: { 1, kun x ij 1/2 Φ(x i ) =, (15) 0, muulloin missä x ij on x i :n j. komponentti Kaava (14) voidaan esittää tällaisten funktioiden summana: ˆp(x) = 1 h l ( 1 N N i=1 Φ( x i x )) (16) h Edellä jatkuvaa tnjakaumaa approksimoitiin epäjatkuvilla kuutiolla. Jatkuva approksimaatio saadaan, kun käytetään jatkuvia kantafunktioita Φ( ) 17

Kantafunktiot valitaan siten, että Φ(x) 0 Φ(x)dx = 1 Kantafunktiot voivat olla esim. eksponentiaalisia, N(0, I) x (17) Mikä on ˆp(x):n odotusarvo eli kuinka approksimaatio käyttäytyy, kun N? ˆp(x) on määritelty havaintojen {x 1,..., x N } avulla, jotka noudattavat todellista tnjakaumaa p(x) Lasketaan ˆp(x):n odotusarvo tnjakauman p(x) suhteen: E[ˆp(x)] = 1 h l ( 1 N N i=1 E[Φ( x i x )]) = h ξ 1 h Φ(ξ x )p(ξ)dξ (18) l h Yllä olevasta kaavasta nähdään, että ˆp(x) on tasoitettu ( smoothed ) versio todellisesta jakaumasta 18

1 Kun h 0, ) lähestyy deltafunktiota δ(ξ x) ja nähdään, h että ˆp(x) on harhaton estimaatti p(x):lle riippumatta N:stä h l Φ( ξ x Jos N on kiinnitetty, estimaatin ˆp(x) varianssi kasvaa, kun h pienenee. Jos h on kiinnitetty, estimaatin ˆp(x) varianssi pienenee, kun N Useimmilla kantafunktiolla saatu estimaatti ˆp(x) on harhaton ja asymptoottisesti konsistentti, jos h 0 siten, että hn, kun N Käytännössä N on rajoitettu ja h joudutaan valitsemaan itse, esim. minimoimalla luokitteluvirhettä. Mikäli ei haluta tinkiä estimaatin ominaisuuksista, tarvittavien havaintojen N lukumäärä kasvaa eksponentiaalisesti piirrevektoreiden dimension l suhteen ( curse of dimensionality! ) 19

Seuraavassa kuvassa on esitetty Parzen-ikkunoilla saatuja tnjakauman (katkoviiva) approksimaatioita. Kantafunktiot ovat normaalijakaumia ja h = 0.1. Tapauksessa a) N = 1000 ja tapauksessa b) N = 20 000 20

21

k:n lähimmän naapurin menetelmä Edellisessä menetelmässä kantafunktiot olivat samanlaisia riippumatta siitä oliko tarkasteltavassa piirreavaruuden osassa havaintoja tiheässä vai harvassa. Yleisempi versio kaavalle (14) : ˆp(x) = k NV (x), (19) missä V (x) on x:stä riippuva tilavuus. Eli kiinnitetään ensin k ja lasketaan vasta sitten havaintojen viemä tilavuus Voidaan osoittaa, että estimaatti on harhaton ja asymptoottisesti konsistentti, jos k ja k/n 0, kun N Saatua estimaattia kutsutaan tnjakauman k:n lähimmän naapurin estimaatiksi. 22

k:n lähimmän naapurin päätössääntö on suboptimaalinen variaatio k:n lähimmän naapurin estimaatista: Etsi N:n opetusnäytteen joukosta luokiteltavan näytteen x k lähintä naapuria. Yleensä k on pariton eikä se ole luokkien lukumäärän M monikerta Laske kuinka moni (k i ) lähimmistä naapureista kuuluu luokkaan ω i Valitse se luokka, jolle k i on suurin Lähimmän naapurin menetelmän luokitteluvirheelle P NN voidaan laskea seuraavat teoreettiset rajat, kun N : P Bayes P NN P Bayes (2 M M 1 P Bayes) 2P Bayes, (20) missä P Bayes on Bayes-säännön tuottama optimaalinen luokitteluvirhe ja M on luokkien lkm 23

Mikäli N on suuri, k:n lähimmän naapurin päätössääntö toimii paremmin isommilla k:n arvoilla kuin 1. Käytännössä k:n lähimmän naapurin sääntö toimii usein erittäin hyvin yksinkertaisuudestaan huolimatta, mutta on laskennallisesti raskas suurilla N:n arvoilla. 24