1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Samankaltaiset tiedostot
1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TILASTOLLINEN HAHMONTUNNISTUS

Hahmontunnistuksen perusteet. Tik (3 ov) L. Syksy 2000

Hahmontunnistuksen perusteet T , 3ov, L Syksy Harjoitustyö: Matti Aksela

Maximum likelihood-estimointi Alkeet

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Mallipohjainen klusterointi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. LINEAARISET LUOKITTIMET

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

3.6 Su-estimaattorien asymptotiikka

Osa 2: Otokset, otosjakaumat ja estimointi

Estimointi. Vilkkumaa / Kuusinen 1

2. Uskottavuus ja informaatio

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tilastollinen aineisto Luottamusväli

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sovellettu todennäköisyyslaskenta B

4.2.2 Uskottavuusfunktio f Y (y 0 X = x)

9. laskuharjoituskierros, vko 12-13, ratkaisut

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Parametrin estimointi ja bootstrap-otanta

tilastotieteen kertaus

Luku 5. Estimointiteorian perusteita

5.7 Uskottavuusfunktioon perustuvia testejä II

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Tämän luvun sisältö. Luku 5. Estimointiteorian perusteita. Perusjakaumat 1-ulotteisina (2) Perusjakaumat 1-ulotteisina

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

1. Tilastollinen malli??

Harjoitus 2: Matlab - Statistical Toolbox

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Tilastollisia peruskäsitteitä ja Monte Carlo

031021P Tilastomatematiikka (5 op) viikko 4

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

1. LINEAARISET LUOKITTIMET (jatkoa)

TILASTOLLINEN OPPIMINEN

Todennäköisyyden ominaisuuksia

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Suodatus ja näytteistys, kertaus

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

11 Raja-arvolauseita ja approksimaatioita

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

Bayesilainen päätöksenteko / Bayesian decision theory

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Tutkimustiedonhallinnan peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Väliestimointi (jatkoa) Heliövaara 1

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 4

Nollasummapelit ja bayesilaiset pelit

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Tilastollinen päättely, 10 op, 4 ov

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

4.0.2 Kuinka hyvä ennuste on?

Harha mallin arvioinnissa

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Uskottavuuden ominaisuuksia

2. Uskottavuus ja informaatio

6.1.2 Luottamusjoukon määritelmä

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

6. laskuharjoitusten vastaukset (viikot 10 11)

Testejä suhdeasteikollisille muuttujille

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. JOHDANTO. 1.1 Johdattelevia esimerkkejä. 1. Kuinka monta ihmishahmoa näet kuvassa?

Regressioanalyysi. Vilkkumaa / Kuusinen 1

p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Batch means -menetelmä

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Uskottavuusperusteisten luottamusvälien korjaaminen bootstrap-menetelmällä Pro gradu -esitelmä

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

E. Oja ja H. Mannila Datasta Tietoon: Luku 6

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Dynaamiset regressiomallit

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Transkriptio:

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia ei tunneta, vaan ne on estimoitava havainnoista Voi olla, että tunnetaan tnjakauman tyyppi (esim. normaalijakauma), mutta ei parametrejä (esim. odotusarvo, varianssi); tilanne voi olla myös täysin päinvastainen Seuraavaksi käydään läpi menetelmiä, joiden avulla voidaan estimoida tilastollisessa tunnistuksessa tarvittavia tnjakaumia

1.1 Suurimman uskottavuuden menetelmä Maximum Likelihood Estimation, ML-estimaatti Tarkastellaan M:n luokan tunnistusongelmaa Tehdään seuraavat oletukset: Ol., että tunnetaan tnjakaumien p(x ω i ) tyyppi ja että ne voidaan määrittää parametrivektoreiden Θ i avulla. Merkitään siis p(x ω i ; Θ i ) Ol., että eri luokista tehdyt havainnot eivät riipu toisistaan ja tnjakaumat voidaan estimoida erikseen luokkakohtaisesti Ol., että tehdyt havainnot ovat toisistaan riippumattomia myös luokkien sisällä 2

Ongelma: kuinka valitaan tnjakauman p(x Θ) parametrit Θ, kun on tehty havainnot X = {x 1,..., x N }? Vastaus: Maksimoidaan parametrien uskottavuusfunktio ( likelihood function ) p(x; Θ): p(x; Θ) = p(x 1,..., x N ; Θ) = N p(x k ; Θ) (1) Eli valitaan estimaatti ˆΘML seuraavasti: N ˆΘ ML = arg max p(x k ; Θ) (2) Θ Välttämätön ehto optimiratkaisulle ˆΘ ML : k=1 N k=1 p(x k; Θ) Θ k=1 = 0 (3) 3

Voidaan yhtä hyvin tarkastella uskottavuusfunktion logaritmiä ( loglikelihood function ) L(Θ): N L(Θ) = ln( p(x k ; Θ)) = k=1 N ln(p(x k ; Θ)) (4) k=1 Silloin ehto (3) saa muodon ˆΘ ML : L(Θ) Θ = N = = 0 k=1 N k=1 ln(p(x k ; Θ)) Θ 1 p(x k ; Θ) p(x k ; Θ) Θ (5) 4

1.2 Suurimman a posteriori tn:n menetelmä Maximum A Posteriori Probability Estimation, MAP-estimaatti Tarkastellaan M:n luokan tunnistusongelma ja tehdään samanlaiset lähtöoletuk kuin ML-estimaatin tapauksessa Maksimoidaan parametrien uskottavuusfunktion p(x; Θ) sijasta parametrien a posteriori tn:ttä p(θ X) Bayes-säännön perusteella: p(θ X) = p(θ)p(x Θ) p(x) (6) MAP-estimaatti ˆΘMAP löytyy p(θ X):n (tai sen logaritmin!) maksimikohdasta eli ˆΘ MAP : p(θ X) Θ = p(θ)p(x Θ) = 0 (7) Θ 5

Ero ML- ja MAP-estimaatin välillä on a priori tn:n p(θ) käytössä. Jos p(θ) on tasajakauma, ML- ja MAP-estimaatit ovat samat. Jos p(θ):iin liittyvä varianssi on suuri, estimaatit ovat lähestulkoon samat 6

1.3 Bayesiläinen päättely ML- ja MAP-menetelmät löytävät tnjakaumien p(x ω i ; Θ i ) parametreille arvot käyttäen hyväksi tehtyjä havaintoja X i ja a priori tnjakaumia p(θ i ) Miksi emme suoraan laskisi tnjakaumia p(x X i ) ja suorittaisi luokittelua näiden avulla? Tehdään taas samat lähtöoletukset kuin ML- ja MAP-estimaattien tapauksissa Tiedetään, että p(x X) = p(x Θ)p(Θ X)dΘ, (8) 7

missä p(θ X) = p(x Θ)p(Θ) = p(x Θ)p(Θ) (9) p(x) p(x Θ)p(Θ)dΘ N p(x Θ) = p(x k Θ) (10) k=1 Tämän menetelmän haittapuoli on sen monimutkaisuus analyyttinen ratkaisu on olemassa vain erikoistapauksille Kun havaintojen määrä lähestyy ääretöntä, bayesiläisellä päättelyllä saatu normaalijakauman estimaatti lähestyy piikkiä, jonka huipun kohta on MLestimaatti. Tämä tulos yleistyy useille muillekin paljon käytetyille tnjakaumille Huom! Kun N lähestyy ääretöntä, ML- ja MAP-menetelmillä sekä bayesiläisellä päättelyllä saadut tulokset lähestyvät toisiaan. Menetelmien erot ovat merkittäviä, kun käytettävissä on vain rajallisesti havaintoja 8

1.4 Maksimientropiamenetelmä Edellä esitetyissä menetelmissä oletettiin tnjakauman tyyppi tunnetuksi ja estimoitiin sille sopivat parametrit Entä jos tunnetaan joitain tilastollisia tunnuslukuja, mutta ei tiedetä mikä tnjakaumatyyppi on kyseessä? Valitaan sellainen tnjakauma, jolla on tunnetut ominaisuudet ja maksimaalinen entropia (ei aina mikään helppo ongelma!) Tnjakauman p(x) entropia H on määritelty seuraavasti: H = p(x) ln(p(x))dx (11) Entropia kuvaa ilmiön satunnaisuutta tai yllätyksellisyyttä. x Tnjakauman entropian maksimointi vastaa minimimaalisinta a priori -tiedon käyttöä. 9

Huom! Voidaan osoittaa, että jos tunnetaan odotusarvo ja varianssi, maksimientropiaratkaisu on normaalijakauma 1.5 Mikstuurimallit Mikstuurimalleissa lähdetään siitä, että p(x):n muodostumiseen vaikuttaa joukko jakaumia. Tuntematon p(x) mallinnetaan seuraavanlaisten tiheysjakaumien lineaariyhdistelmänä: p(x) = J p(x j)p j (12) j=1 missä J j=1 P j = 1, p(x j)dx = 1 (13) x 10

1.6 EM-algoritmi EM = Expectation Maximization EM-algoritmi sopii erityisen hyvin tilanteisiin, joissa on puuttuvaa dataa. Algoritmi maksimoi loglikelihood-funktion odotusarvon ehdolla havainnot ja nykyinen estimaatti. Algoritmissa toistetaan kahta askelta: E (expectation) ja M (maximization). 1.7 Epäparametriset menetelmät Edellä esitetyissä menetelmissä oletettiin, että tnjakauma voidaan määrittää parametrivektorin avulla. Seuraavaksi tarkastellaan menetelmiä, joissa tätä oletusta ei tehdä. Sekä Parzen-ikkunat ja k:n lähimmän naapurin menetelmä ovat eräänlaisia variaatioita tnjakauman approksimoinnista histogrammin avulla. 11

Tnjakaumaa voidaan approksimoida histogrammin avulla seuraavasti: Tarkastellaan vain yhtä piirrettä x, eli 1-ulotteista tapausta, ja pyritään approksimoimaan tnjakauma p(x) Jaetaan x-akseli h:n pituisiksi intervalleiksi Approksimoidaan tn P, että x:n arvo osuu tietylle intervallille. Olkoot N havaintojen lkm ja k N intervallille osuneiden havaintojen lkm. Silloin P k N /N Kun N lähestyy ääretöntä, missä ˆx on intervallin keskikohta ˆp(x) ˆp(ˆx) 1 h k N N, x ˆx h 2, (14) Approksimaatio on hyvä silloin, kun p(x) on jatkuva ja h on riittävän pieni eli oletus p(x) = vakio intervallilla on järkevä 12

Voidaan osoittaa, että ˆp(x) p(x), jos N ja seuraavat oletukset toteutuvat: h N 0 k N k N N 0 Käytännössä N on rajoitettu ja sopiva h pitää valita itse 13

Parzen-ikkunat Moniulotteisessa tapauksessa l-ulotteinen piirreavaruus jaetaan hyperkuutioksi, joiden tilavuus on h l Määritellään jokaiselle havainnolle x i kantafunktio Φ(x i ) seuraavasti: { 1, kun x ij 1/2 Φ(x i ) =, (15) 0, muulloin missä x ij on x i :n j. komponentti Kaava (14) voidaan esittää tällaisten funktioiden summana: ˆp(x) = 1 h l ( 1 N N i=1 Φ( x i x )) (16) h Edellä jatkuvaa tnjakaumaa approksimoitiin epäjatkuvilla kuutiolla. Jatkuva approksimaatio saadaan, kun käytetään jatkuvia kantafunktioita Φ( ) 14

Kantafunktiot valitaan siten, että Φ(x) 0 Φ(x)dx = 1 Kantafunktiot voivat olla esim. eksponentiaalisia, N(0, I) x (17) Mikä on ˆp(x):n odotusarvo eli kuinka approksimaatio käyttäytyy, kun N? ˆp(x) on määritelty havaintojen {x 1,..., x N } avulla, jotka noudattavat todellista tnjakaumaa p(x) 15 Lasketaan ˆp(x):n odotusarvo tnjakauman p(x) suhteen: E[ˆp(x)] = 1 h l ( 1 N N i=1 E[Φ( x i x )]) = h ξ 1 h Φ(ξ x )p(ξ)dξ (18) l h Yllä olevasta kaavasta nähdään, että ˆp(x) on tasoitettu ( smoothed ) versio todellisesta jakaumasta

1 Kun h 0, ) lähestyy deltafunktiota δ(ξ x) ja nähdään, h että ˆp(x) on harhaton estimaatti p(x):lle riippumatta N:stä h l Φ( ξ x Jos N on kiinnitetty, estimaatin ˆp(x) varianssi kasvaa, kun h pienenee. Jos h on kiinnitetty, estimaatin ˆp(x) varianssi pienenee, kun N Useimmilla kantafunktiolla saatu estimaatti ˆp(x) on harhaton ja asymptoottisesti konsistentti, jos h 0 siten, että hn, kun N Käytännössä N on rajoitettu ja h joudutaan valitsemaan itse, esim. minimoimalla luokitteluvirhettä. Mikäli ei haluta tinkiä estimaatin ominaisuuksista, tarvittavien havaintojen N lukumäärä kasvaa eksponentiaalisesti piirrevektoreiden dimension l suhteen ( curse of dimensionality! ) 16

k:n lähimmän naapurin menetelmä Edellisessä menetelmässä kantafunktiot olivat samanlaisia riippumatta siitä oliko tarkasteltavassa piirreavaruuden osassa havaintoja tiheässä vai harvassa. Yleisempi versio kaavalle (14) : ˆp(x) = k NV (x), (19) missä V (x) on x:stä riippuva tilavuus. Eli kiinnitetään ensin k ja lasketaan vasta sitten havaintojen viemä tilavuus Voidaan osoittaa, että estimaatti on harhaton ja asymptoottisesti konsistentti, jos k ja k/n 0, kun N Saatua estimaattia kutsutaan tnjakauman k:n lähimmän naapurin estimaatiksi. 17

k:n lähimmän naapurin päätössääntö on suboptimaalinen variaatio k:n lähimmän naapurin estimaatista: Etsi N:n opetusnäytteen joukosta luokiteltavan näytteen x k lähintä naapuria. Yleensä k on pariton eikä se ole luokkien lukumäärän M monikerta Laske kuinka moni (k i ) lähimmistä naapureista kuuluu luokkaan ω i Valitse se luokka, jolle k i on suurin Lähimmän naapurin menetelmän luokitteluvirheelle P NN voidaan laskea seuraavat teoreettiset rajat, kun N : P Bayes P NN P Bayes (2 M M 1 P Bayes) 2P Bayes, (20) missä P Bayes on Bayes-säännön tuottama optimaalinen luokitteluvirhe ja M on luokkien lkm 18

Mikäli N on suuri, k:n lähimmän naapurin päätössääntö toimii paremmin isommilla k:n arvoilla kuin 1. Käytännössä k:n lähimmän naapurin sääntö toimii usein erittäin hyvin yksinkertaisuudestaan huolimatta, mutta on laskennallisesti raskas suurilla N:n arvoilla. 19