1. TILASTOLLINEN HAHMONTUNNISTUS

Samankaltaiset tiedostot
1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

1. LINEAARISET LUOKITTIMET

Hahmontunnistuksen perusteet. Tik (3 ov) L. Syksy 2000

Hahmontunnistuksen perusteet T , 3ov, L Syksy Harjoitustyö: Matti Aksela

805306A Johdatus monimuuttujamenetelmiin, 5 op

JOHDATUS TEKOÄLYYN LUENTO 4.

Sovellettu todennäköisyyslaskenta B

2. Bayesin päätösteoria

1. LINEAARISET LUOKITTIMET (jatkoa)

E. Oja ja H. Mannila Datasta Tietoon: Luku 6

Diskreettiaikainen dynaaminen optimointi

luokittelu on mahdollisimman tehokasta Esimerkkejä hahmontunnistussovelluksista: Satelliittikuvien tulkinta Tekstin tunnistus

4.2.2 Uskottavuusfunktio f Y (y 0 X = x)

JOHDATUS TEKOÄLYYN TEEMU ROOS

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

MATEMATIIKAN KOE, PITKÄ OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tämän luvun sisältö. Luku 6. Hahmontunnistuksen perusteita. Luokittelu (2) Luokittelu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Inversio-ongelmien laskennallinen peruskurssi Luento 7

1. JOHDANTO. 1.1 Johdattelevia esimerkkejä. 1. Kuinka monta ihmishahmoa näet kuvassa?

MAA2.3 Koontitehtävät 2/2, ratkaisut

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Luku 6. Hahmontunnistuksen perusteita

Mallipohjainen klusterointi

Sovellettu todennäköisyyslaskenta B

1. Tilastollinen malli??

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe klo 10 13

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

MS-A0107 Differentiaali- ja integraalilaskenta 1 (CHEM)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Sovellettu todennäköisyyslaskenta B

(0 desimaalia, 2 merkitsevää numeroa).

1 Bayesin teoreeman käyttö luokittelijana

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

805306A Johdatus monimuuttujamenetelmiin, 5 op

Maximum likelihood-estimointi Alkeet

Estimointi. Vilkkumaa / Kuusinen 1

Matematiikan tukikurssi

2 dy dx 1. x = y2 e x2 2 1 y 2 dy = e x2 xdx. 2 y 1 1. = ex2 2 +C 2 1. y =

Harjoitus 2: Matlab - Statistical Toolbox

Sovellettu todennäköisyyslaskenta B

Helsingin, Itä-Suomen, Jyväskylän, Oulun, Tampereen ja Turun yliopisto Matematiikan valintakoe klo Ratkaisut ja pisteytysohjeet

, c) x = 0 tai x = 2. = x 3. 9 = 2 3, = eli kun x = 5 tai x = 1. Näistä

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

BM20A5800 Funktiot, lineaarialgebra ja vektorit Harjoitus 4, Syksy 2016

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

4.0.2 Kuinka hyvä ennuste on?

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

10 y 2 3 x D 100; D D a: Vastaavasti sadalla kilometrillä kulutettavan polttoaineen E10 energiasisältö on x a C 10

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

TILASTOLLINEN OPPIMINEN

Toispuoleiset raja-arvot

Todennäköisyyslaskenta IIa, syys lokakuu 2019 / Hytönen 3. laskuharjoitus, ratkaisuehdotukset

Uolevin reitti. Kuvaus. Syöte (stdin) Tuloste (stdout) Esimerkki 1. Esimerkki 2

Todennäköisyyden ominaisuuksia

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

saadaan kvanttorien järjestystä vaihtamalla ehto Tarkoittaako tämä ehto mitään järkevää ja jos, niin mitä?

f (28) L(28) = f (27) + f (27)(28 27) = = (28 27) 2 = 1 2 f (x) = x 2

Kuva 1: Funktion f tasa-arvokäyriä. Ratkaisu. Suurin kasvunopeus on gradientin suuntaan. 6x 0,2

Diskriminanttianalyysi I

Väliestimointi (jatkoa) Heliövaara 1

4 Kysyntä, tarjonta ja markkinatasapaino (Mankiw & Taylor, 2 nd ed., chs 4-5)

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

4 Kysyntä, tarjonta ja markkinatasapaino

Mat Dynaaminen optimointi, mallivastaukset, kierros Vaimennetun heilurin tilanyhtälöt on esitetty luennolla: θ = g sin θ r θ

Numeeriset menetelmät TIEA381. Luento 12. Kirsi Valjus. Jyväskylän yliopisto. Luento 12 () Numeeriset menetelmät / 33

Derivaatan sovellukset (ääriarvotehtävät ym.)

Useita oskillaattoreita yleinen tarkastelu

Hahmontunnistus ja Bayesilainen luokitin: käytännön sovellus

Tilastollinen päättely, 10 op, 4 ov

Sovellettu todennäköisyyslaskenta B

k=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu

MS-A010{3,4} (ELEC*) Differentiaali- ja integraalilaskenta 1 Luento 4: Derivaatta

Kvanttifysiikan perusteet, harjoitus 5

Juuri 12 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Regressioanalyysi. Kuusinen/Heliövaara 1

Matriisilaskenta Laskuharjoitus 5 - Ratkaisut / vko 41

0 3 y4 dy = 3 y. 15x 2 ydx = 15. f Y (y) = 5y 4 1{0 y 1}.

Tehtävänanto oli ratkaista seuraavat määrätyt integraalit: b) 0 e x + 1

x 7 3 4x x 7 4x 3 ( 7 4)x 3 : ( 7 4), 7 4 1,35 < ln x + 1 = ln ln u 2 3u 4 = 0 (u 4)(u + 1) = 0 ei ratkaisua

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Johdatus tn-laskentaan perjantai

Integroimistekniikkaa Integraalifunktio

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Sinin jatkuvuus. Lemma. Seuraus. Seuraus. Kaikilla x, y R, sin x sin y x y. Sini on jatkuva funktio.

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Transkriptio:

1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä, luokkien ehdollisia tnjakaumia ja tehtyjä havaintoja eli opetusdataa Hahmon luokka valitaan korkeimman a posteriori tn:n tai siitä johdetun funktion mukaisesti tai minimoimalla päätökseen liittyvän riskin odotusarvoa 1.1 Ongelman asettelu 1 Hahmo esitetään piirrevektorin x R n avulla Hahmot halutaan jakaa M:ään luokkaan ω 1,..., ω M Luokkien a priori tn:t ovat P (ω 1 ),..., P (ω M ) Luokkien ehdolliset tnjakaumat ovat p(x ω 1 ),..., p(x ω M )

Jos edellä mainittuja tn:iä ja tnjakaumia ei tunneta, ne voidaan estimoida opetusdatasta: Kun opetusnäytteitä yhteensä N kpl ja luokasta ω i niitä on N i kappaletta, ˆP (ωi ) = N i /N Luokkien ehdollisten tnjakaumien estimointia käsitellään myöhemmin Mitkä ovat luokkien a posteriori tnjakaumat? Ol., että jokaisen luokittelutapahtumaan voidaan liittää kustannus: Mitkä ovat eri päätösten riskien odotusarvot? Jaetaan piirreavaruus osiin R 1,..., R M ja tehdään luokittelupäätös seuraavasti: jos x R i, valitaan luokka ω i Mitkä ovat eri luokkia vastaavat alueet piirreavaruudessa, mitkä ovat aluejaon kriteerit? 2

1.2 Bayes Decision Theory Optimaalinen tapa suorittaa luokittelu Tarkastellaan aluksi kahden luokan, ω 1 ja ω 2, tapausta Käyttäen Bayes-sääntöä (Bayes rule) a posteriori tn:t saadaan laskettua seuraavasti: P (ω i x) = p(x ω i)p (ω i ), (1) p(x) missä p(x) = 2 p(x ω i )P (ω i ) (2) i=1 3

Jaetaan piirreavaruus osiin R 1 ja R 2 siten, että valitaan aina se luokka, jonka a posteriori tn on korkeampi. Luokittelu tehdään siis seuraavasti: Jos P (ω 1 x) > P (ω 2 x), x kuuluu luokkaan ω 1 Jos P (ω 1 x) < P (ω 2 x), x kuuluu luokkaan ω 2 (3) Jos luokkien a priori tn:t ovat samat, saadaan: p(x ω 1 ) p(x ω 2 ) (4) Kohtaa, jossa luokkien a posteriori tn:t ovat samat, kutsutaan päätösraja ja se jakaa piirreavaruuden alueiksi R 1 ja R 2 4

5

Luokitteluvirheen tn:n minimointi Täydellisen, virheettömän luokittelun saavuttaminen ei ole aina edes teoriassa mahdollista Luokitteluvirheen tn voidaan laskea seuraavasti: P e = P (x R 2, ω 1 ) + P (x R 1, ω 2 ) (5) Edellinen kaava voidaan kirjoittaa myös näin: P e = P (x R 2 ω 1 )P (ω 1 ) + P (x R 1 ω 2 )P (ω 2 ) = P (ω 1 ) p(x ω 1 ) dx + P (ω 2 ) p(x ω 2 ) dx R 2 R 1 = P (ω 1 x)p(x) dx + P (ω 2 x)p(x) dx R 2 R 1 Koska R 1 :n ja R 2 :n unioni kattaa koko piirreavaruuden, P (ω 1 x)p(x) dx + P (ω 1 x)p(x) dx = P (ω 1 ) (7) R 1 R 2 (6) 6

Yhdistämällä kaavat (6) ja (7) saadaan: P e = P (ω 1 ) (P (ω 1 x) P (ω 2 x))p(x) dx (8) R 1 Edellisestä nähdään helposti, että P e minimoituu silloin, kun R 1 : P (ω 1 x) > P (ω 2 x) R 2 : P (ω 2 x) > P (ω 1 x), (9) Useamman kuin kahden luokan tapaukselle voidaan johtaa vastaavalla päättelyllä luokitteluvirhetn:n minimoiva päätössääntö: R i : P (ω i x) > P (ω j x) j i (10) 7

Riskin odotusarvon minimointi Luokitteluvirhetn minimointi ei ole paras suunnittelukiriteeri, silloin jos erilaisiin luokittelupäätöksiin liittyy erilaiset riskit, esim. Onko palohälytys oikea vai pelkkä testi? Liitetään kaikkiin luokittelutapahtumiin (x R i, oikea luokka ω k ) kustannuskertoimet λ ki, jotka voidaan koota matriisiksi L(k, i) = λ ki Luokkaan ω k liittyvä riski: r k = M λ ki p(x ω k ) dx, (11) R i i=1 missä M on luokkien lukumäärä 8

Kuinka valita piirreavaruuden jako siten, että riskin odotusarvo r minimoituu? r = = M r k P (ω k ) k=1 M i=1 ( R i k=1 M λ ki p(x ω k )P (ω k ))dx (12) r minimoituu seuraavalla jaolla: x R i, jos l i < l j j i M l m = λ km p(x ω k )P (ω k ) k=1 (13) Huom! Jos valitaan λ ki = 1 δ ki (δ ki on Kroneckerin delta-funktio), minimoidaan luokitteluvirhetn:ttä 9

Kahden luokan tapaus: Eri päätöksiin liittyvät kustannusten odotusarvot: l 1 = λ 11 p(x ω 1 )P (ω 1 ) + λ 21 p(x ω 2 )P (ω 2 ) l 2 = λ 12 p(x ω 1 )P (ω 1 ) + λ 22 p(x ω 2 )P (ω 2 ) (14) Valitaan luokka ω 1, kun l 1 < l 2 : (λ 21 λ 22 )p(x ω 2 )P (ω 2 ) < (λ 12 λ 11 )p(x ω 1 )P (ω 1 ) (15) Yleensä λ ij λ ii. Silloin: R 1 : R 2 : p(x ω 1 ) p(x ω 2 ) > P (ω 2) λ 21 λ 22 P (ω 1 ) λ 12 λ 11 p(x ω 1 ) p(x ω 2 ) < P (ω 2) λ 21 λ 22 P (ω 1 ) λ 12 λ 11 (16) (a posteriori tnjakaumien suhde on ns. likelihood ratio ) 10

Esimerkki 1: Tarkastellaan kahden luokan, ω 1 ja ω 2, ongelmaa ja oletetaan, että p(x ω 1 ) N(0, 1/2) ja p(x ω 2 ) N(1, 1/2) eli p(x ω 1 ) = 1 π exp( x 2 ) p(x ω 2 ) = 1 π exp( (x 1) 2 ) ja että luokkien a priori tn:t P (ω 1 ) ja P (ω 2 ) ovat samat Silloin luokitteluvirhetn:n minimoiva päätösraja on x 0 : exp( x 2 ) = exp( (x 1) 2 ) eli x 0 = 1/2 (katso kaava (10)) 11

Kun käytetään seuraava kustannusmatriisia L: [ ] 0 0.5 L =, 1.0 0 x 0 : exp( x 2 ) = 2 exp( (x 1) 2 ) eli x 0 = (1 ln(2))/2 < 1/2 (katso kaava (15)) Huom! Jos luokkien a priori tn:t eivät ole samat, P (ω 1 ) P (ω 2 ), siirtyy päätösraja myöskin vasemmalle tai oikealle Esimerkki 2: Palohälytyksen luokittelu eli juostaanko ulos (tulipalo) vai jäädäänkö sisälle ihmettelemään (väärä hälytys)? Olkoot ω 1 = tulipalo, ω 2 = väärä hälytys Oletetaan a priori tn:n sille että talossa on tulipalo olevan 1 päivä 10:ssä vuodessa eli P (ω 1 ) = 1/3650 ja P (ω 2 ) = 3649/3650 12

Piirrevektori x koostuu esim. seuraavista havainnoista: kuinka iso osa muista ihmisistä säntää ulos, kuinka sakeaa on savu, näkyykö liekkejä jne p(x ω 1 ) ja p(x ω 2 ) arvioidaan aikaisempien kokemusten pohjalta Liitetään eri luokittelupäätöksiin seuraavat ajassa mitatut kustannukset: λ 11 = kymmenen vuoden tulot ja 1 tunti pihalla, λ 12 = kymmenen vuoden tulot ja 60 vuotta loppuelämästä, λ 21 = 1 tunti pihalla, λ 22 = 0 Kaavan (15) perusteella riskin odotusarvo minimoituu,kun päätös tehdään seuraavasti: p(x ω 1 ) tulipalo : p(x ω 2 ) > 3649 525599 0.007 väärä hälytys : muulloin eli pelkkien havaintojen perusteella pitää olla reilusti yli 100- kertainen luottamus siihen ettei ole tulipaloa, jos aikoo jäädä sisälle 13

1.3 Diskriminanttifunktiot ja päätöspinnat Edellisten tarkastelujen pohjalta tiedetään, että kun luokittelu perustuu joko luokitteluvirhetn:n tai riskin odotusarvon minimointiin, piirreavaruus jaetaan M:ään päätösalueeseen R 1,..., R M, kun luokkia on M kappaletta Mikäli luokkia ω i ja ω j vastaavat, luokitteluvirheen tn:n minimoivat päätösalueet ovat R i ja R j, määritellään päätöspinta (decision boundary, decision surface) seuraavasti: P (ω i x) P (ω j x) = 0 (17) Toisella puolella päätöspintaa erotus on positiivinen ja toisella negatiivinen Toisinaan on laskennallisesti kätevämpää esittää päätöspinnan yhtälö diskriminanttifunktioiden g i (x) = f(p (ω i x)) avulla. f( ) voi olla mikä tahansa monotonisesti kasvava, jatkuva funktio 14

Tällöin minivirhetn:n tuottama päätössääntö (10) saa seuraavan muodon: ja päätöspinnat on määritelty seuraavasti: R i : g i (x) > g j (x) j i (18) g ij (x) = g i (x) g j (x) = 0 (19) 15