1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä, luokkien ehdollisia tnjakaumia ja tehtyjä havaintoja eli opetusdataa Hahmon luokka valitaan korkeimman a posteriori tn:n tai siitä johdetun funktion mukaisesti tai minimoimalla päätökseen liittyvän riskin odotusarvoa 1.1 Ongelman asettelu 1 Hahmo esitetään piirrevektorin x R n avulla Hahmot halutaan jakaa M:ään luokkaan ω 1,..., ω M Luokkien a priori tn:t ovat P (ω 1 ),..., P (ω M ) Luokkien ehdolliset tnjakaumat ovat p(x ω 1 ),..., p(x ω M )
Jos edellä mainittuja tn:iä ja tnjakaumia ei tunneta, ne voidaan estimoida opetusdatasta: Kun opetusnäytteitä yhteensä N kpl ja luokasta ω i niitä on N i kappaletta, ˆP (ωi ) = N i /N Luokkien ehdollisten tnjakaumien estimointia käsitellään myöhemmin Mitkä ovat luokkien a posteriori tnjakaumat? Ol., että jokaisen luokittelutapahtumaan voidaan liittää kustannus: Mitkä ovat eri päätösten riskien odotusarvot? Jaetaan piirreavaruus osiin R 1,..., R M ja tehdään luokittelupäätös seuraavasti: jos x R i, valitaan luokka ω i Mitkä ovat eri luokkia vastaavat alueet piirreavaruudessa, mitkä ovat aluejaon kriteerit? 2
1.2 Bayes Decision Theory Optimaalinen tapa suorittaa luokittelu Tarkastellaan aluksi kahden luokan, ω 1 ja ω 2, tapausta Käyttäen Bayes-sääntöä (Bayes rule) a posteriori tn:t saadaan laskettua seuraavasti: P (ω i x) = p(x ω i)p (ω i ), (1) p(x) missä p(x) = 2 p(x ω i )P (ω i ) (2) i=1 3
Jaetaan piirreavaruus osiin R 1 ja R 2 siten, että valitaan aina se luokka, jonka a posteriori tn on korkeampi. Luokittelu tehdään siis seuraavasti: Jos P (ω 1 x) > P (ω 2 x), x kuuluu luokkaan ω 1 Jos P (ω 1 x) < P (ω 2 x), x kuuluu luokkaan ω 2 (3) Jos luokkien a priori tn:t ovat samat, saadaan: p(x ω 1 ) p(x ω 2 ) (4) Kohtaa, jossa luokkien a posteriori tn:t ovat samat, kutsutaan päätösraja ja se jakaa piirreavaruuden alueiksi R 1 ja R 2 4
5
Luokitteluvirheen tn:n minimointi Täydellisen, virheettömän luokittelun saavuttaminen ei ole aina edes teoriassa mahdollista Luokitteluvirheen tn voidaan laskea seuraavasti: P e = P (x R 2, ω 1 ) + P (x R 1, ω 2 ) (5) Edellinen kaava voidaan kirjoittaa myös näin: P e = P (x R 2 ω 1 )P (ω 1 ) + P (x R 1 ω 2 )P (ω 2 ) = P (ω 1 ) p(x ω 1 ) dx + P (ω 2 ) p(x ω 2 ) dx R 2 R 1 = P (ω 1 x)p(x) dx + P (ω 2 x)p(x) dx R 2 R 1 Koska R 1 :n ja R 2 :n unioni kattaa koko piirreavaruuden, P (ω 1 x)p(x) dx + P (ω 1 x)p(x) dx = P (ω 1 ) (7) R 1 R 2 (6) 6
Yhdistämällä kaavat (6) ja (7) saadaan: P e = P (ω 1 ) (P (ω 1 x) P (ω 2 x))p(x) dx (8) R 1 Edellisestä nähdään helposti, että P e minimoituu silloin, kun R 1 : P (ω 1 x) > P (ω 2 x) R 2 : P (ω 2 x) > P (ω 1 x), (9) Useamman kuin kahden luokan tapaukselle voidaan johtaa vastaavalla päättelyllä luokitteluvirhetn:n minimoiva päätössääntö: R i : P (ω i x) > P (ω j x) j i (10) 7
Riskin odotusarvon minimointi Luokitteluvirhetn minimointi ei ole paras suunnittelukiriteeri, silloin jos erilaisiin luokittelupäätöksiin liittyy erilaiset riskit, esim. Onko palohälytys oikea vai pelkkä testi? Liitetään kaikkiin luokittelutapahtumiin (x R i, oikea luokka ω k ) kustannuskertoimet λ ki, jotka voidaan koota matriisiksi L(k, i) = λ ki Luokkaan ω k liittyvä riski: r k = M λ ki p(x ω k ) dx, (11) R i i=1 missä M on luokkien lukumäärä 8
Kuinka valita piirreavaruuden jako siten, että riskin odotusarvo r minimoituu? r = = M r k P (ω k ) k=1 M i=1 ( R i k=1 M λ ki p(x ω k )P (ω k ))dx (12) r minimoituu seuraavalla jaolla: x R i, jos l i < l j j i M l m = λ km p(x ω k )P (ω k ) k=1 (13) Huom! Jos valitaan λ ki = 1 δ ki (δ ki on Kroneckerin delta-funktio), minimoidaan luokitteluvirhetn:ttä 9
Kahden luokan tapaus: Eri päätöksiin liittyvät kustannusten odotusarvot: l 1 = λ 11 p(x ω 1 )P (ω 1 ) + λ 21 p(x ω 2 )P (ω 2 ) l 2 = λ 12 p(x ω 1 )P (ω 1 ) + λ 22 p(x ω 2 )P (ω 2 ) (14) Valitaan luokka ω 1, kun l 1 < l 2 : (λ 21 λ 22 )p(x ω 2 )P (ω 2 ) < (λ 12 λ 11 )p(x ω 1 )P (ω 1 ) (15) Yleensä λ ij λ ii. Silloin: R 1 : R 2 : p(x ω 1 ) p(x ω 2 ) > P (ω 2) λ 21 λ 22 P (ω 1 ) λ 12 λ 11 p(x ω 1 ) p(x ω 2 ) < P (ω 2) λ 21 λ 22 P (ω 1 ) λ 12 λ 11 (16) (a posteriori tnjakaumien suhde on ns. likelihood ratio ) 10
Esimerkki 1: Tarkastellaan kahden luokan, ω 1 ja ω 2, ongelmaa ja oletetaan, että p(x ω 1 ) N(0, 1/2) ja p(x ω 2 ) N(1, 1/2) eli p(x ω 1 ) = 1 π exp( x 2 ) p(x ω 2 ) = 1 π exp( (x 1) 2 ) ja että luokkien a priori tn:t P (ω 1 ) ja P (ω 2 ) ovat samat Silloin luokitteluvirhetn:n minimoiva päätösraja on x 0 : exp( x 2 ) = exp( (x 1) 2 ) eli x 0 = 1/2 (katso kaava (10)) 11
Kun käytetään seuraava kustannusmatriisia L: [ ] 0 0.5 L =, 1.0 0 x 0 : exp( x 2 ) = 2 exp( (x 1) 2 ) eli x 0 = (1 ln(2))/2 < 1/2 (katso kaava (15)) Huom! Jos luokkien a priori tn:t eivät ole samat, P (ω 1 ) P (ω 2 ), siirtyy päätösraja myöskin vasemmalle tai oikealle Esimerkki 2: Palohälytyksen luokittelu eli juostaanko ulos (tulipalo) vai jäädäänkö sisälle ihmettelemään (väärä hälytys)? Olkoot ω 1 = tulipalo, ω 2 = väärä hälytys Oletetaan a priori tn:n sille että talossa on tulipalo olevan 1 päivä 10:ssä vuodessa eli P (ω 1 ) = 1/3650 ja P (ω 2 ) = 3649/3650 12
Piirrevektori x koostuu esim. seuraavista havainnoista: kuinka iso osa muista ihmisistä säntää ulos, kuinka sakeaa on savu, näkyykö liekkejä jne p(x ω 1 ) ja p(x ω 2 ) arvioidaan aikaisempien kokemusten pohjalta Liitetään eri luokittelupäätöksiin seuraavat ajassa mitatut kustannukset: λ 11 = kymmenen vuoden tulot ja 1 tunti pihalla, λ 12 = kymmenen vuoden tulot ja 60 vuotta loppuelämästä, λ 21 = 1 tunti pihalla, λ 22 = 0 Kaavan (15) perusteella riskin odotusarvo minimoituu,kun päätös tehdään seuraavasti: p(x ω 1 ) tulipalo : p(x ω 2 ) > 3649 525599 0.007 väärä hälytys : muulloin eli pelkkien havaintojen perusteella pitää olla reilusti yli 100- kertainen luottamus siihen ettei ole tulipaloa, jos aikoo jäädä sisälle 13
1.3 Diskriminanttifunktiot ja päätöspinnat Edellisten tarkastelujen pohjalta tiedetään, että kun luokittelu perustuu joko luokitteluvirhetn:n tai riskin odotusarvon minimointiin, piirreavaruus jaetaan M:ään päätösalueeseen R 1,..., R M, kun luokkia on M kappaletta Mikäli luokkia ω i ja ω j vastaavat, luokitteluvirheen tn:n minimoivat päätösalueet ovat R i ja R j, määritellään päätöspinta (decision boundary, decision surface) seuraavasti: P (ω i x) P (ω j x) = 0 (17) Toisella puolella päätöspintaa erotus on positiivinen ja toisella negatiivinen Toisinaan on laskennallisesti kätevämpää esittää päätöspinnan yhtälö diskriminanttifunktioiden g i (x) = f(p (ω i x)) avulla. f( ) voi olla mikä tahansa monotonisesti kasvava, jatkuva funktio 14
Tällöin minivirhetn:n tuottama päätössääntö (10) saa seuraavan muodon: ja päätöspinnat on määritelty seuraavasti: R i : g i (x) > g j (x) j i (18) g ij (x) = g i (x) g j (x) = 0 (19) 15