53 / 99 3. Jakaumie parametrie estimoiti Edellisessä kappaleessa johdettii optimaalisia luokittelijoita, ku priorit ja posteriorit tuettii. Useimmissa tapauksissa äitä todeäköisyyksiä ei tueta, vaa algoritmie suuittelija käytössä o vai joukko dataa. Yksi lähestymistapa o tällöi käyttää dataäytteitä tutemattomie todeäköisyyksie ja jakaumie estimoimiseksi, ja se jälkee soveltaa aiemmi esitettyjä kaavoja ikääkui estimaatit olisivat todellisia. Estimaatit eivät luoollisestikaa ole tarkkoja, jote tämä aiheuttaa epäoptimaalisuutta luokittelijaa. Prioritodeäköisyyksie estimoiti (arvioimie) o yleesä suoraviivaista, mutta ehdolliste jakaumie estimoitia vaikeuttaa käytäössä vähäie data määrä. Ogelmaa lievetää huomattavasti mikäli jakaumie muoto tuetaa tai aiaki voidaa olettaa että tietty jakaumatyyppi kuvaa hyvi data rakeetta. Tällöi riittää jakaumie parametrie estimoiti. Esimerkiksi, mikäli ormaalijakauma äyttäisi mallitava aieisto jakaumaa hyvi, riittää laskea otoskeskiarvo ja otoskovariassimatriisi luokittai. Parametri estimoiti o klassie tilastomatemaattie ogelma ja siihe o kehitetty rusaasti meetelmiä. Tarkastelemme esimerki vuoksi paljo käytettyä suurimma uskottavuude meetelmää (maximum likelihood estimate, MLE). Lopuksi tarkastelemme ei-parametrisia estimoitimeetelmiä. Lyhyesti: MLE olettaa parametrie oleva kiiteät mutta tutemattomat, ja pyrkii löytämää iille sellaiset lukuarvot että iide kiiittämie jakaumie valossa havaitu data esiitymistodeäköisyys o suuri. Esimerkiksi Bayesi meetelmä parametrie estimoitii o seuraava: Bayesi meetelmä olettaa data jakaumaparametrit jotai arveltua priorijakaumaa oudattaviksi satuaismuuttujiksi, ja pyrkii estimoimaa data avulla tarkemmi ämä jakaumat laskemalla posteriorijakaumat. Lisättäessä data määrää posteriorijakaumie muodot terävöityvät kertoe tarkemmi satuaismuuttujie kuvaamie parametrie todelliset arvot (Bayesilaie oppimie, Bayesia learig). Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
54 / 99 3.. Suurimma uskottavuude meetelmä Jaetaa data luokkii D,...,D c, joide äytteet x o poimittu toisistaa riippumattomasti oudattae luokkaehdollisia jakaumia p( x ω j ). Näytteet ovat tällöi riippumattomia ja idettisesti jakautueita satuaismuuttujia (idepedet ad idetically distributed radom variables, i.i.d.). Oletetaa jakaumie parametriset muodot tuetuiksi, jolloi parametrivektori määrä yksikäsitteisesti jakauma p( x ω j ). Esimerkiksi ormaalijakauma tapauksesssa p( x ω j ) N( m, Σ), jolloi θ j. Jakauma riippuvuus se parametreista voidaa esittää suoraa sisällyttämällä parametrivektori tiheysfuktiomerkitää: p( x ω j, θ j ). Ogelma o yt siis seuraava: käytä data sisältämä iformaatio löytääksesi hyvät estimaatit parametreille θ,, θ c. Yksikertaistetaa ogelma käsittelyä olettamalla, että luoka D i äytteet eivät sisällä iformaatiota parametrivektorista θ j ku i j, eli eri luokkie parametrit ovat toisistaa fuktioaalisesti riippumattomia. Tällöi jokaie luokka voidaa käsitellä muista riippumattomasti. Ogelma voidaa yt ilmaista yksikertaisemmi: Käyttäe hyväksi todeäköisyystiheysjakauma p( x θ) mukaisesti riippumattomasti poimittuje dataäytteide joukkoa D, estimoi tutemato parametrivektori θ. Sisältäköö datajoukko D äytteet x,...,x. Koska äytteet ovat toisistaa riippumattomia, saadaa θ : uskottavuusfuktioksi (likelihood fuctio) suhteessa äytteisii: ( m, Σ) t Suurimma uskottavuude estimaatti o määritelmä mukaa se θ : arvo θˆ, joka maksimoi tämä fuktio. Ituitiivisesti tulkite, parametri θˆ kiiittämä jakauma selittää havaitu data uskottavimmi. θ j p( D θ) p( x k θ) Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
55 / 99 Allaoleva esimerkkikuva havaiollistaa MLE-estimaati löytämistä: Usei uskottavuusfuktio aalyyttise käsittely helpottamiseksi käytetää se logaritmia (log-likelihood fuctio). Logaritmifuktio kasvaa mootoisesti, jote se maksimikohta yhtyy alkuperäise uskottavuusfuktio maksimikohtaa. Maksimikohta löydetää differetiaalilaskealla, kuha fuktiot ovat hyvikäyttäytyviä ja differetoituvia. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
56 / 99 Olkoo θ ( θ,, θ p ) t ja θ gradiettioperaattori: Märitellää log-likelihood-fuktio: θ θ. θ p l( θ) l p( D θ) MLE-ratkaisu voidaa yt kirjoittaa muotoo: θˆ arg max l( θ) θ Nyt saadaa: l( θ) l p( x k θ) θ l θ l p( x k θ) Riittävät ehdot parametrivektori θ estimoimiseksi saadaa p:stä yhtälöstä: θ l 0 Ratkaisu θˆ saattaa esittää globaalia tai paikallista maksimia tai miimiä tai harvemmi kääepisteitä. Mikäli ratkaisuja o useita, toise derivaata avulla selvitetää kuki ratkaisu osalta oko kyseessä maksimi vai miimi. Sijoittamalla uskottavuusfuktioo selvitetää mikä iistä o globaali maksimi. Ratkaisemise yhteydessä lausekkeessa merkitää θ θˆ, ja ratkaistaa θˆ. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
57 / 99 Allaoleva piirros havaiollistaa useide ratkaisuje mahdollisuutta, ku uskottavuusfuktio o moimutkaie. l(theta) theta 3... Gaussi jakauma: tutemato odotusarvo m Tarkastellaa moimuuttujaista ormaalijakaumaa ja se äytteitä x k : l( θ) l p( D θ) l p( D m) l p( x k m) -- ( x 2 k m) Σ ( x k m) l -----------------------------------e ( 2π) Σ 2 --l ( 2π) [ Σ ] -- ( x 2 2 k m) Σ ( x k m) Laskemalla osittaisderivaatta estimoitava parametri m suhtee saadaa: θm l l p( D m) θm Σ ( x k mˆ ) 0 mˆ -- x k Eli optimaalie estimaatti o tuttu otoskeskiarvo. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
58 / 99 3..2. Gaussi jakauma: tutemato odotusarvo m ja kovariassi Σ Tarkastellaa esi yksimuuttujaista tapausta, jossa tulee estimoida kaksi kompoettia sisältävä parametrivektori θ, merkitää θ µ ja θ 2 σ 2. Yhde äytepistee x k tapauksessa saadaa: l( θ) l p( x k θ) -- l 2πθ 2 2 -------- ( x 2θ k θ ) 2 2 θ l l p( D θ) θ θ l p( x k θ) -------- 2θ 2 ----- ( x θ k θ ) 2 ( x k θ ) 2 + ----------------------- 2 2θ 2 Sijoittamalla ämä lausekkeet koko äytejouko sisältämää osittaisderivaata lausekkeesee ja merkitsemällä lausekkeet ollaksi saadaa: ----- x k θˆ θˆ 0 2 ----- ( x k θˆ ) + ----------------------- θˆ 2 2 θˆ 2 0 Ratkaisemalla yhtälöpari saadaa lopulta: µˆ -- x k σˆ 2 -- x ( k µˆ ) 2 Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
59 / 99 Yleistämällä tulokset moiulotteise muuttuja tapauksee saadaa: mˆ -- x k Σˆ -- x ( k mˆ )( x k mˆ ) t 3..3. Harhaisuus (bias) ja MLE-estimaatit Variassi MLE-estimaatti o harhaie (biased), koska se odotusarvo ei ole sama kui todellie variassi: -----------E Biasoimato estimaatti variassille olisi otosvariassi: σˆ 2 ----------- x ( k µˆ ) 2 Kovariassimatriisille E -- ( x k µˆ ) 2 ----------- x ( k µˆ ) 2 --E ----------- x ( k µˆ ) 2 -----------σ 2 σ 2 E[( x µ ) 2 ] Σ biasoimato estimaatti o otoskovariassimatriisi: C ----------- x ( k mˆ )( x k mˆ ) t Toisaalta, ämä estimaatit ovat asymptoottisesti harhattomia, sillä e saavuttavat todellise variassi/kovariassimatriisi ku otoskoko kasvaa äärettömii. Käytäö sovelluksissa voidaa käyttää molempia määritelmiä. Mikää estimaattori ei ole optimaalie kaikilta osi. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
60 / 99 3.2. Ei-parametriset meetelmät tiheysfuktioide estimoitii Edellä esiteltii MLE-meetelmä tiheysfuktioide parametrie estimoitii. Käytäössä data jakaumie muotoja ei välttämättä tueta ja oletetut fuktiomuodot saattavat sopia huoosti dataa. Data jakauma voi olla esimerkiksi moihuippuista yksihuippuise Gaussi jakauma sijasta, eikä huippuje lukumäärää tueta. Ei-parametrisiä meetelmiä käytetää ilma jakaumaoletuksia tuottamaa estimaatteja data todellise jakauma tiheysarvoista piireavaruude yksittäisissä pisteissä x. Meetelmät voivat esimerkiksi estimoida luokkaehdollisia tiheysfuktioita p( x ω j ) tai posterioritodeäköisyyksiä P( ω j x) pisteessä x, joka voidaa sitte sijoittaa aiemmi esiteltyihi lausekkeisi todelliste arvoje sijaa. Tarkastellaa aluksi tiheysfuktio estimoii periaatetta yksittäise luoka aieistossa: Todeäköisyys P, että vektori x sijoittuu tiettyy piirreavaruude alueesee R o: P p( x' ) dx' R Todeäköisyys P o siis keskiarvoistettu versio todeäköisyysfuktiosta p(x) ja tätä keskiarvoistettua arvoa p(x) voidaa estimoida estimoimalla arvoa P. Oletetaa, että äytettä x,...,x poimitaa (i.i.d.) tiheysjakauma p(x) mukaisesti. Todeäköisyys P k, että k äistä :stä sijoittuu alueesee R o biomise jakauma mukaisesti: P k P k k ( P) k Koska k: odotusarvo o: E[ k] P, saadaa P E[ k], josta edellee P: estimaatti Pˆ k. Koska biomie jakauma P k o terävähuippuie odotusarvo ympärillä, yllä oleva estimaatti o varsi hyvä, varsiki suurilla : arvoilla ku siis aieistoa o paljo. Alla oleva kuva havaiollistaa biomise jakauma muotoa : eri arvoilla: Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
6 / 99 Jos yt oletamme, että p(x) o jatkuva ja alue R ii piei ettei p(x) juurikaa vaihtele se sisällä, voidaa kirjoittaa: P p( x' ) dx' p( x)v R, jossa V o aluee tilavuus. Yhdistämällä ylläolevat kaavat saadaa: P P p( x) Huomaa: Jos V o liia suuri, keskiarvoistus epätarketaa estimaattia; jos V o liia piei, aluee sisää ei juuri osu dataa mikä jällee epätarketaa estimaattia se kasvava variassi vuoksi! Kompromissi sekä keskiarvoistaa että tuottaa variassia estimaattii. Sopiva kompromissi löytämie oki tärkeää sovellukse suuittelussa. k p( x)v k -------- V Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
62 / 99 Kaksi usei käytettyä lähestymistapaa tiheysarvoje estimoitii ovat (ämä ovat yksikertaisimmat versiot): Parzei ikkua meetelmä, jossa tilavuus V lasketaa data määrästä tai muutoi arvioidaa sovelluksee sopivaksi, ja ikkua sisää jäävästä data osasta lasketaa suhde k/ k : lähimmä aapuri meetelmä, jossa k lasketaa datasta tai pidetää sovelluksee sopivaa vakioa, ja kasvatetaa tilavuutta V kues ikkua sisää jää k äytepistettä Allaoleva kuva havaiollistaa äitä meetelmiä: Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
63 / 99 3.3. Ei-parametrie estimoiti: Parzei ikkua meetelmä Aloitetaa yksikertaisesta ja yleistetää sitte. Oletetaa, että alue R o d-ulotteie hyperkuutio. Jos h o hyperkuutio reua pituus, ii tilavuus o. Määritellää ikkuafuktio: V h d ϕ( u) u j 2, j,, d 0 muulloi Kyseessä o siis origoo sijoittuva yksikköhyperkuutio (V). Tästä seuraa että ϕ( ( x x i ) h ) saa arvo, mikäli x i sijoittuu pisteessä x sijaitseva ja tilavuude V omaava hyperkuutio sisää. Hyperkuutio sisää sijoittuvie datapisteide lukumäärä k voidaa yt ilmaista tämä ikkuafuktio avulla: k ϕ x x i ------------ h i, ku data kokoaismäärä. Tiheysfuktio estimaatiksi saadaa yt: k p ( x) ----------- -- ------ϕ x x i ------------ V V h i Tämä o varsi yksikertaie iterpoloitifuktio, koska se arvioi tiheysarvo pisteessä x laskemalla kyseise pistee ympärillä sijaitseva hyperkuutio sisää jäävie äytepisteide suhteellise osuude kaikista äytepisteistä. Muutaki ikkuafuktiota ϕ voidaa käyttää parempie iterpoloitiomiaisuuksie saavuttamiseksi, kuha se saa kaikkialla ei-egatiivisia arvoja ja itegroituu ykköseksi. Tällöi tiheysfuktiota estimoidaa äytepisteissä x i sijaitsevie ikkuafuktioide summaa pisteessä x. Seuraavalla sivulla o esitetty ympyräsymmetrisiä Gaussi ikkuafuktioita erisuuruisella keskihajotaparametrilla. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
64 / 99 Alla olevassa kuvassa 5 eli data sisältää vai viisi äytepistettä x i, i,2,3,4,5. Näihi pisteisii o sijoitettu ylläoleva kuva ikkuafuktioita, jolloi kulleki kolmelle vaihtoehdolle o saatu tiheysfuktiota aproksimoiva estimaatti kaikille pisteille x. Käytäössä estimaatti täytyy luoollisesti laskea vai luokiteltavie hahmoje piirrevektoreille x ja tietysti opetusdataaki o eemmä kui viisi. Kuvasta ähdää, että ikkuafuktio leveydellä o suuri merkitys hyvä estimaati tuottamisessa. Käytäössä leveysparametri joudutaa kokeilemaa site, että saavutetaa paras luokittelutulos. Seuraavilla sivuilla o lisää esimerkkejä Parzei ikkua käytöstä tiheysfuktio estimoiissa ja päätösalueide määräämisessä. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS 65 / 99
Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS 66 / 99
Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS 67 / 99
68 / 99 3.4. Ei-parametrie estimoiti: k : lähimmä aapuri meetelmä Luokiteltava hahmo piirrevektori x ympäristöö muodostetaa laajeeva hyperpallo, joka lopulta sulkee sisääsä k lähitä aapuria pisteelle x. Tällöi lasketaa: p ( x) k ----------- V, jossa o äytteide kokoaislukumäärä opetusaieistossa ja V muodostuva hyperpallo tilavuus. Suure k voidaa kiiittää sovelluskohtaisesti kokeilemalla tai laskea data määrästä, esimerkiksi. k Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
69 / 99 Posterioritodeäköisyyksie P( ω i x) estimoiti o myös suoraviivaista: Poimitaa pistee x ympäriltä k lähitä aapuria kaikki luokat sisältävästä aieistosta, joka koko o. Merkitää että äistä k i sijoittuu luokkaa ω i. Tällöi voidaa kirjoittaa seuraava ilmeie estimaatti yhteistodeäköisyydelle p(x,ω i ): Tästä saadaa estimaatti posteriorille P ( ω i x) p ( x, ω i ) k i ---------- V soveltamalla Bayesi kaavaa: eli lasketaa luokkaa ω i sijoittuvie äytteide suhteellie määrä ko. alueessa. P( ω i x) p ( x, ω i ) -------------------------------- c j p ( x, ω j ) k --- i k Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
70 / 99 3.5. Lähimmä aapuri säätö Olkoo { x,, x } joukko esiluokiteltuja (leimattuja) prototyyppejä d-ulotteisessa piirreavaruudessa. Nämä ovat tavallaa luokittime opetusaieisto, joka täytyy jättää muistii luokittelua varte. D Olkoo x' tuistettavaa hahmoa vastaavaa piirrevektoria x lähiä sijaitseva prototyyppivektori. Lähimmä aapuri säätö (earest-eighbor rule) kuuluu: D Päätä ω i jos x' ω i Koska kuki piirreavaruude piste x luokitellaa siihe luokkaa kuuluvaksi, mihi lähi prototyyppivektori kuuluu, jakautuu avaruus prototyyppivektorie määräämii soluihi. Solukkoa kutsutaa Vorooi tessellaatioksi (Vorooi tessellatio), ja soluja Vorooi soluiksi (Vorooi cell): Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
7 / 99 Lähimmä aapuri säätö o alioptimaalie, jote se tavallisesti tuottaa Bayesi virhettä suuremma luokitteluvirhee. Mutta mikäli prototyyppijoukko o rajattoma suuri, virhe ei ole koskaa suurempi kui kaksikertaie Bayesi virheesee ähde. Äärellise äytekoo tapaukse aalysoiti o vielä keske, eikä siitä pystytä ykyää vielä paljoa toteamaa ilma yksikertaistavia rajoitteita. 3.5.. k: lähimmä aapuri säätö Suoraviivaie laajeus edellisestä päätössääöstä o tarkastella hahmovektori x k:ta lähitä aapuria. Tästä saadaa k: lähimmä aapuri säätö (k-earest eighbor rule): Päätä ω i, jos se luoka prototyyppejä esiityy k-aapurustossa eite. Seuraavassa kuvassa o esimerkki päätössääö soveltamisesta, ku k5. Suuree k valitsemie täytyy tehdä sovelluskohtaisesti esimerkiksi kokeilemalla. Käytäössä usei käytetää arvoa k3. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
72 / 99 Tähä päätössäätöö perustuvaa luokittelijaa kutsutaa usei knn-luokittelijaksi. knn o rusaasti käytetty luokittelija. Hyvää puolea o se, että jos aieistoa o rusaasti ja käytetää suurta k: arvoa, luokitteluvirhe lähestyy Bayesi virhettä olle aia korkeitaa kaksikertaie. Haittapuolia maiittakoo, että kaikki aieisto täytyy pitää muistissa luokittelua varte ja laskea hitaus lähimpiä aapureita etsittäessä. Laskea opeuttamiseksi o kehitetty tehokkaita hakualgoritmeja, jotka perustuvat aieisto osittamisee ja tiettyje osioide sivuuttamisee muide äyttäessä lupaavimmilta. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
73 / 99 3.6. Etäisyysmetriikoista Mitattaessa kahde vektori välistä etäisyyttä o määriteltävä sopiva metriikka (metrics). Metriikka o fuktio D(a,b), joka tuottaa skalaarise etäisyyde kahde hahmo välille. Jotta suure olisi metriikka, o seuraavie ehtoje täytyttävä: ei-egatiivisuus: refleksiivisyys: symmetrisyys: kolmioepäyhtälö: D( a, b) 0 D( a, b) 0, joss a b D( a, b) D( b, a) D( a, b) + D( b, c) D( a, c) Eräs yleie metriikkaluokka o Mikowski metriikka: d k k D k ( a, b) a i b i i Mikowski-metriikkaa imitetää myös L k -ormiksi. Alla usei esiityviä erikoistapauksia: L -ormi: Mahatta-etäisyys (myös city block): L 2 -ormi: Euklidie etäisyys: L -ormi: D ( a, b) a i b i d i d D 2 ( a, b) ( a i b i ) 2 2 i D ( a, b) max a i b i i Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS
74 / 99 Hahmoja luoehtivie erilaiste piirteide umeroarvoilla o tyypillisesti erilaiset dyaamiset alueet. Esimerkiksi kala pituus vaihtelee kymmeissä settimetreissä, ku vaikkapa kala suukärje ja silmie välie etäisyys ehkä millimetreissä tai settimetreissä. Mikäli joki piirrevektori kompoetti sisältää huomattavasti laajemma dyamiika kui muut, se pyrkii domioimaa etäisyyslasketaa peittäe allee muide piirteide vaikutukse. Tyypillisesti sovelluksissa kuki piirre ormalisoidaa site, että jokaisella o yhtä suuri paioarvo etäisyyslaskeassa. Usei käytetty ormalisoitimeettely o ollakeskiarvoistaa kuki piirre ja skaalata se keskihajota ykköse suuruiseksi. Tämä tapahtuu seuraavasti:. Käy läpi kuki piirre x i yksitelle: 2. Laske piirrearvoje keskiarvo x i ja keskihajota s i koko äytejouko ylitse (kaikki luokat mukaa, yhteesä äytettä) x i -- x ij j s i ----------- x ( ij x i ) 2 j 3. Väheä keskiarvo x i kaikista piirrearvoista: x' ij x ij x i 4. Jaa kuki piirrearvo keskihajoalla s i : x'' ij x' ij s i Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS