3. Jakaumien parametrien estimointi

Samankaltaiset tiedostot
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

S Laskennallinen systeemibiologia

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

LIITTEET Liite A Stirlingin kaavan tarkkuudesta...2. Liite B Lagrangen kertoimet...3

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

Mat Sovellettu todennäköisyyslasku 9. harjoitukset/ratkaisut. Luottamusvälit

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2005) 1

1. Valitaan tilanteeseen sopiva stokastinen malli. 2. Sovitetaan malli havaittuun dataan (estimoidaan mallin parametrit).

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

Tilastollinen päättely II, kevät 2017 Harjoitus 3B

Tilastolliset luottamusvälit

Otantajakauma. Otantajakauman käyttö päättelyssä. Otantajakauman käyttö päättelyssä

EX1 EX 2 EX =

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

Parametrien oppiminen

Mat Sovellettu todennäköisyyslaskenta B 9. harjoitukset / Ratkaisut Aiheet: Estimointi Estimointimenetelmät Väliestimointi Avainsanat:

( ) k 1 = a b. b 1) Binomikertoimen määritelmän mukaan yhtälön vasen puoli kertoo kuinka monta erilaista b-osajoukkoa on a-joukolla.

Otantajakauman käyttö päättelyssä

8. laskuharjoituskierros, vko 11, ratkaisut

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

Johda jakauman momenttiemäfunktio ja sen avulla jakauman odotusarvo ja varianssi.

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

Tilastolliset menetelmät

Tilastollinen päättömyys, kevät 2017 Harjoitus 5b

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollinen päättömyys, kevät 2017 Harjoitus 6A

RATKAISUT x 2 3 = x 2 + 2x + 1, eli 2x 2 2x 4 = 0, joka on yhtäpitävä yhtälön x 2 x 2 = 0. Toisen asteen yhtälön ratkaisukaavalla saadaan

T Datasta tietoon, syksy 2005 Laskuharjoitus 8.12., ratkaisuja Jouni Seppänen

Tilastollinen todennäköisyys

n = 100 x = %:n luottamusväli µ:lle Vastaus:

Satunnaismuuttujien muunnokset ja niiden jakaumat. Satunnaismuuttujien muunnokset ja niiden jakaumat

Tehtävä 1. Voidaanko seuraavat luvut esittää kahden neliön summina? Jos voidaan, niin kuinka monella eri tavalla? (i) n = 145 (ii) n = 770.

Matematiikan tukikurssi

1. TILASTOLLINEN HAHMONTUNNISTUS

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 6A Ratkaisuehdotuksia.

xe y = ye x e y + xe y y = y e x + e x y xe y y y e x = ye x e y y (xe y e x ) = ye x e y y = yex e y xe y e x = x 3 + x 2 16x + 64 = D(x)

Matematiikan tukikurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Maximum likelihood-estimointi Alkeet

6.1 Riippumattomat satunnaismuuttujat

1 Eksponenttifunktion määritelmä

4.3 Signaalin autokorrelaatio

Luku 7. Parametrien estimointi. 7.1 Parametriset jakaumat. Lasse Leskelä Aalto-yliopisto 29. marraskuuta 2017

Mallipohjainen klusterointi

Harjoitukset 1 : Tilastokertaus

SMG-4200 Sähkömagneettisten järjestelmien lämmönsiirto Ehdotukset harjoituksen 6 ratkaisuiksi

Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille: Esitiedot

Luento 6 Luotettavuus Koherentit järjestelmät

Mat Sovellettu todennäköisyyslasku A

Tilastolliset menetelmät: Tilastolliset testit

Mat Tilastollisen analyysin perusteet, kevät 2007

9. laskuharjoituskierros, vko 12-13, ratkaisut

Mat Sovellettu todennäköisyyslaskenta B 5. harjoitukset / Ratkaisut Aiheet: Jatkuvia jakaumia Avainsanat: Jatkuvia jakaumia

Yhden selittäjän lineaarinen regressiomalli

Matematiikan tukikurssi. Kertausta 1. välikokeeseen. Tehtävät

805306A Johdatus monimuuttujamenetelmiin, 5 op

Kaksiulotteinen normaalijakauma Mitta-asteikot Havaintoaineiston kuvaaminen ja otostunnusluvut

Luento 7 Luotettavuus Koherentit järjestelmät

Funktioiden estimointi

Osa 2: Otokset, otosjakaumat ja estimointi

4. Todennäköisyyslaskennan kertausta

Sovellettu todennäköisyyslaskenta B

Todennäköisyys, että yhden minuutin aikana saapuu 2 4 autoa.

Matematiikan tukikurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tunnuslukuja 27 III TUNNUSLUKUJA

Ehdollinen todennäköisyys

1. osa, ks. Solmu 2/ Kahden positiivisen luvun harmoninen, geometrinen, aritmeettinen ja + 1 u v 2 1

Inversio-ongelmien laskennallinen peruskurssi Luento 11 12

9.7 Matriisinormit. Vaasan yliopiston julkaisuja 225. Ei siis lainkaan ongelmia defektiivisyydestä.

Estimaattori, Estimointi, Mediaani, Moodi, Odotusarvo, Parametri, Posteriorijakauma, Tunnusluku

Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Konvergenssikäsitteet ja raja arvolauseet

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Markov-ketjun hetkittäinen käyttäytyminen

2-suuntainen vaihtoehtoinen hypoteesi

Analyysi A. Harjoitustehtäviä lukuun 1 / kevät 2018

Kompleksilukujen alkeet

Tilastolliset menetelmät: Tilastolliset testit

Mat Sovellettu todennäköisyyslasku A. Diskreetit jakaumat Jatkuvat jakaumat. Avainsanat:

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

TILASTOT: johdantoa ja käsitteitä

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Sormenjälkimenetelmät

Insinöörimatematiikka IA

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

tilavuudessa dr dk hetkellä t olevien elektronien

****************************************************************** ****************************************************************** 7 Esim.

4 KORKEAMMAN KERTALUVUN LINEAARISET DIFFERENTIAALIYHTÄLÖT. Kertaluvun n lineaarinen differentiaaliyhtälö ns. standardimuodossa on

Sovellettu todennäköisyyslaskenta B

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Transkriptio:

53 / 99 3. Jakaumie parametrie estimoiti Edellisessä kappaleessa johdettii optimaalisia luokittelijoita, ku priorit ja posteriorit tuettii. Useimmissa tapauksissa äitä todeäköisyyksiä ei tueta, vaa algoritmie suuittelija käytössä o vai joukko dataa. Yksi lähestymistapa o tällöi käyttää dataäytteitä tutemattomie todeäköisyyksie ja jakaumie estimoimiseksi, ja se jälkee soveltaa aiemmi esitettyjä kaavoja ikääkui estimaatit olisivat todellisia. Estimaatit eivät luoollisestikaa ole tarkkoja, jote tämä aiheuttaa epäoptimaalisuutta luokittelijaa. Prioritodeäköisyyksie estimoiti (arvioimie) o yleesä suoraviivaista, mutta ehdolliste jakaumie estimoitia vaikeuttaa käytäössä vähäie data määrä. Ogelmaa lievetää huomattavasti mikäli jakaumie muoto tuetaa tai aiaki voidaa olettaa että tietty jakaumatyyppi kuvaa hyvi data rakeetta. Tällöi riittää jakaumie parametrie estimoiti. Esimerkiksi, mikäli ormaalijakauma äyttäisi mallitava aieisto jakaumaa hyvi, riittää laskea otoskeskiarvo ja otoskovariassimatriisi luokittai. Parametri estimoiti o klassie tilastomatemaattie ogelma ja siihe o kehitetty rusaasti meetelmiä. Tarkastelemme esimerki vuoksi paljo käytettyä suurimma uskottavuude meetelmää (maximum likelihood estimate, MLE). Lopuksi tarkastelemme ei-parametrisia estimoitimeetelmiä. Lyhyesti: MLE olettaa parametrie oleva kiiteät mutta tutemattomat, ja pyrkii löytämää iille sellaiset lukuarvot että iide kiiittämie jakaumie valossa havaitu data esiitymistodeäköisyys o suuri. Esimerkiksi Bayesi meetelmä parametrie estimoitii o seuraava: Bayesi meetelmä olettaa data jakaumaparametrit jotai arveltua priorijakaumaa oudattaviksi satuaismuuttujiksi, ja pyrkii estimoimaa data avulla tarkemmi ämä jakaumat laskemalla posteriorijakaumat. Lisättäessä data määrää posteriorijakaumie muodot terävöityvät kertoe tarkemmi satuaismuuttujie kuvaamie parametrie todelliset arvot (Bayesilaie oppimie, Bayesia learig). Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

54 / 99 3.. Suurimma uskottavuude meetelmä Jaetaa data luokkii D,...,D c, joide äytteet x o poimittu toisistaa riippumattomasti oudattae luokkaehdollisia jakaumia p( x ω j ). Näytteet ovat tällöi riippumattomia ja idettisesti jakautueita satuaismuuttujia (idepedet ad idetically distributed radom variables, i.i.d.). Oletetaa jakaumie parametriset muodot tuetuiksi, jolloi parametrivektori määrä yksikäsitteisesti jakauma p( x ω j ). Esimerkiksi ormaalijakauma tapauksesssa p( x ω j ) N( m, Σ), jolloi θ j. Jakauma riippuvuus se parametreista voidaa esittää suoraa sisällyttämällä parametrivektori tiheysfuktiomerkitää: p( x ω j, θ j ). Ogelma o yt siis seuraava: käytä data sisältämä iformaatio löytääksesi hyvät estimaatit parametreille θ,, θ c. Yksikertaistetaa ogelma käsittelyä olettamalla, että luoka D i äytteet eivät sisällä iformaatiota parametrivektorista θ j ku i j, eli eri luokkie parametrit ovat toisistaa fuktioaalisesti riippumattomia. Tällöi jokaie luokka voidaa käsitellä muista riippumattomasti. Ogelma voidaa yt ilmaista yksikertaisemmi: Käyttäe hyväksi todeäköisyystiheysjakauma p( x θ) mukaisesti riippumattomasti poimittuje dataäytteide joukkoa D, estimoi tutemato parametrivektori θ. Sisältäköö datajoukko D äytteet x,...,x. Koska äytteet ovat toisistaa riippumattomia, saadaa θ : uskottavuusfuktioksi (likelihood fuctio) suhteessa äytteisii: ( m, Σ) t Suurimma uskottavuude estimaatti o määritelmä mukaa se θ : arvo θˆ, joka maksimoi tämä fuktio. Ituitiivisesti tulkite, parametri θˆ kiiittämä jakauma selittää havaitu data uskottavimmi. θ j p( D θ) p( x k θ) Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

55 / 99 Allaoleva esimerkkikuva havaiollistaa MLE-estimaati löytämistä: Usei uskottavuusfuktio aalyyttise käsittely helpottamiseksi käytetää se logaritmia (log-likelihood fuctio). Logaritmifuktio kasvaa mootoisesti, jote se maksimikohta yhtyy alkuperäise uskottavuusfuktio maksimikohtaa. Maksimikohta löydetää differetiaalilaskealla, kuha fuktiot ovat hyvikäyttäytyviä ja differetoituvia. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

56 / 99 Olkoo θ ( θ,, θ p ) t ja θ gradiettioperaattori: Märitellää log-likelihood-fuktio: θ θ. θ p l( θ) l p( D θ) MLE-ratkaisu voidaa yt kirjoittaa muotoo: θˆ arg max l( θ) θ Nyt saadaa: l( θ) l p( x k θ) θ l θ l p( x k θ) Riittävät ehdot parametrivektori θ estimoimiseksi saadaa p:stä yhtälöstä: θ l 0 Ratkaisu θˆ saattaa esittää globaalia tai paikallista maksimia tai miimiä tai harvemmi kääepisteitä. Mikäli ratkaisuja o useita, toise derivaata avulla selvitetää kuki ratkaisu osalta oko kyseessä maksimi vai miimi. Sijoittamalla uskottavuusfuktioo selvitetää mikä iistä o globaali maksimi. Ratkaisemise yhteydessä lausekkeessa merkitää θ θˆ, ja ratkaistaa θˆ. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

57 / 99 Allaoleva piirros havaiollistaa useide ratkaisuje mahdollisuutta, ku uskottavuusfuktio o moimutkaie. l(theta) theta 3... Gaussi jakauma: tutemato odotusarvo m Tarkastellaa moimuuttujaista ormaalijakaumaa ja se äytteitä x k : l( θ) l p( D θ) l p( D m) l p( x k m) -- ( x 2 k m) Σ ( x k m) l -----------------------------------e ( 2π) Σ 2 --l ( 2π) [ Σ ] -- ( x 2 2 k m) Σ ( x k m) Laskemalla osittaisderivaatta estimoitava parametri m suhtee saadaa: θm l l p( D m) θm Σ ( x k mˆ ) 0 mˆ -- x k Eli optimaalie estimaatti o tuttu otoskeskiarvo. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

58 / 99 3..2. Gaussi jakauma: tutemato odotusarvo m ja kovariassi Σ Tarkastellaa esi yksimuuttujaista tapausta, jossa tulee estimoida kaksi kompoettia sisältävä parametrivektori θ, merkitää θ µ ja θ 2 σ 2. Yhde äytepistee x k tapauksessa saadaa: l( θ) l p( x k θ) -- l 2πθ 2 2 -------- ( x 2θ k θ ) 2 2 θ l l p( D θ) θ θ l p( x k θ) -------- 2θ 2 ----- ( x θ k θ ) 2 ( x k θ ) 2 + ----------------------- 2 2θ 2 Sijoittamalla ämä lausekkeet koko äytejouko sisältämää osittaisderivaata lausekkeesee ja merkitsemällä lausekkeet ollaksi saadaa: ----- x k θˆ θˆ 0 2 ----- ( x k θˆ ) + ----------------------- θˆ 2 2 θˆ 2 0 Ratkaisemalla yhtälöpari saadaa lopulta: µˆ -- x k σˆ 2 -- x ( k µˆ ) 2 Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

59 / 99 Yleistämällä tulokset moiulotteise muuttuja tapauksee saadaa: mˆ -- x k Σˆ -- x ( k mˆ )( x k mˆ ) t 3..3. Harhaisuus (bias) ja MLE-estimaatit Variassi MLE-estimaatti o harhaie (biased), koska se odotusarvo ei ole sama kui todellie variassi: -----------E Biasoimato estimaatti variassille olisi otosvariassi: σˆ 2 ----------- x ( k µˆ ) 2 Kovariassimatriisille E -- ( x k µˆ ) 2 ----------- x ( k µˆ ) 2 --E ----------- x ( k µˆ ) 2 -----------σ 2 σ 2 E[( x µ ) 2 ] Σ biasoimato estimaatti o otoskovariassimatriisi: C ----------- x ( k mˆ )( x k mˆ ) t Toisaalta, ämä estimaatit ovat asymptoottisesti harhattomia, sillä e saavuttavat todellise variassi/kovariassimatriisi ku otoskoko kasvaa äärettömii. Käytäö sovelluksissa voidaa käyttää molempia määritelmiä. Mikää estimaattori ei ole optimaalie kaikilta osi. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

60 / 99 3.2. Ei-parametriset meetelmät tiheysfuktioide estimoitii Edellä esiteltii MLE-meetelmä tiheysfuktioide parametrie estimoitii. Käytäössä data jakaumie muotoja ei välttämättä tueta ja oletetut fuktiomuodot saattavat sopia huoosti dataa. Data jakauma voi olla esimerkiksi moihuippuista yksihuippuise Gaussi jakauma sijasta, eikä huippuje lukumäärää tueta. Ei-parametrisiä meetelmiä käytetää ilma jakaumaoletuksia tuottamaa estimaatteja data todellise jakauma tiheysarvoista piireavaruude yksittäisissä pisteissä x. Meetelmät voivat esimerkiksi estimoida luokkaehdollisia tiheysfuktioita p( x ω j ) tai posterioritodeäköisyyksiä P( ω j x) pisteessä x, joka voidaa sitte sijoittaa aiemmi esiteltyihi lausekkeisi todelliste arvoje sijaa. Tarkastellaa aluksi tiheysfuktio estimoii periaatetta yksittäise luoka aieistossa: Todeäköisyys P, että vektori x sijoittuu tiettyy piirreavaruude alueesee R o: P p( x' ) dx' R Todeäköisyys P o siis keskiarvoistettu versio todeäköisyysfuktiosta p(x) ja tätä keskiarvoistettua arvoa p(x) voidaa estimoida estimoimalla arvoa P. Oletetaa, että äytettä x,...,x poimitaa (i.i.d.) tiheysjakauma p(x) mukaisesti. Todeäköisyys P k, että k äistä :stä sijoittuu alueesee R o biomise jakauma mukaisesti: P k P k k ( P) k Koska k: odotusarvo o: E[ k] P, saadaa P E[ k], josta edellee P: estimaatti Pˆ k. Koska biomie jakauma P k o terävähuippuie odotusarvo ympärillä, yllä oleva estimaatti o varsi hyvä, varsiki suurilla : arvoilla ku siis aieistoa o paljo. Alla oleva kuva havaiollistaa biomise jakauma muotoa : eri arvoilla: Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

6 / 99 Jos yt oletamme, että p(x) o jatkuva ja alue R ii piei ettei p(x) juurikaa vaihtele se sisällä, voidaa kirjoittaa: P p( x' ) dx' p( x)v R, jossa V o aluee tilavuus. Yhdistämällä ylläolevat kaavat saadaa: P P p( x) Huomaa: Jos V o liia suuri, keskiarvoistus epätarketaa estimaattia; jos V o liia piei, aluee sisää ei juuri osu dataa mikä jällee epätarketaa estimaattia se kasvava variassi vuoksi! Kompromissi sekä keskiarvoistaa että tuottaa variassia estimaattii. Sopiva kompromissi löytämie oki tärkeää sovellukse suuittelussa. k p( x)v k -------- V Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

62 / 99 Kaksi usei käytettyä lähestymistapaa tiheysarvoje estimoitii ovat (ämä ovat yksikertaisimmat versiot): Parzei ikkua meetelmä, jossa tilavuus V lasketaa data määrästä tai muutoi arvioidaa sovelluksee sopivaksi, ja ikkua sisää jäävästä data osasta lasketaa suhde k/ k : lähimmä aapuri meetelmä, jossa k lasketaa datasta tai pidetää sovelluksee sopivaa vakioa, ja kasvatetaa tilavuutta V kues ikkua sisää jää k äytepistettä Allaoleva kuva havaiollistaa äitä meetelmiä: Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

63 / 99 3.3. Ei-parametrie estimoiti: Parzei ikkua meetelmä Aloitetaa yksikertaisesta ja yleistetää sitte. Oletetaa, että alue R o d-ulotteie hyperkuutio. Jos h o hyperkuutio reua pituus, ii tilavuus o. Määritellää ikkuafuktio: V h d ϕ( u) u j 2, j,, d 0 muulloi Kyseessä o siis origoo sijoittuva yksikköhyperkuutio (V). Tästä seuraa että ϕ( ( x x i ) h ) saa arvo, mikäli x i sijoittuu pisteessä x sijaitseva ja tilavuude V omaava hyperkuutio sisää. Hyperkuutio sisää sijoittuvie datapisteide lukumäärä k voidaa yt ilmaista tämä ikkuafuktio avulla: k ϕ x x i ------------ h i, ku data kokoaismäärä. Tiheysfuktio estimaatiksi saadaa yt: k p ( x) ----------- -- ------ϕ x x i ------------ V V h i Tämä o varsi yksikertaie iterpoloitifuktio, koska se arvioi tiheysarvo pisteessä x laskemalla kyseise pistee ympärillä sijaitseva hyperkuutio sisää jäävie äytepisteide suhteellise osuude kaikista äytepisteistä. Muutaki ikkuafuktiota ϕ voidaa käyttää parempie iterpoloitiomiaisuuksie saavuttamiseksi, kuha se saa kaikkialla ei-egatiivisia arvoja ja itegroituu ykköseksi. Tällöi tiheysfuktiota estimoidaa äytepisteissä x i sijaitsevie ikkuafuktioide summaa pisteessä x. Seuraavalla sivulla o esitetty ympyräsymmetrisiä Gaussi ikkuafuktioita erisuuruisella keskihajotaparametrilla. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

64 / 99 Alla olevassa kuvassa 5 eli data sisältää vai viisi äytepistettä x i, i,2,3,4,5. Näihi pisteisii o sijoitettu ylläoleva kuva ikkuafuktioita, jolloi kulleki kolmelle vaihtoehdolle o saatu tiheysfuktiota aproksimoiva estimaatti kaikille pisteille x. Käytäössä estimaatti täytyy luoollisesti laskea vai luokiteltavie hahmoje piirrevektoreille x ja tietysti opetusdataaki o eemmä kui viisi. Kuvasta ähdää, että ikkuafuktio leveydellä o suuri merkitys hyvä estimaati tuottamisessa. Käytäössä leveysparametri joudutaa kokeilemaa site, että saavutetaa paras luokittelutulos. Seuraavilla sivuilla o lisää esimerkkejä Parzei ikkua käytöstä tiheysfuktio estimoiissa ja päätösalueide määräämisessä. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS 65 / 99

Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS 66 / 99

Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS 67 / 99

68 / 99 3.4. Ei-parametrie estimoiti: k : lähimmä aapuri meetelmä Luokiteltava hahmo piirrevektori x ympäristöö muodostetaa laajeeva hyperpallo, joka lopulta sulkee sisääsä k lähitä aapuria pisteelle x. Tällöi lasketaa: p ( x) k ----------- V, jossa o äytteide kokoaislukumäärä opetusaieistossa ja V muodostuva hyperpallo tilavuus. Suure k voidaa kiiittää sovelluskohtaisesti kokeilemalla tai laskea data määrästä, esimerkiksi. k Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

69 / 99 Posterioritodeäköisyyksie P( ω i x) estimoiti o myös suoraviivaista: Poimitaa pistee x ympäriltä k lähitä aapuria kaikki luokat sisältävästä aieistosta, joka koko o. Merkitää että äistä k i sijoittuu luokkaa ω i. Tällöi voidaa kirjoittaa seuraava ilmeie estimaatti yhteistodeäköisyydelle p(x,ω i ): Tästä saadaa estimaatti posteriorille P ( ω i x) p ( x, ω i ) k i ---------- V soveltamalla Bayesi kaavaa: eli lasketaa luokkaa ω i sijoittuvie äytteide suhteellie määrä ko. alueessa. P( ω i x) p ( x, ω i ) -------------------------------- c j p ( x, ω j ) k --- i k Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

70 / 99 3.5. Lähimmä aapuri säätö Olkoo { x,, x } joukko esiluokiteltuja (leimattuja) prototyyppejä d-ulotteisessa piirreavaruudessa. Nämä ovat tavallaa luokittime opetusaieisto, joka täytyy jättää muistii luokittelua varte. D Olkoo x' tuistettavaa hahmoa vastaavaa piirrevektoria x lähiä sijaitseva prototyyppivektori. Lähimmä aapuri säätö (earest-eighbor rule) kuuluu: D Päätä ω i jos x' ω i Koska kuki piirreavaruude piste x luokitellaa siihe luokkaa kuuluvaksi, mihi lähi prototyyppivektori kuuluu, jakautuu avaruus prototyyppivektorie määräämii soluihi. Solukkoa kutsutaa Vorooi tessellaatioksi (Vorooi tessellatio), ja soluja Vorooi soluiksi (Vorooi cell): Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

7 / 99 Lähimmä aapuri säätö o alioptimaalie, jote se tavallisesti tuottaa Bayesi virhettä suuremma luokitteluvirhee. Mutta mikäli prototyyppijoukko o rajattoma suuri, virhe ei ole koskaa suurempi kui kaksikertaie Bayesi virheesee ähde. Äärellise äytekoo tapaukse aalysoiti o vielä keske, eikä siitä pystytä ykyää vielä paljoa toteamaa ilma yksikertaistavia rajoitteita. 3.5.. k: lähimmä aapuri säätö Suoraviivaie laajeus edellisestä päätössääöstä o tarkastella hahmovektori x k:ta lähitä aapuria. Tästä saadaa k: lähimmä aapuri säätö (k-earest eighbor rule): Päätä ω i, jos se luoka prototyyppejä esiityy k-aapurustossa eite. Seuraavassa kuvassa o esimerkki päätössääö soveltamisesta, ku k5. Suuree k valitsemie täytyy tehdä sovelluskohtaisesti esimerkiksi kokeilemalla. Käytäössä usei käytetää arvoa k3. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

72 / 99 Tähä päätössäätöö perustuvaa luokittelijaa kutsutaa usei knn-luokittelijaksi. knn o rusaasti käytetty luokittelija. Hyvää puolea o se, että jos aieistoa o rusaasti ja käytetää suurta k: arvoa, luokitteluvirhe lähestyy Bayesi virhettä olle aia korkeitaa kaksikertaie. Haittapuolia maiittakoo, että kaikki aieisto täytyy pitää muistissa luokittelua varte ja laskea hitaus lähimpiä aapureita etsittäessä. Laskea opeuttamiseksi o kehitetty tehokkaita hakualgoritmeja, jotka perustuvat aieisto osittamisee ja tiettyje osioide sivuuttamisee muide äyttäessä lupaavimmilta. Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

73 / 99 3.6. Etäisyysmetriikoista Mitattaessa kahde vektori välistä etäisyyttä o määriteltävä sopiva metriikka (metrics). Metriikka o fuktio D(a,b), joka tuottaa skalaarise etäisyyde kahde hahmo välille. Jotta suure olisi metriikka, o seuraavie ehtoje täytyttävä: ei-egatiivisuus: refleksiivisyys: symmetrisyys: kolmioepäyhtälö: D( a, b) 0 D( a, b) 0, joss a b D( a, b) D( b, a) D( a, b) + D( b, c) D( a, c) Eräs yleie metriikkaluokka o Mikowski metriikka: d k k D k ( a, b) a i b i i Mikowski-metriikkaa imitetää myös L k -ormiksi. Alla usei esiityviä erikoistapauksia: L -ormi: Mahatta-etäisyys (myös city block): L 2 -ormi: Euklidie etäisyys: L -ormi: D ( a, b) a i b i d i d D 2 ( a, b) ( a i b i ) 2 2 i D ( a, b) max a i b i i Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS

74 / 99 Hahmoja luoehtivie erilaiste piirteide umeroarvoilla o tyypillisesti erilaiset dyaamiset alueet. Esimerkiksi kala pituus vaihtelee kymmeissä settimetreissä, ku vaikkapa kala suukärje ja silmie välie etäisyys ehkä millimetreissä tai settimetreissä. Mikäli joki piirrevektori kompoetti sisältää huomattavasti laajemma dyamiika kui muut, se pyrkii domioimaa etäisyyslasketaa peittäe allee muide piirteide vaikutukse. Tyypillisesti sovelluksissa kuki piirre ormalisoidaa site, että jokaisella o yhtä suuri paioarvo etäisyyslaskeassa. Usei käytetty ormalisoitimeettely o ollakeskiarvoistaa kuki piirre ja skaalata se keskihajota ykköse suuruiseksi. Tämä tapahtuu seuraavasti:. Käy läpi kuki piirre x i yksitelle: 2. Laske piirrearvoje keskiarvo x i ja keskihajota s i koko äytejouko ylitse (kaikki luokat mukaa, yhteesä äytettä) x i -- x ij j s i ----------- x ( ij x i ) 2 j 3. Väheä keskiarvo x i kaikista piirrearvoista: x' ij x ij x i 4. Jaa kuki piirrearvo keskihajoalla s i : x'' ij x' ij s i Oulu yliopisto, Hahmotuistus ja euroverkot (52497S), TS