1. LINEAARISET LUOKITTIMET (jatkoa)

Samankaltaiset tiedostot
1. LINEAARISET LUOKITTIMET

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

1. TILASTOLLINEN HAHMONTUNNISTUS

1. NEUROVERKKOMENETELMÄT

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Kuva 1: Funktion f tasa-arvokäyriä. Ratkaisu. Suurin kasvunopeus on gradientin suuntaan. 6x 0,2

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1 Rajoittamaton optimointi

k=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu

4. Tukivektorikoneet

Logistinen regressio, separoivat hypertasot

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Oletetaan ensin, että tangenttitaso on olemassa. Nyt pinnalla S on koordinaattiesitys ψ, jolle pätee että kaikilla x V U

1. NEUROVERKKOMENETELMÄT

, on säännöllinen 2-ulotteinen pinta. Määrää T x0 pisteessä x 0 = (0, 1, 1).

Luento 9: Yhtälörajoitukset optimoinnissa

Numeeriset menetelmät

2 Osittaisderivaattojen sovelluksia

x j x k Tällöin L j (x k ) = 0, kun k j, ja L j (x j ) = 1. Alkuperäiselle interpolaatio-ongelmalle saadaan nyt ratkaisu

4.0.2 Kuinka hyvä ennuste on?

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

. Kun p = 1, jono suppenee raja-arvoon 1. Jos p = 2, jono hajaantuu. Jono suppenee siis lineaarisesti. Vastaavasti jonolle r k+1 = r k, suhde on r k+1

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

Epälineaaristen yhtälöiden ratkaisumenetelmät

min x x2 2 x 1 + x 2 1 = 0 (1) 2x1 1, h = f = 4x 2 2x1 + v = 0 4x 2 + v = 0 min x x3 2 x1 = ± v/3 = ±a x 2 = ± v/3 = ±a, a > 0 0 6x 2

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

Dierentiaaliyhtälöistä

Matematiikan tukikurssi

Kuvaus. Määritelmä. LM2, Kesä /160

Piiri K 1 K 2 K 3 K 4 R R

Luento 8: Epälineaarinen optimointi

Optimaalisuusehdot. Yleinen minimointitehtävä (NLP): min f(x) kun g i (x) 0 h j (x) = 0

Funktioiden approksimointi ja interpolointi

Derivaatta: funktion approksimaatio lineaarikuvauksella.

b 1. b m ) + ( 2b Ax) + (b b)

Matematiikan tukikurssi, kurssikerta 3

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Luento 8: Epälineaarinen optimointi

2. Viikko. CDH: luvut (s ). Matematiikka on fysiikan kieli ja differentiaaliyhtälöt sen yleisin murre.

Diskriminanttianalyysi I

Sovellettu todennäköisyyslaskenta B

Mat Dynaaminen optimointi, mallivastaukset, kierros Johdetaan välttämättömät ehdot funktionaalin. g(y(t), ẏ(t),...

Tampere University of Technology

KKT: log p i v 1 + v 2 x i = 0, i = 1,...,n.

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Luento 11: Rajoitusehdot. Ulkopistemenetelmät

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Kimppu-suodatus-menetelmä

Kahden suoran leikkauspiste ja välinen kulma (suoraparvia)

5 Differentiaaliyhtälöryhmät

, tuottoprosentti r = X 1 X 0

1 Sisätulo- ja normiavaruudet

MS-C1340 Lineaarialgebra ja

MS-A010{3,4} (ELEC*) Differentiaali- ja integraalilaskenta 1 Luento 5: Taylor-polynomi ja sarja

802320A LINEAARIALGEBRA OSA II

Antti Rasila. Kevät Matematiikan ja systeemianalyysin laitos Aalto-yliopisto. Antti Rasila (Aalto-yliopisto) MS-A0204 Kevät / 16

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

12. Hessen matriisi. Ääriarvoteoriaa

2. Teoriaharjoitukset

Tehtävänanto oli ratkaista seuraavat määrätyt integraalit: b) 0 e x + 1

y x1 σ t 1 = c y x 1 σ t 1 = y x 2 σ t 2 y x 2 x 1 y = σ(t 2 t 1 ) x 2 x 1 y t 2 t 1

MS-A0205/MS-A0206 Differentiaali- ja integraalilaskenta 2 Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

1 Bayesin teoreeman käyttö luokittelijana

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Surjektion käsitteen avulla kuvauksia voidaan luokitella sen mukaan, kuvautuuko kaikille maalin alkioille jokin alkio vai ei.

y + 4y = 0 (1) λ = 0

Johdatus tekoälyn taustalla olevaan matematiikkaan

MS-A010{3,4,5} (ELEC*, ENG*) Differentiaali- ja integraalilaskenta 1 Luento 11: Lineaarinen differentiaaliyhtälö

Yhtälöryhmät 1/6 Sisältö ESITIEDOT: yhtälöt

BM20A0900, Matematiikka KoTiB3

Talousmatematiikan perusteet: Luento 15. Rajoitettu optimointi Lagrangen menetelmä Lagrangen kerroin ja varjohinta

Lineaarikuvauksen R n R m matriisi

Matriisilaskenta, LH4, 2004, ratkaisut 1. Hae seuraavien R 4 :n aliavaruuksien dimensiot, jotka sisältävät vain

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 2 / vko 45

Dierentiaaliyhtälöistä

Talousmatematiikan perusteet: Luento 14. Rajoitettu optimointi Lagrangen menetelmä: yksi yhtälörajoitus Lagrangen menetelmä: monta yhtälörajoitusta

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Koodausteoria, Kesä 2014

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Epälineaaristen yhtälöiden ratkaisumenetelmät

Luento 12: Duaalitehtävä. Tarkennuksia Lagrangen kertoimen tulkintaan. Hajautettu optimointi.

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

Matematiikan tukikurssi

Differentiaali- ja integraalilaskenta 1 Ratkaisut 5. viikolle /

1 Rajoitettu optimointi I

1 Lineaariavaruus eli Vektoriavaruus

MS-A0207 Differentiaali- ja integraalilaskenta 2 Luento 5: Gradientti ja suunnattu derivaatta. Vektoriarvoiset funktiot. Taylor-approksimaatio.

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

Lineaariavaruudet. Span. Sisätulo. Normi. Matriisinormit. Matriisinormit. aiheita. Aiheet. Reaalinen lineaariavaruus. Span. Sisätulo.

w + x + y + z =4, wx + wy + wz + xy + xz + yz =2, wxy + wxz + wyz + xyz = 4, wxyz = 1.

Duaalisuus kokonaislukuoptimoinnissa. Mat , Sovelletun matematiikan tutkijaseminaari, kevät 2008, Janne Karimäki

Viikko 3: Lineaarista regressiota ja luokittelua Matti Kääriäinen

Matematiikan tukikurssi

Yhtälön oikealla puolella on säteen neliö, joten r. = 5 eli r = ± 5. Koska säde on positiivinen, niin r = 5.

1 Komparatiivinen statiikka ja implisiittifunktiolause

Kokonaislukuoptimointi

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

Transkriptio:

1. LINEAARISET LUOKITTIMET (jatkoa) 1.1 Tukivektorikone ( A Tutorial on Support Vector Machines for Pattern Recognition, http://www.kernel-machines.org/papers/burges98.ps.gz) Tukivektorikoneen ( Support Vector Machines, SVM) yleisessä tapauksessa piirrevektoreille suoritetaan aluksi epälineaarinen kuvaus ja pyritään sitten löytämään yhdensuuntaiset hypertasot, jotka maksimoivat luokkien väliin jäävän marginaalin ja minimoivat luokitteluvirheet Tarkastellaan aluksi lineaarista SVM-menetelmää lineaarisesti separoituvalle ongelmalle ja laajennetaan sitten menetelmää ongelmaan, joka ei ole lineaarisesti separoituva. Menetelmän epälineaariseen yleistykseen palataan myöhemmin epälineaaristen luokittimien yhteydessä. 1

Lineaarisesti separoituvat luokat Tarkastellaan kahden luokan tapausta Ol., että luokat ovat lineaarisesti separoituvat Etsitään kaksi yhdensuuntaista hypertasoa, H 1 ja H 2, siten, että seuraavat ehdot toteutuvat kaikille opetusnäytteille x(i), 1 i N: w T x(i) + w 0 +1, kun x(i) ω 1 w T x(i) + w 0 1, kun x(i) ω 2, (1) missä w on hypertasojen normaali Hypertasot on määritelty seuraavasti: H 1 : w T x + w 0 = +1 H 2 : w T x + w 0 = 1 (2) 2

Ehdot (1) voidaan yhdistää muuttujien y(i) avulla, jotka saavat arvon +1 tai 1 riippuen siitä kuuluuko x(i) luokkaan ω 1 vai ω 2 y(i)(w T x(i) + w 0 ) 1 0, 1 i N (3) Koska luokat oletettiin lineaarisesti separoituviksi, hypertasojen H 1 ja H 2 väliin jää marginaali, jossa ei ole lainkaan opetusnäytteitä 3

Olkoot d + (d ) etäisyys hypertason w T x + w 0 = 0 ja sitä lähinnä olevan luokan ω 1 (ω 2 ) pisteen välinen Euklidinen etäisyys. Silloin marginaalin leveys on d + + d = 2/ w Yritetään etsiä sellaiset hypertasot H 1 ja H 2, että marginaali maksimoituu (tai w 2 minimoituu) ja ehdot (3) toteutuvat Muodostetaan minimoitava kustannusfunktio J(w, w 0, λ) käyttäen Lagrangen kertoimia λ = [λ 1,... λ N ] T 0: J(w, w 0, λ) = 1 2 wt w N λ i (y(i)(w T x(i) + w 0 ) 1) (4) i=1 4

Minimiratkaisu löytyy J:n gradientin nollakohdasta: N J w = 0 w = λ i y(i)x(i) (5) J w 0 = 0 i=1 N λ i y(i) = 0 (6) i=1 Sijoitetaan nämä ehdot kaavaan (4) ja muodostetaan ns duaaliongelma λ:n löytämiseksi: max Q(λ) = λ N λ i 1 2 i=1 N N λ i λ j y(i)y(j)x T (i)x(j) (7) i=1 j=1 5

siten, että N λ i y(i) = 0 (8) i=1 λ i 0, 1 i N (9) Kun on löydetty duaaliongelman ratkaisu λ, saadaan optimaaliset w ja w 0 seuraavasti: w = N λ i y(i)x(i) (10) i=1 w 0 = 1 x T (i)w, missä x(i) ω 1, λ i > 0 (11) 6

Saadaan siis ratkaisuksi marginaalin maksimoiva diskriminanttifunktio g(x), joka kulkee hypertasojen H 1 ja H 2 puolessavälissä: g(x) = x T w + w 0 = N λ i y(i)x T (i)x + w0 = 0 (12) i=1 Edellinen kaava voidaan tulkita siten, että diskriminanttifunktiota approksimoidaan lineaarisilla kantafunktiolla x T (i)x Niitä opetusnäytteitä x(i), joita vastaava Lagrangen kerroin λ i > 0, kutsutaan tukivektoreiksi. Ainoastaan tukivektorit huomioidaan diskriminanttifunktiossa 7

Lineaarisesti separoitumattomat luokat Tarkastellaan edelleen kahden luokan tapausta, mutta oletetaan, että luokat eivät ole lineaarisesti separoituvat Nyt pyritään maksimoimaan luokkien väliin jäävää marginaalia ja minimoimaan luokitteluvirheiden lkm:ää Muodostetaan opetusnäytteille seuraavat ehdot: y(i)(w T x(i) + w 0 ) 1 ξ i (13) missä ξ i 0 on ns slack-muuttuja, joka kertoo onko opetusnäyte x(i) marginaalin sisällä (0 ξ i 1) tai väärällä puolella (ξ i > 1) N i=1 ξ i on yläraja luokitteluvirheiden lkm:lle 8

9

Minimoitava kustannusfunktio, jossa edelliset ehdot on huomioitu käyttäen Lagrangen kertoimia λ 0 ja µ 0: J(w, w 0, ξ, λ, µ) = 1 2 wt w + C N ξ i i=1 N λ i (y(i)(w T x(i) + w 0 ) 1 + ξ i ) i=1 (14) N µ i ξ i i=1 missä ξ = [ξ 1,..., ξ N ] T ovat slack-muuttajat ja µ = [µ 1,..., µ N ] T niihin liittyvät Lagrangen kertoimet. C on käyttäjän määräämä parametri, joka kertoo kuinka tärkeää luokitteluvirheiden minimointi on suhteessa marginaalin leveyden maksimointiin Kun toimitaan kuten lineaarisesti separoituvassa tapauksessa, saadaan seuraava duaaliongelma: max Q(λ) = λ N λ i 1 2 i=1 N N λ i λ j y(i)y(j)x T (i)x(j) (15) i=1 j=1 10

siten, että N λ i y(i) = 0 (16) i=1 0 λ i C, 1 i N (17) Kun on löydetty duaaliongelman ratkaisu λ, optimaalinen w saadaan seuraavasti: N s w = λ i y(i)x(i), (18) i=1 missä N s on tukivektoreiden lkm Loput tuntemattomat eli w0, ξ ja µ voidaan ratkaista seuraavista yhtälöistä: λ i (y(i)(x T (i)w + w 0 ) 1 + ξ i ) = 0, 1 i N (19) µ i ξ i = 0, 1 i N (20) λ i + µ i = C, 1 i N (21) 11

Tukivektoreita ovat ne opetusnäytteet x(i), joille pätee: eli 0 < λ i C y(i)(x T (i)w + w 0) = 1 ξ i (22) Mikäli luokkia on enemmän kuin kaksi, muodostetaan SVM jokaisen luokkaparin välille SVM-menetelmässä kantafunktioiden lkm:n ja sijoittelun valinta tapahtuu automaattisesti Toisaalta, jos luokat ovat kovin päällekkäiset tai datassa on paljon ns outlierpisteitä, menetelmä löytää runsaasti tukivektoreita 12

2. EPÄLINEAARISET LUOKITTIMET Yleensä luokitteluongelma ei ole lineaarisesti separoituva eivätkä lineaarisilla luokittimilla saadut ratkaisut ole tyydyttäviä Tällä luennolla tarkastellaan menetelmiä, jotka jakavat piirreavaruuden epälineaarisesti eri luokkia vastaaviksi päätösalueksi Aluksi annetaan teoreettinen motivointi epälineaarisille luokittimille, seuraavaksi käsitellään yleisimmin käytetyt menetelmät Eräs perinteinen esimerkki epälineaarisesta luokitteluongelmasta on XORfunktio 13

Esimerkki: XOR-ongelma XOR ( Exclusive OR ) on Boolean-funktio, jonka arvo on tosi (1) vain jos täsmälleen yksi sen argumenteistä on tosi. Muulloin sen arvo on epätosi (0) Tarkastellaan 2-ulotteista tapausta. Silloin x = [x 1, x 2 ] T, x i luokkia ω 1 ja ω 2 vastaavat seuraavat havainnot: {0, 1}, ja ω 1 : [1, 0] T, [0, 1] T (tosi) ω 2 : [0, 0] T, [1, 1] T (epätosi) Kun piirretään luokitteluongelmasta kuva, nähdään helposti, että luokat eivät ole lineaarisesti separoituvia Toisaalta AND- ja OR-funktiota vastaavat luokitteluongelmat ovat lineaarisesti separoituvia 14

Jos tehdään piirteille epälineaarinen muunnos [x 1, x 2 ] T [AND(x 1, x 2 ), OR(x 1, x 2 )] T, saadaan XOR-ongelmasta lineaarisesti separoituva x 1 x 2 AND class OR class XOR class 0 0 0 ω 2 0 ω 2 0 ω 2 0 1 0 ω 2 1 ω 1 1 ω 1 1 0 0 ω 2 1 ω 1 1 ω 1 1 1 1 ω 1 1 ω 1 0 ω 2 15

16

2.1 Yleistetty lineaarinen luokitin Tarkastellaan edellisessä esimerkissä esiteltyä tapaa tehdä luokitteluongelmasta lineaarisesti separoituva piirteiden epälineaarisen kuvauksen avulla yleisemmällä tasolla: Tarkastellaan kahden luokan tapausta: ω 1 ja ω 2 Ol., että luokat ω 1 ja ω 2 eivät ole lineaarisesti separoituvia Ol., että piirrevektorit ovat l-ulotteisia ja niiden alkiot ovat reaalilukuja eli x R l Suoritetaan piirrevektoreille seuraava epälineaarinen kuvaus: x R l y R k y = [f 1 (x),..., f k (x)] T, (23) missä f i : R l R on jokin epälineaarinen funktio 17

Pyritään valitsemaan uusien piirteiden lkm k ja funktiot f i ( ) siten, että luokitteluongelmasta tulee lineaarisesti separoituva eli voidaan löytää seuraavanlainen separoiva hypertaso w: ω 1 : w T y > 0 ω 2 : w T y < 0 (24) Edellä kuvatun piirteiden epälineaaristen kuvausten seurauksena eri luokkiin liittyvät diskriminanttifunktiot ovat muotoa g(x) = w 0 + k w i f i (x) = 0 (25) i=1 Uudessa piirreavaruudessa määriteltyjen hypertasojen painokertoimet voidaan etsiä käyttämällä edellisellä luennolla esiteltyjä menetelmiä Kaava (25) voidaan tulkita diskriminanttifunktion approksimoinniksi interpolaatio- tai kantafunktioden f i ( ) avulla. Interpolaatiofunktiot voivat olla tyypiltään esim. eksponentiaalisia tai polynomeja 18

Coverin teoreema antaa teoreettisen perustelun, miksi tällainen piirteiden epälineaarinen kuvaus kannattaa tehdä 2.2 Coverin teoreema Todennäköisyys sille, että luokat ovat lineaarisesti separoituvia kasvaa, kun suoritetaan epälineaarinen kuvaus alkuperäisestä piirreavaruudesta uuteen, korkeampiulotteisempaan piirreavaruuteen (Cover, 1965) Todistus: Voidaan osoittaa, että (l 1)-ulotteinen hypertaso voi jakaa N mielivaltaisesti valittua pistettä kahteen luokkaan O(N, l):llä tavalla: 19 O(N, l) = 2 ( ) N 1 = i l i=0 ( ) N 1 i (N 1)! (N 1 i)!i! (26)

Näitä erilaisia kahtiajakoja kutsutaan dikotomioiksi ( dichotomies ). Kun N l + 1, O(N, l) = 2 N. Esim. O(3, 2) = 8 20

Tn, että N:n pisteen dikotomia l-ulotteisessa piirreavaruudessa vastaa kahta lineaarisesti separoituvaa luokkaa on PN l : ( ) PN l O(N, l) 1 l N 1 2 = = N 1 i=0, kun N > l + 1 i (27) 2 N 1, muulloin Tarkastellaan PN l :n riippuvuutta N:stä ja l:stä muuttujan r avulla olettamalla, että N = r(l + 1). Kohdassa r = 2 PN l = 1/2. Lisäksi, kun l, PN l 1, jos N < 2(l + 1) Toisin sanoen, tn että luokat ovat lineaarisesti separoituvia lähestyy ykköstä, kun piirteiden lkm l lähestyy ääretöntä ja havaintojen lkm N on sopivasti rajoitettu 21

22

Edellisen tarkastelun perusteella piirrevektorit kannattaa kuvata korkeampiulotteiseen avaruuteen ja yrittää vasta sitten luokkien lineaarista separointia. Tn onnistumiselle on tällöin parempi 2.3 Polynomiluokitin Tarkastellaan diskriminanttifunktioita, jotka on muodostettu kaavan (25) avulla ja käyttämällä kantafunktioina polynomeja: Ol., että polynomien asteluku r on 2. Silloin kaava (25) voidaan kirjoittaa seuraavasti: g(x) = w 0 + l w i x i + i=1 l 1 l i=1 m=i+1 w im x i x m + l w ii x 2 i = 0 (28) i=1 23

Esim. jos x = [x 1, x 2 ] T, silloin y = [1, x 1, x 2, x 1 x 2, x 2 1, x 2 2] T ja missä w = [w 0, w 1, w 2, w 12, w 11, w 22 ] T g(x) = w T y = 0, (29) Vapaiden parametrien eli erilaisten muotoa x p 1 1 x p l l, 0 p 1 + + p l r, olevien termien lkm k: k = (l + r)! r!l! Huom! Kun l = 10 ja r = 10, k = 184 756 (30) Vapaat parametrit voidaan taas valita esim. edellisellä luennolla esitetyillä menetelmillä 24

Esimerkki: XOR ja polynomiluokitin Palataan takaisin XOR-ongelmaan ja muodostetaan sille polynomiluokitin Valitaan kantafunktiot seuraavasti: y = [1, x 1, x 2, x 1 x 2 ] T Erilaisten havaintojen sijainnit uudessa piirreavaruudessa: ω 1 : [1, 0] T [1, 1, 0, 0] T, [0, 1] T [1, 0, 1, 0] T ω 2 : [0, 0] T [1, 0, 0, 0] T, [1, 1] T [1, 1, 1, 1] T Nämä uudet pisteet separoituvat lineaarisesti esim. hypertason w T y = 0 avulla, missä w = [ 1/4, 1, 1, 2] T Alkuperäisessä piirreavaruudessa tätä hypertasoa vastaa diskriminanttifunktio g(x): g(x) = 1 4 + x 1 + x 2 2x 1 x 2 = 0, (31) 25

g(x) näyttää suurinpiirtein tältä: 26

2.4 RBF-luokitin (RBF-luokitin voidaan ymmärtää myös neuroverkkona...) Seuraavaksi muodostetaan diskriminanttifunktiot käyttäen kaavaa (25) ja kantafunktiota, jotka ovat muotoa f i ( x c i ) Kantafunktioiden arvo siis riippuu vain piirrevektorin x ja keskusvektorin c i välisestä Euklidisesta etäisyydestä. Siitä kantafunktioiden englanninkielinen nimitys, Radial Basis Functions (RBF) Kantafunktiot voivat olla tyypiltään esim. seuraavanlaisia: f i (x) = exp( 1 f i (x) = 2σ 2 i x c i 2 ) (32) σ 2 i σ 2 i + x c i, (33) joista ensimmäinen, gaussinen, on hyvin yleisesti käytetty 27

Kun käytetään gaussisia kantafunktiota, kaava (25) voidaan kirjoittaa näin: g(x) = w 0 + k i=1 w i exp( (x c i) T (x c i ) ) = 0 (34) 2σi 2 Edellisen kaavan voi tulkita siten, että diskriminanttifunktiota approksimoidaan summaamalla yhteen keskusvektoreiden ympärille asetettuja kumpareita. Kumpareiden leveyttä voidaan säätää muuttamalla σ i :ja RBF-luokittimella ja tnjakauman estimoinnilla Partzen-ikkunoilla on paljon yhteistä. Jälkimmäisessä menetelmässä jokaisen opetusnäytteen päälle asetetaan kumpare, ensimmäisessä vain keskusvektoreiden (k kpl:tta) päälle Kuinka valitaan sopivat parametrit? RBF-luokittimille pitää valita seuraavat parametrit: k, w = [w 0,..., w k ] T, C = [c 1,..., c k ] ja σ = [σ 1,..., σ k ] T Usein valitaan ensin C ja σ, ja sitten painokertoimet w käyttäen esim. edellisellä luennolla esiteltyjä menetelmiä 28

k:n, C:n ja σ:n valinta voi perustua esim. ongelmaan liittyvään a priori tietoon tai klusterointimenetelmillä (näistä myöhemmin) saatuihin tuloksiin Mikäli opetusjoukko on edustava otos kaikista mahdollisista piirrevektoreista ja hyvin jakautunut, voidaan keskusfunktiot myös arpoa niiden joukosta Parametrit (paitsi k) voidaan myös valita minimoimalla seuraavan tyyppistä kustannusfunktiota J(w, C, σ): J(w, C, σ) = N Φ(y(j) g(x(j))), (35) j=1 missä y(j) on opetusnäytettä x(j) vastaava diskriminanttifunktion tavoitearvo ja Φ( ) jokin differentioituva funktio, esim. ( ) 2 Edellä esitetty ongelma on tyypillinen epälineaarinen optimointiongelma, jonka ratkaisu löytyy parametrien suhteen lasketun J:n gradientin 29

nollakohdasta. Käytännössä tällaisen ongelman ratkaisu ei ole täysin mutkatonta Esimerkki: XOR ja RBF-luokitin Lähestytään jo tutuksi käynyttä XOR-ongelmaa käyttäen RBF-luokitinta Tehdään seuraavanlainen epälineaarinen kuvaus piirrevektoreille: [ ] exp( x c1 y = y(x) = 2 ) exp( x c 2 2, ) missä c 1 = [1, 1] T ja c 2 = [0, 0] T Tällöin piirrevektorit kuvautuvat seuraaviin paikkoihin uudessa piirreavaruudessa: ω 1 : [1, 0] T [0.368, 0.368] T, [0, 1] T [0.368, 0.368] T ω 2 : [0, 0] T [0.135, 1] T, [1, 1] T [1, 0.135] T ja luokista tule lineaarisesti separoituvat 30

Valitaan separoiva hypertaso uudessa piirreavaruudessa seuraavasti: g(y) = y 1 + y 2 1 = exp( x c 1 2 ) + exp(( x c 2 2 ) 1 = 0 Luokitteluongelman ratkaisu uudessa ja alkuperäisessä piirreavaruudessa: Alkuperäisessä piirreavaruudessa päätösraja ei ole täsmälleen ellipsi kuten kuvassa, vaan vain sitä muistuttava käyrä. Kirjassa on parempi kuva 31

2.5 Tukivektorikoneen epälineaarinen yleistys Tukivektorikoneen epälineaarisen yleistyksen idea on hyvin samankaltainen kuin RBF-luokittimen Epälineaarinen yleistys korvaamalla kaavassa (12) esiintyvät sisätulot x T (i)x epälineaarisilla kantafunktioilla K(x, x(i)) = Φ(x) T Φ(x(i)), (36) missä Φ( ) : R l R k on jokin epälineaarinen kuvaus Tällainen ratkaisu saadaan, jos ensiksi kuvataan piirrevektorit funktion Φ( ) avulla uuteen piirreavaruuteen ja muodostetaan sitten lineaarinen SVM Epälineaarisen SVM:n ratkaisussa esiintyviä sisätuloja ei välttämättä tarvitse laskea uudessa piirreavaruudessa Kantafunktioiden tulee toteuttaa Mercerin teoreeman ehdot. Mm seuraavat 32

funktiot ovat käypiä kantafunktioita: (x T x(i) + 1) p (polynomiaalinen) (37) exp( 1 2σ x 2 x(i) 2 ) (RBF) (38) tanh(βx T x(i) + γ) (Hyberbolinen tangentti) (39) Näistä viimeinen sopivilla β:n ja γ:n arvoilla, jotka toteuttavat Mercerin teoreeman ehdot. Tapauksen, jossa luokat eivät ole lineaarisesti separoituvia eli on käytettävä ns. slack muuttujia, epälineaarinen yleistys muodostetaan samalla tavalla kuin lineaarisesti separoituvassa tapauksessa korvaamalla ratkaisussa esiintyvät sisätulot x T (i)x epälineaarisilla kantafunktioilla SVM-menetelmän etuna on se, että joudutaan ratkaisemaan vain kvadraattinen optimointiongelma, jossa rajoitusehdot ovat lineaarisia 33

Esimerkki: XOR ja SVM-menetelmä Ratkaistaan jälleen kerran XOR-ongelma, mutta nyt epälineaarisella SVMmenetelmällä Merkitään +1=tosi, -1=epätosi eli: i x(i) class y(i) 1 [ 1, 1] T ω 2-1 2 [ 1, +1] T ω 1 +1 3 [+1, 1] T ω 1 +1 4 [+1, +1] T ω 2-1 34

Käytetään polynomiaalisia kantafunktioita, joiden asteluku on 2: K(x, x(i)) =(x T x(i) + 1) 2 =1 + x 2 1x 2 1(i) + 2x 1 x 2 x 1 (i)x 2 (i) + x 2 2x 2 2(i) + 2x 1 x 1 (i) + 2x 2 x 2 (i) Tämä kantafunktio vastaa seuraavaa piirteiden epälineaarista kuvausta f : x R 2 y R 6 y = f(x) = [1, x 2 1, 2x 1 x 2, x 2 2, 2x 1, 2x 2 ] T Koska uusissa piirrevektoreissa oli mukana vakiotermi 1, kynnysarvo w 0 on turha ja se voidaan asettaa suoraan nollaksi Tehdään ratkaisulle (15) epälineaarinen yleistys korvaamalla alkuperäiset piirrevektorit uusilla piirrevektoreilla Uusien piirrevektoreiden sisätulot voidaan korvata kantafunktioilla 35

Silloin saadaan seuraava duaaliongelman kustannusfunktio: Q(λ) =λ 1 + λ 2 + λ 3 + λ 4 1 2 (9λ2 1 2λ 1 λ 2 2λ 1 λ 3 + 2λ 1 λ 4 + 9λ 2 2 + 2λ 2 λ 3 2λ 2 λ 4 + 9λ 2 3 2λ 3 λ 4 + 9λ 2 4) Q(λ):n maksimi löytyy gradientin nollakohdasta: Q(λ) λ = 0 λ = 1 [1, 1, 1, 1]T 8 Edellisen tuloksen perusteella tiedetään, että kaikki opetusnäytteet ovat tukivektoreita. Silloin kaavan (18) epälineaarisen yleistyksen perusteella N s w = λ i y(i)f(x(i)) i=1 =[0, 0, 1/ 2, 0, 0, 0] T 36

Optimaalinen diskriminanttifunktio on siis g(x; w ) = f T (x)w = 0 x 1 x 2 = 0 ja sen antama ratkaisu näyttää alkuperäisessä piirreavaruudessa tältä: 37