Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Samankaltaiset tiedostot
4. Tukivektorikoneet

1. LINEAARISET LUOKITTIMET (jatkoa)

4. Lineaariset diskriminanttifunktiot

Luento 1: Optimointimallin muodostaminen; optimointitehtävien luokittelu

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

1. TILASTOLLINEN HAHMONTUNNISTUS

Harjoitus 4: Matlab - Optimization Toolbox

Luento 1: Optimointimallin muodostaminen; optimointitehtävien luokittelu

Logistinen regressio, separoivat hypertasot

min x x2 2 x 1 + x 2 1 = 0 (1) 2x1 1, h = f = 4x 2 2x1 + v = 0 4x 2 + v = 0 min x x3 2 x1 = ± v/3 = ±a x 2 = ± v/3 = ±a, a > 0 0 6x 2

Numeeriset menetelmät

Viikko 3: Lineaarista regressiota ja luokittelua Matti Kääriäinen

Lineaarisen ohjelman määritelmä. Joonas Vanninen

Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia.

Diskriminanttianalyysi I

2 Osittaisderivaattojen sovelluksia

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Kokonaislukuoptimointi

Kahden suoran leikkauspiste ja välinen kulma (suoraparvia)

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Luento 11: Rajoitusehdot. Ulkopistemenetelmät

Numeeriset menetelmät TIEA381. Luento 12. Kirsi Valjus. Jyväskylän yliopisto. Luento 12 () Numeeriset menetelmät / 33

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

Ensimmäisen ja toisen kertaluvun differentiaaliyhtälöistä

Luento 6: Monitavoitteinen optimointi

Yhtälöryhmät 1/6 Sisältö ESITIEDOT: yhtälöt

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Duaalisuus kokonaislukuoptimoinnissa. Mat , Sovelletun matematiikan tutkijaseminaari, kevät 2008, Janne Karimäki

, on säännöllinen 2-ulotteinen pinta. Määrää T x0 pisteessä x 0 = (0, 1, 1).

1 Komparatiivinen statiikka ja implisiittifunktiolause

Insinöörimatematiikka D, laskuharjoituksien esimerkkiratkaisut

Harjoitus 8: Excel - Optimointi

Luento 9: Yhtälörajoitukset optimoinnissa

2.2.1 Ratkaiseminen arvausta sovittamalla

y x1 σ t 1 = c y x 1 σ t 1 = y x 2 σ t 2 y x 2 x 1 y = σ(t 2 t 1 ) x 2 x 1 y t 2 t 1

VILLE SIRKIÄ VÄRÄHTELYPERUSTAINEN VAURIONTUNNISTUSKOMPO- NENTTI JA MITTALAITEKOHTAINEN KALIBROINTI. Diplomityö

12. Hessen matriisi. Ääriarvoteoriaa

Luento 12: Duaalitehtävä. Tarkennuksia Lagrangen kertoimen tulkintaan. Hajautettu optimointi.

Monitavoiteoptimointi

1 Kertaus. Lineaarinen optimointitehtävä on muotoa:

Kasvilajien tunnistaminen tukivektorikoneen avulla

Malliratkaisut Demot

4.0.2 Kuinka hyvä ennuste on?

Insinöörimatematiikka D, laskuharjoituksien esimerkkiratkaisut

Luento 6: Monitavoiteoptimointi

Luento 12: Duaalitehtävä. Tarkennuksia Lagrangen kertoimen tulkintaan. Hajautettu optimointi.

Harjoitus 7: vastausvihjeet

2 Pistejoukko koordinaatistossa

1 Sisätulo- ja normiavaruudet

Sovellettu todennäköisyyslaskenta B

802320A LINEAARIALGEBRA OSA II

. Kun p = 1, jono suppenee raja-arvoon 1. Jos p = 2, jono hajaantuu. Jono suppenee siis lineaarisesti. Vastaavasti jonolle r k+1 = r k, suhde on r k+1

y = 3x2 y 2 + sin(2x). x = ex y + e y2 y = ex y + 2xye y2

r = r f + r M r f (Todistus kirjassa sivulla 177 tai luennon 6 kalvoissa sivulla 6.) yhtälöön saadaan ns. CAPM:n hinnoittelun peruskaava Q P

13. Ratkaisu. Kirjoitetaan tehtävän DY hieman eri muodossa: = 1 + y x + ( y ) 2 (y )

1. NEUROVERKKOMENETELMÄT

Talousmatematiikan perusteet: Luento 15. Rajoitettu optimointi Lagrangen menetelmä Lagrangen kerroin ja varjohinta

Numeeriset menetelmät

Tampere University of Technology

KKT: log p i v 1 + v 2 x i = 0, i = 1,...,n.

1 Rajoitettu optimointi I

1. Etsi seuraavien funktioiden kriittiset pisteet ja tutki niiden laatu: (a.) f(x,y) = 20x 2 +10xy +5y 2 (b.) f(x,y) = 4x 2 2y 2 xy +x+2y +100

Mediaanisuodattimet. Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että. niiden ominaisuudet tunnetaan hyvin

2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio

Ville Turunen: Mat Matematiikan peruskurssi P1 1. välikokeen alueen teoriatiivistelmä 2007

k=0 saanto jokaisen kolmannen asteen polynomin. Tukipisteet on talloin valittu

Referenssipiste- ja referenssisuuntamenetelmät

3 Toisen kertaluvun lineaariset differentiaaliyhtälöt

Differentiaali- ja integraalilaskenta 2 Laskuharjoitus 4 / vko 40

Optimaalisuusehdot. Yleinen minimointitehtävä (NLP): min f(x) kun g i (x) 0 h j (x) = 0

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Mat Dynaaminen optimointi, mallivastaukset, kierros Johdetaan ensiksi välttämättömät ehdot diskreettiaikaiselle optimisäätötehtävälle.

EETU KUUSISTO PÄÄN ASENNON TUNNISTUS KUVASTA. Kandidaatintyö

Luento 2: Optimointitehtävän graafinen ratkaiseminen. LP-malli.

Johdatus materiaalimalleihin

Insinöörimatematiikka D

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

Johdatus tekoälyn taustalla olevaan matematiikkaan

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

b 1. b m ) + ( 2b Ax) + (b b)

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Matematiikan perusteet taloustieteilij oille I

Talousmatematiikan perusteet: Luento 14. Rajoitettu optimointi Lagrangen menetelmä: yksi yhtälörajoitus Lagrangen menetelmä: monta yhtälörajoitusta

Kuva 1: Funktion f tasa-arvokäyriä. Ratkaisu. Suurin kasvunopeus on gradientin suuntaan. 6x 0,2

MATEMATIIKKA. Matematiikkaa pintakäsittelijöille. Ongelmanratkaisu. Isto Jokinen 2017

Matematiikan ja tilastotieteen laitos Reaalianalyysi I Harjoitus Malliratkaisut (Sauli Lindberg)

Avainsanojen poimiminen Eeva Ahonen

Insinöörimatematiikka D

f(x, y) = x 2 y 2 f(0, t) = t 2 < 0 < t 2 = f(t, 0) kaikilla t 0.

Lineaarinen toisen kertaluvun yhtälö

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

1 Bayesin teoreeman käyttö luokittelijana

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Osakesalkun optimointi

Transkriptio:

1 Tukivektoriluokittelija Tukivektorikoneeseen (support vector machine) perustuva luoikittelija on tilastollisen koneoppimisen teoriaan perustuva lineaarinen luokittelija. Perusajatus on sovittaa kahden näytejoukon väliin sellainen taso, että sen kanssa yhdensuuntaisten marginaalitasojen välimatka on mahdollisimman suuri eikä yksikään näyte jää marginaalitasojen väliin. Marginaalitasojen välimatkaa rajoittavia näytevektoreita kutsutaan tukivektoreiksi. Luokittelun tulos riippuu ainoastaan näistä tukivektoreista (kuvassa ympyröity). Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat Olkoon data (xx ii, yy ii ) xx ii RR dd, yy ii { 1, +1}, ii = 1,,. x i on näytteen piirrevektori ja y i sen luokka. Luokkia erottavan hypertason (päätöstaso) yhtälö on ww TT xx + bb = 0, jossa siis w on tason normaalivektori. Haluamme valita parametrit w ja b siten, että luokkien väliin jäävä marginaali eli rinnakkaisten hypertasojen välinen etäisyys on maksimaalinen. Rinnakkaisten hypertasojen yhtälöt ovat: ww TT xx + bb = +1 ja ww TT xx + bb = 1. 2 Tasojen etäisyys on, jonka siis haluamme maksimoida. Tämä on sama kuin että ww minimoisimme lausekkeen ww.

2 Lisäksi vaaditaan, etteivät datanäytteet jää marginaalitasojen väliin, eli: ww TT xx ii + bb +1, luokan (+1) näytteille, ja ww TT xx ii + bb 1, luokan (-1) näytteille. Nämä voidaan yhdistää kätevästi: yy ii (ww TT xx ii + bb) 1, kaikille näytteille x i. Nyt käsillä on minimointiongelma: Minimoi ww, ehdolla että yy ii (ww TT xx ii + bb) 1, kaikille näytteille x i. Helpompaa on kuitenkin minimoida 1 2 ww 2, joka on neliöllinen lauseke ja konveksi omaten vain yhden minimikohdan. Tällöin voidaan käyttää neliöllisen ongelmoinnin menetelmiä ratkaisun löytämiseksi. Formuloidaan siis uudestaan: Minimoi 1 2 ww 2, ehdolla että yy ii (ww TT xx ii + bb) 1, kaikille näytteille x i. Tämä voidaan kirjoittaa Lagrangen menetelmän mukaisesti seuraavaan muotoon: Minimoi: LL(ww, bb) = 1 2 ww 2 αα ii [yy ii (ww TT xx ii + bb) 1] ehdolla αα ii 0 Ratkaisemalla lausekkeesta ääriarvokohdat parametrien w ja b suhteen ja sijoittamalla takaisin saadaan lopulta Wolfin duaalimuoto: Maksimoi: WW(αα) = αα ii 1 αα 2 ii,jj =1 iiαα jj yy ii yy jj xx ii TT xx jj ehdolla αα ii 0 ja αα ii yy ii 0 α i -parametrit voidaan ratkaista numeerisesti neliöllisen ohjelmoinnin periaatteilla. Seuraavaksi parametri w voidaan laskea seuraavasti: ww = αα ii yy ii xx ii Tämän jälkeen parametri b voidaan laskea Karush-Kuhn-Tucker-ehtolausekkeesta

3 αα ii (yy ii (ww TT xx ii + bb) 1) = 0 jollakin näytteellä jolla α i >0. Kannattaa keskiarvoistaa niiden näytteiden (M kpl) yli, joilla α i >0: MM bb = 1 MM (yy ii ww TT xx ii ) Tukivektoriluokittelija saa nyt seuraavan muodon: DD(zz) = ssssssss αα ii yy ii zz TT xx ii + bb Lausekkeeseen sijoitetaan luokiteltava uuden näytteen piirrevektori z ja painotetun summan etumerkki määrää luokan +1 tai -1. Luokittelija siis hyödyntää jokaista opetusnäytettä tehdessään luokittelupäätöstä. Opetusvaiheessa jokaiselle opetusnäytteelle x i määrätään painokerroin α i. Ne näytteet x i, joille tulee α i > 0, sijaitsevat marginaalitasoilla (tukivektorit). Loput näytteet sijaitsevat joko marginaalitasoilla tai marginaalialueen ulkopuolella. Tukivektoriluokittelija siis huomioi luokittelupäätöksiä tehdessään vain tukivektorit, ei muita opetusaineiston näytteitä. Vertaa AdaBoost-algoritmiin, jonka kanssa tukivektorikone on sukulainen! Lineaarisesti erottumattomat luokat, joustava marginaali Kun opetusjoukot eivät ole lineaarisesti erottuvia, käytetään tukivektorikonetoteutusta, jota kutsutaan joustavan marginaalin (soft margin) luokittimeksi. Keskeinen näytekohtainen ehtolauseke formuloidaan slack-vakioiden γ i avulla seuraavasti: yy ii (ww TT xx ii + bb) 1 γγ ii Slack-vakiot mahdollistavat sen, että osa näytteistä jää marginaalin sisälle. Optimoitava funktio voidaan kirjoittaa kuten edellä ja ratkaista neliöllisellä ohjelmoinnilla. Yksityiskohdat ohitetaan tässä.

4 Lineaarisesti erottumattomat luokat, epälineaarinen tukivektorikone Edellä datanäytteet esiintyvät lausekkeessa pistetulon muodossa. Tämä voidaan yleistää epälineaariseen muotoon tekemällä piirrevektoreille epälineaarinen muunnos korkeampiulotteiseen piirreavaruuteen (joka on oltava välttämättä Hilbert-avaruus): xx ii TT xx jj θθ(xx ii ) TT θθ(xx jj ) Funktioiden θ(x) pistetuloa sanotaan kerneliksi. Usein käytettyjä kerneleitä ovat: Radial Basis Function: KK xx ii, xx jj = ee xx ii xx jj 2 /2σσ 2 Polynomial Function: KK xx ii, xx jj = (xx ii TT xx jj + 1) pp Tällöin päätöspinta on epälineaarinen (alkuperäisessä piirreavaruudessa), mikä mahdollistaa aiempaa monimutkaisempien aineistojen erottamisen toisistaan. Tukivektorikoneen käyttöönotto 1. Valitse sopiva kernelifunktio K(x i, x j ). 2. Maksimoi (käyttäen neliöllisen ohjelmoinnin periaatetta): 3. Laske b-parametri: WW(αα) = αα ii 1 αα 2 ii,jj =1 iiαα jj yy ii yy jj KK(xx ii, xx jj ) ehdolla αα ii 0 ja αα ii yy ii 0 bb = 1 2 min jj yy jj =1 αα iiyy ii KK(xx ii, xx jj ) + max {kk yykk = 1} αα ii yy ii KK(xx ii, xx kk ) 4. Tukivektoriluokittelija: DD(zz) = sign {ii yy ii =1} {ii yy ii = 1} αα ii yy ii KK(xx ii, zz) + bb

5 Laajennus monen luokan ongelmaan Tyypillisesti monen luokan ongelma ratkaistaan jakamalla ongelma useaksi kaksiluokkaiseksi ongelmaksi ja suunnittelemalla jokaiselle oma tukivektoriluokittelija sekä yhdistämällä tulokset. Seuraavat kaksi menetelmää ovat suosituimpia: 1) Suunnitellaan L kaksiluokkaista SVM-luokittelijaa yllä esitetyllä tavalla: luokka C i vastaan muut luokat (i=1,...,l). Eli muut luokat muodostavat yhden luokan yhdistämällä aineistot. Tunnistettaessa uutta näytettä z: (i) lasketaan kunkin luokittelijan osalta lauseke: DD(zz) = αα ii yy ii KK(xx ii, zz) + bb (ii) valitaan voittajaksi se, jolla on suurin D(z)-lausekkeen arvo. 2) Suunnitellaan L(L-1)/2 kaksiluokkaista SVM-luokittelijaa yllä esitetyllä tavalla: luokka C i vastaan luokka C j (i,j=1,...,l; i j). Eli suunnitellaan luokittelija jokaiselle luokkaparille erikseen (jättämällä kulloinkin ulos muiden luokkien aineistot). Tunnistettaessa uutta näytettä z: (i) syötetään näyte kuhunkin luokittelijaan ja kirjataan ylös kuinka monta kertaa kukin luokka C i voitti. (ii) valitaan voittajaksi se luokka C j, joka voitti useimmiten (enemmistöpäätös). Lähteitä: Hofmann T, Schölkopf B, Smola A. Kernel methods in machine learning. The Annals of Statistics, 2008, Vol. 36, No. 3, pp. 1171-1220. Vapnik V, Lerner A. Pattern recognition using generalized portrait method. Autom. Remote Control, 1963, 24, pp. 774 780.