1. LINEAARISET LUOKITTIMET

Samankaltaiset tiedostot
1. TILASTOLLINEN HAHMONTUNNISTUS

Hahmontunnistuksen perusteet. Tik (3 ov) L. Syksy 2000

1. LINEAARISET LUOKITTIMET (jatkoa)

Hahmontunnistuksen perusteet T , 3ov, L Syksy Harjoitustyö: Matti Aksela

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

4.0.2 Kuinka hyvä ennuste on?

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

Viikko 3: Lineaarista regressiota ja luokittelua Matti Kääriäinen

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Harha mallin arvioinnissa

1 Rajoittamaton optimointi

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

2. Teoriaharjoitukset

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

805306A Johdatus monimuuttujamenetelmiin, 5 op

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

4. Lineaariset diskriminanttifunktiot

Dynaamiset regressiomallit

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

Kohdeyleisö: toisen vuoden teekkari

Regressioanalyysi. Kuusinen/Heliövaara 1

Logistinen regressio, separoivat hypertasot

3.6 Su-estimaattorien asymptotiikka

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

1. NEUROVERKKOMENETELMÄT

Matemaattinen Analyysi / kertaus

Inversio-ongelmien laskennallinen peruskurssi Luento 7 8

Moniulotteisia todennäköisyysjakaumia

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Luento 9: Yhtälörajoitukset optimoinnissa

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2017 Harjoitus 1 Ratkaisuehdotuksia

Osakesalkun optimointi

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Diskriminanttianalyysi I

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 6: Ääriarvojen luokittelu. Lagrangen kertojat.

Inversio-ongelmien laskennallinen peruskurssi Luento 4

2 Osittaisderivaattojen sovelluksia

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Johdatus tekoälyn taustalla olevaan matematiikkaan

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Derivaatta: funktion approksimaatio lineaarikuvauksella.

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-C1340 Lineaarialgebra ja

Todennäköisyyden ominaisuuksia

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Luento 8: Epälineaarinen optimointi

Lineaariavaruudet. Span. Sisätulo. Normi. Matriisinormit. Matriisinormit. aiheita. Aiheet. Reaalinen lineaariavaruus. Span. Sisätulo.

1. NEUROVERKKOMENETELMÄT

Pienimmän Neliösumman menetelmä (PNS)

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Harjoitusten 5 vastaukset

Kimppu-suodatus-menetelmä

Esimerkki 19. Esimerkissä 16 miniminormiratkaisu on (ˆx 1, ˆx 2 ) = (1, 0).

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Mallipohjainen klusterointi

Yleistetyistä lineaarisista malleista

Johdatus tekoälyn taustalla olevaan matematiikkaan

Maximum likelihood-estimointi Alkeet

3.2.2 Tikhonovin regularisaatio

Ratkaisuehdotukset LH 7 / vko 47

, tuottoprosentti r = X 1 X 0

MS-A010{3,4} (ELEC*) Differentiaali- ja integraalilaskenta 1 Luento 4: Derivaatta

7 Vapaus. 7.1 Vapauden määritelmä

SGN-1251 Signaalinkäsittelyn sovellukset Välikoe Heikki Huttunen

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Luento 8: Epälineaarinen optimointi

Sovellettu todennäköisyyslaskenta B

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Useita oskillaattoreita yleinen tarkastelu

k S P[ X µ kσ] 1 k 2.

2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio

Numeeriset menetelmät

Backpropagation-algoritmi

Numeeriset menetelmät

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Sovellettu todennäköisyyslaskenta B

1. Tilastollinen malli??

1 Sisätulo- ja normiavaruudet

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Värähdysliikkeet. q + f (q, q, t) = 0. q + f (q, q) = F (t) missä nopeusriippuvuus kuvaa vaimenemista ja F (t) on ulkoinen pakkovoima.

Sovellettu todennäköisyyslaskenta B

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Pienimmän neliösumman menetelmä (PNS)

802320A LINEAARIALGEBRA OSA II

Transkriptio:

1. LINEAARISET LUOKITTIMET Edellisillä luennoilla tarkasteltiin luokitteluongelmaa tnjakaumien avulla ja esiteltiin menetelmiä, miten tarvittavat tnjakaumat voidaan estimoida. Tavoitteena oli löytää päätössääntö, joka minimoi luokitteluvirhetn:n tai riskin Tietyin tnjakaumista tehdyin oletuksin näin saatu luokitin on lineaarinen Nyt ei oteta kantaa luokkiin liittyviin tnjakaumiin, vaan oletetaan, että kaikki havainnot voidaan luokitella oikein/riittävän hyvin lineaarisilla luokittimilla Lineaaristen luokittimien etuna on niiden yksinkertaisuus ja laskennallinen keveys 1

1.1 Lineaariset diskriminanttifunktiot Lineaarinen luokitin jakaa piirreavaruuden eri luokkia vastaaviksi päätösalueiksi hypertasojen avulla Lineaarinen diskriminanttifunktio g(x): g(x) = w T x + w 0 = 0, (1) missä w = [w 1,..., w l ] on painovektori ja w 0 on kynnysarvo ( threshold ) Tarkastellaan kahta pistettä, x 1 ja x 2, diskriminanttifunktion määrittelemällä hypertasolla: 0 =w T x 1 + w 0 = w T x 2 + w 0 w T (x 1 x 2 ) = 0 (2) Edellisestä nähdään, että painovektori w on ortogonaalinen hypertasoon nähden 2

Toisella puolella hypertasoa diskriminanttifunktio saa positiivisia arvoja, toisella puolella negatiivisia arvoja Kahden luokan tapauksessa voidaan luokittelusääntö kirjoittaa seuraavasti: Merkitään x = [x T, 1] T ja w = [w T, w 0 ] T Silloin g(x) g( x) = w T x Valitaan luokka seuraavasti: ω 1 : w T x > 0 ω 2 : w T x < 0 Jos voidaan valita w siten, että edellinen päätössääntö ei tuota ainuttakaan luokitteluvirhettä, luokat ovat lineaarisesti separoituvat Seuraavaksi käydään läpi menetelmiä, joiden avulla voidaan määrätä diskriminanttifunktion painokertoimet Tästä eteenpäin oletetaan, että piirrevektoreihin on liitetty loppuun vakiotermi, kuten edellä esitetyssä päätössäännössä, ellei toisin mainita 3 (3)

1.2 Perseptroni-algoritmi (Perseptroni-algoritmin nimi tulee sitä, että se kehitettiin alunperin aivojen neuronimallien, perceptrons, opetukseen. Niistä lisää myöhemmin!) Ol., että luokat ovat lineaarisesti separoituvia Tarkastellaan kahden luokan tapausta Valitaan diskriminanttifunktion painokertoimet w ratkaisemalla seuraava optimointiongelma: Minimoi (perseptroni)kustannusfunktio J(w), joka on määritelty seuraavasti: J(w) = x Y (δ x w T x), (4) missä Y on niiden opetusnäytteiden osajoukko, jotka luokittuvat väärin w määrittämän hypertason perusteella. Muuttuja δ x = 1, kun x ω 1, ja δ x = 1, kun x ω 2 Huom! J(w) saa vain positiivisia arvoja. Sen arvo on nolla, jos ei synny 4

lainkaan luokitteluvirheitä Huom! J(w) on jatkuva ja paloittain lineaarinen, J(w):n gradientti ei ole määritelty niissä kohdin, joissa osajoukko Y muuttuu Edellisestä huolimatta, suoritetaan minimointi gradient descent -henkisellä, iteratiivisellä menetelmällä: J(w) w(t + 1) = w(t) ρ t w = w(t) ρ t δ x x x Y w(t) missä on w(0) alustettu satunnaisesti ja ρ t on positiivinen oppimiskerroin Iterointia toistetaan, kunnes painovektorin arvo konvergoi ratkaisuun eli kaikki havainnot luokitellaan oikein Ratkaisun löytyminen ja tarvittavien iteraatioaskelien lkm riippuu kertoimen ρ t valinnasta 5 (5)

Vaikka J(w):n gradientti ei ole määritelty kaikkialla, menetelmä löytää ratkaisun äärellisellä määrällä iteraatioaskelia, kun ρ t valitaan seuraavasti: (todistus kirjassa) lim t lim t t ρ k = k=0 t ρ 2 k < k=0 Edelliset ehdot tarkoittavat käytännössä sitä, että ρ t lähestyy nollaa, kun iteraatioaskelien lkm t kasvaa. Kerroin ρ t ei saa kuitenkaan pienentyä liian nopeasti. Sopivat arvot ρ t :lle saadaan esim. seuraavasti: ρ t = c/t, missä c on vakio. Kerroin ρ t voi olla myös vakio, jos se on sopivasti rajoitettu 6

Perseptroni-säännön geometrinen tulkinta. Painovektorin päivitys, kun vain yksi piirrevektori luokittui väärin: 7

Perseptroni-säännön variaatioita Edellä esitetyssä perseptroni-säännössä käytettiin jokaisella iteraatioaskeleella kaikkia N:ää opetusnäytettä. Painovektorin päivitys voidaan tehdä myös jokaisen havainnon perusteellä erikseen: Käydään opetusnäytteet läpi vuorotellen, päivitetään painovektoria seuraavasti: w(t + 1) = w(t) + ρx (t), jos x (t) ω 1 ja w T (t)x (t) 0 w(t + 1) = w(t) ρx (t), jos x (t) ω 2 ja w T (t)x (t) 0 w(t + 1) = w(t), muulloin (6) Painovektoria päivitetään siis vain jos tarkasteltava opetusnäyte x (t) luokittuu vääriin Opetusnäytteitä käydään läpi kunnes menetelmä konvergoi eli kaikki näytteet luokittuvat oikein Myös tämä menetelmä konvergoi äärellisellä määrällä iteraatioaskelia 8

Pocket-algoritmi Ol., toisin kuin aikaisemmin, että luokat eivät ole lineaarisesti separoituvia Seuraava menetelmä löytää lineaarisen diskriminanttifunktion, joka minimoi luokitteluvirheiden lkm:n: Alusta w(0) satunnaisesti. Lisäksi, alusta varasto -vektori w s ja laskurimuuttuja h s nolliksi Päivitä painovektoria käyttäen perseptroni-sääntöä (5) Laske kuinka monta (h) opetusnäytettä luokittuu oikein käytettäessä päivitettyä painovektoria w(t + 1) Jos h > h s, aseta w s = w(t + 1) ja h s = h Toista kunnes konvergoi 9

Keslerin konstruktio Edellä esitetyissä menetelmissä tarkasteltiin vain kahden luokan tapausta Keslerin konstruktion avulla näitä menetelmiä voidaan käyttää myös M > 2:n luokan tapauksessa Piirrevektorin x luokittelupäätös tehdään lineaaristen diskriminanttifunktioiden avulla seuraavasti: ω i : w T i x > w T j x, j i (7) Muodostetaan luokan ω i jokaista opetusnäytettä kohti seuraavat (l + 1)M 1-ulotteiset vektorit: x ij = [0 T,..., x T,..., x T,..., 0 T ] T, i j. Vektorit koostuvat siis M:stä blokista, joista i. ja j. ovat x ja x ja muut ovat nollavektoreita Vastaavasti luokkakohtaiset painovektorit kootaan yhdeksi vektoriksi: w = [w T 1,..., w T M ]T 10

Näiden avulla päätössääntö voidaan voidaan kirjoittaa uuteen muotoon: ω i : w T x ij > 0 j = 1,..., M, j i (8) Ongelmana on siis löytää painovektori w, jonka positiivisella puolella ovat kaikki uudet vektorit x ij Mikäli luokat ovat lineaarisesti separoituvia, voidaan painovektorin oppimiseen käyttää esim. perseptroni-sääntöä Oppimisen jälkeen luokkakohtaiset painovektorit saadaan pilkkomalla w osiin Huom! Vain painovektorin suunta on tärkeä, ei sen pituus. Edellä esitetyissä menetelmissä painovektorin pituus pyrkii kasvamaan: normalisoidaan painovektori yksikkövektoriksi jokaisen päivityksen jälkeen 11

1.3 Pienimmän neliön menetelmät Usein tiedetään etukäteen, että luokat eivät ole lineaarisesti separoituvia, mutta silti halutaan käyttää luokitteluvirhetn:n kannalta suboptimaalista lineaarista luokitinta Lineaarinen luokitin muodostetaan valitsemalla diskriminanttifunktion painovektori siten, että jokin ongelmaan sopiva kriteeri optimoituu Yleensä määritellään diskriminanttifunktiolle tavoitearvot y erilaisille havainnoille x ja pyritään minimoimaan tavoitearvojen ja todellisten arvojen g(x) neliöpoikkeamia ( Least Squares Methods ) 12

Pienimmän neliösumman menetelmä Pienimmän neliösumman menetelmässä minimoidaan kustannusfunktiota J(w): N N J(w) = (y i x T i w) 2 e 2 i, (9) i=1 missä N on opetusnäytteiden lkm ja y i on x i :tä vastaava diskriminanttifunktion tavoitearvo, kahden luokan tapauksessa yleensä y i = ±1 Kun derivoidaan J(w) painovektorin w suhteen saadaan: i=1 ( N x i (y i x T i ŵ) = 0 i=1 N x i x T i )ŵ = i=1 i=1 N (x i y i ) (10) 13

Käytetään seuraavia merkintöjä: X = [x 1,..., x N ] T y = [y 1,..., y N ] T (11) Kaava (10) voidaan kirjoittaa silloin matriisimuodossa: (X T X)ŵ = X T y ŵ = (X T X) 1 X T y, (12) missä matriisi X T X on otoskorrelaatiomatriisi ja (X T X) 1 X T on X:n pseudoinverssi 14

Esimerkki: pienimmän neliösumman luokitin Tarkastellaan kahden luokan tapausta, jossa piirrevektorit ovat kaksiulotteisia. Luokista on tehty seuraavat havainnot: ω 1 : [0.2, 0.7] T [0.3, 0.3] T [0.4, 0.5] T [0.6, 0.5] T [0.1, 0.4] T ω 2 : [0.4, 0.6] T [0.6, 0.2] T [0.7, 0.4] T [0.8, 0.6] T [0.7, 0.5] T Luokat eivät ole lineaarisesti separoituvia. Yritetään löytää diskriminanttifunktio, joka on muotoa g(x; w) = [x, 1] T w = w 1 x 1 + w 2 x 2 + w 0 ja joka minimoi virheiden neliösumman Asetetaan diskriminanttifunktion tavoitearvoksi 1 tai 1, kun havainto on luokasta ω 1 tai ω 2 15

Silloin 2.8 2.24 4.8 X T X = 2.24 2.41 4.7 4.8 4.7 10 X T y = [ 1.6, 0.1, 0.0] T ja ratkaisuksi saadaan kaavan (12) perusteella ŵ = [ 3.218, 0.241, 1.431] T 16

17

MSE-estimaatti Seuraavaksi tarkastellaan neliöpoikkeamien summan sijasta neliöpoikkeaman odotusarvoa ( Mean Square Error Estimation ) Minimoitava kustannusfunktio J(w): J(w) = E[ y x T w 2 ] (13) Kahden luokan tapauksessa, kun y = ±1, edellinen kaava voidaan kirjoittaa tnjakaumien avulla myös näin: J(w) = P (ω 1 ) (1 x T w) 2 p(x ω 1 )dx + P (ω 2 ) (1 + x T w) 2 p(x ω 2 )dx Välttämätön ehto J(w):n minimille: (14) J(w) w = 2E[x(y xt w)] = 0, (15) 18

Edellisestä kaavasta saadaan ratkaisu ŵ = R 1 x E[xy], (16) missä R x on x:n korrelaatiomatriisi ja E[xy] on x:n ja y:n ristikorrelaatiovektori Ratkaisun geometrinen tulkinta? Diskriminanttifunktion tavoitearvoa approksimoidaan piirteiden lineaarikombinaatiolla, syntynyt virhe on ortogonaalinen piirreavaruuteen nähden: 19

20

Yleistys useammalle kuin kahdelle luokalle Useamman (M > 2) kuin kahden luokan tapauksessa muodostetaan jokaiselle luokalle oma diskriminanttifunktio g i (x) = wi T x ja asetetaan sen tavoitearvot y i seuraavasti: y i = { 1, jos x ω i 0, muulloin (17) Huom! Kun M = 2, y = ±1 tuottaa saman ratkaisun kuin edellinen valinta, koska w T x = 1 2 (w 1 w 2 ) T x ja painovektorit mat- Kootaan tavoitearvot vektoriksi y = [y 1,..., y M ] T riisiksi W = [w 1,..., w M ] Ratkaisu löytyy minimoimalla seuraava kustannusfunktio J(W) M J(W) = E[ y W T x 2 ] = E[ (y i wi T x) 2 ] (18) 21 i=1

Edellisestä kaavasta nähdään, että voidaan suunnitella jokainen diskriminanttifunktio erikseen. LMS- eli Widrow-Hoff algoritmi Yleensä ei tunneta MSE-estimaatin ratkaisussa eli kaavassa (16) esiintyviä korrelaatiomatriisia R x ja ristikorrelaatiovektoria E[xy] Voidaan osoittaa, että ratkaisu ongelmaan, joka on muotoa E[F (x k, w)] = 0, löytyy seuraavalla iteratiivisellä algoritmillä: kunhan ŵ(k) = ŵ(k 1) + ρ k F (x k, ŵ(k 1)) (19) ρ k k=1 ρ 2 k < k=1 (20) 22

x k on sarja satunnaisia vektoreita, jotka ovat peräisin samanlaisista tnjakaumista, F (, ) on jokin funktio, ja w on sen tuntematon parametrivektori Kun edellistä sovelletaan diskriminanttifunktion painokertoimien hakuun, ŵ(k) = ŵ(k 1) + ρ k x k (y k x T k ŵ(k 1)) (21) (kun k, ŵ(k) lähestyy asymptoottisesti MSE-estimaattia) Kerroin ρ k voi olla myös sopivasti rajoitettu vakio 0 < ρ < 2/trace{R x }. Voidaan osoittaa, että mitä pienempi ρ, sitä pienempi on estimaatin ŵ(k) varianssi. Toisaalta, konvergointi on hitaampaa pienellä ρ:lla Kaavasta (21) nähdään, että estimaattia päivitetään jokaisen havainnon jälkeen. Kun ρ on vakio, pystyy estimaatti mukautumaan paremmin luokkien tnjakaumien muutoksiin 23

MSE-estimaatti ja luokkien a posteriori tn:t Lähdetään tästä liikkeelle: voidaan helposti osoittaa, että ŷ = arg min E[ y ỹ 2 ] ỹ = E[y x] = yp(y x)dy (todistus kirjassa, odotusarvot lasketaan tnjakauman p(y x) suhteen) (22) Edellinen tulos tarkoittaa sitä, että MSE-kriteerin mielessä paras mahdollinen estimaatti diskriminanttifunktion tavoitearvolle y on sen odotusarvo annettuna x. Diskriminanttifunktion voidaan ajatella olevan y:n regressio annettuna x Muokataan kaavasta (18) yleisemmälle ongelmalle kustannusfunktio: M J = E[ (g i (x; w i ) y i ) 2 ], (23) i=1 24

missä diskriminanttifunktiot eivät ole välttämättä lineaarisia x:n tai parametriensä w i suhteen Edellinen kaava voidaan kirjoittaa myös näin: M M J = E[ (g i (x; w i ) E[y i x]) 2 ] + E[ (E[yi 2 x] (E[y i x]) 2 )] (24) i=1 (välivaiheet kirjassa) Jälkimmäinen termi ei riipu lainkaan diskriminanttifunktiosta, joten se voidaan jättää huomioimatta, kun minimoidaan J:tä Nähdään kaavasta (22), että J minimoituu, kun g i (x; ŵ i ) approksimoi MSEmielessä mahdollisimman tarkasti E[y i x]:ää i=1 Toisaalta: E[y i x] = M y i P (ω j x) (25) j=1 25

Kun valitaan tavoitearvot siten, että y i = 1 tai y i = 0 riippuen kuuluuko x luokkaan ω i vai ei, g i (x; ŵ i ) on P (ω i x):n MSE-estimaatti P (ω i x) voidaan siis estimoida valitsemalla diskriminanttifunktioiden parametrit MSE-kriteerin ja LMS-menetelmän avulla (tuntematta tnjakaumia!) ja sitä voidaan käyttää Bayesiläisessä luokittelussa Se kuinka hyvin luokkien a posteriori tnjakaumien estimointi sitten onnistuu riippuu diskriminanttifunktioiden tyypistä 26

1.4 Fisherin diskriminantti Eräs tapa muodostaa lineaarinen luokitin: etsitään suora, jolle projisoidut piirrevektorit separoituvat mahdollisimman hyvin, ja jaetaan suora sitten päätösalueiksi Tarkastellaan kahden luokan tapausta Määritellään projektio seuraavasti: y = w T x, missä w = 1 Sopiva mitta J(w) luokkien separoituvuudelle? Eräs järkevä mitta saadaan luokkien projektioden odotusarvojen µ Yi = E[w T x x ω i ] ja varianssien σ 2 Y i = E[ w T x µ Yi 2 x ω i ] avulla: J(w) = (µ Y 1 µ Y2 ) 2 σ 2 Y 1 + σ 2 Y 2 (26) 27

tai otoskeskiarvojen m Yi = 1/N i Ni j=1 wt x j ja sironnan s 2 Y i = N i j=1 (wt x j m Yi ) 2 avulla: J(w) = (m Y 1 m Y2 ) 2 s 2 Y 1 + s 2 Y 2 (27) (N i on luokkaan ω i kuuluvien opetusnäytteiden lkm) Suoraa y = ŵ T x, joka löytyy maksimoimalla J(w), kutsutaan Fisherin diskriminantiksi Tapaus 1: tunnetaan luokkien odotusarvot ja kovarianssimatriisit Kun tunnetaan luokan ω i odotusarvo µ i ja kovarianssimatriisi Σ i, voidaan vastaavat tunnusluvut laskea projektioille: µ Yi = w T µ i ja σ Yi = w T Σ i w Derivoidaan J(w) (26) w:n suhteen ja asetetaan nollavektoriksi. Ratkaisuksi saadaan: ŵ = 1 2 k(σ 1 + Σ 2 ) 1 (µ 1 µ 2 ), (28) 28

missä normalisoi ŵ:n pituuden 1:ksi k = σ2 Y 1 + σ 2 Y 2 µ Y1 µ Y2 (29) Tapaus 2: ei tunneta luokkien odotusarvoja ja kovarianssimatriiseja Määritellään aluksi seuraavat matriisit: N i S i = (x j m i )(x j m i ) T j=1 S W = S 1 + S 2 S B = (m 1 m 2 )(m 1 m 2 ) T (30) missä m i = 1/N i Ni j=1 x j Näiden avulla J(w) (27) voidaan kirjoittaa seuraavasti: J(w) = wt S B w w T S W w (31) 29

Derivoidaan J(w) ja asetetaan nollavektoriksi. Tällöin saadaan seuraava yleinen ominaisvektoriongelma: λs W ŵ = S B ŵ, (32) ja ratkaisu: (todistus kirjassa) ŵ = S 1 W (m 1 m 2 ) (33) 30

31