Diskriminanttianalyysi I

Samankaltaiset tiedostot
Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Logistinen regressio, separoivat hypertasot

Harha mallin arvioinnissa

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Regressioanalyysi. Kuusinen/Heliövaara 1

Vastepintamenetelmä. Kuusinen/Heliövaara 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

Sovellettu todennäköisyyslaskenta B

Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Tilastotieteen aihehakemisto

Moniulotteiset satunnaismuuttujat ja jakaumat

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

, 3.7, 3.9. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

Johdatus regressioanalyysiin

4.0.2 Kuinka hyvä ennuste on?

Johdatus regressioanalyysiin. Heliövaara 1

Ortogonaaliprojektio äärellisulotteiselle aliavaruudelle

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

805306A Johdatus monimuuttujamenetelmiin, 5 op

Olkoon R S otosavaruuksien R ja S karteesinen tulo: Satunnaismuuttujien X ja Y järjestetty pari (X, Y) määrittelee kaksiulotteisen satunnaismuuttujan:

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Viikko 3: Lineaarista regressiota ja luokittelua Matti Kääriäinen

Numeeriset menetelmät

Estimointi. Vilkkumaa / Kuusinen 1

Yleistetyistä lineaarisista malleista

Kanta ja Kannan-vaihto

Kanta ja dimensio 1 / 23

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

1. TILASTOLLINEN HAHMONTUNNISTUS

Mat Tilastollisen analyysin perusteet, kevät 2007

Määritelmä Olkoon T i L (V i, W i ), 1 i m. Yksikäsitteisen lineaarikuvauksen h L (V 1 V 2 V m, W 1 W 2 W m )

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Vastepintamenetelmä. Heliövaara 1

BM20A5800 Funktiot, lineaarialgebra ja vektorit Harjoitus 4, Syksy 2016

2. Teoriaharjoitukset

Yleinen lineaarinen malli

Mallipohjainen klusterointi

Todennäköisyyden ominaisuuksia

Insinöörimatematiikka D, laskuharjoituksien esimerkkiratkaisut

Identifiointiprosessi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MS-C1340 Lineaarialgebra ja

Lineaarikuvaukset. 12. joulukuuta F (A r ) = F (A r ) r .(3) F (s) = s. (4) Skalaareille kannattaa määritellä lisäksi seuraavat tulot:

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Avaruuden R n aliavaruus

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Matriisiteoria Harjoitus 1, kevät Olkoon. cos α sin α A(α) = . sin α cos α. Osoita, että A(α + β) = A(α)A(β). Mikä matriisi A(α)A( α) on?

Identifiointiprosessi

Duaalisuus kokonaislukuoptimoinnissa. Mat , Sovelletun matematiikan tutkijaseminaari, kevät 2008, Janne Karimäki

Talousmatematiikan perusteet: Luento 14. Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu

Sisätuloavaruudet. 4. lokakuuta 2006

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 3. Kaksiulotteiset satunnaismuuttujat

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Tekoäly ja koneoppiminen metsävaratiedon apuna

Koesuunnittelu Vastepintamenetelmä. TKK (c) Ilkka Mellin (2005) 1

Ennustaminen ARMA malleilla ja Kalmanin suodin

Numeeriset menetelmät

Harjoitus 9: Excel - Tilastollinen analyysi

Maximum likelihood-estimointi Alkeet

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Sovellettu todennäköisyyslaskenta B

2. Uskottavuus ja informaatio

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Dynaamiset regressiomallit

x = y x i = y i i = 1, 2; x + y = (x 1 + y 1, x 2 + y 2 ); x y = (x 1 y 1, x 2 + y 2 );

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Sovellettu todennäköisyyslaskenta B

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

tilastotieteen kertaus

1. Tilastollinen malli??

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 2 / vko 45

Numeeriset menetelmät TIEA381. Luento 5. Kirsi Valjus. Jyväskylän yliopisto. Luento 5 () Numeeriset menetelmät / 28

Harjoitusten 4 vastaukset

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Numeeriset menetelmät TIEA381. Luento 7. Kirsi Valjus. Jyväskylän yliopisto. Luento 7 () Numeeriset menetelmät / 43

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

1. LINEAARISET LUOKITTIMET

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Osa 2: Otokset, otosjakaumat ja estimointi

Oletetaan ensin, että tangenttitaso on olemassa. Nyt pinnalla S on koordinaattiesitys ψ, jolle pätee että kaikilla x V U

031021P Tilastomatematiikka (5 op) viikko 6

1 Kertaus. Lineaarinen optimointitehtävä on muotoa:

Transkriptio:

Diskriminanttianalyysi I 12.4-12.5 Aira Hast 24.11.2010

Sisältö LDA:n kertaus LDA:n yleistäminen FDA FDA:n ja muiden menetelmien vertaaminen Estimaattien laskeminen

Johdanto Lineaarinen diskriminanttianalyysi (LDA) yksinkertainen luokittelumenetelmä, joka ei kuitenkaan ole aina riittävä tai sen oletukset eivät toteudu LDA voidaan muotoilla lineaarisena regressio-ongelmana, minkä avulla menetelmä voidaan yleistää paremmaksi FDA:ssa lineaarinen regressio korvataan parametrittomalla regressiolla laajentamalla kantafunktioiden joukkoa.

LDA:n kertaus Hyviä puolia Yksinkertainen luokittelija: luokittelee havainnon lähimmän luokan keskipisteen perusteella Bayesin luokittelija, mikäli luokissa sama kovarianssi Päätösrajat lineaarisia (yksinkertaisuus) Usein paras luokittelija yksinkertaisuutensa vuoksi: estimoituihin lineaarisiin päätösrajoihin liittyy pieni varianssi

LDA:n kertaus Huonoja puolia Lineaariset päätösrajat eivät aina riittäviä luokkien erottamiseen Luokilla ei usein ole samat kovarianssit Aineiston kuvaaminen luokan keskipisteen ja kovarianssimatriisin perusteella ei ole aina riittävä luokittelua varten LDA soveltuu huonosti tilanteeseen, jossa useita selittäjiä

LDA:n yleistäminen LDA:n ongelma muotoillaan uudelleen lineaarisen regression ongelmaksi ja yleistetään regressio parametrittomaksi regressioksi, mikä lisää kantavektorien määrää (FDA) Sovitetaan malli LDA:lla, mutta sakotetaan kertoimet sileiksi (PDA) Luokat esitetään normaalijakaumien sekajakaumana (MDA)

LDA:n uudelleenmuotoilu K luokkaa Opetusaineistossa N havaintoa G={1,...,K} kertoo mihin luokkaan havainto kuuluu Opetusaineiston havainnot muotoa (g i,x i ), i=1,2,...,n Funktio θ : G R 1 määrää pisteet luokille

LDA:n uudelleenmuotoilu Valitaan θ ja β siten, että Vaaditaan siis, että θ:n määräämä pisteytys on optimaalisesti ennustettu lineaarisella regressiolla. Tällöin voidaan muodostaa yksiulotteinen erottelu luokkien välille.

LDA:n uudelleenmuotoilu Yleisemmin: voidaan löytää L ( K-1) itsenäistä funktiota θ l ja näitä vastaavia lineaarisia funktioita n l (X)=X T β l (l=1,...,l), jotka optimaalisia moniulotteisessa regressiossa. Valitaan θ ja β siten, että keskimääräinen jäännösneliösumma minimoituu

LDA ja kanoninen korrelaatio LDA on ekvivalentti kanonisen korrelaatioanalyysin kanssa: lineaariset selittäjät muodostavat yhden joukon ja luokkaan kuulumista kuvaavat muuttujat toisen joukon Kanonisen korrelaation avulla voidaan löytää optimaaliset β l ASR:n ratkaisusta voidaan johtaa Mahalanobis-etäisyydet luokan keskipisteeseen

LDA ja FDA LDA voidaan suorittaa lineaaristen regressioiden avulla luokittelemalla havainnot soviteavaruudessa lähimmän luokan keskipisteen perusteella. Yleisempi luokittelu voidaan muodostaa korvaamalla lineaariset regressiot parametrittomilla sovitteilla (esim. splinit, kernelit)

FDA Regressio-ongelman yleisempi muoto tällöin ASR{ k, k } 1 K N K 2 k 1 ( k ( gi) k ( xi )) J( k ) N k 1 i 1 J riippuu käytetystä parametrittomasta regressiosta (esim. splinit, MARS) ja sen avulla voidaan muokata yleinen kaava tarkoituksenmukaiseksi (välttää ylisovittaminen)

Esimerkki (1/2) Käytetään regressiossa jokaiselle n l toisen asteen polynomia. Tällöin FDA:lla saadut päätösrajat ovat neliöllisiä. Neliölliset päätösrajat saataisiin LDA:lla, jos laajennetaan alkuperäisten selittäjien joukko neliöillä ja ristitermeillä. Tällöin LDA:n antamat päätösrajat ovat lineaarisia laajennetussa avaruudessa, mutta neliöllisiä alkuperäisessä avaruudessa.

Esimerkki (2/2)

FDA ja muut menetelmät Verrataan eri menetelmien tuloksia puheentunnistusesimerkissä. K=11 (vastaa esimerkissä vokaaliäännettä) p=10 (selittäjiä, jotka tunnistettu puheesta)

FDA ja muut menetelmät

FDA ja muut menetelmät

FDA:n estimaattien laskeminen Y on indikaattorimatriisi, siten että y ik =1, kun g i =k, muuten y ik =0. Algoritmi: 1. Y:n moniulotteinen adaptiivinen ja parametrittoman regression sovite X:ssä on Ŷ. S λ lineaarinen operaattori (Ŷ=S λ Y) ja η * (x) sovitettujen regressiofunktioiden vektori.

FDA:n estimaattien laskeminen 2. Optimaalinen pisteytys: tehdään ominaisarvohajotelma: missä ominaisvektorit Ө on normalisoitu s.e. missä D π =Y T Y/N (estimoidut luokkaprioritodennäköisyydet)

FDA:n estimaattien laskeminen 3. Päivitetään malli askeleesta 1 alkaen optimaalisia pisteitä käyttäen FDA:ssa vältytään LDA:ssa esiintyvältä peittymiseltä

Yhteenveto LDA:n alkuoletukset eivät aina täyty ja luokittelu lineaaristen päätösrajojen avulla ei ole aina riittävä ->yleistäminen FDA:ssa palautetaan LDA:n ongelma lineaarisen regression ongelmaksi, joka korvataan parametrittomalla regressiolla

Kiitos! Kysymyksiä?

Tehtävä Vertaile LDA:ta ja FDA:ta (oletukset, mitä etuja ja mitä haittoja menetelmillä, millaiset päätösrajat saadaan yms.)