Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Samankaltaiset tiedostot
Diskriminanttianalyysi I

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

Logistinen regressio, separoivat hypertasot

1. LINEAARISET LUOKITTIMET

Regressioanalyysi. Kuusinen/Heliövaara 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Todennäköisyyden ominaisuuksia

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Harha mallin arvioinnissa

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Vektorien virittämä aliavaruus

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus regressioanalyysiin

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Mallipohjainen klusterointi

Sovellettu todennäköisyyslaskenta B

Kanta ja dimensio 1 / 23

1. TILASTOLLINEN HAHMONTUNNISTUS

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Vektoreiden virittämä aliavaruus

2.5. Matriisin avaruudet ja tunnusluvut

Viikko 3: Lineaarista regressiota ja luokittelua Matti Kääriäinen

Sovellettu todennäköisyyslaskenta B

Inversio-ongelmien laskennallinen peruskurssi Luento 2

4.0.2 Kuinka hyvä ennuste on?

Sovellettu todennäköisyyslaskenta B

Määritelmä 1. Olkoot V ja W lineaariavaruuksia kunnan K yli. Kuvaus L : V. Termejä: Lineaarikuvaus, Lineaarinen kuvaus.

Yleinen lineaarinen malli

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

802320A LINEAARIALGEBRA OSA III

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Lineaarialgebra ja differentiaaliyhtälöt Laskuharjoitus 1 / vko 44

2. Teoriaharjoitukset

Yleistetyistä lineaarisista malleista

Aiheet. Kvadraattinen yhtälöryhmä. Kvadraattinen homogeeninen YR. Vapaa tai sidottu matriisi. Vapauden tutkiminen. Yhteenvetoa.

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

2. Multinormaalijakauma

Harjoitusten 5 vastaukset

Lineaarikuvausten. Lineaarikuvaus. Lineaarikuvauksia. Ydin. Matriisin ydin. aiheita. Aiheet. Lineaarikuvaus. Lineaarikuvauksen matriisi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Numeeriset menetelmät

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

1 Rajoittamaton optimointi

Avaruuden R n aliavaruus

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Ratkaisuehdotukset LH 7 / vko 47

x = y x i = y i i = 1, 2; x + y = (x 1 + y 1, x 2 + y 2 ); x y = (x 1 y 1, x 2 + y 2 );

Projektin arvon aleneminen

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Aiheet. Kvadraattinen yhtälöryhmä. Kvadraattinen homogeeninen YR. Vapaa tai sidottu matriisi. Vapauden tutkiminen. Yhteenvetoa.

x = y x i = y i i = 1, 2; x + y = (x 1 + y 1, x 2 + y 2 ); x y = (x 1 y 1, x 2 + y 2 );

Matriisilaskenta, LH4, 2004, ratkaisut 1. Hae seuraavien R 4 :n aliavaruuksien dimensiot, jotka sisältävät vain

3x + y + 2z = 5 e) 2x + 3y 2z = 3 x 2y + 4z = 1. x + y 2z + u + 3v = 1 b) 2x y + 2z + 2u + 6v = 2 3x + 2y 4z 3u 9v = 3. { 2x y = k 4x + 2y = h

Osa 2: Otokset, otosjakaumat ja estimointi

031021P Tilastomatematiikka (5 op) viikko 6

Tilastollinen aineisto Luottamusväli

ARMA(p, q)-prosessin tapauksessa maksimikohdan määrääminen on moniulotteinen epälineaarinen optimointiongelma.

Luokittelumenetelmän evaluointimenetelmien vertailu pienten aineistojen tapauksessa simulointikokein

Vapaus. Määritelmä. Vektorijono ( v 1, v 2,..., v k ) on vapaa eli lineaarisesti riippumaton, jos seuraava ehto pätee:

MS-C1340 Lineaarialgebra ja

5 Differentiaaliyhtälöryhmät

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Maximum likelihood-estimointi Alkeet

Johdatus regressioanalyysiin. Heliövaara 1

Esimerkki 19. Esimerkissä 16 miniminormiratkaisu on (ˆx 1, ˆx 2 ) = (1, 0).

10 Moniulotteinen normaalijakauma

MS-C1340 Lineaarialgebra ja

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Dynaamiset regressiomallit

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

2. kierros. 1. Lähipäivä

pitkittäisaineistoissa

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Esimerkki 8. Ratkaise lineaarinen yhtälöryhmä. 3x + 5y = 22 3x + 4y = 4 4x 8y = r 1 + r r 3 4r 1. LM1, Kesä /68

802320A LINEAARIALGEBRA OSA I

1 Lineaariavaruus eli Vektoriavaruus

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

ABHELSINKI UNIVERSITY OF TECHNOLOGY

805324A (805679S) Aikasarja-analyysi Harjoitus 6 (2016)

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

Transkriptio:

Lineaariset luokittelumallit: regressio ja erotteluanalyysi Aira Hast

Johdanto Tarkastellaan menetelmiä, joissa luokittelu tehdään lineaaristen menetelmien avulla. Avaruus jaetaan päätösrajojen avulla osiin, joissa luokittelumuuttuja saa saman arvon. Regressiossa luokalle k voidaan muodostaa diskriminanttifunktio δ k (x) ja luokitella havainto x luokkaan, jossa δ k (x) saa suurimman arvon. Luokittelussa voidaan hyödyntää myös posterioritodennäköisyyksiä.

Päätösrajat Lineaarisissa luokittelumenetelmissä päätösrajat (moniulotteisessa tapauksessa päätöspinnat, hypertasot) ovat lineaarisia. Luokan k ja l rajalla Useita tapoja löytää lineaariset päätösrajat (indikaattorimatriisin lineaarinen regressio, lineaarinen diskriminanttianalyysi, logistinen regressio, separoivat hypertasot).

Päätösrajan lineaarisuus Päätösraja lineaarinen, jos δ k (x):n tai Pr(G=k X=x):n jokin monotoninen transformaatio lineaarinen. Muuttujien X 1, X 2,...,X p joukko voidaan laajentaa sisältämään myös X 12, X 22,...,X 1 X 2,..., jolloin täydennetyn avaruuden lineaariset päätösrajat ovat alkuperäisessä avaruudessa kvadraattisia.

Indikaattorimatriisin lineaarinen regressio K luokkaa, joihin kuulumista vastaa indikaattori Y k (k=1,...,k) siten, että Y k =1, jos G=k ja muulloin 0. X syötetiedot sisältävä (p+1)-sarakkeinen matriisi. Opetusaineistossa N havaintoa, jonka perusteella muodostetaan lineaarisella regressiolla sovite.

Indikaattorimatriisin lineaarinen regressio Kerroinmatriisi saadaan yhtälöstä Luokiteltavalle havainnolle x lasketaan ulostulon sovite (fitted output)..

Indikaattorimatriisin lineaarinen regressio Luokittelu tehdään näin saadun vektorin suurimman komponentin perusteella Menetelmässä regressiolla saadaan Y k :n ehdollisen odotusarvon estimaatti, jonka arvo maksimoidaan luokittelulla. Satunnaiselle Y k :lle..

Indikaattorimatriisin lineaarisen regression ongelmia Jäykkä menetelmä, mikä voi olla ongelmallista kaukana opetusaineistosta tehtävissä luokitteluissa. voi saada negatiivisia ja ykköstä suurempia arvoja, vaikka. Kun luokkien määrä K 3, voi esiintyä luokkien peittymistä (masking) ja jokin luokka peittyy täysin muilla luokilla. Ongelma voidaan ratkaista käyttämällä muita menetelmiä.

Peittyminen

Peittyminen

Lineaarinen diskriminanttianalyysi (LDA) Luokan k prioritodennäköisyys π k ja. f k (x) on k luokassa X:n luokkaehdollinen tiheys. Optimaalisessa luokittelussa olisi tunnettava luokan posterioritodennäköisyys.

Lineaarinen diskriminanttianalyysi (LDA) Oletus: luokan k tiheysfunktio noudattaa multinormaalijakaumaa Oletus: kaikissa luokissa sama kovarianssimatriisi Σ k =Σ.

Lineaarinen diskriminanttianalyysi (LDA) Päätösrajat lineaarisia Lineaarinen diskriminanttifunktio luokassa k Luokittelusääntönä voidaan käyttää

Lineaarinen diskriminanttianalyysi (LDA) Yleensä ei tunneta tarkasti jakauman parametreja, vaan ne on estimoitava opetusaineistosta.

Lineaarinen diskriminanttianalyysi (LDA) Kun luokkia kaksi, LDA vastaa luokittelua pienimmän neliösumman perusteella. Kun luokkia enemmän kuin kaksi ei LDA:ssa esiinny peittymistä. Jos kovarianssimatriisit eivät ole samoja, on käytettävä neliöllistä diskriminanttianalyysiä (QDA).

Neliöllinen diskriminanttianalyysi(qda) Luokassa k kovarianssimatriisi Σ k. Neliöllinen diskriminanttifunktio Luokittelusääntö Päätösrajat ovat toisen asteen polynomeja.

Neliöllinen diskriminanttianalyysi(qda) Kvadraattiset rajat voidaan muodostaa myös LDA:n avulla laajentamalla avaruus useampiulotteiseksi neliölliseksi polynomiavaruudeksi. QDA:lla saadaan yleensä hieman parempia tuloksia, mutta estimoitavia parametreja on enemmän kuin LDA:ssa.

Neliöllinen diskriminanttianalyysi(qda)

Regularisoitu diskriminanttianalyysi (RDA) RDA on QDA:n ja LDA:n kompromissi. Regularisoitu kovarianssimatriisi muotoa. on yhdistetty kovarianssimatriisi, jota käytetään LDA:ssa. α [0,1] ja se määrätään esimerkiksi validointidatan perusteella.

Erotteluanalyysi Havaintojen kokonaisvaihtelua kuvataan kovarianssimatriisilla T. Luokkien välistä vaihtelua kuvataan kovarianssimatriisilla B (between) ja luokkien sisäistä vaihtelua kovarianssimatriisilla W (within). Menetelmällä pyritään löytämään aliavaruus, jolle luokkien välinen ero näkyy selvimmin.

max a T a Ba T a Wa Erotteluanalyysi Etsitään lineaarikombinaatio Z=a T X siten, että

Kysymyksiä? Kiitos!

Kotitehtävä 1/2 a) Määritä päätösraja luokkien 1 ja 2 välillä LDA:n avulla, kun μ 1 =(1,1) T ja μ 2 =(3,3) T π 1 = π 2 = 0,5 Vihje: Päätösrajalla δ 1 (x) = δ 2 (x)

Kotitehtävä 2/2 b) Luokittele seuraavat havainnot x1 x2 12 10 8 7 0 1 4 10 2 1