monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos
Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista X 1,..., X p sellainen yhdistelmä (matemaattinen funktio), joka parhaiten erottelisi vastemuuttujan Y eri luokat toisistaan Vastemuuttuja Y voi olla joko kaksi- tai useampiluokkainen (K 2) Selittäjien oletetaan usein noudattavan ns. multinormaalijakaumaa Analyysin perusideana on mallittaa selittäjien X (yhteis)jakauma erikseen jokaisessa vastemuuttujan luokassa ja käyttää sen jälkeen ns. Bayesin kaavaa estimoitaessa todennäköisyyttä P(Y = k X = x) monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 2 / 17
Olkoon π k (k = 1,..., K) kokonaistodennäköisyys tai ns. priori sille, että satunnaisesti valittu havainto kuuluu vastemuuttujan luokkaan k. f k (X ) = P(X = x Y = k) X :n (yhteis)tiheysfunktio havainnolle, joka tulee vasteen luokasta k. Tällöin f k (x) saa suhteellisen suuria arvoja silloin, kun luokan k havainnolla on suuri todennäköisyys sille, että selittävien muuttujien arvoilla X x Vastaavasti fk (x) saa suhteellisen pieniä arvoja silloin, kun luokan k havainnolla on pieni todennäköisyys sille, että selittävien muuttujien arvoilla X x monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 3 / 17
Bayesin kaavan mukaan p k (x) = P(Y = k X = x) = π kf k (x) K π l f l (x) l=1 (1) Bayesin kaavassa (1) esitettyä todennäköisyyttä p k (x) = P(Y = k X = x) sanotaan ns. posterioritodennäköisyydeksi Posterioritodennäköisyys kuvaa selittävien muuttujien arvot X = x omaavan havaintoyksikön todennäköisyyttä (tai todennäköisyystiheyttä) kuulua vasteen luokkaan k monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 4 / 17
Todennäköisyyksien πk estimointi on helppoa, jos havaintoaineisto on kerätty perusjoukosta yksinkertaisella satunnaisotannalla. Tällöin π k = n k /n, missä n k = vastemuuttujan Y luokkaan k kuuluvien havaintojen lukumäärä ja n = n 1 + n 2 +... + n K = havaintojen kokonaislukumäärä. X :n tiheysfunktion f k (x) estimointi on haastavampaa, joten tiheysfunktion muodosta tehdään yleensä ainakin joitakin yksinkertaistavia oletuksia Tiheysfunktioiden fk (x) ja priorien π k estimoinnin jälkeen voimme arvioida posterioritodennäköisyyksiä ja muodostaa luokittelusäännön, jonka avulla kukin havaintoyksikkö voidaan luokitella tai ennustaa kuuluvaksi vasteen tiettyyn luokkaan monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 5 / 17
Lineaarinen erotteluanalyysi: yksi selittäjä Oletetaan seuraavaksi, että K-luokkaista vastemuuttujaa Y selitetään yhdellä jatkuvalla selittäjällä X. Lineaarisen erotteluanalyysin keskeisimmät vaiheet ovat: Estimoidaan tiheysfunktiot fk (x) ja priorit π k (k = 1,..., K) Sijoitetaan saadut estimaatit Bayesin kaavaan (1), jotta saamme estimaatit posterioritodennäköisyyksille p k (x) Luokitellaan kukin havainto siihen luokkaan, jossa havaintoon liittyvä p k (x) on suurin Oletetaan seuraavaksi, että luokassa k (k = 1,..., K ) selittävä muuttuja X noudattaa normaalijakaumaa eli X N(µ k, σ 2 k ). monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 6 / 17
Tällöin X :n tiheysfunktio luokassa k on muotoa ( ) 1 f k (x) = exp 1 (x µ 2πσk 2σk 2 k ) 2, (2) missä µ k ja σk 2 luokassa k. ovat muuttujan X odotusarvo ja varianssi vasteen Oletetaan lisäksi, että σ 2 1 =... = σ2 K = σ2 (vakiovarianssioletus). Sijoittamalla kaavassa (2) esitetty tiheysfunktio f k (x) Bayesin kaavaan (1), saadaan posterioritodennäköisyys esitettyä muodossa p k (x) = π ( 1 k exp 2πσ 1 (x µ 2σ 2 k ) 2) K l=1 π ( 1 l exp 2πσ 1 (3) (x µ 2σ 2 l ) 2) monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 7 / 17
Ns. Bayes-luokittelija luokittelee selittäjän arvon X = x omaavan havainnon siihen luokkaan, jossa posterioritodennäköisyys on suurin. Edellä esitetty luokittelusääntö voidaan esittää myös yhtäpitävästi siten, että selittäjän X arvon x omaava havainto luokitellaan siihen luokkaan, jossa saa suurimman arvon. δ k (x) = x µk σ 2 µ2 k 2σ 2 + log(π k) (4) Jos esimerkiksi vaste on kaksiarvoinen (K = 2) ja π1 = π 2, Bayes luokittelija luokittelee havainnon luokkaan 1, jos 2x(µ 1 µ 2 ) > µ 2 1 µ 2 2 ja muulloin havainto luokitellaan luokkaan 2. monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 8 / 17
Jotta luokittelusääntöjä (3) ja (4) voitaisiin soveltaa käytännössä, tuntemattomat parametrit µ 1,..., µ K, π 1,..., π K ja σ 2 täytyy estimoida havaintoaineiston informaation perusteella. Parametrien estimoinnissa voidaan käyttää seuraavia estimaattoreita: µ k = 1 n k i:y i =k σ 2 = 1 n K x i K ja (x i µ k ) 2 (5) k=1 i:y i =k Yllä n k = luokkaan k kuuluvien havaintojen lkm ja n = havaintojen kokonaislukumäärä. monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 9 / 17
Selittäjän X luokkakohtaisia odotusarvoja µ k (k = 1,..., K) estimoidaan siis luokkakohtaisten keskiarvojen avulla ja varianssin σ 2 estimaattori σ 2 on painotettu keskiarvo luokkakohtaisista otosvariansseista. Kun esimerkiksi K = 2, saadaan σ 2 kirjoitettua muodossa σ 2 = (n 1 1)S 2 1 + (n 2 1)S 2 2 n 2 missä luokissa 1 ja 2 otosvarianssi lasketaan tavanomaisella kaavalla Sk 2 = 1 n k n k (x 1 1 µ k ) 2 i=1 Jos priorit π 1,..., π K tunnetaan etukäteen, ko. todennäköisyyksiä voidaan luonnollisesti hyödyntää suoraan luokittelussa., monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 10 / 17
Jos taas priorit ovat tuntemattomia, ne voidaan estimoida jo aiemmin esitetyllä periaatteella π k = n k n (6) Lineaarisen erotteluanalyysin luokittelussa kaavoilla (5) ja (6) saadut estimaatit sijoitetaan kaavassa (4) esiteltyyn erottelusääntöön, jolloin saadaan δ k (x) = x µ k σ 2 µ2 k 2 σ 2 + log( π k) (7) Näiden ns. erottelufunktioiden δ k (x) perusteella havainto, jonka arvo muuttujalla X = x, luokitellaan siihen luokkaan k (k = 1,..., K), jossa erottelufunktio saa suurimman arvon. monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 11 / 17
Esimerkki Erääseen havaintoaineistoon (n = 233) kuuluu 30-vuotiaita aikuisia, joista 117 on miehiä ja loput 116 naisia. Seuraavassa pistekuviossa on esitetty miesten ja naisten pituuksien jakaumat: Sukupuoli Mies Nainen 140 150 160 170 180 190 200 Pituus (cm) monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 12 / 17
Analysoidaan aineistoa lineaarisen erotteluanalyysin avulla ja pyritään luokittelemaan/ennustamaan aineistoon kuuluvien henkilöiden sukupuoli pituuden avulla. Havaintoaineistosta lasketut sukupuolittaiset keskiarvot ja keskihajonnat ovat: Sukupuoli- Havaintojen Keski- Keskiluokka lukumäärä arvo hajonta Mies (1) 117 178.22 6.71 Nainen (2) 116 163.90 5.82 Oletetaan, että miesten pituus noudattaa N(µ 1, σ 2 )-jakaumaa ja että naisten pituus noudattaa N(µ 2, σ 2 )-jakaumaa. monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 13 / 17
Jakaumien tuntemattomien parametrien µ 1, µ 2 ja σ 2 sekä priorien π 1 ja π 2 estimaateiksi saadaan: µ 1 = X 1 = 178.22 µ 2 = X 2 = 163.90 σ 2 = S 2 = (n 1 1)S 2 1 + (n 2 1)S 2 2 n 2 = (117 1) 6.712 + (116 1) 5.82 2 233 2 39.47 6.28 2 π 1 = n 1 /n = 117/233 0.502 π 2 = n 2 /n = 116/233 0.498 monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 14 / 17
Seuraavassa kuvassa on esitetty miesten ja naisten pituusjakaumien tiheysfunktioiden estimaatit ja pituuden havaintoarvot aineistossa. Miehet Naiset 140 150 160 170 180 190 200 monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 15 / 17
Erottelufunktioiden δ k (x) = x µ k µ2 k + log( π σ 2 2 σ 2 k ), missä k = 1, 2, arvoiksi 177 cm pitkälle henkilölle saadaan: δ 1 (177) = 177 µ 1 σ 2 µ2 1 2 σ 2 + log( π 1) = 177 178.22 6.28 2 178.222 2 6.28 2 + log(0.502) 397.86 δ 2 (177) = 177 µ 2 σ 2 µ2 2 2 σ 2 + log( π 2) = 177 163.90 6.28 2 163.902 2 6.28 2 + log(0.498) 395.71 Nyt siis δ 1 (177) > δ 2 (177), joten kyseinen henkilö luokitellaan kuuluvaksi luokkaan 1 eli mieheksi. monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 16 / 17
Seuraava kuva havainnollistaa vielä edellä esitellyn päätäntäsäännön käyttäytymistä havaintoaineistossa. Musta katkoviivan vasemmalle puolelle kuuluvat havainnot luokitellaan kuuluvaksi luokkaan 2 eli naisiksi ja oikealle puolelle kuuluvat havainnot luokkaan 1 eli miehiksi. Miehet Naiset 140 150 160 170 180 190 200 monimuuttujamenetelmiin, 5 op 7. marraskuuta 2018 17 / 17