805306A Johdatus monimuuttujamenetelmiin, 5 op

Samankaltaiset tiedostot
805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Estimointi. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

riippumattomia ja noudattavat samaa jakaumaa.

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Tilastollinen aineisto Luottamusväli

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Harjoitus 2: Matlab - Statistical Toolbox

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Mallipohjainen klusterointi

tilastotieteen kertaus

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

pitkittäisaineistoissa

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

dx=5&uilang=fi&lang=fi&lvv=2014

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

30A02000 Tilastotieteen perusteet

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

pitkittäisaineistoissa

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Maximum likelihood-estimointi Alkeet

1. Tilastollinen malli??

Todennäköisyyden ominaisuuksia

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

9. laskuharjoituskierros, vko 12-13, ratkaisut

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Mat Tilastollisen analyysin perusteet, kevät 2007

Regressioanalyysi. Kuusinen/Heliövaara 1

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Johdatus regressioanalyysiin

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Teema 8: Parametrien estimointi ja luottamusvälit

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

Väliestimointi (jatkoa) Heliövaara 1

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

0 3 y4 dy = 3 y. 15x 2 ydx = 15. f Y (y) = 5y 4 1{0 y 1}.

Sovellettu todennäköisyyslaskenta B

Jatkuvat satunnaismuuttujat

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Sovellettu todennäköisyyslaskenta B

Mat Sovellettu todennäköisyyslasku A

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

1.Työpaikan työntekijöistä laaditussa taulukossa oli mm. seuraavat rivit ja sarakkeet

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Harha mallin arvioinnissa

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

7. laskuharjoituskierros, vko 10, ratkaisut

6. laskuharjoitusten vastaukset (viikot 10 11)

Moniulotteiset satunnaismuuttujat ja jakaumat

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Tutkimustiedonhallinnan peruskurssi

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Tilastollisen päättelyn perusteet

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

10 Moniulotteinen normaalijakauma

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Pylväsdiagrammi Suomen kunnat lääneittäin vuonna Piirakkadiagrammi Suomen kunnat lääneittäin vuonna 2003 LKM 14.8% 11.2% 19.7% 4.9% 3.6% 45.

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Otoskoko 107 kpl. a) 27 b) 2654

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

Harjoitus 7: NCSS - Tilastollinen analyysi

Testejä suhdeasteikollisille muuttujille

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Transkriptio:

monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos

Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista X 1,..., X p sellainen yhdistelmä (matemaattinen funktio), joka parhaiten erottelisi vastemuuttujan Y eri luokat toisistaan Vastemuuttuja Y voi olla joko kaksi- tai useampiluokkainen (K 2) Selittäjien oletetaan usein noudattavan ns. multinormaalijakaumaa Analyysin perusideana on mallittaa selittäjien X (yhteis)jakauma erikseen jokaisessa vastemuuttujan luokassa ja käyttää sen jälkeen ns. Bayesin kaavaa estimoitaessa todennäköisyyttä P(Y = k X = x) monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 2 / 40

Olkoon π k (k = 1,..., K) kokonaistodennäköisyys tai ns. priori sille, että satunnaisesti valittu havainto kuuluu vastemuuttujan luokkaan k. f k (X ) = P(X = x Y = k) X :n (yhteis)tiheysfunktio havainnolle, joka tulee vasteen luokasta k. Tällöin f k (x) saa suhteellisen suuria arvoja silloin, kun luokan k havainnolla on suuri todennäköisyys sille, että selittävien muuttujien arvoilla X x Vastaavasti fk (x) saa suhteellisen pieniä arvoja silloin, kun luokan k havainnolla on pieni todennäköisyys sille, että selittävien muuttujien arvoilla X x monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 3 / 40

Bayesin kaavan mukaan p k (x) = P(Y = k X = x) = π kf k (x) K π l f l (x) l=1 (1) Bayesin kaavassa (1) esitettyä todennäköisyyttä p k (x) = P(Y = k X = x) sanotaan ns. posterioritodennäköisyydeksi Posterioritodennäköisyys kuvaa selittävien muuttujien arvot X = x omaavan havaintoyksikön todennäköisyyttä (tai todennäköisyystiheyttä) kuulua vasteen luokkaan k monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 4 / 40

Todennäköisyyksien πk estimointi on helppoa, jos havaintoaineisto on kerätty perusjoukosta yksinkertaisella satunnaisotannalla. Tällöin π k = n k /n, missä n k = vastemuuttujan Y luokkaan k kuuluvien havaintojen lukumäärä ja n = n 1 + n 2 +... + n K = havaintojen kokonaislukumäärä. X :n tiheysfunktion f k (x) estimointi on haastavampaa, joten tiheysfunktion muodosta tehdään yleensä ainakin joitakin yksinkertaistavia oletuksia Tiheysfunktioiden fk (x) ja priorien π k estimoinnin jälkeen voimme arvioida posterioritodennäköisyyksiä ja muodostaa luokittelusäännön, jonka avulla kukin havaintoyksikkö voidaan luokitella tai ennustaa kuuluvaksi vasteen tiettyyn luokkaan monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 5 / 40

Lineaarinen erotteluanalyysi: yksi selittäjä Oletetaan seuraavaksi, että K-luokkaista vastemuuttujaa Y selitetään yhdellä jatkuvalla selittäjällä X. Lineaarisen erotteluanalyysin keskeisimmät vaiheet ovat: Estimoidaan tiheysfunktiot fk (x) ja priorit π k (k = 1,..., K) Sijoitetaan saadut estimaatit Bayesin kaavaan (1), jotta saamme estimaatit posterioritodennäköisyyksille p k (x) Luokitellaan kukin havainto siihen luokkaan, jossa havaintoon liittyvä p k (x) on suurin Oletetaan seuraavaksi, että luokassa k (k = 1,..., K ) selittävä muuttuja X noudattaa normaalijakaumaa eli X N(µ k, σ 2 k ). monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 6 / 40

Tällöin X :n tiheysfunktio luokassa k on muotoa ( ) 1 f k (x) = exp 1 (x µ 2πσk 2σk 2 k ) 2, (2) missä µ k ja σk 2 luokassa k. ovat muuttujan X odotusarvo ja varianssi vasteen Oletetaan lisäksi, että σ 2 1 =... = σ2 K = σ2 (vakiovarianssioletus). Sijoittamalla kaavassa (2) esitetty tiheysfunktio f k (x) Bayesin kaavaan (1), saadaan posterioritodennäköisyys esitettyä muodossa p k (x) = π ( 1 k exp 2πσ 1 (x µ 2σ 2 k ) 2) K l=1 π ( 1 l exp 2πσ 1 (3) (x µ 2σ 2 l ) 2) monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 7 / 40

Ns. Bayes-luokittelija luokittelee selittäjän arvon X = x omaavan havainnon siihen luokkaan, jossa posterioritodennäköisyys on suurin. Edellä esitetty luokittelusääntö voidaan esittää myös yhtäpitävästi siten, että selittäjän X arvon x omaava havainto luokitellaan siihen luokkaan, jossa saa suurimman arvon. δ k (x) = x µk σ 2 µ2 k 2σ 2 + log(π k) (4) Jos esimerkiksi vaste on kaksiarvoinen (K = 2) ja π1 = π 2, Bayes luokittelija luokittelee havainnon luokkaan 1, jos 2x(µ 1 µ 2 ) > µ 2 1 µ 2 2 ja muulloin havainto luokitellaan luokkaan 2. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 8 / 40

Jotta luokittelusääntöjä (3) ja (4) voitaisiin soveltaa käytännössä, tuntemattomat parametrit µ 1,..., µ K, π 1,..., π K ja σ 2 täytyy estimoida havaintoaineiston informaation perusteella. Parametrien estimoinnissa voidaan käyttää seuraavia estimaattoreita: µ k = 1 n k i:y i =k σ 2 = 1 n K x i K ja (x i µ k ) 2 (5) k=1 i:y i =k Yllä n k = luokkaan k kuuluvien havaintojen lkm ja n = havaintojen kokonaislukumäärä. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 9 / 40

Selittäjän X luokkakohtaisia odotusarvoja µ k (k = 1,..., K) estimoidaan siis luokkakohtaisten keskiarvojen avulla ja varianssin σ 2 estimaattori σ 2 on painotettu keskiarvo luokkakohtaisista otosvariansseista. Kun esimerkiksi K = 2, saadaan σ 2 kirjoitettua muodossa σ 2 = (n 1 1)S 2 1 + (n 2 1)S 2 2 n 2 missä luokissa 1 ja 2 otosvarianssi lasketaan tavanomaisella kaavalla Sk 2 = 1 n k n k (x 1 i µ k ) 2 i=1 Jos priorit π 1,..., π K tunnetaan etukäteen, ko. todennäköisyyksiä voidaan luonnollisesti hyödyntää suoraan luokittelussa., monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 10 / 40

Jos taas priorit ovat tuntemattomia, ne voidaan estimoida jo aiemmin esitetyllä periaatteella π k = n k n (6) Lineaarisen erotteluanalyysin luokittelussa kaavoilla (5) ja (6) saadut estimaatit sijoitetaan kaavassa (4) esiteltyyn erottelusääntöön, jolloin saadaan δ k (x) = x µ k σ 2 µ2 k 2 σ 2 + log( π k) (7) Näiden ns. erottelufunktioiden δ k (x) perusteella havainto, jonka arvo muuttujalla X = x, luokitellaan siihen luokkaan k (k = 1,..., K), jossa erottelufunktio saa suurimman arvon. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 11 / 40

Esimerkki Erääseen havaintoaineistoon (n = 233) kuuluu 30-vuotiaita aikuisia, joista 117 on miehiä ja loput 116 naisia. Seuraavassa pistekuviossa on esitetty miesten ja naisten pituuksien jakaumat: Sukupuoli Mies Nainen 140 150 160 170 180 190 200 Pituus (cm) monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 12 / 40

Analysoidaan aineistoa lineaarisen erotteluanalyysin avulla ja pyritään luokittelemaan/ennustamaan aineistoon kuuluvien henkilöiden sukupuoli pituuden avulla. Havaintoaineistosta lasketut sukupuolittaiset keskiarvot ja keskihajonnat ovat: Sukupuoli- Havaintojen Keski- Keskiluokka lukumäärä arvo hajonta Mies (1) 117 178.22 6.71 Nainen (2) 116 163.90 5.82 Oletetaan, että miesten pituus noudattaa N(µ 1, σ 2 )-jakaumaa ja että naisten pituus noudattaa N(µ 2, σ 2 )-jakaumaa. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 13 / 40

Jakaumien tuntemattomien parametrien µ 1, µ 2 ja σ 2 sekä priorien π 1 ja π 2 estimaateiksi saadaan: µ 1 = X 1 = 178.22 µ 2 = X 2 = 163.90 σ 2 = S 2 = (n 1 1)S 2 1 + (n 2 1)S 2 2 n 2 = (117 1) 6.712 + (116 1) 5.82 2 233 2 39.47 6.28 2 π 1 = n 1 /n = 117/233 0.502 π 2 = n 2 /n = 116/233 0.498 monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 14 / 40

Seuraavassa kuvassa on esitetty miesten ja naisten pituusjakaumien tiheysfunktioiden estimaatit ja pituuden havaintoarvot aineistossa. Miehet Naiset 140 150 160 170 180 190 200 monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 15 / 40

Erottelufunktioiden δ k (x) = x µ k µ2 k + log( π σ 2 2 σ 2 k ), missä k = 1, 2, arvoiksi 177 cm pitkälle henkilölle saadaan: δ 1 (177) = 177 µ 1 σ 2 µ2 1 2 σ 2 + log( π 1) = 177 178.22 6.28 2 178.222 2 6.28 2 + log(0.502) 397.86 δ 2 (177) = 177 µ 2 σ 2 µ2 2 2 σ 2 + log( π 2) = 177 163.90 6.28 2 163.902 2 6.28 2 + log(0.498) 395.71 Nyt siis δ 1 (177) > δ 2 (177), joten kyseinen henkilö luokitellaan kuuluvaksi luokkaan 1 eli mieheksi. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 16 / 40

Seuraava kuva havainnollistaa vielä edellä esitellyn päätäntäsäännön käyttäytymistä havaintoaineistossa. Musta katkoviivan vasemmalle puolelle kuuluvat havainnot luokitellaan kuuluvaksi luokkaan 2 eli naisiksi ja oikealle puolelle kuuluvat havainnot luokkaan 1 eli miehiksi. Miehet Naiset 140 150 160 170 180 190 200 monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 17 / 40

Erotteluanalyysi ja R R:ssä lineaarinen erotteluanalyysi voidaan suorittaa MASS-paketin funktiolla lda(). Analysoidaan lyhyesti edellä käsitelty esimerkkiaineisto ko. funktiolla: monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 18 / 40

Funktiossa lda() määritellään ensin analyysissä käytettävä malli muodossa: luokiteltava muuttuja selittävä(t) muuttuja(t) argumentilla CV=TRUE saadaan talletettua muodostettavaan malliobjektiin (opetus)aineiston havaintojen luokittelun lopputulokset Talletetusta malliobjektista voidaan poimia kullekin aineiston havainnolle vasteen ennusteettu arvo komponentilla class (esim. malli$class) posterioritodennäköisyydet tilastoyksikön kuulumiselle vasteen eri luokkiin komponentilla posterior (esim. malli$posterior) monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 19 / 40

Luokituksen onnistumista voidaan nyt kuvata esimerkiksi yksinkertaisella funktion table() tuottamalla ristiintaulukolla tai Epi-paketin informatiivisempia ristiintaulukoita tuottavalla funktiolla stat.table(). Lisää R:n erotteluanalyysistä erillisissä esimerkeissä ja kurssin harjoituksissa. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 20 / 40

Useamman selittäjän lineaarinen erotteluanalyysi Useamman selittäjän X 1,..., X p (p 2) tilanteessa oletetaan, että X = (X 1,..., X p ) noudattaa multinormaalijakaumaa, merk. X N p (µ, Σ). Odotusarvovektorissa E(X ) = µ on p alkiota, jotka kuvaavat muuttujien X 1,..., X p odotusarvoja µ 1 µ 2 E(X ) = µ =. µ p Cov(X ) = Σ on X :n p p kovarianssimatriisi Var(X 1 ) Cov(X 1, X 2 )... Cov(X 1, X p) Cov(X 2, X 1 ) Var(X 2 )... Cov(X 2, X p) Cov(X ) = Σ........ Cov(X p, X 1 ) COV (X p, X 2 )... Var(X p) monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 21 / 40

Multinormaalin todennäköisyysjakauman tiheysfunktio f(x) on muotoa ( ) 1 f (x) = exp 1 (2π) p/2 Σ 1/2 2 (x µ)t Σ 1 (x µ) Kaksiulotteisessa normaalijakaumassa odotusarvovektori µ ja kovarianssimatriisi Σ 'typistyvät' muotoon ( ) µ1 E(X ) = µ = µ 2 ja Σ = Cov(X ) = ( Var(X1 ) ) Cov(X 1, X 2 ) Cov(X 2, X 1 ) Var(X 2 ) Kyseisen jakauman tiheysfunktio voitaisiin esittää matriisimerkintöjen sijasta muodossa ( ) 1 1 f (x 1, x 2 ) = exp 2πσ x1 σ x2 1 ρ 2 2(1 ρ 2 x 1 x x 1 x 2 ) Q(x 1, x 2 ), 2 missä Q(x 1, x 2 ) = ( x1 µ x 1 σ x 1 ) 2 ( x2 µ x 2 σ x 2 ja merkitä jakaumaa merkinnällä (X 1, X 2 ) N 2 (µ X1, µ X2, σx 2 1, σx 2 2, ρ X1 X 2 ) ) 2 2ρx1 x 2 ( x1 µ x 1 σ x 1 ) ( x2 ) µ x 2 σ x 2 monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 22 / 40

Alla esitetyissä kuvissa on esitetty kaksi kaksiulotteista normaalijakaumaa. Vasemmanpuoleisessa kuvassa muuttujilla X 1 ja X 2 on yhtä suuri varianssi ja Cor(X 1, X 2 ) = 0, kun oikeanpuoleissa kuvassa Cor(X 1, X 2 ) = 0.7. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 23 / 40

Useamman selittäjän (p 2) tilanteessa oletetaan, että X N p (µ k, Σ) vasteen luokassa k, missä µ k on luokkakohtainen odotusarvovektori ja Σ kaikille luokille k = 1,..., K yhteinen kovarianssimatriisi. Sijoittamalla luokkaan k liittyvän p-ulotteisen normaalijakauman N p (µ k, Σ) tiheysfunktio f k (x) Bayesin kaavaan (1) voidaan johtaa Bayes-luokittelija havaintoyksikölle, jolla X = x, muotoon δ k (x) = x T Σ 1 µ k 1 2 µt k Σ 1 µ k + log(π k ) (8) Havaintoyksikkö luokitellaan siihen luokkaan, jossa δ k (x) saa suurimman arvon. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 24 / 40

Alla on havainnollistettu kahden selittäjän lineaarisen erotteluanalyysin asetelmaa, kun vastemuuttujalla on kolme luokkaa, joissa odotusarvovektori µ k on luokkakohtainen ja kovarianssimatriisi Σ on kaikissa luokissa sama. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 25 / 40

Luokkien Bayes-luokittelijassa (8) esiintyvät tuntemattomat parametrit µ 1,..., µ K, π 1,..., π K ja Σ on jälleen estimoitava havaintoaineiston perusteella. Estimoinnissa käytetään kaavoissa (5) ja (6) esitettyjä periaatteita. Parametrien estimoinnin jälkeen selittäjien arvot X = x omaava havainto sijoitetaan siihen luokkaan k, jossa luokittelija δ k (x) saa suurimman arvon. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 26 / 40

Esimerkki kahden selittäjän erotteluanalyysistä Aiemmin luokittelimme havaintoja sukupuolen eri luokkiin pituuden perusteella. Lisätään nyt toiseksi selittäjäksi henkilön paino. Kuvataan aineiston muuttujien jakaumaa sirontakuvion avulla: 150 160 170 180 190 50 60 70 80 90 100 Pituus (cm) Paino (kg) Mies Nainen monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 27 / 40

Analyysi saadaan tehtyä R:llä jälleen lda()-funktion avulla: Mallituksen onnistumisesta saadaan edelleen ensimmäinen näkemys 2x2 -taulukon avulla: monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 28 / 40

Kvadraattinen erotteluanalyysi (QDA = Quadratic Discriminant Analysis) Lineaarisessa erotteluanalyysissä oletimme, että jokaisessa vasteen luokassa k havainnot noudattavat p-ulotteista multinormaalijakaumaa N(µ k, Σ). Oletus luokkien yhteisestä kovarianssimatriisista ei ole aina realistinen. Oletetaan seuraavaksi, että luokasta k tulevalle havainnolle pätee, että X N(µ k, Σ k ), missä Σ k on luokan k kovarianssimatriisi. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 29 / 40

Tällöin lineaarisen erotteluanalyysin yhteydessä esitelty Bayes-luokittelija luokittelee havainnon, jolla X = x siihen luokkaan, jolla δ k (x) = 1 2 xt Σ 1 k saa suurimman arvon. x + x T Σ 1 k µ k 1 2 µt Σ 1 k µ 1 2 log Σ k + log π k (9) Tuntemattomat parametrit µ 1,..., µ K, Σ 1,..., Σ K ja π 1,..., π K täytyy jälleen estimoida havaintoaineiston perusteella. Saadut estimaatit sijoitetaan luokittelijaan (9) ja havainto voidaan sen jälkeen luokitella kuuluvaksi siihen vasteen luokkaan k, jolle δ k (x) saa suurimman arvon. Samalla ko. luokassa k havaintoon liittyvä posterioritodennäköisyys P(Y = k X = x) on suurin. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 30 / 40

Seuraava kuvapari havainnollistaa lineaarisen ja kvadraattisen erotteluanalyysin tulosten eroja kaksiarvoisen vasteen tilanteessa: monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 31 / 40

Kvadraattinen erotteluanalyysi ja R R:ssä kvadraattinen erotteluanalyysi voidaan suorittaa MASS-paketin funktiolla qda(), jonka syntaksi on identtinen edellä esitellyn lda()-funktion kanssa. Analysoidaan lyhyesti edellä käsitelty (pituus, paino)-aineisto ko. funktiolla sukupuolen ollessa vasteena: monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 32 / 40

Luokittelun onnistumisen mittaamisesta Edellä esitellyn kahden selittäjän lineaarisen erotteluanalyysin onnistumista kuvattiin seuraavan ristiintaulukon avulla: Vasteen Vasteen todellinen luokka ennustettu luokka Mies Nainen Yhteensä Mies 103 8 111 Nainen 14 108 122 Yhteensä 117 116 233 Yllä olevaa taulukko kutsutaan ns. sekaannusmatriisiksi (confusion matrix). Taulukon perusteella on helppo nähdä, että kaikkiaan 103 + 108 = 211 havaintoa luokiteltiin oikein eli oikein luokiteltujen havaintojen osuus on 211/233 0.906. Väärien luokitusten osuus (error rate) on puolestaan 8+14 233 0.094. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 33 / 40

Miesten joukossa väärin luokiteltujen osuus on 14/117 0.120 Naisten joukossa vastaava osuus on 8/116 0.069, joten luokittelu onnistui jonkin verran paremmin naisten joukossa. Mitä jos haluaisimme välttää luokittelussamme enemmän virhettä, jossa luokittelisimme naisen mieheksi? Edellisessä luokituksessa niin tapahtui 8 havaintoyksikön kohdalla. Kaksiluokkaisen vasteen ollessa kyseessä edellinen luokittelu perustui periaatteeseen, jonka mukaan havaintoyksikkö luokiteltiin naiseksi, jos P(Y = Nainen X = x) > 0.5 ja muulloin havaintoyksikkö luokiteltiin mieheksi. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 34 / 40

Jos laskemme em. posterioritodennäköisyyden kynnysarvon 0.2:een eli luokittelemme havainnon naiseksi, kun P(Y = Nainen X = x) > 0.2, saamme sekaannusmatriisiksi Vasteen Vasteen todellinen luokka Ennustettu luokka Mies Nainen Yhteensä Mies 79 4 83 Nainen 38 112 90 Yhteensä 117 116 233 Naisten keskuudessa väärin luokiteltujen osuus on nyt enää 3.4 %, mutta osuuden laskemisen 'hintana' on väärin luokitultujen osuuden nousu miesten keskuudessa peräti 23.5 prosenttiin. Samalla koko aineistossa väärin luokiteltujen osuus on noussut 18.0%:iin! monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 35 / 40

Eräitä diagnostiikkatunnuslukuja Seuraavaksi esitellään muutamia luokittelun onnistumista kuvaavia termejä/tunnuslukuja, jotka ovat yleisessä käytössä mm. epidemiologisissa tutkimuksissa. Määritellään kaksiarvoisen vasteen arvot siten, että - tarkoittaa potilaan olevan terve ja + tarkoittaa potilaan olevan sairas. Tällöin vasteen luokittelussa (tai diagnosoinnissa) voidaan saada seuraavia tuloksia: Vasteen Vasteen ennustettu luokka todellinen luokka + Yhteensä TN FP N + FN TP P Yhteensä N P n monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 36 / 40

Luokittelun onnistumisen kuvaamisssa keskeisiä käsitteitä ovat etenkin Sensitiivisyys (herkkyys, sensitivity): oikein tautia sairastavaksi luokiteltujen osuus kaikista kyseistä tautia sairastavista. Sensitiivisyys = TP/P Spesisyys (tarkkuus, specicy): oikein terveiksi luokiteltujen osuus kaikista terveistä. Spesisyys = TN/N ROC-käyrä (receiver operating characteristics), jonka avulla pyritään kuvaamaan luokittelun onnistumista luokittelijan (8) eri kynnysarvoilla. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 37 / 40

Sensitiivisyys ja spesisyys riippuvat siitä, mihin kohtaan positiivisen ja negatiivisen luokituksen raja eli posterioritodennäköisyyden kynnysarvo luokittelussa asetetaan. ROC-käyrän perusmuoto on seuraava: ROC käyrä Sensitiivisyys 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 Spesifisyys monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 38 / 40

Luokittelusäännöllä p 2 (x) > 0.2 sijoita luokkaan 2, saamme esimerkissämme sekaannusmatriisiksi Vasteen Vasteen todellinen luokka Ennustettu luokka Mies Nainen Yhteensä Mies 79 4 83 Nainen 38 112 90 Yhteensä 117 116 233 Nyt sensitiivisyys = 112/116 0.966, Spesisyys = 79/117 0.675 ja 1-spesisyys 1 0.675 = 0.325. Luokittelusäännöllä jos p 2 (x) > 0.8 sijoita luokkaan 2, puolestaan sensitiivisyys = 0.733 spesisyys = 0.957 ja 1-spesisyys = 0.043. Erottelusäännön kynnysarvoihin 0.2 ja 0.8 liittyvät diagnostiikkapisteet löytyvät ROC-käyrältä seuraavasti: monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 39 / 40

ROC käyrä Sensitiivisyys 0.0 0.2 0.4 0.6 0.8 1.0 (0.043, 0.733) (0.325, 0.966) 0.0 0.2 0.4 0.6 0.8 1.0 1 Spesifisyys Luokittelijan onnistumista kokonaisuudessan voidaan kuvata ROC-käyrän alle jäävä pinta-alan AUC (=area under the curve) avulla. Ideaalitilanteessa (täydellinen luokittelija) AUC = 1, jolloin ROC-käyrä kulkee pisteiden (0,0),(0,1) ja (1,1) kautta. monimuuttujamenetelmiin, 5 op 13. marraskuuta 2018 40 / 40