Mallipohjainen klusterointi

Samankaltaiset tiedostot
Maximum likelihood-estimointi Alkeet

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. Tilastollinen malli??

2. Uskottavuus ja informaatio

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

Sovellettu todennäköisyyslaskenta B

Osa 2: Otokset, otosjakaumat ja estimointi

Parametrin estimointi ja bootstrap-otanta

Pelaisitko seuraavaa peliä?

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Luku 5. Estimointiteorian perusteita

Moniulotteisia todennäköisyysjakaumia

Tämän luvun sisältö. Luku 5. Estimointiteorian perusteita. Perusjakaumat 1-ulotteisina (2) Perusjakaumat 1-ulotteisina

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

pitkittäisaineistoissa

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

3.6 Su-estimaattorien asymptotiikka

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Uskottavuuden ominaisuuksia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

riippumattomia ja noudattavat samaa jakaumaa.

Estimointi. Vilkkumaa / Kuusinen 1

Todennäköisyyden ominaisuuksia

TILASTOLLINEN OPPIMINEN

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Sovellettu todennäköisyyslaskenta B

pitkittäisaineistoissa

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisen päättelyn perusteet

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

Esimerkki: Tietoliikennekytkin

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

9. laskuharjoituskierros, vko 12-13, ratkaisut

Tilastollinen aineisto Luottamusväli

805306A Johdatus monimuuttujamenetelmiin, 5 op

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

η i (θ)t i (x) A(θ) + c(x),

Inversio-ongelmien laskennallinen peruskurssi Luento 7

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

5.7 Uskottavuusfunktioon perustuvia testejä II

dx=5&uilang=fi&lang=fi&lvv=2014

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Luentorunko perjantaille

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollisia peruskäsitteitä ja Monte Carlo

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Laskennallinen data-analyysi II

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Harjoitus 2: Matlab - Statistical Toolbox

4.0.2 Kuinka hyvä ennuste on?

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

4.2.2 Uskottavuusfunktio f Y (y 0 X = x)

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Väliestimointi (jatkoa) Heliövaara 1

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Dynaamiset regressiomallit

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2017 Harjoitus 1 Ratkaisuehdotuksia

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

9. Tila-avaruusmallit

tilastotieteen kertaus

Laskennallinen data-analyysi II

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

Sovellettu todennäköisyyslaskenta B

6. Tietokoneharjoitukset

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Transkriptio:

Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008

Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio ja suurimman uskottavuuden estimaatti Sekoitemallit Sekoitemallin parametrien estimointi EM-algoritmilla

Mallipohjainen klusterointi mallipohjainen klusterointi (probabilistic model-based clustering): datavektorien ajatellaan olevan peräisin K :sta eri lähteestä lähteet = klusterit jokaiselle klusterille tilastollinen malli (todennäköisyysjakauma), josta klusteriin kuuluvat datavektorit ovat otoksia lähteen ilmaiseva luokkamuuttuja on piilomuuttuja (ts. sitä ei voida suoraan havaita) luokkamuuttujia voidaan mallintaa puuttuvana datana tehtävänä on ratkaista kunkin datavektorin kohdalla, mistä lähteestä se on peräisin

Parametrinen ja ei-parametrinen estimointi generatiivinen lähestymistapa: mallinnetaan aineistoa todennäköisyysjakaumalla, josta aineisto on peräisin pyritään aineiston perusteella tekemään päätelmiä jakaumasta 1. parametriset mallit kiinnitetään etukäteen generoivan jakauman funktionaalinen muoto (esim. normaalijakauma) estimoidaan aineiston perusteella jakauman parametreja (esim. 1-ulotteisen normaalijakauman tapauksessa odotusarvo ja varianssi, multinormaalijakauman tapauksessa odotusarvo ja kovarianssimatriisi) 2. ei-parametriset mallit vältetään jakaumaan liittyvien oletusten tekemistä pyritään estimoimaan generoivaa jakaumaa suoraan aineiston perusteella

Uskottavuusfunktio kun aineistosta estimoidaan jakauman parametreja, yleisimmin käytetty kustannusfunktio ratkaisun hyvyydelle on uskottavuusfunktio (likelihood function) esimerkki: parametriseksi malliksi on valittu 1-ulotteinen normaalijakauma, josta havainnot x 1,..., x n oletetaan riippumattomiksi otoksiksi f (x 1,..., x n ; µ, σ 2 ) = n 1 { 2πσ exp 1 2 2σ 2 (x i µ) 2} i=1 kun funktiota tarkastellaan siten, että parametrit ovat muuttujia ja aineisto kiinnitetty, sitä nimitetään uskottavuusfunktioksi funktion arvon maksimoivia parametrien arvoja nimitetään (aineiston) suurimman uskottavuuden estimaateiksi (maximum likelihood estimates)

Esimerkki datapisteiden tn-tiheydet palkkien korkeudet suurimman uskottavuuden estimointi: löydettävä sellainen normaalijakauma (ts. sellaiset µ ja σ 2 ), että tiheyksien tulo maksimoituu

Sekoitemallit sekoitemallien tapauksessa oletetaan, että aineisto on peräisin K :sta parametrisesta jakaumasta esimerkiksi K :sta (multi)normaalijakaumasta, joilla on erilaiset parametrit (odotusarvo, kovarianssimatriisi) mutta emme tiedä jakaumien parametreja emmekä sitä, mikä havainto on peräisin mistäkin jakaumasta!

Esimerkki

Sekoitemallit tarkastellaan mielivaltaista datavektoria x; oletuksemme on, että se on peräisin yhdestä lähteestä otetaan käyttöön lähteen ilmaiseva muuttuja Cl (arvoalue kokonaisluvut 1,..., K ) voimme ilmaista yhteistodennäköisyyden p(x, Cl) = p(x Cl)p(Cl) siis esim. todennäköisyys, että x on peräisin lähteestä Cl = k, on p(x Cl = k)p(cl = k) saamme (marginaali)todennäköisyyden x:lle summaamalla eri lähteistä peräisin olemisen todennäköisyydet p(x) = K p(x Cl = k)p(cl = k) k=1

Sekoitemallit jakaumia p(x Cl) mallinnetaan jollakin parametrisella jakaumalla, kuten multinormaalijakaumalla olkoon parametrinen jakauma k:nnelle lähteelle f k (x; θ k ), missä θ k on jakauman parametrien vektori tällaista komponenteista koostuvaa mallia nimitetään äärelliseksi sekoitemalliksi (nite mixture model); se on muotoa p(x) = K π k f k (x, θ k ) k=1 f 1,..., f K ovat komponenttijakaumat π 1,..., π K ovat sekoitussuhteet tai painot; π k ilmaisee todennäköisyyden, että komponentti k on tuottanut satunnaisesti valitun datavektorin mallin parametrit Θ: komponenttijakaumien parametrivektorit ja sekoitussuhteet π 1,..., π K

Esimerkki, 1-d

Esimerkki, 2-d

Klusterointi oletetaan (vain hetkeksi) että tunnemme komponenttijakaumien parametrien arvot ja komponenttien sekoitussuhteet voimme arvioida havaintomme lähteen todennäköisyyttä soveltamalla Bayesin kaavaa p(cl x, Θ) = p(x Cl, Θ)p(Cl Θ) p(x Θ) tässä p(x Θ) = K k=1 π k f k (x; θ k ) x:n lähteeksi voidaan veikata todennäköisintä vaihtoehtoa emme kuitenkaan tunne mallin parametreja aineistosta on estimoitava samanaikaisesti komponenttimallien parametreja ja luokkamuuttujia

Uskottavuuden maksimointi kun malli sisältää vain yhden komponentin ja aineiston otokset ovat riippumattomia, log-uskottavuusfunktio on useiden parametristen mallien tapauksessa sellaista muotoa, että suurimman uskottavuuden estimaattien laskeminen voidaan tehdä suljetussa muodossa sekoitemallien sisältämä summatermi hankaloittaa huomattavasti log-uskottavuusfunktion maksimoimista l(θ) = ln( Cl p(x 1,..., x n, Cl θ 1,..., θ K, π 1,..., π K ))

Uskottavuuden maksimointi tehdään ajatusleikki: jos joku kertoisi, mistä lähteestä mikäkin datavektori on peräisin, summatermistä päästäisiin eroon aineisto voitaisiin jakaa K osaan ja kunkin komponenttijakauman f k (x; θ k ) parametrien suurimman uskottavuuden estimaatit voitaisiin etsiä erikseen kyseisestä lähteestä peräisin olevien datavektorien avulla (samalla klusterointikin olisi tullut hoidettua ja voitaisiin lopettaa tyytyväisinä ;-)

Esimerkki täydellinen data ja epätäydellinen data

Uskottavuuden maksimointi todellisuudessa ei tietenkään ole tietoa luokkamuuttujien arvoista käytettävissä on ainoastaan aineistolla ja parametrivektorien kiinnitetyillä arvoilla ehdollistetut posterioritodennäköisyydet p(cl x, Θ) = p(x Cl, Θ)p(Cl Θ) p(x Θ)

Esimerkki

EM-algoritmi on leikitelty vuoroin ajatuksella, että tiedämme luokkamuuttujien arvot, jolloin voisimme estimoida helpohkosti parametrien arvot tiedämme parametrien arvot, jolloin voisimme arvioida kunkin datavektorin kohdalla luokkamuuttujan eri arvojen luultavuutta, ts. havainnon todennäköisintä lähdettä EM-algoritmi perustuu näiden molempien ajatusten vuorottelulle

EM-algoritmi alustetaan muuttujille π 1,..., π K, θ 1,..., θ K Sen jälkeen iteroidaan seuraavia askelia: alkuarvot 1. E-askel: estimoidaan piilomuuttujien ehdollista jakaumaa, kun parametrivektorin arvot on kiinnitetty 2. M-askel: valitaan parametreille uudet arvot siten, että ne maksimoivat uskottavuuden, kun piilomuuttujien jakauma on kiinnitetty... kunnes lopettamiskriteeri täyttyy (parametrien arvot eivät enää muutu tai log-uskottavuusfunktion arvo muuttuu enää vähän)

E-askel hetki sitten todettiin, että jos Θ = (θ 1,..., θ K, π 1,..., π K ) tunnetaan, niin datavektorin x kuhunkin klusteriin kuulumisen (posteriori)todennäköisyys saadaan Bayesin kaavasta p(cl x, Θ) = p(x Cl, Θ)p(Cl Θ) p(x Θ) tässä p(x Θ) = K k=1 π k f k (x, θ k ) tämä on E-askel

Esimerkki: E-askel yksiulotteisten normaalijakaumien sekoitteessa E-askel: estimoidaan luokkamuuttujien ehdolliset todennäköisyydet kullekin havainnolle x i ˆP(Cl = k x i, µ, σ 2 ) = π k f k (x i µ k, σ k ) K i=1 π i f i (x i µ i, σ i )

M-askel yksiulotteisten normaalijakaumien sekoitteessa maksimoidaan π 1,..., π K, µ 1,..., µ K, σ 1,..., σ K ˆπ k = 1 n ˆµ k = 1 nˆπ k ˆσ k = 1 nˆπ k n ˆP(Cl = k x i ) i=1 n x i ˆP(Cl = k xi ) i=1 n (x i ˆµ k ) 2 ˆP(Cl = k xi ) i=1

EM-algoritmin toimivuudesta voidaan osoittaa, että EM-algoritmin askeleet eivät voi pienentää uskottavuusfunktion arvoa algoritmi konvergoi aina (vähintään) uskottavuuden lokaaliin maksimikohtaan valittu alkutila vaikuttaa tulokseen

Aikavaativuudesta multinormaalijakaumien sekoitteella EM-algoritmin aikavaativuutta dominoi kovarianssimatriisin parametrien estimointi K lähdettä, d dimensiota, O(Kd 2 ) kovarianssiparametria kunkin kohdalla tarvitaan n havainnon läpikäymistä yhden askeleen aikavaativuus luokkaao(kd 2 n)

Ongelmia konvergoituminen voi kestää kauan, jos paljon dataa ja/tai dimensioiden määrä on suuri korkeaulotteisissa avaruuksissa lokaaleja maksimikohtaia on yleensä paljon (uskottavuusfunktio ei ole konveksi ja on luultavasti 'piikikäs') herkkyys valitulle alkutilalle lähteiden määrää vaikea arvata etukäteen tarvitaan ajoja eri K :n arvoilla hidasta poikkeavien havaintojen vaikutus uskottavuuden maksimointi voi joskus johtaa ongelmiin: jos komponentin odotusarvoestimaatti osuu täsmälleen jonkin datapisteen kohdalle, uskottavuuden arvo voi kasvaa rajattomasti (uskottavuuden maksimoinnin sijasta voidaan siirtyä Bayes-päättelyyn ja maksimoida MAP (Maximum A Posteriori) -funktiota)

EM-algoritmi ja K:n keskipisteen klusterointi tarkastellaan seuraavanlaisten multinormaalimallien sekoitetta: p(x µ k, Σ k ) = 1 2πɛ exp { 1 2ɛ x µ k 2} (kovarianssimatriisi on diagonaalimatriisi, jonka jokainen nollasta poikkeava arvo on kiinteä ɛ)

EM-algoritmi ja K:n keskipisteen klusterointi K :n edellä mainittua muotoa olevan multinormaalijakauman sekoitus + uskottavuuden maksimointiin EM-algoritmilla perustuva ryvästys klusterijäsenyyksien posterioritodennäköisyydet datavektorille x : p(cl = k x, µ k ) = π k exp{ x n µ k 2 /2ɛ} π j j exp{ x n µ j 2 /2ɛ} kun ɛ 0, kaikille k {1,..., K} yhtä lukuunottamatta p(cl = k x, µ k ) 0 siinä yhdessä jäljelle jäävässä tapauksessa todennäköisyys lähestyy ykköstä EM-algoritmi yhtyy tällä rajalla K :n keskipisteen ryvästysalgoritmiin

Esimerkki: K-means ja gaussinen sekoitemalli

Esimerkki: K-means ja gaussinen sekoitemalli

Mallipohjainen klusterointi Näin helppoa :-) määritä kuinka monta klusteria (K ) valitse parametrinen malliperhe (f ), esim. multinormaalijakauma sovella EM-algoritmia, jolla estimoidaan parametrit θ k, π k aineistosta

Lopuksi Ei kun klusteroimaan (tai ryvästämään)...... mutta niin mukavaa kuin ryvästäminen onkin, niin pidetään pää kylmänä :-)