Klusterointiongelma. Luento 6: Klusterointi. Usein suotavia ominaisuuksia. Usein suotavia ominaisuuksia

Samankaltaiset tiedostot
805306A Johdatus monimuuttujamenetelmiin, 5 op

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Luentorunko keskiviikolle Hierarkkinen ryvästäminen

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luentorunko perjantaille

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Hierarkkinen ryvästäminen

Mallipohjainen klusterointi

Bayesilainen päätöksenteko / Bayesian decision theory

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

riippumattomia ja noudattavat samaa jakaumaa.

Sovellettu todennäköisyyslaskenta B

Hierarkkinen klusterointi

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Tilastollinen aineisto Luottamusväli

Osa 2: Otokset, otosjakaumat ja estimointi

Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

Estimointi. Vilkkumaa / Kuusinen 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Maximum likelihood-estimointi Alkeet

pitkittäisaineistoissa

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

pitkittäisaineistoissa

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

805306A Johdatus monimuuttujamenetelmiin, 5 op

TILASTOLLINEN OPPIMINEN

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Harjoitus 7: NCSS - Tilastollinen analyysi

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Todennäköisyyden ominaisuuksia

Tämän luvun sisältö. Luku 6. Hahmontunnistuksen perusteita. Luokittelu (2) Luokittelu

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Algoritmit 2. Luento 11 Ti Timo Männikkö

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Probabilistiset mallit (osa 2) Matemaattisen mallinnuksen kurssi Kevät 2002, luento 10, osa 2 Jorma Merikoski Tampereen yliopisto

2. Uskottavuus ja informaatio

30A02000 Tilastotieteen perusteet

Tutkimustiedonhallinnan peruskurssi

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Johdatus tn-laskentaan torstai

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Moniulotteisia todennäköisyysjakaumia

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Tämän luvun sisältö. Luku 5. Estimointiteorian perusteita. Perusjakaumat 1-ulotteisina (2) Perusjakaumat 1-ulotteisina

Algoritmit 2. Luento 13 Ti Timo Männikkö

Laskennallinen data-analyysi II

Sovellettu todennäköisyyslaskenta B

Ongelmien ja menetelmien tyypittelyä. Käyttötarkoituksia. Konsistentti ja epäkonsistentti data. Esimerkki: Deterministinen luokittelu

Algoritmit 2. Luento 8 To Timo Männikkö

Mat Sovellettu todennäköisyyslasku A

4. Seuraavaan ristiintaulukkoon on kerätty tehtaassa valmistettujen toimivien ja ei-toimivien leikkijunien lukumäärät eri työvuoroissa:

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

Kombinatorinen optimointi

Laskennallinen data-analyysi II

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luku 5. Estimointiteorian perusteita

3.6 Su-estimaattorien asymptotiikka

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

T Luonnollisten kielten tilastollinen käsittely

3. laskuharjoituskierros, vko 6, ratkaisut

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Algoritmit 2. Luento 7 Ti Timo Männikkö

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Sovellettu todennäköisyyslaskenta B

tilastotieteen kertaus

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Harjoitus 2: Matlab - Statistical Toolbox

6. laskuharjoitusten vastaukset (viikot 10 11)

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Diskriminanttianalyysi I

Numeeriset menetelmät

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Transkriptio:

Luento 6: Klusterointi Klusterointiongelma etäisyys-/erilaisuusfunktiot dimensionaalisuuden kirous (curse of dimensionality) Menetelmien pääluokat 1. Osittavat 2. Hierarkiset 3. Malliperustaiset (tiheysfunktioihin perustuvat) Mikon esitys tasapainoisesta klusteroinnista Tiedonlouhinta 2013/L6 p. 1 Klusterointiongelma Intuitio: Halutaan löytää datan ryhmittely K:hon klusteriin c 1,...,c K, siten että klusterin sisäiset pisteet ovat lähekkäisiä/samankaltaisia mutta klusterien välillä on eroja/etäisyyksiä. Tarvitaan ainakin: K=klusterien lkm d=pisteiden etäisyys- tai erilaisuusfunktio D=klusterien etäisyys- tai erilaisuusfunktio kriteeri jolla arvioida klusteroinnin hyvyyttä (score function) (ei tarvita aina) klusterointimenetelmä vaikuttavat siihen, millaisia klustereita löytyy! Tiedonlouhinta 2013/L6 p. 2 Usein suotavia ominaisuuksia Ei rajoittavia oletuksia klusterin muodosta (eri klusterit voivat olla erimuotoisia) Samalla olisi hyvä tunnistaa ulkopuoliset Jos datassa ei selvästi erottuvia ryhmiä, niin pitäisi esittää jotenkin havainnollisesti klusterien päällekäisyys Klusterien lukumäärä haluttaisiin määrittää datasta Tasapainoisuus joskus suotavaa (esim. diskretointi), mutta dataa ei pidä väkisin pakottaa siihen (esim. ulkopuoliset, vähemmistöt) Lisäinformaationa mahdollisesti klusterien väliset suhteet (klusterihierarkia) tai datan tiheysjakauma Tiedonlouhinta 2013/L6 p. 3 Usein suotavia ominaisuuksia Jos datassa ei oikeasti ole ryhmiä, sekin olisi tärkeää saada selville! Vaara: Klusterointi voi luoda dataan (katsojan silmään) ryhmittelyn, vaikkei sitä olisikaan! Tiedonlouhinta 2013/L6 p. 4

Etäisyysfunktio numeeriselle datalle Merk. datapiste x=(x 1,..., x k ) (kaikkien k:n muuttujan arvot) yleisin d on L p -metriikka eli Minkowski-etäisyys (perhe etäisyysmittoja): 1/p k L p (x, y)= (x i y i ) p i=1 p R + kertoo mistä mitasta on kyse kun p=2, euklidinen etäisyys kun p = 1, Manhattan-etäisyys robustimpi mitta, kun pieni p Dimensionaalisuuden kirous (curse of dimensionality) Data-avaruuden tilavuus kasvaa eksponentiaalisesti dimension funktiotan avaruudesta tulee hyvin harva. Kaikki naapuripisteet kaukana eikä data riittäisi enää minkään mallin määritykseen. muitakin merkityksiä (kaikenlaiset suuresta dimensiosta seuraavat vaikeudet) klusteroinnin erityisongelma: ei enää selkeitä tihentymiä etäisyysmitta menettää merkityksenä, kun kaikkien pisteiden etäisyydet jokseenkin yhtä suuria Tiedonlouhinta 2013/L6 p. 5 euklidinen etäisyys L 2 kärsii erityisesti L 1 (tai L 0.5 tms. p<1) parempi Tiedonlouhinta 2013/L6 p. 7 Etäisyysfunktio numeeriselle datalle L p :t toimivat hyvin, kun klusterit tiiviitä ja hyvin erottuvia mutta eivät toimi, jos muuttujat eri skaalassa! Mitä jos yksi muuttuja grammoja, toinen milligrammoja ja kolmas senttejä?? Dimensionaalisuuden kirous (jatk.) Tiedonlouhinta 2013/L6 p. 6 epärelevantit muuttujat alkavat helposti dominoida mittaa Mitä jos k=20 mutta vain 2 muuttujaa relevantteja? Huom! aikavaativuuden kannalta datarivien lkm n kriittisempi ongelma. n pistettä voi jakaa K:hon klusteriin Kn K! eri tavalla yleensä klusterointiogelmat NP-kovia, mutta riippuu tietysti klusteroinnin määritelmästä! Tiedonlouhinta 2013/L6 p. 8

1. Osittavat menetelmät (partitioning) Idea: Siirrellään datapisteitä klusterista toiseen, kunnes hyvyysfunktio ei enää parane. Klusterien esitys=centroidit ( keskipisteet ) centroidin muuttuja-arvot yleensä keskiarvoja tai mediaaneja klusterien pisteiden muuttuja-arvoista tunnetuin menetelmä K-means K-means Minimoitava funktio S S E= k j=1 x i c j d 2 (x i, centroid(c j )) yleensä d=l 2 (euklidinen etäisyys) Oletus: klusterit erillisiä, tiiviitä hyperpalloja kärsii epärelevanteista muuttujista (erit. suuridimensioisessa datassa) voi tulla virheellisiä klustereita alkucentroidit valitaan satunnaisesti eri ajokerroilla eri tuloksia kannattaa ajaa useita kertoja! jos juuttuu lokaaliin optimiin tai oikeat klusterit eivät oletuksen mukaisia, tulee epäintuitiivisia tuloksia (usein huono oikean elämän datalla) Tiedonlouhinta 2013/L6 p. 9 Tiedonlouhinta 2013/L6 p. 10 Etuja ja haittoja + varsin tehokas + helppo toteuttaa hyvin rajoittunut oletus klustereista voi tuottaa epäintuitiivisia tai selvästi vääriä klusterointeja L 2 hyvin herkkä ulkopuolisille k-medians parempi L 2 ei sovi suuridimensioiselle datalle esim. L 1 parempi vaikea soveltaa kategoriselle tai sekadatalle parametrien valinta kriittistä Muita osittavia menetelmiä Muuttamalla klusteroinnin hyvyysfunktiota, voi tunnistaa myös hyperellipsoidit tai tuottaa samankokoisia tai suurinpiirtein smanamuotoisia klustereita. Smyth et al, luku 9.4.1! Tiedonlouhinta 2013/L6 p. 11 Tiedonlouhinta 2013/L6 p. 12

2. Hierarkiset menetelmät Dedrogrammeilla voi kuvata lajien geneettisiä sukulaissuhteita! Idea: Yhdistetään (tai ositetaan) klustereita hierarkisesti, kunnes jäljellä sopiva määrä klustereita. tuloksena saadaan dendrogrammi, joka kuvaa klusterien hierarkian dendrogrammin voi myös rakentaa loppuun asti (lehdissä 1-alkioiset klusterit ja juuressa koko datajoukko) ja valita sopivan lukumäärän jälkikäteen Tiedonlouhinta 2013/L6 p. 13 Lähde: Sörlie et al: Gene expression patterns of breast carcinomas distinguish tumor subclasses with clinical implications. PNAS vol. 98 no. 19, 2001. Tiedonlouhinta 2013/L6 p. 14 Dedrogrammin rakennus kaksi rakennustapaa: 1. Yhdistävät (agglomerative) menetelmät rakentavat dendrogrammia lehdistä juureen (yleisempi ja tehokkaampi) 2. Jakavat (divisive) menetelmät rakentavat juuresta lehtiin ei eksplisiittistä hyvyysmittaa Monia vaihtoehtoisia mittoja klusterien etäisyydelle D(c 1, c 2 ) hyvin erilaisia tuloksia! Klusterien etäisyysmittoja D(c 1, c 2 ) 1. Single-link: D(c 1, c 2 )=min x,y {d(x, y) x c 1, y c 2 } (lähimpien pisteiden etäisyys) 2. Complete-link: D(c 1, c 2 )=max x,y {d(x, y) x c 1, y c 2 } (kauimpien pisteiden etäisyys) 3. Centroid-mitta: D(c 1, c 2 )=d(centroid(c 1 ), centroid(c 2 )) x c 4. Average-link: D(c 1, c 2 )= 1 y c 2 d(x,y) c 1 c 2 (kaikkien pisteparien keskimääräinen etäisyys) 5. Minimum variance: D(c 1, c 2 )= c 1 c 2 d 2 (centroid(c 1 ),centroid(c 2 )) c 1 + c 2 (varianssin kasvu jos yhdistetään) Tiedonlouhinta 2013/L6 p. 15 Tiedonlouhinta 2013/L6 p. 16

Klusterien etäisyysmitat: Vertailua Vertailua (jatkuu) Mitta Klusterin muoto Huomioita Single pitkulaisia, sopii erillisille link epäsäännöllisiä epäsymmetrisille jopa sisäkkäisiä Epävakaa! (kohina) Complete pieniä, tiiviitä Ei löydä pitkulaisia link Ulkopuoliset sotkevat. Centroid- tiiviitä, erillisiä Joskus huonoja tuloksia. mitta hyperpalloja Tehokas laskea Aika robusti. Mitta Klusterin muoto Huomioita Average melko tiiviit, suuremmat Kehuttu! link voivat olla harvempia Robusti Minimum samanmuotoisia, jokseenkin Herkkä Variance samankokoisia, symmetrisiä ulkopuolisille! melko tiiviitä Tehokas laskea Tiedonlouhinta 2013/L6 p. 17 Tiedonlouhinta 2013/L6 p. 18 Etuja ja haittoja + käytännössä toimivat yleensä hyvin (joskin riippuu mitasta!) + dendrogrammi lisää informaatiota + klusterien lkm:n voi valita dendrogrammista + sovellettavissa myös ei-numeeriselle datalle, kunhan klusterien etäisyydelle mitta useimmilla mitoilla tulos riippuu datan järjestyksestä! (em:ista complete-, centroid-, average-link ja min. var) skaalautuvat huonosti suurille datoille (kun paljon rivejä) menetelmät eivät osaa korjata aiempia tasoja 3. Malliperustaiset (tiheysfunktioihin perustuvat) klusterointimenetelmät Idea: Määritetään koko datan tiheysjakauma, jolla data uskottavin. Samalla saadaan klusteroinnin probabilistinen kuvaus. sama idea kuin probabilistisessa luokittelussa! datapistettä ei määrätä deterministisesti vain yhteen klusteriin, vaan se voi kuulua eri todennäköisyyksillä eri klustereihin erittäin informatiivinen (enemmän kuin vain klusterointi) mutta vaikeaa tehdä hyvin... Tiedonlouhinta 2013/L6 p. 19 Tiedonlouhinta 2013/L6 p. 20

Tuloksena saatu datan tiheyskartta [Extra] Malliperustaisen klusteroinnin idea tarkemmin Jokaiselle klusterille c i (i=1,..., K) määritetään tiheysfunktio P(x c i,θ i ) kertoo todennäköisyyden, että piste x kuuluu klusteriin c i θ i sisältää kaikki parametrit (esim. keskiarvo ja keskihajonta, jos normaalijakauma) nämä siis tuntemattomia! prioritodennäköisyys P(c i ) (klusterin todennäköisyys, jos dataa ei tunnettaisi) Lähde: mclust, R-paketti tällaiseen! http://www.stat.washington.edu/mclust/ Tiedonlouhinta 2013/L6 p. 21 Tiedonlouhinta 2013/L6 p. 22 [Extra] Datan uskottavuus annettuna klusterointi [Extra] Miten ratkaista θ? Merk.θ=(θ 1,...,θ K ) Datapisteen x (posteriori) todennäköisyys koko mallissa on P(x θ) = K P(c i )P(x c i,θ i ) i=1 Jos todennäköisyys P(x θ) kovin pieni, piste ei sovi malliin ja se voidaan tulkita sen ulkopuoliseksi Koko datan uskottavuus annettuna klusterointi on silloin P(data θ)=π n j=1 P(x j θ) (eli kaikkien datapisteiden todennäköisyyksien tulo) Tiedonlouhinta 2013/L6 p. 23 Maximum likelihood-periaate: Valitaan sellainen θ, joka maksimoi P(data θ):n (eli data on uskottavin) vaihtoehtoisesti voisi mallintaa bayesläisittäin: P(θ data)= P(data θ)p(θ) P(data) Käytännössä ratkaistaan yleensä iteratiivisesti EM-algoritmilla Tiedonlouhinta 2013/L6 p. 24

Millainen todennäköisyysjakauma? Etuja Data yleensä moniulotteista, joten tarvitaan monen muuttujan tiheysfunktio! Yksinkertaisuuden vuoksi oletetaan yleensä, että muuttujat ovat toisistaan riippumattomia Epärealistista, mutta silloin yhteinen tiheysfunktio helppo esittää (yhden muuttujan tiheysfunktioiden tulona) Muuttujat voisi tehdä ensin riippumattomiksi (ainakin korreloimattomiksi) PCA:lla Numeerisille muuttujille oletetaan yleensä normaalijakauma + hyvin informatiivinen + voi hyvin erilaisia klustereita, myös päällekkäisiä + erittäin joustava (joka klusteri voisi noudattaa jopa erityyppistä jakaumaa) + tunnistaa samalla ulkopuoliset (ainakin periaatteessa) + toimii myös kategorisella datalla (mutta vaikeampaa) Tiedonlouhinta 2013/L6 p. 25 Tiedonlouhinta 2013/L6 p. 26 Haittoja tulokset riippuvat vahvasti oletetusta jakaumasta ja K:sta vaikea tietää ennalta oikeita jakaumatyyppejä! jos ol. normaalijakauma, ei robusti ulkopuolisille muuttujien riippumattomuuden oletus rajoittava! voi tulla huonoja tuloksia (ellei hoida esim. PCA:lla) vaikea käsitellä sekaisin numeerisia ja kategorisia muuttujia algoritmit hitaita EM-algoritmi suboptimaalinen ja voi joskus tuottaa huonoja tuloksia Esimerkkejä: Wekan K-means ja EM (Muuttujat rotan paino/g ja gon-rasva/mg, K = 5) Onko EM-klusterointi järkevä?? (ei kuvassa) Tiedonlouhinta 2013/L6 p. 27 Tiedonlouhinta 2013/L6 p. 28

Complete-, single-, average-link ja min. variance Tiedonlouhinta 2013/L6 p. 29