10. lokakuuta 2011 Basics of Multivariate Methods 2011 Laskuharjoitus 4: Itseorganisoituva kartta (SOM) ja Sammon-kartta

Samankaltaiset tiedostot
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

805306A Johdatus monimuuttujamenetelmiin, 5 op

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Johdatus tekoälyn taustalla olevaan matematiikkaan

Lajittelumenetelmät ilmakehän kaukokartoituksen laadun tarkkailussa (valmiin työn esittely)

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Algoritmit 1. Luento 10 Ke Timo Männikkö

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

1 JOHDANTO 3 2 LÄHTÖTIEDOT JA MENETELMÄT 4

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Preliminäärikoe Tehtävät A-osio Pitkä matematiikka kevät 2016 Sivu 1 / 4

a) Sievennä lauseke 1+x , kun x 0jax 1. b) Aseta luvut 2, 5 suuruusjärjestykseen ja perustele vastauksesi. 3 3 ja

MS-C1340 Lineaarialgebra ja

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 1 / vko 44

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

JOHDATUS TEKOÄLYYN TEEMU ROOS

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Kertausosa. 5. Merkitään sädettä kirjaimella r. Kaaren pituus on tällöin r a) sin = 0, , c) tan = 0,

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Vanhoja koetehtäviä. Analyyttinen geometria 2016

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Y ja

Matriisilaskenta Laskuharjoitus 1 - Ratkaisut / vko 37

Diskriminanttianalyysi I

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Kognitiivinen mallintaminen. Nelli Salminen

Numeerinen analyysi Harjoitus 3 / Kevät 2017

7. laskuharjoituskierros, vko 10, ratkaisut

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Luku 7. Itseorganisoiva kartta

JOHDATUS TEKOÄLYYN TEEMU ROOS

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

BM20A5800 Funktiot, lineaarialgebra ja vektorit Harjoitus 4, Syksy 2016

Esimerkki 1: auringonkukan kasvun kuvailu

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

ImageRecognition toteutus

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

Harjoitus 3 ( )

Mallipohjainen klusterointi

5.3 Suoran ja toisen asteen käyrän yhteiset pisteet

Luentorunko perjantaille

Harjoitus 3 ( )

Harjoitustyöraportti Tiedonlouhinta

Laskuharjoitus 9, tehtävä 6

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

POHDIN - projekti. Funktio. Vektoriarvoinen funktio

Tällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö

MATEMATIIKAN KOE, LYHYT OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

S Laskennallinen Neurotiede

Digitaalitekniikan matematiikka Luku 5 Sivu 1 (22) Lausekkeiden sieventäminen F C F = B + A C. Espresso F = A (A + B) = A A + A B = A B

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

y=-3x+2 y=2x-3 y=3x+2 x = = 6

Lauseen erikoistapaus on ollut kevään 2001 ylioppilaskirjoitusten pitkän matematiikan kokeessa seuraavassa muodossa:

Kognitiivinen mallintaminen Neuraalimallinnus, luento 1

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 1: Parametrisoidut käyrät ja kaarenpituus

Mikä neljästä numeroidusta kuviosta jatkaa alkuperäistä kuviosarjaa? Perustele lyhyesti

12. Derivointioperaattoreista geometrisissa avaruuksissa

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 3 /

Numeeriset menetelmät

Mediaanisuodattimet. Tähän asti käsitellyt suodattimet ovat olleet lineaarisia. Niille on tyypillistä, että. niiden ominaisuudet tunnetaan hyvin

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

JOHDATUS TEKOÄLYYN TEEMU ROOS

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

3 Suorat ja tasot. 3.1 Suora. Tässä luvussa käsitellään avaruuksien R 2 ja R 3 suoria ja tasoja vektoreiden näkökulmasta.

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Sovellusohjelmointi Matlab-ympäristössä: Vertaisverkon koneiden klusterointi

ax + y + 2z = 0 2x + y + az = b 2. Kuvassa alla on esitetty nesteen virtaus eräässä putkistossa.

Laskuharjoitus 7 Ratkaisut

Ongelma(t): Miten digitaalista tietoa voidaan toisintaa ja visualisoida? Miten monimutkaista tietoa voidaan toisintaa ja visualisoida?

Metropolia ammattikorkeakoulu TI00AA : Ohjelmointi Kotitehtävät 3 opettaja: Pasi Ranne

Pisan 2012 tulokset ja johtopäätökset

Tutkimustiedonhallinnan peruskurssi

Diskreetin satunnaismuuttujan odotusarvo, keskihajonta ja varianssi

Insinöörimatematiikka D

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 2 / vko 45

Otantajakauman käyttö päättelyssä

MTTTP1, luento KERTAUSTA

Hiidenveden vedenlaatu

MATEMATIIKAN KOE, PITKÄ OPPIMÄÄRÄ HYVÄN VASTAUKSEN PIIRTEITÄ

7.4 PERUSPISTEIDEN SIJAINTI

2. Seuraavassa kuvassa on verkon solmujen topologinen järjestys: x t v q z u s y w r. Kuva 1: Tehtävän 2 solmut järjestettynä topologisesti.

T Luonnollisten kielten tilastollinen käsittely

Tilkkuilijan värit. Saana Karlsson

Taso 1/5 Sisältö ESITIEDOT: vektori, koordinaatistot, piste, suora

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilannekuvaukset

Digitaalinen signaalinkäsittely Kuvankäsittely

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Transkriptio:

Nina Hänninen nhannine@student.uef.fi 10. lokakuuta 2011 Mikko Kolehmainen Basics of Multivariate Methods 2011 Laskuharjoitus 4: Itseorganisoituva kartta (SOM) ja Sammon-kartta

1 Johdanto Itseorganisoituva kartta (SOM) ja Sammon-kartta ovat tehokkaita menetelmiä monidimensioisen datan analysoimiseen ja klusteroimiseen. SOM-menetelmässä datan muuttujien väliset suhteet esitetään yksinkertaisina geometrisina suhteina kaksiulotteisessa kartassa. SOM-karttaa voidaan kuvata myös U-matriisin avulla, jossa jokaiselle alkiolle lasketaan sen keskimääräinen etäisyys naapurialkioista. Sammon-kartta taas kuvaa datavektoreiden suhteellisia etäisyyksiä toisistaan. Klusterointi on mahdollista sekä SOM- että Sammon-kartan perusteella. SOM-kartassa alkiot ovat järjestyneet siten, että samantyyppiset alkiot ovat vierekkäin ja niistä voidaan muodostaa klustereita. Klustereiden muodostamiseen voidaan lisäksi hyödyntää U-matriisin antamaa tietoa alkioiden välisistä etäisyyksistä. Sammon-kartasta klustereita voidaan etsiä lähekkäimmin toisiinsa nähden sijaitsevista alkioista. Tässä työssä tutustuttiin itseorganisoituvaan karttaan (SOM) sekä Sammon-karttaan analysoimalla niiden avulla ilmanlaatumittauksesta saatua dataa. Datalle muodostettiin esikäsittelyn jälkeen SOM-kartta, jonka ominaisuuksia tarkasteltiin erilaisten kuvaajien ja U-matriisin avulla. SOM-kartan perusteella määritettiin myös Sammon-kartta, jonka jälkeen datasta pyrittiin näiden karttojen avulla löytämään klustereita. Lopuksi klustereille pyrittiin löytämään ilmanlaatua kuvaavat selitykset klustereista saatavien tietojen avulla. 2 Materiaalit ja menetelmät 2.1 Itseorganisoituva kartta (SOM) Itseorganisoituva kartta (Self-organizing map, SOM) on tehokas väline monidimensioisen datan esittämiseen. Sen avulla monidimensioisen datan muuttujien monimutkaiset suhteet toisiinsa voidaan esittää yksinkertaisina geometrisina suhteina, esimerkiksi kaksiulotteisena karttana. [1] SOM-kartta koostuu M kappaleesta neuroneita, jotka ovat järjestäytyneet kaksiulotteiseksi verkoksi. Jokaisella neuronilla on oma painovektorinsa w m = (w m1, w m2,..., w mp ), m = 1,..., M, jossa painojen lukumäärä on sama kuin mitattujen muuttujien lukumäärä p. Painovektorit alustetaan satunnaisilla arvoilla, jonka jälkeen jokaiselle datavektorille x i etsitään sitä parhaiten vastaava neuroni (Best-Matching Unit, BMU), eli neuroni, joka on Euklidisen etäisyyden suhteen lähimpänä datavektoria: missä W sisältää kaikki painovektorit. c(x i, W) = arg min j x i w j, (1) 1

BMU:n ja sen naapurifunktion mukaan määritettävien naapurineuronien painot päivitetään seuraavan yhtälön mukaisesti kohti datavektoria x i : w m (t + 1) = w m (t) + h cm (t) [x i w m (t)], (2) missä t on iteraatiokierroksen järjestysluku, c BMU:n indeksi ja m päivitettävän neuronin indeksi. Naapurifunktio h cm määritellään Gaussiselle funktiolle: h cm (t) = α(t) exp ( r c r m 2 2σ 2 (t) ), (3) missä r c ja r m ovat vastaavien neuronien paikkavektorit, σ(t) on kernelin leveys ja α(t) oppimiskykykerroin (learning rate factor). Algoritmin konvergoitumisen jälkeen voidaan muodostaa kaksiulotteinen SOM-kartta. Kartan ominaisuutena on, että se on approksimaatio alkuperäisestä datasta, sillä painovektorit tiivistävät alkuperäisen datan informaatiota. Kartta on myös topologisesti järjestynyt, eli neuronin paikka verkossa vastaa tiettyä alkuperäisen datan ominaisuutta, joten lähekkäiset neuronit ovat keskenään samantyyppisiä. SOM-kartan muita piirteitä on se, että se heijastaa alkuperäisen datan jakaumaa ja että se osaa valita parhaat ominaisuudet datan jakauman approksimointiin, vaikka kyseessä olisi epälineaarinen jakauma. Tämä on etu verrattuna esimerkiksi PCA-algoritmiin, joka pystyy löytämään vain lineaariset jakaumat. [2] 2.2 U-matriisi Eräs tapa kuvata SOM-karttaa on esittää se U-matriisina. U-matriisi (Unified Distance Matrix) kuvaa SOM-kartan neuronien välisiä suhteellisia etäisyyksiä. Neuronin etäisyys naapurineuroneihin lasketaan kaavalla: d umat (w i ) = 1 N N w i w j, j S NN, (4) j=1 missä N on naapurineuronien lukumäärä vektorille w i ja S NN kuvaa naapurineuronien joukkoa. Tuloksena saadaan jokaiselle neuronille etäisyyttä kuvaava lukuarvo, joka voidaan esittää harmaasävynä tai Z-akselin arvona kolmiulotteisessa kuvaajassa. Matalat vierekkäiset arvot (vaalea harmaasävy) kuvaavat lähekkäin olevia alueita, eli niistä voidaan muodostaa klustereita, kun taas suuret arvot toimivat klustereita erottavina alueina. [2, 3] 2

2.3 Sammon-kartta (Sammon s mapping) Sammon-kartta on epälineaarinen kartta-algoritmi, jonka tarkoituksena on esittää p-dimensioisen avaruuden pisteet kaksiulotteisesti. Tämä suoritetaan niin, että alkuperäisten mittausdatavektoreiden rakenne säilyy mahdollisimman hyvin. Sammon-kartta kuvaa datavektoreiden suhteellisia etäisyyksiä toisistaan, joten menetelmä on hyödyllinen klustereiden ja niiden välisten etäisyyksien määrittelemiseen. Sammon-kartta toimii samantapaisesti kuin SOM, mutta on laskennallisesti vaativampi. Suuren datan käsittelyssä onkin yleensä parasta yhdistää nämä kaksi menetelmää esimerkiksi siten, että Sammon-kartan alustamiseen käytetään SOM-algoritmilla saatuja painovektoreita. [2] 2.4 Työn toteutus Työssä käsiteltävänä oli ilmanlaatumittausdata (toolodata). Data sisälsi mittaustulokset vuoden ajalta seitsemästä eri muuttujasta, joista neljä kuvaa erilaisten ilmansaasteiden konsentraatioita (NO 2, O 3, CO, PM10) ja kolme säätä (lämpötila, kosteus, tuulennopeus). Datan analysointi suoritettiin Visual Data -ohjelmistolla. Aluksi datalle suoritettiin esikäsittelyä (preprocessing) vertailemalla erilaisia esikäsittelymetodeja: tasoittaminen (equalizing), normalisointi (normalization) sekä varianssiin perustuva tasoittaminen (variance-based equalizing). Näistä parhaan tuloksen antava menetelmä valittiin jatkokäsittelyä varten. Seuraavaksi muodostettiin datalle SOM-kartta ja tarkasteltiin erilaisten kuvaajien antamaa informaatiota datasta (pylväsdiagrammit, viivadiagrammit, U-matriisi). SOM-kartan perusteella muodostettiin myös Sammon-kartta, jonka tuottamaa tietoa sopivista klustereista verrattiin SOM-kartan klustereihin. Klusterit muodostettiin karttojen avulla. Klustereille piirrettiin histogrammeja, joiden avulla klustereiden tiedot säästä, ajankohdasta ja ilmansaasteista koottiin taulukkoon ja näiden perusteella klustereille pyrittiin löytämään selitykset ilmanlaadun suhteen. 3

3 Tulokset Eri esikäsittelymenetelmistä yhdistelmä equalizing-normalisation vaikutti antavan parhaan tuloksen, joten se valittiin käytettäväksi. Kuvassa 1 on esitetty esikäsitelty data, jossa pylväsdiagrammit kuvaavat saastemuuttujia (NO 2, CO, PM10). Kuva 1: Esikäsitelty data. Pylväsdiagrammit kuvaavat ilmansaasteiden konsentraatioita: vihreä = NO 2, sininen = CO, keltainen = PM10. 4

Pylväsdiagrammien avulla voidaan havaita datan jaottumista tietynlaisiin joukkoihin, klustereihin. Solujen viivadiagrammeja vertaamalla voitiin havaita, että hajontaa eri soluissa eri muuttujien suhteen on eri määrä. Esimerkki yhtä solua kuvaavasta viivadiagrammista on esitetty kuvassa 2. Kuvan 2 viivadiagrammissa vaihtelu on varsin pientä. Datan U-matriisi on esitetty kuvassa 3. U-matriisissa voidaan havaita korkeampia alueita sekä matalampia laaksoja, joita voidaan käyttää hyväksi klustereiden muodostamisessa. Kuva 2: Viivadiagrammi yhdestä solusta. Kuva 3: U-matriisi. 5

SOM-kartasta muodostettu Sammon-kartta on esitetty kuvassa 4. Kartassa on paljon pisteitä, joten klusterit eivät kovin hyvin erotu toisistaan. Klusterit valittiin SOM-kartasta kuvan 5 mukaisesti. Kun Sammon-kartta piirrettiin uudestaan käyttämällä vain klustereihin kuuluvia pisteitä, kartasta tuli selkeämpi ja klusterit voitiin siitäkin erottaa (Kuva 6). Kuva 4: Sammon-kartta. Ympyrän sädee kuvaa datapisteiden määrää. 6

Kuva 5: Valitut klusterit. Vihreä = k1, tummansininen = k2, keltainen = k3, vaaleanpunainen = k4, vaaleansininen = k5, oranssi = k6 (vrt. Sammon-kartta, Kuva 6). Kuva 6: Sammon-kartta klustereista (kartasta on selkeyden vuoksi poistettu klustereihin kuulumattomat pisteet, eikä ympyröiden sädettä ole skaalattu kuten kuvassa 4). 7

Klustereista muodostetut histogrammit eri ilmansaasteiden osalta on esitetty kuvissa 7-9. Histogrammien avulla kootut klustereiden tiedot säästä, ajankohdasta ja ilmansaasteista on esitetty taulukossa 1. Taulukossa 1 on myös tietojen perusteella löydetyt selitykset ilmanlaadulle eri klustereissa. Kuva 7: Klusterien histogrammi NO 2 -konsentraation suhteen. Kuva 8: Klusterien histogrammi CO-konsentraation suhteen. Kuva 9: Klusterien histogrammi PM10-konsentraation suhteen. 8

Taulukko 1: Klusterien ajankohta-, sää- ja ilmanlaatutiedot sekä klustereiden ilmanlaadulle löydetyt selitykset. Vuoden- Kello Tuuli Lämpö- Ilman- Selitys aika (m/s) tila saasteet k1 kevät 11-13 5-7 0-5 C korkea PM10 k2 talvi 4-7 1-2 -15 C korkeat NO 2, CO ja PM10 k3 kevät, syksy 15-20 1-2 -3-+15 C korkeat NO 2, CO ja PM10 Katupöly Kylmällä talvi-ilmalla esiintyvä inversio-ilmiö estää ilmansaasteiden sekoittumista Liikenne, heikko tuuli ei sekoita ilmaa k4 talvi 11-13 5-7 -3 C matalat Tuuli sekoittaa ilman k5 kevät 5-12 1-3 -5 C nousseet CO, PM10 k6 kevät 9-11 1-3 +3 C noussut PM10 Aamuliikenne, katupöly, heikko tuuli ei sekoita ilmaa Katupöly, heikko tuuli ei sekoita ilmaa 9

4 Johtopäätökset SOM-kartan avulla ilmanlaatumittausdata saatiin järjestettyä selkeäksi kartaksi. Jotta tähän lopputulokseen päästiin, täytyi data ensin esikäsitellä sopivasti ja valita pylväsdiagrammikuvaajiin sopivat muuttujat. Tämän jälkeen SOM-kartasta oli suhteellisen helppo määrittää sopivat klusterit. SOM-kartan pohjalta piirretty Sammon-kartta oli suuren pistemäärän takia epäselvä, joten klustereiden valintaan SOM-kartta oli parempi kuin Sammon-kartta. Sammon-kartta olisi ehkä täytynyt määrittää pienemmällä joukolla pisteitä, jolloin siitä olisi voinut tulla havainnollisempi. Klusterit nimittäin näkyivät Sammon-kartassakin varsin selkeästi, kun siitä ensin poistettiin ylimääräiset klustereihin kuulumattomat pisteet. Tällöin Sammonkartta antoi varsin yhdenmukaista tietoa SOM-karttaan verrattuna klustereiden välisistä etäisyyksistä (Kuvat 5 ja 6), eli klusterit ovat sijoittuneet suhteessa toisiinsa nähden kummassakin kartassa suurinpiirtein samalla tavalla. Joka tapauksessa sopivin menetelmä klusterointiin riippuu analysoitavasta datasta ja sen rakenteesta, joten yleensä kumpaakin menetelmää on syytä tarkastella parhaan tuloksen saavuttamiseksi. Klustereiden selittämiseksi täytyy tarkemmin tutkia niiden tietoja esimerkiksi histogrammien avulla. Histogrammeista nähtiin, että klusterit olivat melko selkeästi jakautuneet eri muuttujien suhteen. Havaittiin myös, että klustereiden analysoiminen oli helpompaa, jos klustereihin ei ollut valittu liikaa pisteitä, jolloin klustereiden väliset erot näkyivät histogrammeissa selkeämmin. SOM- ja Sammon-kartan avulla ilmanlaatudata saatiin jaettua kuuteen klusteriin, joille etsittiin ajankohdasta, säästä ja ilmansaasteista kertovat tiedot. Näiden perusteella pystyttiin löytämään yksinkertaiset selitykset klustereiden ilmanlaadulle, kun havaittiin klustereiden kuvaavaan tiettyä vuoden- tai vuorokaudenaikaa tietyillä sääparametreilla (Taulukko 1). SOM- ja Sammon-kartat vaikuttivat siis olevan varsin tehokkaita menetelmiä ainakin tämäntyyppisen datan käsittelyyn, koska selittäviin tuloksiin päästiin jo melko pienellä vaivalla. Toki vielä useamman muuttujan dataa analysoitaessa aikaa kuluu paljon sopivien muuttujien valitsemiseen, mutta kaiken kaikkiaan datasta voidaan SOM- ja Sammon-karttojen avulla näppärästi löytää ominaisuuksia, joita ei välttämättä muuten helposti huomaisi. 10

Viitteet [1] Kohonen Teuvo The Self-Organizing Map Helsinki University of Technology: Laboratory of Computer and Information Science 2005 http://www.cis.hut.fi/projects/somtoolbox/theory/somalgorithm.shtml, 10.10.2011 [2] Kolehmainen Mikko Lecture Notes on Basics of Multivariate Methods Itä-Suomen Yliopisto, Luonnontieteiden ja metsätieteiden tiedekunnan opintojakson Basics of Multivariate Methods luentomoniste 2011 [3] Hollmen Jaakko U-matrix TKK 1996 http://users.ics.tkk.fi/jhollmen/dippa/node24.html, 10.10.2011 11