Ohjaamaton oppiminen. Marko Salmenkivi. Johdatus koneoppimiseen, syksy 2008

Samankaltaiset tiedostot
Ohjaamaton oppiminen. Juho Rousu. Laskennallinen Data-Analyysi I,

Luentorunko keskiviikolle Hierarkkinen ryvästäminen

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Luentorunko perjantaille

Hierarkkinen ryvästäminen

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Mallipohjainen klusterointi

Viikko 1: Johdantoa Matti Kääriäinen

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

riippumattomia ja noudattavat samaa jakaumaa.

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Harjoitus 7: NCSS - Tilastollinen analyysi

Datanäytteiden piirteiden skaalaus/normalisointi (1)

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Laskennallinen data-analyysi II

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

Tutkimustiedonhallinnan peruskurssi

1. Tilastollinen malli??

805306A Johdatus monimuuttujamenetelmiin, 5 op

Dynaamiset regressiomallit

Datatähti 2019 loppu

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Tiedonlouhinta ja sen mahdollisuudet

Aureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015

Mitä murteita Suomessa onkaan?

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Dynaamiset regressiomallit

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Sovellettu todennäköisyyslaskenta B

GeoGebra tutkivan oppimisen välineenä: havainto-hypoteesi-testaus

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MONISTE 2 Kirjoittanut Elina Katainen

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Oppijan saama palaute määrää oppimisen tyypin

1. Johdanto Todennäköisyysotanta Yksinkertainen satunnaisotanta Ositettu otanta Systemaattinen otanta...

Tilastollisia peruskäsitteitä ja Monte Carlo

Esimerkkejä vaativuusluokista

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Esimerkki: Tietoliikennekytkin

Järvi 1 Valkjärvi. Järvi 2 Sysijärvi

ALGORITMIT & OPPIMINEN

Tilastollinen aineisto Luottamusväli

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Tekoäly ja koneoppiminen metsävaratiedon apuna

Matemaatikot ja tilastotieteilijät

pitkittäisaineistoissa

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

JOHDATUS TEKOÄLYYN TEEMU ROOS

klusteroi data haluttuun määrään klustereita tee n-gram -mallit klustereista (tasoitus) estimoi sekoitteiden painokertoimet λ k

30A02000 Tilastotieteen perusteet

JOHDATUS TEKOÄLYYN TEEMU ROOS

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Algoritmit 1. Luento 10 Ke Timo Männikkö

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

JOHDATUS TEKOÄLYYN TEEMU ROOS

Monitasomallit koulututkimuksessa

Kirjoita ohjelma jossa luetaan kokonaislukuja taulukkoon (saat itse päättää taulun koon, kunhan koko on vähintään 10)

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

TILASTOLLINEN OPPIMINEN

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Poikkeavuuksien havainnointi (palvelinlokeista)

dx=5&uilang=fi&lang=fi&lvv=2014

JOHDATUS TEKOÄLYYN TEEMU ROOS

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

JOHDATUS TEKOÄLYYN TEEMU ROOS

DOB valmennus Data-analyysi. Koneoppiminen. CC by

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Trichoderma reesein geenisäätelyverkoston ennustaminen Oskari Vinko

9. Tila-avaruusmallit

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

JOHDATUS TEKOÄLYYN TEEMU ROOS

Infraäänimittaukset. DI Antti Aunio, Aunio Group Oy

Identifiointiprosessi

Signaalien generointi

T DATASTA TIETOON

Uolevin reitti. Kuvaus. Syöte (stdin) Tuloste (stdout) Esimerkki 1. Esimerkki 2

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastotiede ottaa aivoon

JOHDATUS TEKOÄLYYN TEEMU ROOS

Transkriptio:

Ohjaamaton oppiminen Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008

Luentorunko keskiviikolle 26.11.2008 Ohjaamaton oppiminen Mikä erottaa ohjatusta oppimisesta? Esimerkkejä Johdattelua ryvästämiseen eli klusterointiin Aineiston esikäsittely ja esitysmuodot Luentomateriaali perustuu huomattavassa määrin Jarmo Hurrin ja Juho Rousun kurssimateriaaliin kahtena edellisenä lukuvuonna luennoidulle kurssille Laskennallinen data-analyysi I

Tähän mennessä kurssilla on käsitelty ohjattua oppimista: tavoitteena ennustaa piirrettä y, annettuna x. Tämä asetelma ei kuitenkaan sovi kaikkiin data-analyysitehtäviin Usein on tarpeen määritellä data-analyysitehtävä siten, että datajoukossa ei ole erikseen annettua ennustettavaa piirrettä ohjaamaton oppiminen

Ohjaamaton vs. ohjattu oppiminen ohjaamattomassa oppimisessa sana ohjaamaton viittaa siihen, ettei ole määritelty ennustettavaa piirrettä ohjaamaton oppiminen on hyvin heterogeeninen kategoria ohjaamattomassa oppimisessa pyritään kuvaamaan aineiston rakennetta oppimalla jokin aineistoon sopiva malli malli tässä hyvin yleinen käsite mallin tarkoitus kuvata aineiston oleellisia piirteitä (eikä esim. kohinaa, vrt. ylisovittaminen) ohjaamattomassa oppimisessa (välittömänä) tavoitteena ei yleensä ole ennustaminen

Ohjaamattomuudesta sananmukaisesti täysin ohjaamaton oppiminen on käytännössä mahdotonta vaikka ennustettavaa piirrettä ei ole kiinnitetty etukäteen, joudutaan moniin muihin asioihin ottamaan kantaa

Ohjaamaton vs. ohjattu oppiminen Ohjaamaton oppiminen: 1. (tietyn piirteen) ennustamisen sijasta ollaan kiinnostuneita kuvaamaan aineiston rakennetta 2. ohjatun oppimisen vaatimien opetusesimerkkien hankkiminen on liian kallista / vaivalloista / haitallista / vaarallista. 3. ennustettava piirre on vaikeasti formalisoitavissa ja siten ennustustehtävä on vaikea määritellä, esim. mikä on relevantti dokumentti Google-haussa 4. aineistossa voi olla lukuisia piirteitä ja niiden yhdistelmiä, joiden ennustamisesta voidaan periaatteessa olla kiinnostuneita aineistoa pitää tutkia, ennen kuin tiedetään tarkalleen, mikä ennustustehtävä halutaan ratkaista

Esimerkki: prosessinvalvonta Tarkastellaan tuotantoprosessia, jota valvotaan jatkuvilla mittauksilla Haluttaisiin rakentaa työkalu, joka mittauksien perusteella antaisi varoituksen prosessin ajatumisesta pois halutusta toimintatilasta Luokittelijan oppiminen edellyttäisi esimerkkejä normaalista ja epänormaalista toimintatilasta. Epänormaalia toimintatilaa edustavien esimerkkien generoiminen tarkoittaa tuotantomenetyksiä eli kallista hintaa Olisi suotavaa rakentaa työkalu pelkästään normaalitilaa kuvaavien esimerkkien perusteella

Esimerkki: prosessinvalvonta Prosessinvalvontatehtävä voidaan ratkaista keräämällä mittausdataa normaaleista toimintaoloista tulkitaan mittausproili, joka poikkeaa kaikista prototyypeistä "liikaa" Mittauksista saadut proilit pyritään ryhmittelemään samankaltaisiin ryppäisiin Kutakin ryvästä asetetaan vastaamaan prototyyppiproili Poikkeustilanteeksi

Esimerkki: kielimallit tilastollisessa konekääntämisessä tarvitaan kielimalleja huolehtimaan tuotetun käännöksen sujuvuudesta ja oikeakielisyydestä käännöksen sujuvuutta ja oikeakielisyyttä on vaikea lähestyä luokittelutehtävänä: negatiivisia esimerkkejä, "huonoa kieltä", on melko vaikeaa hankkia tavallisesti käytetään malleja, joissa tarkastellaan peräkkäisiä kolmen sanan ryhmiä lauseen s 1 s n todennäköisyys P(s 1 s n ) = P(s 3 s 2 s 1 ) P(s 4 s 3 s 2 ) P(s n s n 1 s n 2 ), missä s i ovat lauseen sanat. kunkin sanan esiintymisen todennäköisyyttä (ja sitä kautta sanan esiintymisen kielellistä mielekkyyttä) tarkastellaan siis siinä valossa, mitkä ovat sitä edeltävät kaksi sanaa

Esimerkki: kielimallit Kielimalli P(s 1 s n ) = P(s 3 s 2 s 1 ) P(s 4 s 3 s 2 ) P(s n s n 1 s n 2 ), voidaan oppia yksinkertaisesti laskemalla sanakolmikkoja suuresta kohdekielen tekstiaineistosta Google Language model on rakennettu keräämällä tätä tietoa www:stä usean DVD:n verran

Esimerkki: kielitieteellinen data-analyysi aineistona suuri joukko suomen kielen murresanoja ja kuhunkin sanaan liittyen joukko pitäjiä, joissa sanaa on havaittu käytetyn onko sanojen maantieteellisten jakaumien perusteella hahmoteltavissa murteeltaan samankaltaisten pitäjien ryhmiä? ennustaminen ei selvästikään ole mielekäs kysymyksenasettelu

Esimerkki: murresanasto

Esimerkki: luonnontieteellinen data-analyysi Tieteellisessä data-analyysissä halutaan usein löytää datasta aikaisemmin tuntemattomia riippuvuuksia (tai todentaa aikaisemmin tunnettuja riippuvuuksia uudella aineistolla ja/tai menetelmällä) Väritys kuvaa samankaltaisten lajiproilien esiintymäalueita Kuvassa on tutkittu nisäkkäiden esiintymistä 50x50 km ruuduissa Kutakin ruutua vastaa 124-ulotteinen binäärivektori (laji "i"esiintyy/ei esiinny)

Esimerkki: DNA-sekvenssin segmentointi

Esimerkki: sääntöjen louhinta NBA-koripalloliigassa pidetään tarkkaa kirjaa pelitapahtumista ja pelaajien tekemisistä Tuloksena on suuri tietokanta, josta voidaan etsiä riippuvuuksia, jotka jäisivät ehkä muuten huomaamatta Advanced Scout -järjestelmä 1 etsii sääntöjä kuten "Kun pelaaja X on kentällä, pelaajan Y heittotarkkuus putoaa 75 prosentista 30 prosenttiin" Tämän tyyppistä data-analyysia käsitellään lisää kevään kurssilla Tiedon louhinta 1 Bhandari I., Colet, E., Parker, J., Pines Z., Pratap R., Ramanujam K. (1997): Advanced Scout: datamining and knowledge discovery in NBA data. Data Mining and Knowledge Discovery, 1 (1), 121125

Signaalien erottaminen Havaitaan signaali, joka on yhdistelmä useasta riippumattomasta lähteestä Tavoitteena on erottaa lähdesignaalit toisistaaan Riippumattomien komponenttien analyysi (ICA) on eräs menetelmä tälläisen ongelman ratkaisemiseksi www.cis.hut.fi/projects/ica/cocktail/cocktail_en.cgi

Ryvästäminen (klusterointi, engl. clustering) ohjaamattoman oppimisen menetelmistä keskitymme tällä kurssilla vain ryvästämiseen eli klusterointiin ryvästämisessä tehtävä on jakaa data erillisiin osajoukkoihin siten, että kukin osajoukko on niin homogeeninen kuin mahdollista Esimerkkejä klusteroinnin käyttökohteista digitaalisten kuvien segmentointi markkina-analyysi (asiakassegmentit) geenien ryhmittely vaikutusten perusteella tekstidokumenttijoukkojen ryhmittely

Ryvästämismenetelmien komponentit erilaisia ryvästämismenetelmiä on paljon yleisellä tasolla ryvästämismenetelmissä voidaan erottaa seuraavat komponentit: 1. Kustannusfunktio, joka mittaa esimerkkiryppäiden homogeenisuuden 2. Valintakriteeri ryppäiden määrälle 3. Algoritmi, jolla esimerkit jaetaan ryppäisiin

Kaksi ryvästämistehtävää

Ryvästämisalgoritmit voivat tuottaa pistejoukon ryhmittelyn kohteiden kovan ryhmittelyn: kukin piste voi kuulua vain yhteen ryhmään esimerkiksi K -means pehmeän tai probabilistisen ryhmittelyn (kohteet voivat kuulua eri määrin useaan ryhmään) esimerkiksi gaussinen sekoitusmalli (ei käsitellä) hierarkkisen ryhmittelyn (ryhmittelypuun) tasoesityksen datasta, siten että datan klusterit erottuvat tason eri alueina (ei käsitellä) esimerkiksi itseorganisoiva kartta

Kova klusterointi: esimerkki (K -means) 2 (a) 2 (b) 2 (c) 2 (d) 2 (e) 2 (f) 0 0 0 0 0 0 2 2 2 2 2 2 2 0 2 2 0 2 2 0 2 2 0 2 2 0 2 2 0 2 data Old Faithful -nimisestä kuumasta lähteestä; vaaka-akseli purkauksen kesto, pystyakseli aika seuraavaan purkaukseen (nollakeskiarvoistettuina ja skaalattuina)

Hierarkkinen klusterointi: esimerkki x 2 6 4 2 9 0 7 8 2 4 6 3 1 5 0 5 10 x 1 2 6 5 4 kytkettyjen pisteryhmien välinen etäisyys 15 10 5 0 5 6 4 1 3 2 7 8 9 datapisteen indeksi dendrogrammipuuta (oikealla) luetaan seuraavasti: puun lehtinä kaikki datapisteet eli yhden pisteen pisteryhmät alhaalta ylöspäin edetessä yhdistetään lähimmät pisteryhmät toisiinsa; tässä pisteryhmien välinen etäisyys ryhmien kauimmaisten pisteiden etäisyys yhdistämistaso (vaakaviiva) kytkettyjen pisteryhmien välisen etäisyyden tasolla

Esikäsittely ja esitysmuodot Tähän asti kurssilla data on oletettu tupsahtaneeksi jostain sopivasti esikäsiteltynä numeerisiksi piirrevektoreiksi Käytännössä data ilmenee kuitenkin moninaisissa esitysmuodoissa (kuva, teksti, signaalit, monivalintakysymysten vastaukset,... ) Ohjatun oppimisen menetelmät ovat vahvasti riippuvaisia datan esitysmuodosta Kustannusfunktiot perustuvat useimmiten datapisteiden välisen etäisyyden mittaamiselle Datan esikäsittelyn yksi tavoite on saada data sellaiseen muotoon, että etäisyyksiä voidaan mitata mielekkäästi

Esikäsittely ja esitysmuodot Kaksi lähestymistapaa datan esitysmuotojen suhteen: Esikäsittely + yleiskäyttöinen oppimisalgoritmi, syötteenä (yleensä numeerinen) piirrevektori Esitysmuotospesinen oppimisalgoritmi; oma menetelmä kuville, oma tekstille, jne. Halutaan tuottaa piirre-esitys, jolla pystytään mittaamaan merkityksellisiksi ajateltujen hahmojen tai ominaisuuksien esiintymistä aineistossa

Esimerkki: tekstinhaku Tehtävä: Halutaan etsiä uutistietokannasta artikkelit, jotka kertovat David Beckhamin siirtymisestä Real Madridista LA Galaxyyn Piirreesityksenä sanasäkki (bag of words): φ Beckham (b) kertoo montako kertaa Beckham esiintyy dokumentissa b; sanan esiintymien sijainnista ei olla kiinnostuneita. φ Beckham (b) = 4, φ Real (b) = 1, φ Madrid = 1, φ Galaxy = 3, φ BBC = 2,...

Esimerkki: kuvanhaku Tavoite: Halutaan etsiä järvimaisemia kuvatietokannasta Piirre-esityksenä kuvien värihistogrammit: φ i (b) on värisävyn i pikselien lukumäärä kuvassa b Pikselien sijainnista ei olla kiinnostuneita: kuvakulman kiertäminen (rotation) tai siirtäminen (translation) suhteen ei vaikuta

Esimerkki, muuttujien skaalaaminen ennen muuttujan x 1 varianssin normalisointia normalisoinnin jälkeen 1.5 1.5 1 1 0.5 0.5 x 2 0 x 2 0 0.5 0.5 1 1 1.5 2 1 0 1 2 x 1 1.5 2 1 0 1 2 x 1 muuttujien skaalaamisella voi olla dramaattinen vaikutus tuloksiin muuttujien standardointi/normalisointi: keskiarvoksi nolla ja varianssiksi 1 (vähennetään keskiarvo ja jaetaan keskihajonnalla) molemmissa kuvissa varianssi muuttujan x 2 suuntaan 1

Muuttujien esikäsittely: numeerinen data Numeerisen datan esitysmuodoissa ongelmia voivat aiheuttaa: Erilaiset arvoalueet/yksiköt: piirre x 1 mitattu kilogrammoina, x 2 grammoina, euklidisessa etäisyydessä grammoina mitattu piirre saa 1000-kertaisen painoarvon Poikkeava varianssi: piirre x 1 vaihtelee absoluuttisesti vähemmän kuin piirre x 2, tällöin pieni muutos x 1 :ssä voi olla yhtä tärkeää kuin suuri muutos x 2 :ssä

Muuttujien esikäsittely: numeeriset piirteet Piirteiden erilaisista skaaloista ja variansseista päästään eroon normalisoimalla 1. Keskitys ja jakaminen keskihajonnalla: φ j (x) = (x j µ j )/σ j, µ j on piirteen j keskiarvo datajoukossa, σ j keskihajonta; käy kaikille numeerisille piirteille 2. Jos arvot sijoittuvat välille [x min, x max ] φ j (x) = (x j x min )/(x max x min )

Esimerkki: nominaaliarvoiset syötemuuttujat Monissa data-analyysitehtävissä data ei ole valmiiksi numeerista, vaan joudumme muuntamaan datan numeeriseksi käyttämällä piirrefunktioita Oletetaan syötemuuttuja x j V j, missä arvojoukko V j = {v 1,..., v r } on nominaalinen (alkioilla ei järjestysrelaatiota) Muodostetaan piirrefunktio muuttujan x j kullekin mahdolliselle arvolle v h v j : φ j,vh (x) = { 1, x = v j 0, x v j

Esimerkki: nominaaliarvoiset syötemuuttujat esim. klassisessa 'Mushrooms' (sienien luokittelu) aineistossa muodostettaisiin piirrefunktiot φ capshape,bell, φ capshape,conical,... 1. cap-shape: bell=b,conical=c,convex=x,at=f, knobbed=k,sunken=s 2. cap-surface: brous=f,grooves=g,scaly=y,smooth=s 3. cap-color: brown=n,bu=b,cinnamon=c,gray=g,green=r, pink=p,purple=u,red=e,white=w,yellow=y 4. bruises?: bruises=t,no=f