Klusteroinnin kyvyillä on rajansa

Klusteroinnin kyvyillä on rajansa 183 Dataa on monesti hyvin paljon, se on säännöllisesti korkeadimensioista ja vaikeasti hahmotettavalla tavalla rakenteista, jolloin klusterointi antaa helposti liki arvaukseen verrattavissa olevia tuloksia luokkien rakentaminen ja luokittelijoiden opettaminen on epäluotettavaa tarvitaan keinoja, joilla rakenteet pystytään paljastamaan ihmiselle helpommin ymmärrettävällä tavalla pudotetaan ongelman dimensioita ihmisen paremmin ymmärtämälle tasolle

Dimensionaalisuuden vähentäminen (1) Monissa tapauksissa koneoppimiseen halutaan syöttää hyvin monidimensioista dataa esim. MNIST-tietokannan numeronäytteet ovat 28x28 pikseliä, jolloin niitä raakakuvina käytettäessä vastaa 784 piirrettä pitkä vektori kuvien tapauksessa dimensionaalisuutta voidaan jonkin verran pienentää käyttämällä korkeamman tason piirteitä (esim. HoG) 184 Korkeiden dimensionaalisuuksien kanssa voi tulla ongelmia 1. tallennustilan ja laskennan määrä kasvaa 2. piirreavaruuden visualisointi on hankalaa 3. datanäytteiden tiheyden piirreavaruudessa harvetessa, kun piirteiden määrä kasvaa, mm. knn luokittelija kärsii etäisyysmittojen heikentyvästä diskriminaatiosta dimensionaalisuuden kirous (curse of dimensionality) 1.0 virheettömyys (accuracy) 0.0 piirteiden määrä vasemmalla tyypillinen knn-luokittelijan virheettömyyskehitys kun opetusnäytteiden määrä on vakio, mutta piirteiden määrä kasvaa aluksi piirteiden lisäys parantaa luokkarajojen mallinnusta sitten data-avaruus harvenee ja etäisyysmitan diskriminaatiokyky heikkenee

Dimensionaalisuuden vähentäminen (2) 185 Dimensionaalisuutta voidaan pienentää kahdella tavalla 1. tunnistamalla tai hakemalla ja valitsemalla käytettäväksi parhaiten luokkia erottelevat piirteet soveltuvuus rajautuu ohjattuun oppimiseen ongelmana vaikeus algoritmisesti määrittää pieni määrä luokat erottelevia esitystapoja/piirteitä esim. kuvamuotoisesta tiedosta 2. käytetään sopivaa muunnosalgoritmia pakkaamaan korkeadimensioinen data vähempidimensioiseksi: luokkatietoa ei välttämättä ole! soveltuu sekä ohjattuun että ohjaamattomaan oppimiseen muunnos voi olla lineaarinen tai epälineaarinen oikealla ns. swiss roll monisto ja sen 2D LLE- projektio (Locally Linear Embedding (LLE, Tenenbaum et al 2000) Vapaaehtoista varsin helppotajuista luettavaa: http://web.mit.edu/cocosci/papers/sci_reprint.pdf)

Dimensionaalisuuden vähentäminen (3) Dimensionaalisuuden pudottamiseen liittyy monisto käsite (manifold): moniston dimensio on niiden riippumattomien parametrien määrä, jotka tarvitaan määrittämään piste 1-dimensioisessa tilanteessa monistot ovat suoria ja käyriä, kuten ympyröitä ellipseja, hyperbelejä, siis mitä vain käppyröitä (huom: myös avaruuskäyrät parametrimuotoa (x,y,z)= [f(t), g(t), h(t)], missä t on se ainokainen riippumaton parametri ja funktiot f,g, ja h jatkuvia, ovat 1-dimensioisia!) 2-dimensioiset monistot ovat pintoja, kuten tasot, sylinterit, ellipsoidit, toroidit (huom. otetetaan vain pinnat, ei siis täytellä ) jo 3-dimensioinen monisto on ihmiselle vaikeammin miellettävä Alla Matlab-työkalulla 2-D ja 3-D avaruuteen t-sne menetelmällä kuvattu MNIST-data Datanäytteitä vastaavat pisteet on värjätty dimensionaalisuuden pudotuksen jälkeen 186

Dimensionaalisuuden vähentäminen (4) 187 Lukuisissa korkean dimensionaalisuuden omaavissa koneoppimisen kohdeongelmissa puuttuu selvä luokkarakenne edes ihminen ei voi täysin varmasti luokitella näytteitä esim. muutokset virheettömästä materiaalista raakkikappaleiksi tai toiseen luokkaan voivat olla liki jatkuvia (vrt. MNIST) ihmisen kasvojen asennon ja esim. tunnetilojen muutokset ovat jatkuva-arvoisia Kuvat alla Kouropteva et al 2002 http://www.ee.oulu.fi/mvg/files/pdf/pdf_368.pdf

Dimensionaalisuuden vähentäminen lineaarisella menetelmällä (1) 188 Näytedatan muodostamaa monistoa moniulotteisessa piirreavaruudessa voi pyrkiä tarkastelemaan eri suunnista äärimmäisen yksinkertainen esimerkki on alla esitetty kahden piirteen virittämä piirreavararuus, jossa data on pitkänomaisena rakenteena valitaan sellainen tarkastelusuunta, jonka kautta nähdään maksimaalinen variaatio koska alkuperäinen avaruus on 2-dimensioinen, emme menetä informaatiota jos valitaan maksimaalisen variaation tarkastelusuunta ja lisäksi pienemmän variaation suunta lopulta valitaan nuo suunnat uusiksi piirreavaruuden koordinaattiakseleiksi pienempi variaatio suurin variaatio pienempi variaatio Toteamme, että jos olisimme alunperinkin onnistuneet formuloimaan suurimman variaation piirteen, niin meille olisi voinut riittää yksi piirre suurin variaatio

Dimensionaalisuuden vähentäminen lineaarisella menetelmällä (2) Pääkomponenttianalyysi (Principal Components Analysis, Hotelling-muunnos, Karhunen-Loeve muunnos, monta nimeä, tilastotiede, säätötekniikka, signaalinkäsittely) lineaarinen dimensionaalisuuden vähennysmenetelmä, jota yleensä käytetään ensimmäisenä primitiivireaktiona uuden datan tapauksessa ennen siirtymistä epälineaariseen dimensionaalisuuden vähentämiseen laskee monidimensioisesta datasta sellaiset ortogonaaliset kantavektorit, joista yleensä muutaman avulla näytedata voidaan esittää ilman isoa informaatiohävikkiä merkitykseltään pienet kantavektorit voidaan hylätä luokittelu halpenee piirteiden vähetessä ja virheettömyys voi parantua data-avaruuden tihentyessä data voidaan esittää vähemmillä dimensioilla ja haluttaessa jopa rekonstruoida takaisin Monissa tapauksissa PCA toimii edellisen slaidin esimerkin tavoin hienosti, silloin kun vähintäänkin data on lineaarisesti korreloivaa... 189

Dimensionaalisuuden vähentäminen lineaarisella menetelmällä (3) 190 Pääkomponenttianalyysi (PCA) on menetelmänä tarkoitettu löytämään kätkössä olevat lineaariset korrelaatiot niinpä rajoitteet tulevat vastaan, kun data ei ole lineaarisesti korreloivaa, esim. alla; monidimensioisemmat tilanteet ovat kimurantimpia pienempi variaatio pienempi variaatio suurempi variaatio suurempi variaatio Datassa voi olla lineaarisia korrelaatioita, mutta se voi silti olla ongelma PCA:n tekemälle ortogonaalimuunnokselle esim. korkeaulotteisten ongelmien ns. pupunkorvat (huom: tällainen voi olla lähtökohtana ryvästykselle, mutta etäisyysmittojen hallinta korkeadimensioisessa tilanteessa voi olla haasteellista) Pääkomponenttianalyysi ei itse vaikuta datan skaalaukseen tai normalisointiin, mutta datan skaalaus tai normalisointi voi muuttaa sen antamaa tulosta hyvinkin rajusti

Dimensionaalisuuden vähentäminen epälineaarisella menetelmällä (1) Dimensionaalisuuden vähentäminen vähentää luokittelun ja klusteroinnin laskentaa sekä helpottaa ihmisen tekemää datan rakenteen analysointia entä jos keskitytään vain noista tavoitteista viimeiseen, jotta ihminen voisi esim. luokitella dataa helpommin? Mitä silloin haluaisimme dimensionaalisuuden vähentämiseltä? käytännöllisintä olisi, jos lähellä toisiaan korkeadimensioisessa avaruudessa sijaitsevien datanäytteiden etäisyydet (samankaltaisuusmitan perusteella) olisivat samat myös visualisoidussa alemman dimensionaalisuuden kuvauksessa kaukana toisistaan sijaitsevien näytteiden suhteellisilla sijainneilla ei visualisoinnissa ole niin väliä, kunhan eivät osu ihan naapureiksi moninidimensionaalinen skaalaus (multidimensional scaling, MDS) toimii jokseenkin tällä tavalla MDS:n syötedata on datanäyteparien väliset samankaltaisuusmitat samankaltaisuudet lasketaan piirrevektoreiden perusteella skaalauksilla ja normalisoinneille on myös roolinsa 191

Dimensionaalisuuden vähentäminen epälineaarisella menetelmällä (2) Esimerkki samankaltaisuus/eromatriisista (isommat arvot merkitsevät isompia eroja!) todetaan, että samankaltaisuuksien/erojen laskemiseksi kaikilla piirteillä on oltava arvo kaikissa näytepisteissä (huom: kyseessä osa hieman isommasta materiaalista) 192 Tulos saadaan optimoiden (minimoiden) kohdefunktion arvoa, joka on esim. alkuperäisten ja alempidimensioisen kuvauksen erojen erotusten neliöiden summa oikealla ns. Sammon mapping menetelmällä saatu 2-D kuvaus alkuperäiselle 4-D datalle. Menetelmä on ensimmäinen MDS-ratkaisu, vuodelta 1969 http://syllabus.cs.manchester.ac.uk/pgt/2017/comp61021/ reference/sammon.pdf

Dimensionaalisuuden vähentäminen epälineaarisella menetelmällä (3) Monidimensionaalisen skaalauksen ongelmia ovat samankaltaisuusmatriisin suuri koko: jos N näytettä, niin N*N näyteparille laskettava samankaltaisuudet yhdenkin näytteen lisääminen tai poistaminen voi muuttaa visualisointia erittäin merkittävästi ei sovellu hötkyilevien asiantuntemattomien käyttöön epälineaarisena ei mahdollista rekonstruktiota, on siis vain visualisointiapu 193 MDS Muita epälineaarisia dimensionaalisuuden vähentämistekniikoita Isomap (isometric mapping): rakentaa alempidimensioisen kuvauksen näytenaapurustojen perusteella (MDS mittaa vain parittaisia etäisyyksiä) LLE (locally linear embedding): jokainen datapiste lausutaan lähinaapurustonsa lineaarikombinaationa T-SNE (t-distributed stochastic neighbor embedding): perustuu naapuruston tiheysfunktioihin ja informaatioteoreettiseen kohdefunktion minimointiin SOM (self-organizing maps, Kohonen maps): 2-Dkartan vektorit oppivat SOM syötetyn datanäytteistön tilastolliset ominaisuudet

Dimensionaalisuuden vähentäminen epälineaarisella menetelmällä (4) Dimensionaalisuuden vähennysmenetelmät eivät ole taikasauvoja erityisen vaarallista on luottaa yhden suosikkimenetelmän olevan yleistyökalu, joka tepsii jokaiseen haasteeseen datan luonteella on merkityksensä, jonka vuoksi menetelmien luonne on tunnettava Esimerkki alla: vasemmalla SOM (itseorganisoiva kartta) mallintaa todennäköisyystiheyttä, jolloin harvinaisten luokkien näytteille jää harvoja solmuja kartassa oikealla MDS puolestaan pyrkii säilyttämään näytteiden keskinäiset etäisyydet dimensionaalisuuden vähennysmenetelmän valinta riippuu käyttötarkoituksesta 194 oikealla: SOM ei tässä näytä soveltuvan harvinaisten luokkien erotteluun ja kategorisointiin ohjatulle oppimiselle Matti Niskanen 2003 http://jultika.oulu.fi/file s/isbn9514270673.pdf

Vahvistusoppiminen (1) 195 Läheskään kaikissa koneoppimista tarvitsevissa sovelluksissa ei ole tarjolla selkeätä kategoriatietoa, mutta toisaalta vääriä ratkaisuja ja toimintoja eli yrityksiä ja erehdyksiä - voidaan sietää, kunhan niistä kyetään oppimaan, minkä vuoksi toimintaympäristön olisi pystyttävä antamaan jokin palautetieto (mitä mieltä olet itseajavien autojen opettamisesta vahvistusoppimisella?) Tällaisiin sovelluksiin sopii vahvistusoppiminen, jossa pyritään löytämään toimintastrategia tai ratkaisu, josta tulee eniten positiivista palautetta ohjatun ja ohjaamattoman oppimisen välimaastossa tavoitteena jatkuva oppiminen Vahvistusoppiminen tarvitsee sovelluksia, joissa sen jatkuvaa palautenälkää pystytään automaattisesti syöttämään positiivinen tai negatiivinen palaute ympäristö tilatieto tai havainto Yksi vahvistusoppimiseen liitetty väittämä on sen olevan lähellä biologisten organismien oppimista mitä mieltä olet tästä? toiminto agentti

Vahvistusoppiminen (2) 196 Tarkastellaan vahvistusoppimista yksinkertaistetussa tapauksessa, jossa yöllä singulariteetin saavuttanut androidi herää kämpässä, Se lähtee etsimään ulko-ovea porraskäytävään käyttäen ns. Q-oppimista. Kämpän viereinen pohjapiirros ja mitat ovat aluksi tuntemattomia. Jos pohja tiedettäisiin, niin ongelman voisi esittää vaikkapa alla olevan graafin tavoin. Huomaa, että porrakäytävä on yksi sen solmuista ja että linkit ovat kaksisuuntaisia, sillä ovista voi kulkea kumpaankin suuntaan 1 2 5 porraskäytävä 3 4 Tilasiirtymät voivat olla solmusta solmuun kerrallaan huone 1 huone 5 huone 4 porraskäytävä huone 2 huone 3

Ny kyi ne n tila Vahvistusoppiminen (3) Androidin tilaesityksessä jokainen huone on tila ja ja sen siirtymät ovien kautta huoneesta toiseen ovat toimenpiteitä. Porraskäytävään pääsy on arvoltaan 1 ja muihin huoneisiin pääsy 0 (arvojen valinta on mielivaltaista, kunhan maalilla on suurin) Esitetään ongelma alla palkkio - porraskäytävä matriisina, jossa rivit esittävät tiloja ja sarakkeet seuraavia tiloja ovat huoneita. 0 tarkoittaa 4 5 pääsyä niiden välillä, 1 pääsyä porraskäytävään ja -1 ettei huoneiden välillä ei ole ovea tai 1 huoneessa pysyminen ei johda 3 2 porraskäytävään seuraava tila 1 2 3 4 5 P 1-1 0-1 -1-1 -1 2 0-1 0-1 0-1 3-1 0-1 0-1 1 4-1 -1 0-1 -1-1 5-1 0-1 -1-1 1 huone 1 huone 5 huone 2 huone 4 huone 3 197 porraskäytävä P -1-1 0-1 0 1 pysytään porrraskäytävässä kunnes uusi ohje...

Vahvistusoppiminen (4) Normaalisti oppiminen lähtee liikkeelle tuntematta ollenkaan ongelman dimensioita! nyt olemme jo alkuun rajoittaneet sen esittämiseen tarvittavan taulukon kokoa ja oletamme se nyt jatkossa olevan tunnettu niinpä androidin akkujen täytyttyä, oppimisessa käytettävä tila-toimenpidetaulukko lähtee nollattuna Q- matriisi Ny ky tila Toimenpide (eli mihin siirtymä) 1 2 3 4 5 P 1 0 0 0 0 0 0 2 0 0 0 0 0 0 3 0 0 0 0 0 0 4 0 0 0 0 0 0 5 0 0 0 0 0 0 P 0 0 0 0 0 0 Tilasiirtymien palkkiot (Rewards) Q-matriisin *yksinkertaistettu* päivitysyhtälö: Q(tila,toimenpide) = Palkkio(tila, toimenpide) +unohdusnopeus *Max(Q(seuraava tila, mahdolliset toimenpiteet) 1. nyt androidi valitsee kussakin nykytilassaan yhden mahdollisen toimenpiteen ja 2. selvittää kunkin mahdollisen seuraavan tilan kautta korkeimman saavutettavan ns. Q-arvoan olemassa olevan tiedon pohjalta 3. siirtyy korkeimman Q-arvon tilaan Palkkio (R) Ny kyi ne n tila 198 Toimenpide (mihin siirtymä) 1 2 3 4 5 P 1-1 0-1 -1-1 -1 2 0-1 0-1 0-1 3-1 0-1 0-1 1 4-1 -1 0-1 -1-1 5-1 0-1 -1-1 1 P -1-1 0-1 0 1

Vahvistusoppiminen (5) Androidi lähtee liikkeelle muisti tyhjänä huoneesta 1. Selitysten helpottamiseksi lunttaamme välillä oikean alanurkan graafista, jotta saamme päivitysyhtälöön palkkioluvut ( R-matriisi ei mahdu slaidille) ja valitsemme unohdusnopeudeksi 0.6 199 Q- matriisi Ny ky tila Toimenpide (eli mihin siirtymä) 1 2 3 4 5 P 1 0 0 2 3 4 5 P Q-matriisi Nyk y tila Toimenpide (eli mihin siirtymä) 1 2 3 4 5 P 1-1 0 2 3 4 5 P Toteamme mahdollisuudeksi pysyä huoneessa 1 (palkkio -1) tai siirtyä huoneeseen 2. Päivitysyhtälön mukaan Q(1,1) = [R(1,1)=-1]+0.6*Max(Q(1,1),Q(1,?)) Q(1,2) = [R(1,2)=0]+0.6*Max(Q(2,1),Q(2,2), Q(2,3), Q(2,4), Q(2,5),, Q(2,N)) Huom: tuntemattomien ja huoneessa pysyttävien siirtymien arvo on -1. Siten nyt Q(1,1) = -1 + 0.6*Max(-1, 0) = -1 Q(1,2) = 0 + 0.6*Max(0, -1. -1, -1,.) = 0 Toteamme valitsemamme siirtymisen huoneeseen 2, sillä 0 on suurempi kuin -1 huone 1 huone 5 huone 2 huone 4 huone 3 porraskäytävä

Vahvistusoppiminen (6) Olemme päässeet huoneeseen 2 ja toteamme sieltä päästävän huoneeseen 1 (siis takaisin), huoneeseen 3 sekä huoneeseen 5. 200 Q-matriisi Nyk y tila huone 1 huone 5 huone 2 Toimenpide (eli mihin siirtymä) 1 2 3 4 5 P 1-1 0 2 0-1 0 0 3 4 5 P huone 4 huone 3 porraskäytävä Päivitysyhtälömme mukaan nyt lukemalla Q- matriisia ja graafia (tieto ovesta R=0)) Q(2,2) = [R(2,2)=-1] + 0.6*Max(Q(2,1),Q(2,2),Q(2,3),Q(2,5)) = -1 + 0.6*Max(0, -1, -1, -1) = -1 Q(2,1) = [R(2,1)= 0] +0.6*Max(Q(1,1),Q(1,2)) = 0 + 0.6*Max(-1, 0)) = 0 Q(2,3) = [R(2,3)= 0]+ 0.6*Max(Q(3,3) Q(3,2),Q(3,?),..) = 0 + 0.6*(0, -1, ) = 0 Q(2,5) = [R(2,5)= 0]+0.6*Max(Q(5,2),Q(5,?),..) = 0 + 0.6*Max(Q(5,2), Q(5,?), ) = 0 Valitaan huone 3, josta kulku on huoneeseen 4 sekä porraskäytävään. Androidin näköhavainnot rajoittuvat pelkkin oviin, joten vasta sen läpi kuljettuaan se voi päätellä onnistumisen. Sitä ennen se pohtii valintojaan

Q-matriisi Nyk y tila Vahvistusoppiminen (7) Olemme päässeet huoneeseen 3 ja toteamme graafista sieltä päästävän huoneeseen 2 (siis takaisin), huoneeseen 4 sekä huoneeseen P, jota emme vielä tiedä määränpääksi. Q- matriisi ei kerro sitä Päivitysyhtälön perusteella nyt huone 1 huone 5 Toimenpide (eli mihin siirtymä) 1 2 3 4 5 P 1-1 0 2 0-1 0 0 3 0-1 0 0 4 5 P huone 4 porraskäytävä Q(3,3) = [R(3,3)=-1] + 0.6*Max(Q(3,2),Q(3,3),Q(3,4),Q(3,5)) = -1 + 0.6*Max(0, -1, -1, -1) = -1 Q(3,2) = [R(3,2)= 0] + 0.6*Max(Q(2,3),Q(2,5),Q(2,1)) = 0 + 0.6*Max(0, 0, 0, 0) = 0 Q(3,4) = [R(3,4)= 0] +0.6*Max(Q(4,3),Q(4,?) ) = 0 + 0.6*Max(0, -1)) = 0 Q(3,P) = [R(2,P)= 0]+ 0.6*Max(Q(P,3),Q(P,?), Q(P,P),..) = 0 + 0.6*(0, -1) = 0 201 huone 2 huone 3 Valitaan huone 4

Vahvistusoppiminen (8) Android on päässyt huoneeseen 4 ja toteaa sen wc-tilaksi ja umpikujaksi. Päivitysyhtälön perusteella nyt Q-matriisi Nyk y tila huone 1 huone 5 huone 2 Toimenpide (eli mihin siirtymä) 1 2 3 4 5 P 1-1 0 2 0-1 0 0 3 0-1 0 4 0-1 5 P huone 4 huone 3 porraskäytävä Q(4,4) = [R(4,4)=-1] + 0.6*Max(Q(4,4),Q(4,3)) = -1 + 0.6*Max(0, -1) = -1 Q(4,3) = [R(4,3)= 0] + 0.6*Max(Q(3,2),Q(3,4),Q(3,5)) = 0 + 0.6*Max(0, 0, 0) = 0 202 Olemme nyt takaisin huoneessa 3, joten Q(3,3) = -1 Q(3,2) = [R(3,2)= 0] + 0.6*Max(Q(2,2), Q(2,3),Q(2,5),Q(2,1)) = 0 + 0.6*Max(-1, 0, 0, 0, ) = 0 Q(3,4) = [R(3,4)= 0] +0.6*Max(Q(4,3),Q(4,4)) = 0 + 0.6*Max(0,-1)) = 0 Q(3,P) = [R(3,P)= 1]+ 0.6*Max(Q(P,3),Q(P,?), Q(P,P),..) = 1 + 0.6*(0, 1, ) = 1.6 Toteamme, että olemme onnistuneet kartoittamaan huoneistoa Katsotaanpa mitä tapahtuu kun määränpää on löytynyt ja etsintää jatketaan!

Vahvistusoppiminen (9) Androidi on viimeinkin päässyt porraskäytävään ja havaitsee sisäänpääsyn myös huoneeseen 5 ja päivittää vastaavasti Q-matriisiaan. Samalla sille tulee käsky pala huoneistoon joten P:ssa pysymisen Q-arvoksi asetetaan Q(P,P)= -1. 203 Q-matriisi Nyk y tila Q-matriisi Nyk y tila Toimenpide (eli mihin siirtymä) 1 2 3 4 5 P 1-1 0 2 0-1 0 0 3 0-1 0 1 4 0-1 5 1 P 0 0.6-1 Toimenpide (eli mihin siirtymä) 1 2 3 4 5 P 1-1 0 2 0-1 0 0.86 3 0-1 0 1 4 0-1 5 0 1.36 P 0 0.6-1 Nyt kun määränpää on löytynyt, se valitsee toimenpiteeksi Q(P,5) = [R(P,5)=0]+0.6*Max(Q(5,2),Q(5,P) = 0+0.6*Max(0,1)= 0.6 Tämän jälkeen Q(5,P) = [R(5,P)= 1] + 0.6*Max(Q(P,3),Q(P,5)) = 1 + 0.6*Max(0, 0.6) = 1.36 Q(5,2) = [R(5,2)= 0] + 0.6*Max(Q(2,1),Q(2,5),Q(2,3),Q(2,2)) = 0 + 0.6*Max(0, 0, 0, -1) = 0 Sitten Q(2,5) = [R(2,5)= 0] + 0.6*Max(Q(5,2),Q(5,P)) = 0 + 0.6*Max(0, 1.36) = 0.86 (Sitten esim Q(3.2):n päivitys, jne): Todetaan reittipisteiden löytyvän!)

Vahvistusoppiminen (10) Vahvistusoppisen sovelluksia: osakekaupan strategioiden jatkuva parantaminen (huom: ei pelkkä hakuongelma!) logistiikassa mm. jakeluautojen reittien ja varastojen optimointi robotiikkakin, joskin tämä sovellusalue on teollisuudessa toistaiseksi ollut jonkinasteinen pettymys, mutta robotit oppivat kävelemään vahvistusoppimalla henkilökohtaisten www-palveluiden optimointi pelien oppiminen, mm. Go, videopelit, esim. http://karpathy.github.io/assets/rl/pong.gif ja https://www.youtube.com/watch?v=yfsmhtmgdke eräät chatbot-toteutukset, joissa pyritään pitämään vastapuolen kiinnostus yllä Vahvistusoppimisen yritys- ja erehdyssieto tarkoittaa myös, että se kestää ympäristöstäkin lähtöisin olevia epävarmuuksia, kunhan saa asianmukaisen palautteen Vahvistusoppimisen haasteina ovat tarvittu opetusnäytteiden/-kokemusten määrä: suuri näytemäärätarve esim. robotiikkasovelluksissa voi tarkoittaa ihmisen mielestä tuskallisen hidasta suoriutumisen paranemista usein tarvittu esitystapojen oppiminen, mutta tarvitut syväoppimisratkaisut kamppailevat nekin opetusnäytteistön määrän kanssa peleissä näytemäärätarpeet voidaan tyydyttää simulaatioiden kautta 204

Vahvistusoppiminen (11) Tarkastellaan vahvistusoppimisen etenemistä robottipölynimurista kyhätyn toimistorobotin tekemässä reitinhaussa huoneen ovelle (toimittamaan allekirjoitetut tenttiarvostelut) robotti tekee ensin havainnot lyhyen kantaman (5cm) ultraäänitutkillaan ja päättää sitten toimenpiteen (action), joka on liikkuminen 70cm eteenpäin, oikealle, vasemmalle, tai taaksepäin robotin tila (state) on sen sijainti (alaoikealla jokainen ruutu voi olla tila) negatiivinen palaute (reward) on umpikujan löytyminen, positiivinen on liikkumismahdollisuuden löytyminen (kohta esimerkissä käytämme arvoa 0) robotin pidemmän aikavälin palkkio on pääsy toimiston ovelle, ei pelkät välittömät liikuista saadut palautteet! = todellisuus onkin mutkikkaampi kuin pelkkä positiivinen/negatiivinen palaute! 205 Välittömiä palautteita käytetään oppimaan reitti ovelle robotti oppii jokaisesta osumasta seiniin, pöydän- ja tuolinjalkoihin, yms. robotti myös muistaa reitin, mitä pitkin se kulkee vahvistusoppimisen varsinainen tavoite on oppia reitti ovelle: tähän käytetään ns. Q-oppimista (Q-learning) robotti

Vahvistusoppiminen (12) 206 Q-oppiminen on vahvistusoppisalgoritmi, joka ei mallinna ympäristöään eli on ns. mallivapaa kohtelee ympäristöä tilakoneena ja on aina jossakin tilassa kukin tila sisältää kaiken tiedon ympäristöstä ja Toiminto&arvo (action&value) funktio määrittää tietyssä tilassa olemisen ja tietyn toimenpiteen siinä valitsemisen arvon Q-funktio palauttaa toimenpiteestä odotetun palautteen kun siihen syötetään tilatieto ja ao. toimenpide alussa Q-funktio palauttaa kaikille tiloille ja toimenpiteille vakioarvon myöhemmin, kun robotti on hankkinut (ja hankkii) liikkumalla enemmän tietoa, Q-funktio antaa paranevia arvioita toimenpidevaihtoehdoille valitussa tilassa käytännössä Q-funktio esitetään Q-taulukkona, joka sisältää palautteen (Q-arvon) jokaisen tilan jokaiselle toimenpiteelle, jota seuraa parhaiden seuraavien toimenpiteiden ketju = Q-arvo on palaute pidemmän aikavälin tavoitteen suhteen eli ohjaa valitsemaan toimenpiteen sitä kohti Q-oppiminen oppii Q-arvot Q-funktioon/taulukkoon vahvistusoppimisen havainnot ja toimenpiteet puolestaan tuottavat Q-arvoja

Vahvistusoppiminen (13) Q-oppiminen toimii robottimme tapauksessa karkeasti seuraavaan tyyliin: 1. robotti alustaa/olettaa ensimmäisen Q-arvon jokaiselle tila-toimenpide parille Q(S,A) = 0 (S=state, A=action) = palautteesta pidemmän aikavälin tavoitteen suhteen ei missään tilassa ole mitään tietoa 2. robotti aloittaa valitsemalla tilassaan S k toimenpiteen A k ja saa ympäristöltä palautteen R k (reward); samalla tila S k vaihtuu tilaksi S k+1 ; jos tämä on tavoitetila, niin algoritmi päättyy 3. robotti päivittää tilan S k toimenpiteeseen A liittyvän Q-arvon seuraavasti Q(S k,a k ) = (1-learning_rate)*Q(S k,a k ) + learning_rate*(r k + discount_rate*max A Q(S k+1,a)) learning_rate arvottaa uuden information merkitystä vanhaan verrattuna ja on arvo väliltä [0,1] discount_rate, arvo on väliltä [0,1] arvottaa vielä tulevia palautteita alemmaksi kuin kuin jo saadun; tämä voidaan tulkita myös uuden askeleen onnistumistodennäköisyydeksi max A Q(S k+1,a) puolestaan on arvio parhaasta tulevasta palautteesta pidemmän aikavälin tavoitteen osalta, siis oletetaan seurattavan aina optimaalista reittiä loppuun 4. palataan askeleeseen 2 Algoritmissa Q-arvon päivitys siirtää aiempaa informaatiota ja ottaa huomioon robotin kaikki tulevaisuuden liikut kun robotti liikkuu ja käy muissa tiloissa ja yrittää eri toimenpiteitä, se samalla oppii jokaisen tila-toimenpide parin optimaaliset Q-arvot osaa jokaisessa tilassa valita optimaalisesti varsinaiseen ratkaisuun vievän liikun 207

Vahvistusoppiminen (14) Tarkastellaan robottimme etenemistä tehtävässään, olettaen learning_rate = 0.3, discount rate = 0.8 kun robotti liikesuunnassaan osuu esteeseen sen palkkio on -1, muutoin 0 toimenpiteet ovat eteen, taakse, oikealle, vasemmalle ottaen huomioon kulloisenkin tilan rajoitteet, alkutilassa S 0 voidaan liikkua vain ylös ja oikealle 208 Aloitetaan tilassa S 0 liikkumalla eteenpäin, saadaan palkkioksi R 0 =0 ja päivitetään tämän jälkeen tilan S 0 Q-arvo Q(S 0, eteen) = 0.7* Q(S 0, eteen) + 0.3 (R 0 +0.8*max A Q(S 1,eteen tai taakse)) = 0.7*0 + 0.3*(0+0.8*0) = 0 Huom: eestaas-liikkuja ei oteta huomioon, mutta merkitty vaihtoehtoavaruuden vuoksi Liikutaan tilassa S 1 eteenpäin, saadaan palkkio 0 ja päivitetään Q-arvo Q(S 1, eteen) = 0.7* Q(S 1, eteen) + 0.3 (R 1 +0.8*max A Q(S 2,eteen, taakse tai oikealle)) = 0.7*0 + 0.3*(0+0.8*0) = 0 Liikutaan tilassa S 2 oikealle tilaan S 3, saadaan palkkio -1 ja päivitetään Q-arvo Q(S 2, oikealle) = 0.7* Q(S 2, oikealle) + 0.3 (R 2 +0.8*max A Q(S 3,vasemmalle)) = 0.7*0 + 0.3*(-1+0.8*0) = -0.3 Huom: ongelmamme on formuloitu siten, että max A Q() saa arvon 0 niin kauan kuin reitti on mahdollinen 5 4 2 3 1 10 9 6 7 8 14 13 11 12

Vahvistusoppiminen (15) Jatketaan Q-.arvojen päivittämistä robotin liikkuessa: Liikutaan tilassa S 3 vasemmalle tilaan S 2, saadaan palkkio 0 ja päivitetään Q-arvo Q(S 3, vasemmalle) = 0.7* Q(S 3, vasemmalle) + 0.3* (R 3 +0.8*Q(S 3,vasemmalle)) = 0.7*0 + 0.3*(0+0.8*0) = 0 Jatkettaessa eteenpäin (hypätään hieman vaiheita yli, Q(S 2, eteen) saa arvon 0) tilasta S 4 siirryttäessä eteenpäin todetaan umpikuja S 5 :ssa, jolloin R 4 =-1 ja päivitys siten Q(S 4, eteen) = 0.7* Q(S 4, eteen) + 0.3 (-1+0.8*Q(S 5,taakse)) = -0.3 Nyt totemme tilasta S 4 tilaan S 5 siirryttyä Q(S 5, taakse) = 0.7* Q(S 5, taakse) + 0.3* (0+0.8*max A Q(S 4,taakse tai eteen)) = 0 sillä Q(S 4,taakse) =0 ja Q(S 4,eteen)= -0.3 joten valitaan suuremman Q-arvon siirtymä taakse Puolestaan kun tilasta S 5 siirrytty tilaan S 4 Q(S 5, taakse) = 0.7* Q(S 5, taakse) + 0.3* (0+0.8*max A Q(S 4,taakse tai eteen)) = 0 sillä Q(S 4,taakse) =0 ja Q(S 4,eteen)= -0.3 joten valitaan suuremman Q-arvon siirtymä taakse Jatkamme vielä tilaan S 2 jolloin Q(S 4, taakse) = 0.7* Q(S 4, taakse) + 0.3 (0+0.8*max A Q(S 2,eteen,taakse tai oikealle)) = 0 sillä Q(S 2,taakse) =0, Q(S 2, oikealle)= -0.3 ja päivitys Q(S 2,eteen)= 0.7* Q(S 2, eteen) + 5 4 2 3 10 0.3* (0+0.8*max A Q(S 4,(taakse tai) eteen)) = = 0.7*0 + 0.3*( 0+0.8*(-0.3)) = -0.24 eli saatu negatiivinen palaute periytyy peräännyttäessä 1 9 (huom: välittömiä eestaas liikkuja ei oteta huomioon) 6 7 8 14 13 11 12 209

Vahvistusoppiminen (16) 210 Q-oppiminen edellyttää robotin yrittävän käydä läpi mahdolliset tila-toimenpideparit tai ainakin mahdollisimman monta sellaisista vasta tämän jälkeen robotilla on tilakoneessaan täydellinen tieto optimaaliseen toimintaan, mutta voi toimia ilman sellaistakin Q-arvot edustavat optimia kun valitaan paras toimenpidesekvenssi Esimerkissämme jaksoimme päivittää seuraavat Q-arvot: Q(S 0, eteen) = 0 Q(S 1, eteen) = 0 Q(S 5, taakse) = 0 Q(S 2, eteen) = -0.24 Q(S 2, taakse) = 0 Q(S 2, oikealle) = -0.3 Q(S 3, vasemmalle) = 0 Q(S 4, eteen) = -0.3 Q(S 4, taakse) = 0 Tärkeä huomautus: todellisessa sovelluksessa lisäisimme tila-toimenpide pareihin myös kyseisissä tiloissa mahdottomat toimenpiteet, nyt algoritmin selitystä lyhentääksemme sivuutimme ne, vaikka ne ovat olennaista tilatietoa Entä jos robottimme muuttaa ympäristöään? Esim. työntää tuoleja paikoiltaan tms? mahdollisten tilojen määrä kasvaa, mutta Q-oppimista voi edelleen käyttää esim. pokerin, shakin, blackjackin tapauksissa seuraava tila riippuu edellisestä tilasta ja tehdystä toimenpiteestä

Vahvistusoppiminen (17) 211 Q-oppiminen toimii hyvin pienissä ongelmissa mahdollista käydä kaikissa tiloissa ja selvittää kaikkien toimenpiteiden seuraukset tila-avaruuden kasvaessa vahvistusoppiminen antaa hyviä tuloksia vasta kun merkittävä osa tiloista on opittu (=ihmisikä voi loppua odotellessa) Nopeutuskeinoja: Monte Carlo menetelmään turvautuminen Q-arvojen määrityksessä, kun sama toimenpide-tilapari on tullut useasti vastaan ei tarvita parametreja learning_rate ja discount_rate sovellettu mm. Go-pelissä ihmisen voittavan AlphaGo ohjelmassa: pelasi ensin itseään vastaan oppien pelistrategiat kompakti esitys ratkaisusta https://medium.com/applied-data-science/alphagozero-explained-in-one-diagram-365f5abf67e0 neuroverkkojen käyttö, jolloin syötteet ovat tiloja ja lähdöt toimenpiteitä tai niihin liittyviä Q-arvoja syvien neuroverkkojen piilokerrokset vähentävät ulkopuolelle näkyvää kompleksisuutta vapaaehtoista luettavaa: https://www.nature.com/articles/nature14236 (videopeli kuvataan syvällä konvolutionaalisella neuroverkolla vahvistusoppimisen tarvitsemien Q-arvojen määrittämiseksi, Deep-Q-Learning DQN, mielenkiintoinen video https://www.youtube.com/watch?v=v1eynij0rnk )

Puoliohjattu oppiminen (1) Puoliohjattu oppiminen osuu nimensä mukaisesti ohjatun ja ohjaamattoman oppimisen välimaastoon käyttää oppimiseen sekä luokiteltua että luokittelematonta dataa tavoitteena monesti reaaliaikainen oppiminen, esim. patologisten näytteiden analysoinnissa esim. datan rakennetieto kiskotaan luokittelemattomasta datasta ja lisäksi tarvitaan jokseenkin pieni määrä luokiteltua näytteistöä useita menetelmiä, joilla olettamuksena datan liittyviä tasaisuus-, monisto- ja ryvästymisolettamia salakavalasti balansoimaton materiaali voi aiheuttaa ongelmia Menetelmiä esim. itseoppiminen (self-training) opetetaan luokittelija ensin ohjatusti pienellä määrällä näytteitä käytetään luokittelijaa tuottamaan kategorisoimattomasta aineistosta lisää luokiteltuja näytteitä - lisätään opetusmateriaaliin ns. varmimmin luokitellut Puoliohjattu oppiminen on monesti rinnastettu ihmisen oppimiseen esim. lapsi oppii erottamaan kissat ja koirat muutamalla vanhemman osoittamalla näytteellä 212

Puoliohjattu oppiminen(2) Alla esimerkki itseoppimisesta (self-training): ihminen antaa muutaman näytteen luokan ja järjestelmä jatkaa siitä lisäten opetusmateriaaliin riskittömimpiä datanäytteet, joiden luokittelu manuaalisesti on ylivoimainen työ ihmisen luokittelemat muutamat opetusnäytteet 213 karkea luokkaraja opetusnäytteiden pohjalta itseoppimisessa uudet opetusnäytteet keskittyvät lähelle ihmisen valitsemia itseoppimisen kautta saatu luokkaraja varoituksen sana: itseoppiminen on herkkä datan epäbalanssille: ihminen ei välttämättä osu kattamaan harvinaisia luokkia tai luokan harvinaisempia edustajia keskittyminen ns. varmimpiin tapauksiin ihmisen luokittelun pohjalta ei välttämättä ohjaa ihan toivotulla tavalla diskriminoiviin luokkarajoihin

Aktiivinen oppiminen (1) 214 Aktiivinen oppiminen on puoliohjatun oppimisen erikoistapaus oppimisalgoritmi on vuorovaikutuksessa ihmisen tai muun tietolähteen kanssa ja kysyy luokkia jollakin kriteerillä valituille näytteille oikein toteutettuna etuna luokiteltavien näytteiden paljon ohjattua oppimista pienempi lukumäärä (ns. labeling complexity), mutta huonosti toteutettuna heikosti luokkia diskriminoivan datan osuus ja epäbalanssi opetusnäytteistössä voi kasvaa Kun tavoitteena on virheaste e, niin parhaimmillaan aktiivinen oppijan tarvitsema näytemateriaalin ohjattu luokituspanos on korkeintaan O(d*log(d/e)), missä d on dimensionaalisuus lineaarisen luokittelijan (esim. naivi Bayes) tarvitsema panostus on vähintään Ω(d/e) esim. jos vaaditaan e=0.01 (1%) ja d=1, niin aktiivinen oppija tarvitsee enintään n. 5% lineaarisen luokittelijan vaatimasta luokitellusta näytemäärästä (millä edellytyksin tähän voidaan päästä? Kiinnostuneille kohtalaisen helppotajuista luettavaa: http://papers.nips.cc/paper/2943-coarse-sample-complexity-bounds-for-active-learning.pdf, riittää lukea toiseen kappaleeseen asti ) tyypillisesti aktiivinen oppiminen vaatii panoksen väliltä [O(d*log(d/e)), Ω(d/e)] huom: kiintoisa erityisesti puuluokittelijoiden kanssa!

Aktiivinen oppiminen (2) 215 Aktiivisen oppimisen kriittinen kohta on ihmiselle (tai muulle tietolähteelle) kategorisoitavaksi valittavien näytteiden poiminta. Menetelmiä ovat mm. epävarmimpien tapausten lisäys (uncertainty sampling): poimitaan ihmiselle luokiteltavaksi näytteet, joiden luokasta sen hetkisen luokittelun kannalta suurin epävarmuus; tämän edustaja on mm. komiteaäänestys (query by committee, QBC): yhdistelmäluokittelija osoittaa ihmiselle näytteet, joiden luokista on eniten eroavia näkemyksiä suurimman muutoksen aiheutus (expected model change): ihminen luokittelee näytteet, jotka muuttavat luokituksia eniten suurin virheettömyyden parannus (expected error reduction) vasemmalla esimerkki syviä konvolutionaalisia neuroverkkoja yhdistelmäluokittelijana käyttävästä teollisesta aktiivisen oppimisen ratkaisusta; laskentatehon hintaeroosio on tehnyt tällaisetkin aiemmin utopistiset ratkaisut mahdollisiksi

Aktiivinen oppiminen (3) Aktiivisen oppimisen tehokkuus perustuu käytettyjen opetusnäytteiden keskittymiseen kriittisten luokkarajojen lähelle datanäytteet, joiden luokittelu manuaalisesti on ylivoimainen työ ihmisen luokittelemat muutamat opetusnäytteet 216 karkea luokkaraja opetusnäytteiden pohjalta aktiivisessa oppimisessa opetusnäytteet keskittyvät luokkarajoille aktiivisen oppimisen kautta saatu luokkaraja varoituksen sana: aktiivinen oppiminen ei välttämättä suojaa datan epäbalanssilta

Aktiivinen oppiminen (4) 217 Aktiivinen oppiminen lisää opetusmateriaaliin uusia opetusnäytteitä joko yksi kerrallaan tai joukkoina uudet näytteet muuttavat luokittelijan käyttämää mallia alla tilanne, jossa luokkarajan lähellä havaitut kaksi näytettä luokitellaan ja seurauksena luokkarajat muuttuvat karkea kategoriaraja luokiteltavaksi pyydetyt näytteet päivitetty kategoriaraja Tilanne ennen uuden näytteen luokitusta Tilanne luokituksen jälkeen Huom: datan esitystapa on säännöllisesti hyvin korkeadimensioinen, joten ylläolevan kaltainen 2-D esitys edellyttää soveltuvan dimensionaalisuuden vähentämismenetelmän käyttöä

Aktiivinen oppiminen (5) 218 Aktiiviseen oppimisen virheettömyysodotuksiin liittyy samankaltaisia käytännössä epärealistisia olettamuksia kuin ohjattuun oppimiseen oletetaan ihmisen luokittelevan oikein ja kykenevän aina antamaan luokan, vaikka on erehtyväinen ja monesti jättäisi epävarmoja tapauksia ilman varmaa kategoriaa Joissakin sovelluksissa luokitustarkkuutta voi parantaa visualisoimalla ihmiselle päätöstilanteen luonne; esim. sopivan dimensionaalisuuden vähennysmenetelmän avulla kahden kategorian epävarmimmiksi tulkitut näytteet alla toteamme kummassakin kategoriassa yhden näytteen ilmeisimmin kuuluvan toiseen luokkaan Kategoria A Kategoria B