Klusteroinnin kyvyillä on rajansa

Klusteroinnin kyvyillä on rajansa Dataa on monesti hyvin paljon, se on säännöllisesti korkeadimensioista ja vaikeasti hahmotettavalla tavalla rakenteista, jolloin klusterointi antaa helposti liki arvaukseen verrattavissa olevia tuloksia luokkien rakentaminen ja luokittelijoiden opettaminen on epäluotettavaa tarvitaan keinoja, joilla rakenteet pystytään paljastamaan ihmiselle helpommin ymmärrettävällä tavalla pudotetaan ongelman dimensioita ihmisen paremmin ymmärtämälle tasolle Dimensionaalisuuden vähentäminen (1) Monissa tapauksissa koneoppimiseen halutaan syöttää hyvin monidimensioista dataa esim. MNIST tietokannan numeronäytteet ovat 28x28 pikseliä, jolloin niitä raakakuvina käytettäessä vastaa 784 piirrettä pitkä vektori kuvien tapauksessa dimensionaalisuutta voidaan jonkin verran pienentää käyttämällä korkeamman tason piirteitä (esim. HoG) Korkeiden dimensionaalisuuksien kanssa voi tulla ongelmia 1. tallennustilan ja laskennan määrä kasvaa 2. piirreavaruuden visualisointi on hankalaa 3. datanäytteiden tiheyden piirreavaruudessa harvetessa, kun piirteiden määrä kasvaa, mm. knn luokittelija kärsii etäisyysmittojen heikentyvästä diskriminaatiosta dimensionaalisuuden kirous (curse of dimensionality) 1.0 virheettömyys (accuracy) 0.0 piirteiden määrä vasemmalla tyypillinen knn luokittelijan virheettömyyskehitys kun opetusnäytteiden määrä on vakio, mutta piirteiden määrä kasvaa aluksi piirteiden lisäys parantaa luokkarajojen mallinnusta sitten data avaruus harvenee ja etäisyysmitan diskriminaatiokyky heikkenee

Dimensionaalisuuden vähentäminen (2) Dimensionaalisuutta voidaan pienentää kahdella tavalla 1. tunnistamalla tai hakemalla ja valitsemalla käytettäväksi parhaiten luokkia erottelevat piirteet soveltuvuus rajautuu ohjattuun oppimiseen ongelmana vaikeus algoritmisesti määrittää pieni määrä luokat erottelevia esitystapoja/piirteitä esim. kuvamuotoisesta tiedosta 2. käytetään sopivaa muunnosalgoritmia pakkaamaan korkeadimensioinen data vähempidimensioiseksi: luokkatietoa ei välttämättä ole! soveltuu sekä ohjattuun että ohjaamattomaan oppimiseen muunnos voi olla lineaarinen tai epälineaarinen oikealla ns. swiss roll monisto ja sen 2D LLE projektio (Locally Linear Embedding (LLE, Tenenbaum et al 2000) Vapaaehtoista varsin helppotajuista luettavaa: http://web.mit.edu/cocosci/papers/sci_reprint.pdf) Dimensionaalisuuden vähentäminen (3) Dimensionaalisuuden pudottamiseen liittyy monisto käsite (manifold): moniston dimensio on niiden riippumattomien parametrien määrä, jotka tarvitaan määrittämään piste 1 dimensioisessa tilanteessa monistot ovat suoria ja käyriä, kuten ympyröitä ellipseja, hyperbelejä, siis mitä vain käppyröitä (huom: myös avaruuskäyrät parametrimuotoa (x,y,z)= [f(t), g(t), h(t)], missä t on se ainokainen riippumaton parametri ja funktiot f,g, ja h jatkuvia, ovat 1 dimensioisia!) 2 dimensioiset monistot ovat pintoja, kuten tasot, sylinterit, ellipsoidit, toroidit (huom. otetetaan vain pinnat, ei siis täytellä ) jo 3 dimensioinen monisto on ihmiselle vaikeammin miellettävä Alla Matlab työkalulla 2 D ja 3 D avaruuteen t SNE menetelmällä kuvattu MNIST data Datanäytteitä vastaavat pisteet on värjätty dimensionaalisuuden pudotuksen jälkeen

Dimensionaalisuuden vähentäminen (4) Lukuisissa korkean dimensionaalisuuden omaavissa koneoppimisen kohdeongelmissa puuttuu selvä luokkarakenne edes ihminen ei voi täysin varmasti luokitella näytteitä esim. muutokset virheettömästä materiaalista raakkikappaleiksi tai toiseen luokkaan voivat olla liki jatkuvia (vrt. MNIST) ihmisen kasvojen asennon ja esim. tunnetilojen muutokset ovat jatkuva arvoisia Kuvat alla Kouropteva et al 2002 http://www.ee.oulu.fi/mvg/files/pdf/pdf_368.pdf Dimensionaalisuuden vähentäminen lineaarisella menetelmällä (1) Näytedatan muodostamaa monistoa moniulotteisessa piirreavaruudessa voi pyrkiä tarkastelemaan eri suunnista äärimmäisen yksinkertainen esimerkki on alla esitetty kahden piirteen virittämä piirreavararuus, jossa data on pitkänomaisena rakenteena valitaan sellainen tarkastelusuunta, jonka kautta nähdään maksimaalinen koska alkuperäinen avaruus on 2 dimensioinen, emme menetä informaatiota jos valitaan maksimaalisen n tarkastelusuunta ja lisäksi pienemmän n suunta lopulta valitaan nuo suunnat uusiksi piirreavaruuden koordinaattiakseleiksi pienempi suurin pienempi Toteamme, että jos olisimme alunperinkin onnistuneet formuloimaan suurimman n piirteen, niin meille olisi voinut riittää yksi piirre suurin

Dimensionaalisuuden vähentäminen lineaarisella menetelmällä (2) Pääkomponenttianalyysi (Principal Components Analysis, Hotelling muunnos, Karhunen Loeve muunnos, monta nimeä, tilastotiede, säätötekniikka, signaalinkäsittely) lineaarinen dimensionaalisuuden vähennysmenetelmä, jota yleensä käytetään ensimmäisenä primitiivireaktiona uuden datan tapauksessa ennen siirtymistä epälineaariseen dimensionaalisuuden vähentämiseen laskee monidimensioisesta datasta sellaiset ortogonaaliset kantavektorit, joista yleensä muutaman avulla näytedata voidaan esittää ilman isoa informaatiohävikkiä merkitykseltään pienet kantavektorit voidaan hylätä luokittelu halpenee piirteiden vähetessä ja virheettömyys voi parantua data avaruuden tihentyessä data voidaan esittää vähemmillä dimensioilla ja nhaluttaessa jopa rekonstruoida takaisin Monissa tapauksissa PCA toimii edellisen slaidin esimerkin tavoin hienosti, silloin kun vähintäänkin data on lineaarisesti korreloivaa... Dimensionaalisuuden vähentäminen lineaarisella menetelmällä (3) Pääkomponenttianalyysi (PCA) on menetelmänä tarkoitettu löytämään kätkössä olevat lineaariset korrelaatiot niinpä rajoitteet tulevat vastaan, kun data ei ole lineaarisesti korreloivaa, esim. alla; monidimensioisemmat tilanteet ovat kimurantimpia pienempi pienempi suurempi suurempi Datassa voi olla lineaarisia korrelaatioita, mutta se voi silti olla ongelma PCA:n tekemälle ortogonaalimuunnokselle esim. korkeaulotteisten ongelmien ns. pupunkorvat (huom: tällainen voi olla lähtökohtana ryvästykselle, mutta etäisyysmittojen hallinta korkeadimensioisessa tilanteessa voi olla haasteellista) Pääkomponenttianalyysi ei itse vaikuta datan skaalaukseen tai normalisointiin, mutta datan skaalaus tai normalisointi voi muuttaa sen antamaa tulosta hyvinkin rajusti

Dimensionaalisuuden vähentäminen epälineaarisella menetelmällä (1) Dimensionaalisuuden vähentäminen vähentää luokittelun ja klusteroinnin laskentaa sekä helpottaa ihmisen tekemää datan rakenteen analysointia entä jos keskitytään vain noista tavoitteista viimeiseen, jotta ihminen voisi esim. luokitella dataa helpommin? Mitä silloin haluaisimme dimensionaalisuuden vähentämiseltä? käytännöllisintä olisi, jos lähellä toisiaan korkeadimensioisessa avaruudessa sijaitsevien datanäytteiden etäisyydet (samankaltaisuusmitan perusteella) olisivat samat myös visualisoidussa alemman dimensionaalisuuden kuvauksessa kaukana toisistaan sijaitsevien näytteiden suhteellisilla sijainneilla ei visualisoinnissa ole niin väliä, kunhan eivät osu ihan naapureiksi moninidimensionaalinen skaalaus (multidimensional scaling, MDS) toimii jokseenkin tällä tavalla MDS:n syötedata on datanäyteparien väliset samankaltaisuusmitat samankaltaisuudet lasketaan piirrevektoreiden perusteella skaalauksilla ja normalisoinneille on myös roolinsa Dimensionaalisuuden vähentäminen epälineaarisella menetelmällä (2) Esimerkki samankaltaisuus/eromatriisista (isommat arvot merkitsevät isompia eroja!) todetaan, että samankaltaisuuksien/erojen laskemiseksi kaikilla piirteillä on oltava arvo kaikissa näytepisteissä (huom: kyseessä osa hieman isommasta materiaalista) Tulos saadaan optimoiden (minimoiden) kohdefunktion arvoa, joka on esim. alkuperäisten ja alempidimensioisen kuvauksen erojen erotusten neliöiden summa oikealla ns. Sammon mapping menetelmällä saatu 2 D kuvaus alkuperäiselle 4 D datalle. Menetelmä on ensimmäinen MDS ratkaisu, vuodelta 1969 http://syllabus.cs.manchester.ac.uk/pgt/2017/comp61021/ reference/sammon.pdf

Dimensionaalisuuden vähentäminen epälineaarisella menetelmällä (3) Monidimensioisen skaalauksen ongelmia ovat samankaltaisuusmatriisin suuri koko: jos N näytettä, niin N*N näyteparille laskettava samankaltaisuudet yhdenkin näytteen lisääminen tai poistaminen voi muuttaa visualisointia erittäin merkittävästi ei sovellu hötkyilevien asiantuntemattomien käyttöön epälineaarisena ei mahdollista rekonstruktiota, on siis vain visualisointiapu MDS Muita epälineaarisia dimensionaalisuuden vähentämistekniikoita Isomap (isometric mapping): rakentaa alempidimensioisen kuvauksen näytenaapurustojen perusteella (MDS mittaa vain parittaisia etäisyyksiä) LLE (locally linear embedding): jokainen datapiste lausutaan lähi naapurustonsa lineaarikombinaationa T SNE (t distributed stochastic neighbor embedding): perustuu naapuruston tiheysfunktioihin ja informaatioteoreettiseen kohdefunktion minimointiin SOM (self organizing maps, Kohonen maps): 2 Dkartan vektorit oppivat SOM syötetyn datanäytteistön tilastolliset ominaisuudet Dimensionaalisuuden vähentäminen epälineaarisella menetelmällä (4) Dimensionaalisuuden vähennysmenetelmät eivät ole taikasauvoja erityisen vaarallista on luottaa yhden suosikkimenetelmän olevan yleistyökalu, joka tepsii jokaiseen haasteeseen datan luonteella on merkityksensä, jonka vuoksi menetelmien luonne on tunnettava Esimerkki alla: vasemmalla SOM (itseorganisoiva kartta) mallintaa todennäköisyystiheyttä, jolloin harvinaisten luokkien näytteille jää harvoja solmuja kartassa oikealla MDS puolestaan pyrkii säilyttämään näytteiden keskinäiset etäisyydet dimensionaalisuuden vähennysmenetelmän valinta riippuu käyttötarkoituksesta oikealla: SOM ei tässä näytä soveltuvan harvinaisten luokkien erotteluun ja kategorisointiin ohjatulle oppimiselle Matti Niskanen 2003 http://jultika.oulu.fi/file s/isbn9514270673.pdf

Vahvistusoppiminen (1) Läheskään kaikissa koneoppimista tarvitsevissa sovelluksissa ei ole tarjolla selkeätä kategoriatietoa, mutta toisaalta vääriä ratkaisuja ja toimintoja eli yrityksiä ja erehdyksiä voidaan sietää, kunhan niistä kyetään oppimaan, minkä vuoksi toimintaympäristön olisi pystyttävä antamaan jokin palautetieto (mitä mieltä olet itseajavien autojen opettamisesta vahvistusoppimisella?) Tällaisiin sovelluksiin sopii vahvistusoppiminen, jossa pyritään löytämään toimintastrategia tai ratkaisu, josta tulee eniten positiivista palautetta ohjatun ja ohjaamattoman oppimisen välimaastossa tavoitteena jatkuva oppiminen Vahvistusoppiminen tarvitsee sovelluksia, joissa sen jatkuvaa palautenälkää pystytään automaattisesti syöttämään ympäristö palaute + tai tilatieto tai havainto Yksi vahvistusoppimiseen liitetty väittämä on sen olevan lähellä biologisten organismien oppimista mitä mieltä olet tästä? toiminto agentti Vahvistusoppiminen (2) Vahvistusoppisen sovelluksia: osakekaupan strategioiden jatkuva parantaminen (huom: ei pelkkä hakuongelma!) logistiikassa mm. jakeluautojen reittien ja varastojen optimointi robotiikkakin, joskin tämä sovellusalue on teollisuudessa toistaiseksi ollut jonkinasteinen pettymys, mutta robotit oppivat kävelemään vahvistusoppimalla henkilökohtaisten www palveluiden optimointi pelien oppiminen, mm. Go, videopelit, esim. http://karpathy.github.io/assets/rl/pong.gif ja https://www.youtube.com/watch?v=yfsmhtmgdke eräät chatbot toteutukset, joissa pyritään pitämään vastapuolen kiinnostus yllä Vahvistusoppimisen yritys ja erehdyssieto tarkoittaa myös, että se kestää ympäristöstäkin lähtöisin olevia epävarmuuksia, kunhan saa asianmukaisen palautteen Vahvistusoppimisen haasteina ovat tarvittu opetusnäytteiden/ kokemusten määrä: suuri näytemäärätarve esim. robotiikkasovelluksissa voi tarkoittaa ihmisen mielestä tuskallisen hidasta suoriutumisen paranemista usein tarvittu esitystapojen oppiminen, mutta tarvitut syväoppimisratkaisut kamppailevat nekin opetusnäytteistön määrän kanssa peleissä näytemäärätarpeet voidaan tyydyttää simulaatioiden kautta

Vahvistusoppiminen (3) Tarkastellaan vahvistusoppimisen etenemistä robottipölynimurista kyhätyn toimistorobotin tekemässä reitinhaussa huoneen ovelle (toimittamaan allekirjoitetut tenttiarvostelut) robotti tekee ensin havainnot lyhyen kantaman (5cm) ultraäänitutkillaan ja päättää sitten toimenpiteen (action), joka on liikkuminen 70cm eteenpäin, oikealle, vasemmalle, tai taaksepäin robotin tila (state) on sen sijainti (alaoikealla jokainen ruutu voi olla tila) negatiivinen palaute (reward) on umpikujan löytyminen, positiivinen on liikkumismahdollisuuden löytyminen (kohta esimerkissä käytämme arvoa 0) robotin pidemmän aikavälin palkkio on pääsy toimiston ovelle, ei pelkät välittömät liikuista saadut palautteet! = todellisuus onkin mutkikkaampi kuin pelkkä positiivinen/negatiivinen palaute! Välittömiä palautteita käytetään oppimaan reitti ovelle robotti oppii jokaisesta osumasta seiniin, pöydän ja tuolinjalkoihin, yms. robotti myös muistaa reitin, mitä pitkin se kulkee vahvistusoppimisen varsinainen tavoite on oppia reitti ovelle: tähän käytetään ns. Q oppimista (Q learning) robotti Vahvistusoppiminen (4) Q oppiminen on vahvistusoppisalgoritmi, joka ei mallinna ympäristöään eli on ns. mallivapaa kohtelee ympäristöä tilakoneena ja on aina jossakin tilassa kukin tila sisältää kaiken tiedon ympäristöstä ja Toiminto&arvo (action&value) funktio määrittää tietyssä tilassa olemisen ja tietyn toimenpiteen siinä valitsemisen arvon Q funktio palauttaa toimenpiteestä odotetun palautteen kun siihen syötetään tilatieto ja ao. toimenpide alussa Q funktio palauttaa kaikille tiloille ja toimenpiteille vakioarvon myöhemmin, kun robotti on hankkinut (ja hankkii) liikkumalla enemmän tietoa, Q funktio antaa paranevia arvioita toimenpidevaihtoehdoille valitussa tilassa käytännössä Q funktio esitetään Q taulukkona, joka sisältää palautteen (Q arvon) jokaisen tilan jokaiselle toimenpiteelle, jota seuraa parhaiden seuraavien toimenpiteiden ketju = Q arvo on palaute pidemmän aikavälin tavoitteen suhteen eli ohjaa valitsemaan toimenpiteen sitä kohti Q oppiminen oppii Q arvot Q funktioon/taulukkoon vahvistusoppimisen havainnot ja toimenpiteet puolestaan tuottavat Q arvoja

Vahvistusoppiminen (5) Q oppiminen toimii robottimme tapauksessa karkeasti seuraavaan tyyliin: 1. robotti alustaa/olettaa ensimmäisen Q arvon jokaiselle tila toimenpide parille Q(S,A) = 0 (S=state, A=action) = palautteesta pidemmän aikavälin tavoitteen suhteen ei missään tilassa ole mitään tietoa 2. robotti aloittaa valitsemalla tilassaan S k toimenpiteen A k ja saa ympäristöltä palautteen R k (reward); samalla tila S k vaihtuu tilaksi S k+1 ; jos tämä on tavoitetila, niin algoritmi päättyy 3. robotti päivittää tilan S k toimenpiteeseen A liittyvän Q arvon seuraavasti Q(S k,a k ) = (1 learning_rate)*q(s k,a k ) + learning_rate*(r k + discount_rate*max A Q(S k+1,a)) learning_rate arvottaa uuden information merkitystä vanhaan verrattuna ja on arvo väliltä [0,1] discount_rate, arvo on väliltä [0,1] arvottaa vielä tulevia palautteita alemmaksi kuin kuin jo saadun; tämä voidaan tulkita myös uuden askeleen onnistumistodennäköisyydeksi max A Q(S k+1,a)) puolestaan on arvio parhaasta tulevasta palautteesta pidemmän aikavälin tavoitteen osalta, siis oletetaan seurattavan aina optimaalista reittiä loppuun 4. palataan askeleeseen 2 Algoritmissa Q arvon päivitys siirtää aiempaa informaatiota ja ottaa huomioon robotin kaikki tulevaisuuden liikut kun robotti liikkuu ja käy muissa tiloissa ja yrittää eri toimenpiteitä, se samalla oppii jokaisen tila toimenpide parin optimaaliset Q arvot osaa jokaisessa tilassa valita optimaalisesti varsinaiseen ratkaisuun vievän liikun Vahvistusoppiminen (6) Tarkastellaan robottimme etenemistä tehtävässään, olettaen learning_rate = 0.3, discount rate = 0.8 kun robotti liikesuunnassaan osuu esteeseen sen palkkio on 1, muutoin 0 toimenpiteet ovat eteen, taakse, oikealle, vasemmalle ottaen huomioon kulloisenkin tilan rajoitteet, alkutilassa S 0 voidaan liikkua vain ylös ja oikealle Aloitetaan tilassa S 0 liikkumalla eteenpäin, saadaan palkkioksi R 0 =0 ja päivitetään tämän jälkeen tilan S 0 Q arvo Q(S 0, eteen) = 0.7* Q(S 0, eteen) + 0.3 (R 0 +0.8*max A Q(S 1,eteen tai taakse)) = 0.7*0 + 0.3*(0+0.8*0) = 0 Huom: eestaas liikkuja ei oteta huomioon, mutta merkitty vaihtoehtoavaruuden vuoksi Liikutaan tilassa S 1 eteenpäin, saadaan palkkio 0 ja päivitetään Q arvo Q(S 1, eteen) = 0.7* Q(S 1, eteen) + 0.3 (R 1 +0.8*max A Q(S 2,eteen, taakse tai oikealle)) = 0.7*0 + 0.3*(0+0.8*0) = 0 Liikutaan tilassa S 2 oikealle tilaan S 3, saadaan palkkio 1 ja päivitetään Q arvo 5 4 11 14 13 12 Q(S 2, oikealle) = 0.7* Q(S 2, oikealle) + 0.3 (R 2 +0.8*max A Q(S 3,vasemmalle)) 2 3 10 = 0.7*0 + 0.3*( 1+0.8*0) = 0.3 Huom: ongelmamme on formuloitu siten, että max A Q() 1 9 saa arvon 0 niin kauan kuin reitti on mahdollinen 6 7 8

Vahvistusoppiminen (7) Jatketaan Q.arvojen päivittämistä robotin liikkuessa: Liikutaan tilassa S 3 vasemmalle tilaan S 2, saadaan palkkio 0 ja päivitetään Q arvo Q(S 3, vasemmalle) = 0.7* Q(S 3, vasemmalle) + 0.3* (R 3 +0.8*Q(S 3,vasemmalle)) = 0.7*0 + 0.3*(0+0.8*0) = 0 Jatkettaessa eteenpäin (hypätään hieman vaiheita yli, Q(S 2, eteen) saa arvon 0) tilasta S 4 siirryttäessä eteenpäin todetaan umpikuja S 5 :ssa, jolloin R 4 = 1 ja päivitys siten Q(S 4, eteen) = 0.7* Q(S 4, eteen) + 0.3 ( 1+0.8*Q(S 5,taakse)) = 0.3 Nyt totemme tilasta S 4 tilaan S 5 siirryttyä Q(S 5, taakse) = 0.7* Q(S 5, taakse) + 0.3* (0+0.8*max A Q(S 4,taakse tai eteen)) = 0 sillä Q(S 4,taakse) =0 ja Q(S 4,eteen)= 0.3 joten valitaan suuremman Q arvon siirtymä taakse Puolestaan kun tilasta S 5 siirrytty tilaan S 4 Q(S 5, taakse) = 0.7* Q(S 5, taakse) + 0.3* (0+0.8*max A Q(S 4,taakse tai eteen)) = 0 sillä Q(S 4,taakse) =0 ja Q(S 4,eteen)= 0.3 joten valitaan suuremman Q arvon siirtymä taakse Jatkamme vielä tilaan S 2 jolloin Q(S 4, taakse) = 0.7* Q(S 4, taakse) + 0.3 (0+0.8*max A Q(S 2,eteen,taakse tai oikealle)) = 0 5 4 11 14 13 12 sillä Q(S 2,taakse) =0, Q(S 2, oikealle)= 0.3 ja päivitys Q(S 2,eteen)= 0.7* Q(S 2, eteen) + 2 3 10 0.3* (0+0.8*max A Q(S 4,(taakse tai) eteen)) = = 0.7*0 + 0.3*( 0+0.8*( 0.3)) = 0.24 eli saatu negatiivinen palaute periytyy peräännyttäessä 1 9 (huom: välittömiä eestaas liikkuja ei oteta huomioon) 6 7 8 Vahvistusoppiminen (8) Q oppiminen edellyttää robotin yrittävän käydä läpi mahdolliset tila toimenpideparit tai ainakin mahdollisimman monta sellaisista vasta tämän jälkeen robotilla on tilakoneessaan täydellinen tieto optimaaliseen toimintaan, mutta voi toimia ilman sellaistakin Q arvot edustavat optimia kun valitaan paras toimenpidesekvenssi Esimerkissämme jaksoimme päivittää seuraavat Q arvot: Q(S 0, eteen) = 0 Q(S 1, eteen) = 0 Q(S 5, taakse) = 0 Q(S 2, eteen) = 0.24 Q(S 2, taakse) = 0 Q(S 2, oikealle) = 0.3 Q(S 3, vasemmalle) = 0 Q(S 4, eteen) = 0.3 Q(S 4, taakse) = 0 Tärkeä huomautus: todellisessa sovelluksessa lisäisimme tila toimenpide pareihin myös kyseisissä tiloissa mahdottomat toimenpiteet, nyt algoritmin selitystä lyhentääksemme sivuutimme ne, vaikka ne ovat olennaista tilatietoa Entä jos robottimme muuttaa ympäristöään? Esim. työntää tuoleja paikoiltaan tms? mahdollisten tilojen määrä kasvaa, mutta Q oppimista voi edelleen käyttää esim. pokerin, shakin, blackjackin tapauksissa seuraava tila riippuu edellisestä tilasta ja tehdystä toimenpiteestä

Vahvistusoppiminen (9) Q oppiminen toimii hyvin pienissä ongelmissa mahdollista käydä kaikissa tiloissa ja selvittää kaikkien toimenpiteiden seuraukset tila avaruuden kasvaessa vahvistusoppiminen antaa hyviä tuloksia vasta kun merkittävä osa tiloista on opittu (=ihmisikä voi loppua odotellessa) Nopeutuskeinoja: Monte Carlo menetelmään turvautuminen Q arvojen määrityksessä, kun sama toimenpide tilapari on tullut useasti vastaan ei tarvita parametreja learning_rate ja discount_rate sovellettu mm. Go pelissä ihmisen voittavan AlphaGo ohjelmassa: pelasi ensin itseään vastaan oppien pelistrategiat kompakti esitys ratkaisusta https://medium.com/applied data science/alphagozero explained in one diagram 365f5abf67e0 neuroverkkojen käyttö, jolloin syötteet ovat tiloja ja lähdöt toimenpiteitä tai niihin liittyviä Q arvoja syvien neuroverkkojen piilokerrokset vähentävät ulkopuolelle näkyvää kompleksisuutta vapaaehtoista luettavaa: https://www.nature.com/articles/nature14236 (videopeli kuvataan syvällä konvolutionaalisella neuroverkolla vahvistusoppimisen tarvitsemien Q arvojen määrittämiseksi, Deep Q Learning DQN, mielenkiintoinen video https://www.youtube.com/watch?v=v1eynij0rnk ) Puoliohjattu oppiminen (1) Puoliohjattu oppiminen osuu nimensä mukaisesti ohjatun ja ohjaamattoman oppimisen välimaastoon käyttää oppimiseen sekä luokiteltua että luokittelematonta dataa tavoitteena monesti reaaliaikainen oppiminen, esim. patologisten näytteiden analysoinnissa esim. datan rakennetieto kiskotaan luokittelemattomasta datasta ja lisäksi tarvitaan jokseenkin pieni määrä luokiteltua näytteistöä useita menetelmiä, joilla olettamuksena datan liittyviä tasaisuus, monisto ja ryvästymisolettamia salakavalasti balansoimaton materiaali voi aiheuttaa ongelmia Menetelmiä esim. itseoppiminen (self training) opetetaan luokittelija ensin ohjatusti pienellä määrällä näytteitä käytetään luokittelijaa tuottamaan kategorisoimattomasta aineistosta lisää luokiteltuja näytteitä lisätään opetusmateriaaliin ns. varmimmin luokitellut Puoliohjattu oppiminen on monesti rinnastettu ihmisen oppimiseen esim. lapsi oppii erottamaan kissat ja koirat muutamalla vanhemman osoittamalla näytteellä

Puoliohjattu oppiminen(2) Alla esimerkki itseoppimisesta (self training): ihminen antaa muutaman näytteen luokan ja järjestelmä jatkaa siitä lisäten opetusmateriaaliin riskittömimpiä datanäytteet, joiden luokittelu manuaalisesti on ylivoimainen työ ihmisen luokittelemat muutamat opetusnäytteet karkea luokkaraja opetusnäytteiden pohjalta itseoppimisessa uudet opetusnäytteet keskittyvät lähelle ihmisen valitsemia itseoppimisen kautta saatu luokkaraja varoituksen sana: itseoppiminen on herkkä datan epäbalanssille: ihminen ei välttämättä osu kattamaan harvinaisia luokkia tai luokan harvinaisempia edustajia keskittyminen ns. varmimpiin tapauksiin ihmisen luokittelun pohjalta ei välttämättä ohjaa ihan toivotulla tavalla diskriminoiviin luokkarajoihin Aktiivinen oppiminen (1) Aktiivinen oppiminen on puoliohjatun oppimisen erikoistapaus oppimisalgoritmi on vuorovaikutuksessa ihmisen tai muun tietolähteen kanssa ja kysyy luokkia jollakin kriteerillä valituille näytteille oikein toteutettuna etuna luokiteltavien näytteiden paljon ohjattua oppimista pienempi lukumäärä (ns. labeling complexity), mutta huonosti toteutettuna heikosti luokkia diskriminoivan datan osuus ja epäbalanssi opetusnäytteistössä voi kasvaa Kun tavoitteena on virheettömyysaste e, niin parhaimmillaan aktiivinen oppijan tarvitsema näytemateriaalin ohjattu luokituspanos on korkeintaan O(d*log(1/e)), missä d on dimensionaalisuus lineaarisen luokittelijan (esim. naivi Bayes) tarvitsema panostus on vähintään Ω(d/e) esim. jos vaaditaan e=0.9 ja d=784, niin aktiivinen oppija tarvitsee enintään n. 4% lineaarisen luokittelijan vaatimasta luokitellusta näytemäärästä (millä edellytyksin tähän voidaan päästä? Kiinnostuneille kohtalaisen helppotajuista luettavaa: http://papers.nips.cc/paper/2943 coarse sample complexity bounds for active learning.pdf, riittää lukea toiseen kappaleeseen asti ) tyypillisesti aktiivinen oppiminen vaatii panoksen väliltä [O(d*log(1/e)), Ω(d/e)]

Aktiivinen oppiminen (2) Aktiivisen oppimisen kriittinen kohta on ihmiselle (tai muulle tietolähteelle) kategorisoitavaksi valittavien näytteiden poiminta. Menetelmiä ovat mm. epävarmimpien tapausten lisäys (uncertainty sampling): poimitaan ihmiselle luokiteltavaksi näytteet, joiden luokasta sen hetkisen luokittelun kannalta suurin epävarmuus; tämän edustaja on mm. komiteaäänestys (query by committee, QBC): yhdistelmäluokittelija osoittaa ihmiselle näytteet, joiden luokista on eniten eroavia näkemyksiä suurimman muutoksen aiheutus (expected model change): ihminen luokittelee näytteet, jotka muuttavat luokituksia eniten suurin virheettömyyden parannus (expected error reduction) vasemmalla esimerkki syviä konvolutionaalisia neuroverkkoja yhdistelmäluokittelijana käyttävästä teollisesta aktiivisen oppimisen ratkaisusta; laskentatehon hintaeroosio on tehnyt tällaisetkin aiemmin utopistiset ratkaisut mahdollisiksi Aktiivinen oppiminen (3) Aktiivisen oppimisen tehokkuus perustuu käytettyjen opetusnäytteiden keskittymiseen kriittisten luokkarajojen lähelle datanäytteet, joiden luokittelu manuaalisesti on ylivoimainen työ ihmisen luokittelemat muutamat opetusnäytteet karkea luokkaraja opetusnäytteiden pohjalta aktiivisessa oppimisessa opetusnäytteet keskittyvät luokkarajoille aktiivisen oppimisen kautta saatu luokkaraja varoituksen sana: aktiivinen oppiminen ei välttämättä suojaa datan epäbalanssilta

Aktiivinen oppiminen (4) Aktiivinen oppiminen lisää opetusmateriaaliin uusia opetusnäytteitä joko yksi kerrallaan tai joukkoina uudet näytteet muuttavat luokittelijan käyttämää mallia alla tilanne, jossa luokkarajan lähellä havaittu näyte luokitellaan ja seurauksena luokkarajat muuttuvat päivitetty kategoriaraja karkea kategoriaraja luokiteltavaksi pyydetty näyte Tilanne ennen uuden näytteen luokitusta Tilanne luokituksen jälkeen Huom: datan esitystapa on säännöllisesti hyvin korkeadimensioinen, joten ylläolevan kaltainen 2 D esitys edellyttää soveltuvan dimensionaalisuuden vähentämismenetelmän käyttöä Aktiivinen oppiminen (5) Aktiiviseen oppimisen virheettömyysodotuksiin liittyy samankaltaisia käytännössä epärealistisia olettamuksia kuin ohjattuun oppimiseen oletetaan ihmisen luokittelevan oikein ja kykenevän aina antamaan luokan, vaikka on erehtyväinen ja monesti jättäisi epävarmoja tapauksia ilman varmaa kategoriaa Joissakin sovelluksissa luokitustarkkuutta voi parantaa visualisoimalla ihmiselle päätöstilanteen luonne; esim. sopivan dimensionaalisuuden vähennysmenetelmän avulla kahden kategorian epävarmimmiksi tulkitut näytteet alla toteamme kummassakin kategoriassa yhden näytteen ilmeisimmin kuuluvan toiseen luokkaan Kategoria A Kategoria B