Ohjattu oppiminen & regressio ja. luokitteluongelma

ongelma Ohjattu oppiminen & regressio ja luokitteluongelmat Ongelmanratkaisussa kannattaa yleensä käyttää kaikki tarjolla oleva tieto, jos sitä on vähentää opetusdatan tarvetta, voi johtaa tehokkaisiin piirteisiin mutta pahimmassa tapauksessa garbage in garbage out... N riippuu ongelmasta Koneoppimisongelmien karkea jako hanki näytteitä selvitä myös karakteristisia piirteitä alle N näytettä yli N näytettä data jotenkin kategorisoitu ei tietoa luokista, mutta rakennetieto olisi hyödyksi ongelmassa ei luokkarakennetta klusterointiongelma regressioongelma kategorioiden lukumäärästä edes jokin tieto ohjaamattoman oppimisen ongelma...datassa saattaa olla edes jotain rakenteellisuutta Ohjattu oppiminen luokat tunnetaan luokitteluongelma dimensioiden pudotusongelma Koneoppiminen (1) Koneoppimisella tarkoitetaan tietoteknisen toteutuksen kykyä oppia datasta tietämystä ei siis erikseen ohjelmoida kuten ihmisen toteuttamassa sääntöpohjaisessa järjestelmässä data mallinnetaan syötteiden perusteella! = tieto irrotetaan datasta, tai jopa opitaan irrottamaan siitä oppiminen = tehtävästä suoriutumisen jatkuva parantaminen Miten oppimista mitataan? esim. arvioidaan järjestelmän antamien ennusteiden tarkkuutta koneoppiminen on usein hyvin lähellä tilastollista mallintamista, tiedon louhintaa ja optimointia tai aivan sama asia! Sovellukset usein ongelmissa, joille on vaikea löytää hyvää puhtaasti algoritmista ratkaisua esim. puheen, kasvojen ja merkkien tunnistus Koneoppiva järjestelmä kyselysyöte opetusdata oppimisalgoritmit data ennuste 1

Koneoppiminen (2) Koneoppiminen voidaan jakaa kolmeen kategoriaan ohjattu oppiminen sovelluksessa tunnetaan opetusdatan luokat tai muu ominaisuus luokat tai ominaisuuset on ennustettava muulle datalle ohjaamaton oppiminen datan mahdolliset rakenteelliset ominaisuudet on löydettävä, jotta sen pohjalta pystytään tekemään johtopäätöksiä, kuten kategorisoimaan datan näytteitä vahvistusoppiminen datan luokkia tai muita ominaisuuksia ei tunneta, mutta sen mukaan toiminnasta saadaan karkeaa palautetta, esim. yritysten ja erehdysten pohjalta Jokaiseen oppimisongelmaan sen kategoriasta riippumatta liittyy vääjäämättä data, jota tarvitaan oppimistehtävässä jatkuvaan parantamiseen ja mittari, jolla mitataan tätä parantumista Koneoppiminen (3) Koneoppimisongelman keskeisiä haasteita on datan esitystavan valinta esitetäänkö oppimisongelman data siitä laskettuina piirteinä vai syötetäänkö järjestelmään suoraan jalostamatonta mittausdataa? Toinen merkittävä valinta on oppimisratkaisun sisäinen esitystapa regressiomalli, tilastollinen luokittelija, päätöspuu, neuroverkko Fakta: ns. hyödyllinen data on jotenkin rakenteista ja oppimisen tehtävä on löytää rakenteet ja lopulta toimia niiden mukaisesti usein strategiana on ensin hakea yksinkertaisempia rakenteita ja sen jälkeen kompleksisempia = oppiminen on oikeastaan hakuongelma! ihmisen määrittämät piirteet, valitsemat regressiomallit ja luokittelijat ovat nekin haun tuloksia tällaista hakua voidaan automatisoida myös neuraalilaskenta on olennaisesti rakenteiden hakua 2

Koneoppiminen (4) Koneoppimisen hyödyntämisessä datalle olennaista on kyetä tunnistamaan, onko kyseessä ohjattu vai ohjaamaton oppiminen (sivuutetaan nyt vahvistusoppiminen, joskin sen olemassaolo on hyvä tietää) Ohjatun oppimisen tapauksessa käsissä voi olla regressio tai luokitteluongelma molemmissa ennustetaan selitettävän (engl. dependent) muuttujan arvoa syötteistä, jotka ovat selittäviä (independent) muuttujia X =(x 0, x 2, x 3, ) tärkeätä huomata: molemmissa tapauksissa syötteet X voivat olla diskreettitai jatkuva arvoisia Oppimisalgoritmien valinta riippuu ongelman/datan luonteesta Peukalosäännöt regressio ongelmassa ennustetaan jatkuva arvoisen muuttujan arvoa esim. 1.27, 478.67, 34576.0, mutta syötteet voivat olla diskreetti tai jatkuva arvoisia luokitteluongelmassa ennustetaan diskreettin muuttujan arvoa esim. 1,2,4,9, mutta syötteet voivat olla jatkuva tai diskreettiarvoisia Hetkinen siis diskreettiarvoisistakin syötteistä voidaan saada jatkuva arvoinen selitettävä muuttuja Koneoppiminen (5) Esimerkkejä regressio ongelmista: käytetyn auton hinnan määritys: merkki, vuosimalli, kilometrit hinta matka aika polkupyörällä Linnanmaalle: lämpötila, kitkakerroin, lumen paksuus, pyörän vaihteet, kumien ilmanpaine, polkijan hapenottokyky opiskelijan valmistumisajan ennustaminen ensimmäisen vuoden opintopiste ja arvosanakertymien perusteella Esimerkkejä luokitteluongelmista: auton merkin päättely: hinta, vuosimalli, yms. auton merkki polkupyörän tyypin päättely, kun matka aika, polkijan kunto ja sää tunnetaan sahatavarakappaleen laatuluokan määritys mm. tyypillinen regressiomalli sen oksien sijaintien ja tyyppien mukaisesti opiskelijavalinta tutkinto ohjelmiin valintakokeiden ja todistusten pohjalta rakennesahatavaran murtumislujuuden ennustaminen taivutuskokeen mittaaman kimmomoduulin perusteella 3

Koneoppiminen (6) Regressio vai luokitteluongelmia millaisen polkupyörän ostaisin? auton kaistavahti? roskapostisuodatin? sähköauton jäljellä olevan ajomatka? biometrinen tunnistus? radiohiiliajoitus? hinnan vaikutus tuotteen myyntiin? ohjelmistotuotteen tai opiskelijan valmistumishetken ennustaminen? sydämen sykkeen ilmaisu? vaalituloksen ennustaminen? ratkaisu 1950 60 luvuilla (väridetektorit) kahvipapujen lajitteluongelma: regressio vai luokittelu? ratkaisu 1990 luvulta (kameratekniikka) Koneoppiminen (7) Regressio ja luokitteluongelmien keskeinen ero: regressiossa tunnistetaan mallia datan rakenteelle ja luokittelussa rakennetta, johon data mallissa kuuluu, mutta jos mallista eikä rakenteista ole käsitystä, niin silloin kyse on ohjaamattoman oppimisen ongelmasta ongelma käsissä alle 100 näytettä hanki näytteitä yli 100 näytettä ohjaamattoman oppimisen ongelma data jotenkin kategorisoitu luokat tunnetaan eikä mittaustietoa kategorioiden lukumäärästä edes jokin tieto...datassa jotain rakenteellisuutta klusterointiongelma regressioongelma luokitteluongelma dimensioiden pudotusongelma X kumpi on mielestäsi luokittelu ja kumpi regressio ongelma? vai onko kumpikin regressio ongelma? X 4

Koneoppiminen (8) Regressio ja luokittelu: rajanvetoa yleensä kvantitatiivisen muuttujan ennustamiseen ei kannata käyttää luokitteluratkaisua, koska mitään ekplisiittistä luokkajakoa ei ole olemassa regression käytössä kategoriavasteiden tuottamiseen on ongelmansa: jos tavoitteena on saada esim. signaaliarvo 0 tai 1 (epätosi tai tosi), niin mitä tehdään arvoilla 0.5 tai 1.2? X Regression salahautoja: mukailtu ote eräästä väitöskirjasta ilmiö riippuu lineaarisesti muuttujista X perusteluna sovittuminen lineaariseen malliin regressiomalli, neuroverkko, tms X mikä meni perusteluissa pieleen? mitä tahansa voi aina sovittaa mihin tahansa malliin ja sovitustuloksen kautta voi arvioida vain mallin ennustearvoa, mutta todellisuudessa selittävien ja selitettävien muuttujien riippuvuudet voivat aivan hyvin olla epälineaarisia Regressiomallit ja algoritmit (1) Tavallisia regressioalgoritmeja/ malleja lineaarinen regressio regressiopuut (tärkeä mm. satunnaismetsä random forest) tukivektoriregressio (support vector regression), jne huom: olemassa myös logistinen regressio Regression yleinen formulaatio: ehdollinen odotusarvo E( X) =f(x, β), missä (*) on selitettävä muuttuja ja X selittävät muuttujat (piirteet) ja β mallin parametrit Regressiomallia rakennettaessa tunnetaan, X ja funktio f mallin rakentamiseen liittyy monesti funktiovaihtoehtojen testaus, jolloin parametrit β estimoidaan kullekin funktiolle siten, että tunnettujen muuttujien X perusteella lasketut muuttujan arvot vastaavat mahdollisimman hyvin tunnettuja mitattuja arvoja oikealla: olemassa olevan regressiomallin kautta ennustetaan muuttujien arvoista X i selitettävän muuttujan arvo i ennustettu i :n arvo regressiomalli ja sen rakentamisessa käytetyt näytteet = ei pidä säikähkää, jos esim. Excelin antama lineaarisen regression virhe on kaamea mitattu X jokin muu malli voi toimia paremmin i X (*) oikeastaan yleinen formulaatio on = E( X) + n, missä n on kohina, mutta säästytään tältä... 5

Regressiomallit ja algoritmit (2) Regressiomallin rakentamisessa tavallisin ensimmäinen yrite on lineaarinen malli E( X) = f(x, β) = ax + b, missä a on parametrivektori, b skalaari ja β =[a,b] parametrien β estimoinnissa käytettävät virhekriteerit mallin ennusteen ja mitatun selitettävän muuttujan välillä ovat yleensä joko virheen pienin neliösumma (L 2 normi) tai virheiden itseisarvojen summa (L 1 normi) Kahden skalaarin x ja y välisessä lineaarisessa regressiossa E(y x) = f(x, β) = ax + b, missä a ja b ovat näytejoukosta (x,y)= [(x 0, y 0 )... (x i, y i ) i=0,1,2,... lasketut estimaatit a = covariance(x;y)/variance(x) ja b = average(y) a*average(x). Esimerkki: erään yliopiston tiedekuntien OKM:n tulosrahoitus (y) ja niiden professorityövuosien (x) välinen lineaarinen regressio y = 0.7*x + 2.9 huom: tästä pilanpäiten valitusta esimerkistä ei pidä tehdä mitään johtopäätöksiä, sillä todellisuudessa X on moniulotteinen Tiedekunta Prof htvosuus OKMrahoitusosuus A 8,6 9,9 B 5,6 9,7 C 15,3 14,4 D 3,1 1,6 E 26,8 21,7 F 3,6 5,7 G 7,3 5,8 H 8,7 11,0 K 2 1,9 L 17,1 16,2 Regressiomallit ja algoritmit (3) On varsin harvinaista, että jokin data noudattaa lineaarista mallia Saharavaran lujuus (kimmomoduulin kautta) Saharavaran lujuus, taivutuskokeen raakkikappaleet erään ultraäänitestilaitteen mukaan Saharavaran lujuus (FEM analyysin kautta) Mallin valitsee joko ihminen tai kone oppii soveliaimman mallin mistä mallit otetaan? Jostain listasta, vai olisiko data avaruus jotenkin ositettavissa siten, että yksinkertainen malli soveltuisi? 6

Regressiomallit ja algoritmit (4) Olennaista regressiomallien käytölle on data! data on mielellään kerättävä taulukkoihin ja selittäviin muuttujiin liittyvät seikat dokumentoimaan mahdollisimman hyvin Erityisesti lineaariseen regressioon liittyy merkittäviä rajoitteita esim. datan oletetaan olevan riippumatonta, vaikkapa yksittäisen opiskelijan opintopistekertymä ei riipu muista mutta heti perään on todettava, että tutkinto ohjelmalla on vaikutusta, joten op kertymät eivät ehkä olekaan riippumattomia! rajoitteiden kanssa toimintaan on keinoja, jotka puolestaan edellyttävät tietoa selittävistä muuttujista = tunnettava ongelmaa kaikissa tapauksissa dataa tarvitaan mahdollisimman paljon! Avointa dataa kiinnostuneille https://data.ouka.fi/fi/ (Oulu) https://vipunen.fi (koulutus) https://sisu.oulu.fi (Oulun yo) http://www.stat.fi (Suomi) https://eudat.eu (massa aineistoja) Näyte X1 X2 X3 X4 A 86,5 % 1,6 % 6,7 % 3,4 % 1,6 % B 70,0 % 4,2 % 15,4 % 6,6 % 3,8 % C 81,6 % 2,9 % 8,2 % 3,9 % 3,4 % D 83,9 % 1,7 % 5,6 % 3,9 % 4,8 % E 72,5 % 5,7 % 11,0 % 5,7 % 5,1 % F 75,0 % 2,4 % 6,9 % 8,0 % 7,8 % G 82,6 % 1,9 % 5,9 % 3,9 % 5,7 % UNKN0 74,3 % 2,0 % 10,2 % 7,3 %? UNKN1 93,3 % 2,1 % 1,5 % 2,1 %? UNKN2 80,9 % 1,3 % 6,6 % 3,3 %? Regressiomallit ja algoritmit (5) Usein vastaavantuleva erityistapaus on logistinen regressio ksinkertaistaen: logistinen regressio on normaali regressiomalli, jossa selitettävä muuttuja on tapahtuman riskin luonnollinen logaritmi lineaarisessa tapauksessa ln[p(=1)/(1 P(=1))] = ax+b Ideana on hakea todennäköisyyksiä esim. jollekin tapahtumalle tapahtua tai jäädä tapahtumatta; vaikkapa opiskelija valmistuu tai ei valmistu tällöin selitettävä muuttuja voi saada vain kaksi arvoa, kun taas selittävät muuttujat X voivat olla mitä tahansa, diskreettejä, jatkuvia, järjestyslukuja, luokkia, yms., jotka jotenkin vaikuttavat tapahtuman tai seikan todennäköisyyteen Logistisen regressioanalyysin tulos on riskiluku esim. jos yksittäisen opiskelijan valmistumistodennäköisyys on esim. 75%, niin ikiopiskelijuuden todennäköisyys on 25% nyt valmistumisriskiluku on ln(75%/25%) = ln3 ~ 1.1 = ln(tapahtuman todennäköisyys/tapahtumattomuuden todennäköisyys) Normaalipulliainen törmää logistiseen regressioanalyysiin Veikkauksen vedonlyönneissä useimmiten tappiokseen 7

Pohjatietoja logistiselle regressiolle? Alla eräs mielenkiintoinen data Oulun yliopistosta vuodelta 2002: opiskelijan valmistumistodennäköisyys ja todennäköisyys jäädä valmistumatta oli selvitettävissä alla olevasta ns. elinaika analyysin tuloksesta... ARK KONE TITE SÄHKÖ PROS TUTA Regressiomallit ja algoritmit (6) Regressiopuut sopivat ennustemallien oppimiseen kun selitettävät muuttujat ovat jatkuva arvoisia tai järjestettyjä diskreettiarvoja mallit rakennetaan pilkkomalla data avaruutta rekursiivisesti osiin ja sovittamalla yksinkertaista ennustemallia jokaiseen osaan tulos voidaan esittää regressiopuuna allaolevaan tyyliin, jossa punaiset juovat esittävät partitioiden rajoja regressiomalli on E( X), joka ennustaa :n arvoja; tilanne on epälineaarinen, joten päätämme sovittaa paloittain lineaarista mallia regressiopuun kautta, jolloin jokaista värikoodein ilmoitettua :n arvoaluetta vastaa oma mallinsa huom: alla 2 D tapaus, todellisuudessa tilanteet monidimensioisia ja partitiointi hyper tasojen avulla x 2 0.7 0.4 x 1 1.7 selitettävän muuttujan näytteet selittävien muuttujien virittämässä data avaruudessa x 2 <0.4 x 2 <0.7 x 1 <1.7 0.9<=<6.6 >=6.6 <0.4 0.4<=<0.9 paloittain lineaarinen regressio :n arvoalueiden osalta 0.7 x 2 0.4 x 1 1.7 :n arvoalueet vs. selittävien muuttujien virittämä data avaruus 8

Regressiomallit ja algoritmit (7) Regressiopuun partitiointitulos on erittäin herkkä datalle muutamien, jopa yhden näytteen jättäminen aineistosta saattaa muuttaa puuta dramaattisesti tällainen epästabiilius antaa kuitenkin hyödynnettävän edun, jos opetukseen käytettävää dataa on riittävästi 1.0 x 2 0.7 0.4 x 1 1.7 poistetaan muutama näyte x 2 0.5 x 1 1.7 2.2 x 1 <1.7 x 1 <1.7 x 2 <0.4 x 2 <0.7 0.9<=<6.6 >=6.6 päätöspuu meni uusiksi x 2 <0.5 x 1 <2.2 x 2 <1.0 >=10.5 <0.4 0.4<=<0.9 <0.3 0.3<=<6.4 6.4<=<7.9 7.9<=<10.5 Regressiomallit ja algoritmit (8) Satunnaispuut/satunnaismetsät (random forest) ovat luokittelussa ja regressiossa erittäin suosittu ohjatun oppimisen ratkaisu, ideana on generoida suuri määrä satunnaisia regressio /luokittelupuita, regression tapauksessa kunkin puun selitettävälle muuttujalle antamasta ennusteesta yhdistetään tulos luokittelun tapauksessa puiden antamien tulosten perusteella tehdään äänestyspäätös tuloksen ennustetarkkuus paranee satunnaismetsiä käytettäessä erittäin merkittävästi Menetelmä toimii karkeasti seuraavasti 1. valitaan näytteistöstä satunnaisesti osa opetusmateriaaliksi 2. valitaan näytteille lasketuista piirteistä satunnaisesti osa käytettäväksi 3. generoidaan regressiopuu 4. jos regressiopuita halutaan lisää (=mahtuu vielä muistiin), mennään askeleeseen 1 5. käyttö: ennustetaan tai luokitellaan aiemmin minkään puun näkemättömällä materiaalilla Olennaista: materiaalia on oltava riittävästi! 9

Regressiomallit ja algoritmit (9) Satunnaismetsämenetelmän keskeiset edut: soveltuu sekä regressioon että luokitteluun ei kärsi päätöspuita vaivaavasta ns. ylioppimisongelmasta, kunhan puita generoidaan riittävästi mikä taas edellyttää riittävää data, ja kykenee käyttämään syötteinä myös luokkatietoja helpottaa sovelluksen kannalta tärkeimpien piirteiden valintaa, jolloin laskettavien piirteiden määrää voidaan vähentää Satunnaismetsämenetelmät ovat varsin suosittuja mm. finanssipuolella (nopea kaupankäynti), verkkokaupoissa asiakkaan käyttäytymisen ennustamisessa, lukuisissa teollisissa konenäkösovelluksissa, yms. kykenee toimimaan tilanteissa, joissa kaikkia piirteitä ei voida laskea kaikille datanäytteille (alla esimerkkinä tuollaisesta sovelluksesta sahatavaran vikojen tunnistaminen), tai piirretietoja osin puuttuu Regressiomallit ja algoritmit (10) Satunnaismetsämenetelmässä suuri joukko regressiopuita antaa kukin oman ennusteensa ja oman tuloksensa yhdistäminen keskiarvona tai mediaanina huom: monissa luokitteluongelmissa käytetään useaa rinnakkaista luokittelijaa, joiden ehdotukset yhdistetään äänestyspäätöksellä, jolloin valitaan moodina (useimmin esiintyvä tulos) virheetön Ja tarkka virheetön, mutta ei tarkka ei virheetön mutta tarkka ei virheetön eikä tarkka 10

li ja alioppiminen lioppiminen (overtraining): jos mallissa on liikaa parametreja, niin seurauksena se voi toimia virheettä opetusdatalle mutta epäonnistuu ennustamisessa muilla näytteillä esim. regressiopuu kärsii ylioppimisongelmasta, jos sen annetaan pilkkoa data avaruutta liian pitkälle satunnaismetsämenetelmä ei kärsi ylioppimisesta Alioppiminen (undertraining): malli ei kykene jäljittelemään datan rakennetta esim. yritetään sovittaa lineaarista mallia epälineaariseen dataan, mistä johtuen ennusteiden tarkkuus jää heikoksi ylioppiminen opetusaineisto käyttöaineisto Sekä yli että alioppiminen yllättävät erityisesti, jos opetusdataa on ollut liian vähän tai se on edustanut vain osaa todellisesta data avaruudesta melkein aina malli toimii huonommin aiemmin näkemättömällä datalla kuin opetusaineistolla yli /alioppimisriskin pienentämiseksi on olemassa menettelyjä alioppiminen opetusaineisto käyttöaineisto Olennaista: materiaalia on oltava riittävästi! X X Regressiomallit ja algoritmit (11) Mutta eikö regressio ole silkkaa data analyysia? Tilastollisia menetelmiä? Onko jopa lineaarinen regressio tekoälyä? kyllä lineaarisella regressiollakin on käyttöä koneoppimisessa, mutta......herääkö epäilys ei kai sentaan jokainen Excelissä tapahtuva lineaariseen malliin sovittaminen ole tekoälyä... huh... Regressioanalyysi tähtää ymmärrykseen datan tuottaneesta prosessista tarvitsee piirteitä, joiden valinta ihmisjärjellä alkaa olla matkansa päässä onko piirteiden automaattinen piirteiden valinta koneoppimalla dataanalyysin ja tekoälyn raja? Koneoppiminen tähtää tuottamaan tarkkoja ennusteita, jolloin siinä käytetyn mallin oikeellisuus on sekundäärinen seikka harmaa alue, joka muuttunee, kun menetelmät arkipäiväistyvät Mitä tästä on seurannut? data analyytikko hakee muutamaa toisistaan riippumatonta muuttujaa ja pääsee niiden avulla tarkkoihin ennusteisiin koneoppimisen asiantuntija lyttää ison määrän data mustaan laatikkoon ja pääsee hänkin tarkkoihin ennusteisiin 11

Aineiston käsittely Koneoppimisessa data aineiston näytteet jaetaan kolmeen osaan opetusjoukko: materiaali, jolla esim. valittu regressiomalli opetetaan, siis data, jossa on paritettuna selittävät muuttujat ja selitettävän muuttujan havaintoarvot [X,] validointijoukko: materiaali, jolla mitataan opetetun ratkaisun ennustusvirhettä; tämä kertoo regressiomallin sopivuudesta, sekä opetuksen laadusta, mikä riippuu mm. opetusaineiston koosta (pieni ei tässä ole kaunista ) testausjoukko: kokonaan erillään pidetty data, joka tuodaan peliin mukaan vasta lopuksi siis opetus ja validointivaiheiden keskinäisen iteroinnin jälkeen, tarkoituksena edustaa sovelluskäyttöä testausjoukon käyttö mallin valintaan on ehdottomasti kiellettyä! Tarjolla olevan datan jako riippuu sovellutuksesta: usein jako suhteissa 50:25:25, vasta mallia haettaessa myös 25:50:25 Jos käytettävä malli jo tunnetaan (esim. lineaarinen regressio), niin data voidaan jakaa satunnaisesti toistuen opetusja testijoukkoihin esim. suhteissa 50:50, 70:30, 90:10 vaarana : sovellus voi poiketa opetusaineistosta Luokitteluongelmat (1) Luokitteluongelmissa on kyse koneoppimisesta, jossa opetusnäytteiden kategoriat ovat tarjolla yleensä oletetaan, että opetus, validointi ja testausmateriaalit ovat oikein kategorisoituja (mutta todellisuudessa ainakin ihmisen valmistelemassa näytedatassa on usein virheitä...) oppimisen jälkeen luokittelija kykenee kategorisoimaan näytteitä, joiden piirretiedot tunnetaan/saadaan mitattua esim. roskapostin tunnistus viestin sisällön piirteiden pohjalta, sydämen sykkeen tunnistus EKG tai PPG signaalista, oksien tunnistus ja kategorisointi laudasta, yms x 2 piirteet opetusnäytteet kategorioittain näytteet, jotka luokiteltava kategorioihin ei luokkatietoa pelkkää mittaustietoa klusterointiongelma regressioongelma ohjaamattoman oppimisen ongelma data jotenkin kategorisoitu luokat tunnetaan luokitteluongelma kategorioiden lukumäärästä edes jokin tieto x 1 12

Luokitteluongelmat (2) Aineistoja kerätessä tavoitteena on yleensä ns. balansoitu materiaali luokittelijan laadullisen suorituskyvyn mitat ovat helpoimmin ymmärrettävissä ja luokittelija optimoitavissa, jos jokaisessa kategoriassa on sama määrä opetus, validointi ja testausnäytteitä jos balansoidun testimateriaalin hankinta on mahdotonta, silloin mittariksi voi harkita Cohen:in kappaa, joka mittaa kahden luokittelijan yhtäpitävyyttä Alla esimerkki pienestä balansoidusta näytejoukosta piirteineen Piirteiden arvot Luokka X1 X2 X3 X4 X5 X6 A 86,5 % 1,6 % 6,7 % 3,4 % red 1 1,6 % C 70,0 % 4,2 % 15,4 % 6,6 % green 0 3,8 % B 81,6 % 2,9 % 8,2 % 3,9 % yellow 1 3,4 % B 80,6 % 2,1 % 10,2 % 1,9 % green 1 3,1 % A 83,9 % 1,7 % 5,6 % 3,9 % red 1 4,8 % B 79,6 % 4,9 % 6,7 % 2,1 % green 1 3,2 % C 72,5 % 5,7 % 11,0 % 5,7 % red 0 5,1 % C 75,0 % 2,4 % 6,9 % 8,0 % green 1 7,8 % A 82,6 % 1,9 % 5,9 % 3,9 % red 1 5,7 % UNKN0 74,3 % 2,0 % 10,2 % 7,3 % green 0? UNKN1 93,3 % 2,1 % 1,5 % 2,1 % red 1? UNKN2 80,9 % 1,3 % 6,6 % 3,3 % yellow 1? Luokitteluongelmat (3) Luokittelijan opettaminen on harvoin kertaluonteinen operaatio, sillä tarjolla on lukuisia luokittelualgoritmeja, joilla parametroinnissa valinnanvaraa Luokittelija optimoidaan jollekin laadulliselle suorituskykymitalle tai niiden yhdistelmälle väärinkäsitysten vähentämiseksi on syytä määritellä sanasto: engl. accuracy = suom. virheettömyys, engl. precision = suom. tarkkuus, engl. recall = suom. saanti tarkastellaan ensin kaksiarvoisen luokittelijan suorituskyvyn määrittelyä sen antamasta luokittelutuloksesta testidatalle; esim. luokittelija pyrkii erottamaan laboratoriohiiret rotista kuvien perusteella; datassa on 500 rottaa ja 500 hiirtä hiiret false negatives true positives rotat true negatives false positives luokittelija löytää 570 hiirtä, joista 480 (true positives) on todella hiiriä ja 90 (false positives) on rottia. Tällöin luokittelijan tarkkuus (precision) = 480/570 (true positives)/(true positives + false positives) = 84.2% luokittelijan löytämien hiirten osuus kaikista testidatan hiiristä on puolestaan saanti (recall) = 480/500 (true positives)/(true positives + false negatives) = 96.0% 13

Luokitteluongelmat (4) Konfuusiomatriisi on tapa esittää ohjatusti oppivan luokittelijan laadullista suorituskykyä soveltuu sekä kahden että useamman luokan ongelmille helposti ymmärrettävä visualisointi, mutta sekään ei aina paras tapa esittää balansoimattomien datan tapauksia Alla konfuusiomatriisi luokittelijan testistä, kun toisistaan erotettavana on valkoisia laboratoriohiiriä, rottia ja kaneja todellinen kategoria ennustettu hiiri rotta kani kategoria hiiri 480 90 0 rotta 20 390 10 kani 0 20 490 oikealla tunnuslukujen laskentaa varten redusoitu konfuusiomatriisi tarkkuus = precision = positive predictive value = PPV =TP/(TP+FP) Konfuusiomatriisista laskettavia suorituskykymittoja ovat tavallisimmin luokittain true positive rate ( herkkyys, saanti) TPR = TP/(TP+FN) true negative rate ( spesifisyys ) TNR = TN/(TN+FP) false positive rate ( väärät hälytykset ) FPR = 1 TNR false negative rate ( hukatut hälytykset ) FNR = 1 TPR ennustettu kategoria todellinen kategoria hiiri hiiri 480 90 ei hiiri 20 910 ennustettu kategoria todellinen kategoria hiiri eihiiri eihiiri hiiri TP FP ei hiiri FN TN Luokittelumenetelmät (5) Luokittelumenetelmien kategorioita kaksiarvoinen (binäärinen) luokittelu: vain kaksi luokkaa kerrallaan monet laaduntarkastusongelmat, joissa hyväksy/hylkää luokittelu monikategorialuokittelu: useita samanaikaisia luokkia esim. merkkien tunnistus, Luokittelualgoritmit päätöspuut knn naivi Bayes tukivektorikone (SVM) neuroverkot ensemble learning x 2 1 0 1 Luokittelupuu mikä on paras/mitkä ovat parhaat luokittelualgoritmit? mitä datan kannalta on otettava huomioon, jotta menetelmät purisivat? Vapaaehtoista luettavaa: Fernández Delgado et al. (2014) Do we Need Hundreds of Classifiers to Solve Real World Classification Problems? Journal of Machine Learning Research, 15(Oct):3133 3181, yliopiston verkossa http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf 0 x 1 1 x 1 <0.18 x 2 <0.25 14