Ohjattu oppiminen & regressio ja. luokitteluongelma
|
|
- Hannu-Pekka Laaksonen
- 5 vuotta sitten
- Katselukertoja:
Transkriptio
1 ongelma Ohjattu oppiminen & regressio ja luokitteluongelmat Ongelmanratkaisussa kannattaa yleensä käyttää kaikki tarjolla oleva tieto, jos sitä on vähentää opetusdatan tarvetta, voi johtaa tehokkaisiin piirteisiin mutta pahimmassa tapauksessa garbage in garbage out... N riippuu ongelmasta Koneoppimisongelmien karkea jako hanki näytteitä selvitä myös karakteristisia piirteitä alle N näytettä yli N näytettä data jotenkin kategorisoitu ei tietoa luokista, mutta rakennetieto olisi hyödyksi ongelmassa ei luokkarakennetta klusterointiongelma regressioongelma kategorioiden lukumäärästä edes jokin tieto ohjaamattoman oppimisen ongelma...datassa saattaa olla edes jotain rakenteellisuutta Ohjattu oppiminen luokat tunnetaan luokitteluongelma dimensioiden pudotusongelma Koneoppiminen (1) Koneoppimisella tarkoitetaan tietoteknisen toteutuksen kykyä oppia datasta tietämystä ei siis erikseen ohjelmoida kuten ihmisen toteuttamassa sääntöpohjaisessa järjestelmässä data mallinnetaan syötteiden perusteella! = tieto irrotetaan datasta, tai jopa opitaan irrottamaan siitä oppiminen = tehtävästä suoriutumisen jatkuva parantaminen Miten oppimista mitataan? esim. arvioidaan järjestelmän antamien ennusteiden tarkkuutta koneoppiminen on usein hyvin lähellä tilastollista mallintamista, tiedon louhintaa ja optimointia tai aivan sama asia! Sovellukset usein ongelmissa, joille on vaikea löytää hyvää puhtaasti algoritmista ratkaisua esim. puheen, kasvojen ja merkkien tunnistus Koneoppiva järjestelmä kyselysyöte opetusdata oppimisalgoritmit data ennuste 1
2 Koneoppiminen (2) Koneoppiminen voidaan jakaa kolmeen kategoriaan ohjattu oppiminen sovelluksessa tunnetaan opetusdatan luokat tai muu ominaisuus luokat tai ominaisuuset on ennustettava muulle datalle ohjaamaton oppiminen datan mahdolliset rakenteelliset ominaisuudet on löydettävä, jotta sen pohjalta pystytään tekemään johtopäätöksiä, kuten kategorisoimaan datan näytteitä vahvistusoppiminen datan luokkia tai muita ominaisuuksia ei tunneta, mutta sen mukaan toiminnasta saadaan karkeaa palautetta, esim. yritysten ja erehdysten pohjalta Jokaiseen oppimisongelmaan sen kategoriasta riippumatta liittyy vääjäämättä data, jota tarvitaan oppimistehtävässä jatkuvaan parantamiseen ja mittari, jolla mitataan tätä parantumista Koneoppiminen (3) Koneoppimisongelman keskeisiä haasteita on datan esitystavan valinta esitetäänkö oppimisongelman data siitä laskettuina piirteinä vai syötetäänkö järjestelmään suoraan jalostamatonta mittausdataa? Toinen merkittävä valinta on oppimisratkaisun sisäinen esitystapa regressiomalli, tilastollinen luokittelija, päätöspuu, neuroverkko Fakta: ns. hyödyllinen data on jotenkin rakenteista ja oppimisen tehtävä on löytää rakenteet ja lopulta toimia niiden mukaisesti usein strategiana on ensin hakea yksinkertaisempia rakenteita ja sen jälkeen kompleksisempia = oppiminen on oikeastaan hakuongelma! ihmisen määrittämät piirteet, valitsemat regressiomallit ja luokittelijat ovat nekin haun tuloksia tällaista hakua voidaan automatisoida myös neuraalilaskenta on olennaisesti rakenteiden hakua 2
3 Koneoppiminen (4) Koneoppimisen hyödyntämisessä datalle olennaista on kyetä tunnistamaan, onko kyseessä ohjattu vai ohjaamaton oppiminen (sivuutetaan nyt vahvistusoppiminen, joskin sen olemassaolo on hyvä tietää) Ohjatun oppimisen tapauksessa käsissä voi olla regressio tai luokitteluongelma molemmissa ennustetaan selitettävän (engl. dependent) muuttujan arvoa syötteistä, jotka ovat selittäviä (independent) muuttujia X =(x 0, x 2, x 3, ) tärkeätä huomata: molemmissa tapauksissa syötteet X voivat olla diskreettitai jatkuva arvoisia Oppimisalgoritmien valinta riippuu ongelman/datan luonteesta Peukalosäännöt regressio ongelmassa ennustetaan jatkuva arvoisen muuttujan arvoa esim. 1.27, , , mutta syötteet voivat olla diskreetti tai jatkuva arvoisia luokitteluongelmassa ennustetaan diskreettin muuttujan arvoa esim. 1,2,4,9, mutta syötteet voivat olla jatkuva tai diskreettiarvoisia Hetkinen siis diskreettiarvoisistakin syötteistä voidaan saada jatkuva arvoinen selitettävä muuttuja Koneoppiminen (5) Esimerkkejä regressio ongelmista: käytetyn auton hinnan määritys: merkki, vuosimalli, kilometrit hinta matka aika polkupyörällä Linnanmaalle: lämpötila, kitkakerroin, lumen paksuus, pyörän vaihteet, kumien ilmanpaine, polkijan hapenottokyky opiskelijan valmistumisajan ennustaminen ensimmäisen vuoden opintopiste ja arvosanakertymien perusteella Esimerkkejä luokitteluongelmista: auton merkin päättely: hinta, vuosimalli, yms. auton merkki polkupyörän tyypin päättely, kun matka aika, polkijan kunto ja sää tunnetaan sahatavarakappaleen laatuluokan määritys mm. tyypillinen regressiomalli sen oksien sijaintien ja tyyppien mukaisesti opiskelijavalinta tutkinto ohjelmiin valintakokeiden ja todistusten pohjalta rakennesahatavaran murtumislujuuden ennustaminen taivutuskokeen mittaaman kimmomoduulin perusteella 3
4 Koneoppiminen (6) Regressio vai luokitteluongelmia millaisen polkupyörän ostaisin? auton kaistavahti? roskapostisuodatin? sähköauton jäljellä olevan ajomatka? biometrinen tunnistus? radiohiiliajoitus? hinnan vaikutus tuotteen myyntiin? ohjelmistotuotteen tai opiskelijan valmistumishetken ennustaminen? sydämen sykkeen ilmaisu? vaalituloksen ennustaminen? ratkaisu luvuilla (väridetektorit) kahvipapujen lajitteluongelma: regressio vai luokittelu? ratkaisu 1990 luvulta (kameratekniikka) Koneoppiminen (7) Regressio ja luokitteluongelmien keskeinen ero: regressiossa tunnistetaan mallia datan rakenteelle ja luokittelussa rakennetta, johon data mallissa kuuluu, mutta jos mallista eikä rakenteista ole käsitystä, niin silloin kyse on ohjaamattoman oppimisen ongelmasta ongelma käsissä alle 100 näytettä hanki näytteitä yli 100 näytettä ohjaamattoman oppimisen ongelma data jotenkin kategorisoitu luokat tunnetaan eikä mittaustietoa kategorioiden lukumäärästä edes jokin tieto...datassa jotain rakenteellisuutta klusterointiongelma regressioongelma luokitteluongelma dimensioiden pudotusongelma X kumpi on mielestäsi luokittelu ja kumpi regressio ongelma? vai onko kumpikin regressio ongelma? X 4
5 Koneoppiminen (8) Regressio ja luokittelu: rajanvetoa yleensä kvantitatiivisen muuttujan ennustamiseen ei kannata käyttää luokitteluratkaisua, koska mitään ekplisiittistä luokkajakoa ei ole olemassa regression käytössä kategoriavasteiden tuottamiseen on ongelmansa: jos tavoitteena on saada esim. signaaliarvo 0 tai 1 (epätosi tai tosi), niin mitä tehdään arvoilla 0.5 tai 1.2? X Regression salahautoja: mukailtu ote eräästä väitöskirjasta ilmiö riippuu lineaarisesti muuttujista X perusteluna sovittuminen lineaariseen malliin regressiomalli, neuroverkko, tms X mikä meni perusteluissa pieleen? mitä tahansa voi aina sovittaa mihin tahansa malliin ja sovitustuloksen kautta voi arvioida vain mallin ennustearvoa, mutta todellisuudessa selittävien ja selitettävien muuttujien riippuvuudet voivat aivan hyvin olla epälineaarisia Regressiomallit ja algoritmit (1) Tavallisia regressioalgoritmeja/ malleja lineaarinen regressio regressiopuut (tärkeä mm. satunnaismetsä random forest) tukivektoriregressio (support vector regression), jne huom: olemassa myös logistinen regressio Regression yleinen formulaatio: ehdollinen odotusarvo E( X) =f(x, β), missä (*) on selitettävä muuttuja ja X selittävät muuttujat (piirteet) ja β mallin parametrit Regressiomallia rakennettaessa tunnetaan, X ja funktio f mallin rakentamiseen liittyy monesti funktiovaihtoehtojen testaus, jolloin parametrit β estimoidaan kullekin funktiolle siten, että tunnettujen muuttujien X perusteella lasketut muuttujan arvot vastaavat mahdollisimman hyvin tunnettuja mitattuja arvoja oikealla: olemassa olevan regressiomallin kautta ennustetaan muuttujien arvoista X i selitettävän muuttujan arvo i ennustettu i :n arvo regressiomalli ja sen rakentamisessa käytetyt näytteet = ei pidä säikähkää, jos esim. Excelin antama lineaarisen regression virhe on kaamea mitattu X jokin muu malli voi toimia paremmin i X (*) oikeastaan yleinen formulaatio on = E( X) + n, missä n on kohina, mutta säästytään tältä... 5
6 Regressiomallit ja algoritmit (2) Regressiomallin rakentamisessa tavallisin ensimmäinen yrite on lineaarinen malli E( X) = f(x, β) = ax + b, missä a on parametrivektori, b skalaari ja β =[a,b] parametrien β estimoinnissa käytettävät virhekriteerit mallin ennusteen ja mitatun selitettävän muuttujan välillä ovat yleensä joko virheen pienin neliösumma (L 2 normi) tai virheiden itseisarvojen summa (L 1 normi) Kahden skalaarin x ja y välisessä lineaarisessa regressiossa E(y x) = f(x, β) = ax + b, missä a ja b ovat näytejoukosta (x,y)= [(x 0, y 0 )... (x i, y i ) i=0,1,2,... lasketut estimaatit a = covariance(x;y)/variance(x) ja b = average(y) a*average(x). Esimerkki: erään yliopiston tiedekuntien OKM:n tulosrahoitus (y) ja niiden professorityövuosien (x) välinen lineaarinen regressio y = 0.7*x huom: tästä pilanpäiten valitusta esimerkistä ei pidä tehdä mitään johtopäätöksiä, sillä todellisuudessa X on moniulotteinen Tiedekunta Prof htvosuus OKMrahoitusosuus A 8,6 9,9 B 5,6 9,7 C 15,3 14,4 D 3,1 1,6 E 26,8 21,7 F 3,6 5,7 G 7,3 5,8 H 8,7 11,0 K 2 1,9 L 17,1 16,2 Regressiomallit ja algoritmit (3) On varsin harvinaista, että jokin data noudattaa lineaarista mallia Saharavaran lujuus (kimmomoduulin kautta) Saharavaran lujuus, taivutuskokeen raakkikappaleet erään ultraäänitestilaitteen mukaan Saharavaran lujuus (FEM analyysin kautta) Mallin valitsee joko ihminen tai kone oppii soveliaimman mallin mistä mallit otetaan? Jostain listasta, vai olisiko data avaruus jotenkin ositettavissa siten, että yksinkertainen malli soveltuisi? 6
7 Regressiomallit ja algoritmit (4) Olennaista regressiomallien käytölle on data! data on mielellään kerättävä taulukkoihin ja selittäviin muuttujiin liittyvät seikat dokumentoimaan mahdollisimman hyvin Erityisesti lineaariseen regressioon liittyy merkittäviä rajoitteita esim. datan oletetaan olevan riippumatonta, vaikkapa yksittäisen opiskelijan opintopistekertymä ei riipu muista mutta heti perään on todettava, että tutkinto ohjelmalla on vaikutusta, joten op kertymät eivät ehkä olekaan riippumattomia! rajoitteiden kanssa toimintaan on keinoja, jotka puolestaan edellyttävät tietoa selittävistä muuttujista = tunnettava ongelmaa kaikissa tapauksissa dataa tarvitaan mahdollisimman paljon! Avointa dataa kiinnostuneille (Oulu) (koulutus) (Oulun yo) (Suomi) (massa aineistoja) Näyte X1 X2 X3 X4 A 86,5 % 1,6 % 6,7 % 3,4 % 1,6 % B 70,0 % 4,2 % 15,4 % 6,6 % 3,8 % C 81,6 % 2,9 % 8,2 % 3,9 % 3,4 % D 83,9 % 1,7 % 5,6 % 3,9 % 4,8 % E 72,5 % 5,7 % 11,0 % 5,7 % 5,1 % F 75,0 % 2,4 % 6,9 % 8,0 % 7,8 % G 82,6 % 1,9 % 5,9 % 3,9 % 5,7 % UNKN0 74,3 % 2,0 % 10,2 % 7,3 %? UNKN1 93,3 % 2,1 % 1,5 % 2,1 %? UNKN2 80,9 % 1,3 % 6,6 % 3,3 %? Regressiomallit ja algoritmit (5) Usein vastaavantuleva erityistapaus on logistinen regressio ksinkertaistaen: logistinen regressio on normaali regressiomalli, jossa selitettävä muuttuja on tapahtuman riskin luonnollinen logaritmi lineaarisessa tapauksessa ln[p(=1)/(1 P(=1))] = ax+b Ideana on hakea todennäköisyyksiä esim. jollekin tapahtumalle tapahtua tai jäädä tapahtumatta; vaikkapa opiskelija valmistuu tai ei valmistu tällöin selitettävä muuttuja voi saada vain kaksi arvoa, kun taas selittävät muuttujat X voivat olla mitä tahansa, diskreettejä, jatkuvia, järjestyslukuja, luokkia, yms., jotka jotenkin vaikuttavat tapahtuman tai seikan todennäköisyyteen Logistisen regressioanalyysin tulos on riskiluku esim. jos yksittäisen opiskelijan valmistumistodennäköisyys on esim. 75%, niin ikiopiskelijuuden todennäköisyys on 25% nyt valmistumisriskiluku on ln(75%/25%) = ln3 ~ 1.1 = ln(tapahtuman todennäköisyys/tapahtumattomuuden todennäköisyys) Normaalipulliainen törmää logistiseen regressioanalyysiin Veikkauksen vedonlyönneissä useimmiten tappiokseen 7
8 Pohjatietoja logistiselle regressiolle? Alla eräs mielenkiintoinen data Oulun yliopistosta vuodelta 2002: opiskelijan valmistumistodennäköisyys ja todennäköisyys jäädä valmistumatta oli selvitettävissä alla olevasta ns. elinaika analyysin tuloksesta... ARK KONE TITE SÄHKÖ PROS TUTA Regressiomallit ja algoritmit (6) Regressiopuut sopivat ennustemallien oppimiseen kun selitettävät muuttujat ovat jatkuva arvoisia tai järjestettyjä diskreettiarvoja mallit rakennetaan pilkkomalla data avaruutta rekursiivisesti osiin ja sovittamalla yksinkertaista ennustemallia jokaiseen osaan tulos voidaan esittää regressiopuuna allaolevaan tyyliin, jossa punaiset juovat esittävät partitioiden rajoja regressiomalli on E( X), joka ennustaa :n arvoja; tilanne on epälineaarinen, joten päätämme sovittaa paloittain lineaarista mallia regressiopuun kautta, jolloin jokaista värikoodein ilmoitettua :n arvoaluetta vastaa oma mallinsa huom: alla 2 D tapaus, todellisuudessa tilanteet monidimensioisia ja partitiointi hyper tasojen avulla x x selitettävän muuttujan näytteet selittävien muuttujien virittämässä data avaruudessa x 2 <0.4 x 2 <0.7 x 1 < <=<6.6 >=6.6 < <=<0.9 paloittain lineaarinen regressio :n arvoalueiden osalta 0.7 x x :n arvoalueet vs. selittävien muuttujien virittämä data avaruus 8
9 Regressiomallit ja algoritmit (7) Regressiopuun partitiointitulos on erittäin herkkä datalle muutamien, jopa yhden näytteen jättäminen aineistosta saattaa muuttaa puuta dramaattisesti tällainen epästabiilius antaa kuitenkin hyödynnettävän edun, jos opetukseen käytettävää dataa on riittävästi 1.0 x x poistetaan muutama näyte x x x 1 <1.7 x 1 <1.7 x 2 <0.4 x 2 < <=<6.6 >=6.6 päätöspuu meni uusiksi x 2 <0.5 x 1 <2.2 x 2 <1.0 >=10.5 < <=<0.9 < <=< <=< <=<10.5 Regressiomallit ja algoritmit (8) Satunnaispuut/satunnaismetsät (random forest) ovat luokittelussa ja regressiossa erittäin suosittu ohjatun oppimisen ratkaisu, ideana on generoida suuri määrä satunnaisia regressio /luokittelupuita, regression tapauksessa kunkin puun selitettävälle muuttujalle antamasta ennusteesta yhdistetään tulos luokittelun tapauksessa puiden antamien tulosten perusteella tehdään äänestyspäätös tuloksen ennustetarkkuus paranee satunnaismetsiä käytettäessä erittäin merkittävästi Menetelmä toimii karkeasti seuraavasti 1. valitaan näytteistöstä satunnaisesti osa opetusmateriaaliksi 2. valitaan näytteille lasketuista piirteistä satunnaisesti osa käytettäväksi 3. generoidaan regressiopuu 4. jos regressiopuita halutaan lisää (=mahtuu vielä muistiin), mennään askeleeseen 1 5. käyttö: ennustetaan tai luokitellaan aiemmin minkään puun näkemättömällä materiaalilla Olennaista: materiaalia on oltava riittävästi! 9
10 Regressiomallit ja algoritmit (9) Satunnaismetsämenetelmän keskeiset edut: soveltuu sekä regressioon että luokitteluun ei kärsi päätöspuita vaivaavasta ns. ylioppimisongelmasta, kunhan puita generoidaan riittävästi mikä taas edellyttää riittävää data, ja kykenee käyttämään syötteinä myös luokkatietoja helpottaa sovelluksen kannalta tärkeimpien piirteiden valintaa, jolloin laskettavien piirteiden määrää voidaan vähentää Satunnaismetsämenetelmät ovat varsin suosittuja mm. finanssipuolella (nopea kaupankäynti), verkkokaupoissa asiakkaan käyttäytymisen ennustamisessa, lukuisissa teollisissa konenäkösovelluksissa, yms. kykenee toimimaan tilanteissa, joissa kaikkia piirteitä ei voida laskea kaikille datanäytteille (alla esimerkkinä tuollaisesta sovelluksesta sahatavaran vikojen tunnistaminen), tai piirretietoja osin puuttuu Regressiomallit ja algoritmit (10) Satunnaismetsämenetelmässä suuri joukko regressiopuita antaa kukin oman ennusteensa ja oman tuloksensa yhdistäminen keskiarvona tai mediaanina huom: monissa luokitteluongelmissa käytetään useaa rinnakkaista luokittelijaa, joiden ehdotukset yhdistetään äänestyspäätöksellä, jolloin valitaan moodina (useimmin esiintyvä tulos) virheetön Ja tarkka virheetön, mutta ei tarkka ei virheetön mutta tarkka ei virheetön eikä tarkka 10
11 li ja alioppiminen lioppiminen (overtraining): jos mallissa on liikaa parametreja, niin seurauksena se voi toimia virheettä opetusdatalle mutta epäonnistuu ennustamisessa muilla näytteillä esim. regressiopuu kärsii ylioppimisongelmasta, jos sen annetaan pilkkoa data avaruutta liian pitkälle satunnaismetsämenetelmä ei kärsi ylioppimisesta Alioppiminen (undertraining): malli ei kykene jäljittelemään datan rakennetta esim. yritetään sovittaa lineaarista mallia epälineaariseen dataan, mistä johtuen ennusteiden tarkkuus jää heikoksi ylioppiminen opetusaineisto käyttöaineisto Sekä yli että alioppiminen yllättävät erityisesti, jos opetusdataa on ollut liian vähän tai se on edustanut vain osaa todellisesta data avaruudesta melkein aina malli toimii huonommin aiemmin näkemättömällä datalla kuin opetusaineistolla yli /alioppimisriskin pienentämiseksi on olemassa menettelyjä alioppiminen opetusaineisto käyttöaineisto Olennaista: materiaalia on oltava riittävästi! X X Regressiomallit ja algoritmit (11) Mutta eikö regressio ole silkkaa data analyysia? Tilastollisia menetelmiä? Onko jopa lineaarinen regressio tekoälyä? kyllä lineaarisella regressiollakin on käyttöä koneoppimisessa, mutta......herääkö epäilys ei kai sentaan jokainen Excelissä tapahtuva lineaariseen malliin sovittaminen ole tekoälyä... huh... Regressioanalyysi tähtää ymmärrykseen datan tuottaneesta prosessista tarvitsee piirteitä, joiden valinta ihmisjärjellä alkaa olla matkansa päässä onko piirteiden automaattinen piirteiden valinta koneoppimalla dataanalyysin ja tekoälyn raja? Koneoppiminen tähtää tuottamaan tarkkoja ennusteita, jolloin siinä käytetyn mallin oikeellisuus on sekundäärinen seikka harmaa alue, joka muuttunee, kun menetelmät arkipäiväistyvät Mitä tästä on seurannut? data analyytikko hakee muutamaa toisistaan riippumatonta muuttujaa ja pääsee niiden avulla tarkkoihin ennusteisiin koneoppimisen asiantuntija lyttää ison määrän data mustaan laatikkoon ja pääsee hänkin tarkkoihin ennusteisiin 11
12 Aineiston käsittely Koneoppimisessa data aineiston näytteet jaetaan kolmeen osaan opetusjoukko: materiaali, jolla esim. valittu regressiomalli opetetaan, siis data, jossa on paritettuna selittävät muuttujat ja selitettävän muuttujan havaintoarvot [X,] validointijoukko: materiaali, jolla mitataan opetetun ratkaisun ennustusvirhettä; tämä kertoo regressiomallin sopivuudesta, sekä opetuksen laadusta, mikä riippuu mm. opetusaineiston koosta (pieni ei tässä ole kaunista ) testausjoukko: kokonaan erillään pidetty data, joka tuodaan peliin mukaan vasta lopuksi siis opetus ja validointivaiheiden keskinäisen iteroinnin jälkeen, tarkoituksena edustaa sovelluskäyttöä testausjoukon käyttö mallin valintaan on ehdottomasti kiellettyä! Tarjolla olevan datan jako riippuu sovellutuksesta: usein jako suhteissa 50:25:25, vasta mallia haettaessa myös 25:50:25 Jos käytettävä malli jo tunnetaan (esim. lineaarinen regressio), niin data voidaan jakaa satunnaisesti toistuen opetusja testijoukkoihin esim. suhteissa 50:50, 70:30, 90:10 vaarana : sovellus voi poiketa opetusaineistosta Luokitteluongelmat (1) Luokitteluongelmissa on kyse koneoppimisesta, jossa opetusnäytteiden kategoriat ovat tarjolla yleensä oletetaan, että opetus, validointi ja testausmateriaalit ovat oikein kategorisoituja (mutta todellisuudessa ainakin ihmisen valmistelemassa näytedatassa on usein virheitä...) oppimisen jälkeen luokittelija kykenee kategorisoimaan näytteitä, joiden piirretiedot tunnetaan/saadaan mitattua esim. roskapostin tunnistus viestin sisällön piirteiden pohjalta, sydämen sykkeen tunnistus EKG tai PPG signaalista, oksien tunnistus ja kategorisointi laudasta, yms x 2 piirteet opetusnäytteet kategorioittain näytteet, jotka luokiteltava kategorioihin ei luokkatietoa pelkkää mittaustietoa klusterointiongelma regressioongelma ohjaamattoman oppimisen ongelma data jotenkin kategorisoitu luokat tunnetaan luokitteluongelma kategorioiden lukumäärästä edes jokin tieto x 1 12
13 Luokitteluongelmat (2) Aineistoja kerätessä tavoitteena on yleensä ns. balansoitu materiaali luokittelijan laadullisen suorituskyvyn mitat ovat helpoimmin ymmärrettävissä ja luokittelija optimoitavissa, jos jokaisessa kategoriassa on sama määrä opetus, validointi ja testausnäytteitä jos balansoidun testimateriaalin hankinta on mahdotonta, silloin mittariksi voi harkita Cohen:in kappaa, joka mittaa kahden luokittelijan yhtäpitävyyttä Alla esimerkki pienestä balansoidusta näytejoukosta piirteineen Piirteiden arvot Luokka X1 X2 X3 X4 X5 X6 A 86,5 % 1,6 % 6,7 % 3,4 % red 1 1,6 % C 70,0 % 4,2 % 15,4 % 6,6 % green 0 3,8 % B 81,6 % 2,9 % 8,2 % 3,9 % yellow 1 3,4 % B 80,6 % 2,1 % 10,2 % 1,9 % green 1 3,1 % A 83,9 % 1,7 % 5,6 % 3,9 % red 1 4,8 % B 79,6 % 4,9 % 6,7 % 2,1 % green 1 3,2 % C 72,5 % 5,7 % 11,0 % 5,7 % red 0 5,1 % C 75,0 % 2,4 % 6,9 % 8,0 % green 1 7,8 % A 82,6 % 1,9 % 5,9 % 3,9 % red 1 5,7 % UNKN0 74,3 % 2,0 % 10,2 % 7,3 % green 0? UNKN1 93,3 % 2,1 % 1,5 % 2,1 % red 1? UNKN2 80,9 % 1,3 % 6,6 % 3,3 % yellow 1? Luokitteluongelmat (3) Luokittelijan opettaminen on harvoin kertaluonteinen operaatio, sillä tarjolla on lukuisia luokittelualgoritmeja, joilla parametroinnissa valinnanvaraa Luokittelija optimoidaan jollekin laadulliselle suorituskykymitalle tai niiden yhdistelmälle väärinkäsitysten vähentämiseksi on syytä määritellä sanasto: engl. accuracy = suom. virheettömyys, engl. precision = suom. tarkkuus, engl. recall = suom. saanti tarkastellaan ensin kaksiarvoisen luokittelijan suorituskyvyn määrittelyä sen antamasta luokittelutuloksesta testidatalle; esim. luokittelija pyrkii erottamaan laboratoriohiiret rotista kuvien perusteella; datassa on 500 rottaa ja 500 hiirtä hiiret false negatives true positives rotat true negatives false positives luokittelija löytää 570 hiirtä, joista 480 (true positives) on todella hiiriä ja 90 (false positives) on rottia. Tällöin luokittelijan tarkkuus (precision) = 480/570 (true positives)/(true positives + false positives) = 84.2% luokittelijan löytämien hiirten osuus kaikista testidatan hiiristä on puolestaan saanti (recall) = 480/500 (true positives)/(true positives + false negatives) = 96.0% 13
14 Luokitteluongelmat (4) Konfuusiomatriisi on tapa esittää ohjatusti oppivan luokittelijan laadullista suorituskykyä soveltuu sekä kahden että useamman luokan ongelmille helposti ymmärrettävä visualisointi, mutta sekään ei aina paras tapa esittää balansoimattomien datan tapauksia Alla konfuusiomatriisi luokittelijan testistä, kun toisistaan erotettavana on valkoisia laboratoriohiiriä, rottia ja kaneja todellinen kategoria ennustettu hiiri rotta kani kategoria hiiri rotta kani oikealla tunnuslukujen laskentaa varten redusoitu konfuusiomatriisi tarkkuus = precision = positive predictive value = PPV =TP/(TP+FP) Konfuusiomatriisista laskettavia suorituskykymittoja ovat tavallisimmin luokittain true positive rate ( herkkyys, saanti) TPR = TP/(TP+FN) true negative rate ( spesifisyys ) TNR = TN/(TN+FP) false positive rate ( väärät hälytykset ) FPR = 1 TNR false negative rate ( hukatut hälytykset ) FNR = 1 TPR ennustettu kategoria todellinen kategoria hiiri hiiri ei hiiri ennustettu kategoria todellinen kategoria hiiri eihiiri eihiiri hiiri TP FP ei hiiri FN TN Luokittelumenetelmät (5) Luokittelumenetelmien kategorioita kaksiarvoinen (binäärinen) luokittelu: vain kaksi luokkaa kerrallaan monet laaduntarkastusongelmat, joissa hyväksy/hylkää luokittelu monikategorialuokittelu: useita samanaikaisia luokkia esim. merkkien tunnistus, Luokittelualgoritmit päätöspuut knn naivi Bayes tukivektorikone (SVM) neuroverkot ensemble learning x Luokittelupuu mikä on paras/mitkä ovat parhaat luokittelualgoritmit? mitä datan kannalta on otettava huomioon, jotta menetelmät purisivat? Vapaaehtoista luettavaa: Fernández Delgado et al. (2014) Do we Need Hundreds of Classifiers to Solve Real World Classification Problems? Journal of Machine Learning Research, 15(Oct): , yliopiston verkossa 0 x 1 1 x 1 <0.18 x 2 <
Luokittelumenetelmät (6)
Luokittelumenetelmät (6) Luokittelu /päätöspuut ja satunnaismetsämenetelmä ovat erittäin suosittuja, sillä ovat helposti ymmärrettävissä ja luokittelupuut myös visualisoitavissa, toimivat luokka ja numeerisella
LisätiedotTEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)
JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.
LisätiedotViikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi
Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 29-31.10.2008. 1 Tällä viikolla 1. Käytännön järjestelyistä 2. Kurssin sisällöstä ja aikataulusta 3. Johdantoa Mitä koneoppiminen
LisätiedotDatanäytteiden piirteiden skaalaus/normalisointi (1)
Datanäytteiden piirteiden skaalaus/normalisointi (1) Datamassat, jotka syötetään samankaltaisuuksia useamman kuin yhden piirteen pohjalta hyödyntäviin koneoppimismenetelmiin, voivat tarvita esikäsittelykseen
LisätiedotRegressioanalyysi. Vilkkumaa / Kuusinen 1
Regressioanalyysi Vilkkumaa / Kuusinen 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Halutaan selittää selitettävän muuttujan havaittujen arvojen vaihtelua selittävien muuttujien havaittujen
LisätiedotRegressioanalyysi. Kuusinen/Heliövaara 1
Regressioanalyysi Kuusinen/Heliövaara 1 Regressioanalyysin idea ja tavoitteet Regressioanalyysin idea: Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun joidenkin
LisätiedotHarjoitus 9: Excel - Tilastollinen analyysi
Harjoitus 9: Excel - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tutustuminen regressioanalyysiin
LisätiedotJohdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]
Johdatus tekoälyyn Luento 6.10.2011: Koneoppiminen Patrik Hoyer [ Kysykää ja kommentoikaa luennon aikana! ] Koneoppiminen? Määritelmä: kone = tietokone, tietokoneohjelma oppiminen = ongelmanratkaisukyvyn
LisätiedotKaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat
1 Tukivektoriluokittelija Tukivektorikoneeseen (support vector machine) perustuva luoikittelija on tilastollisen koneoppimisen teoriaan perustuva lineaarinen luokittelija. Perusajatus on sovittaa kahden
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-.14 Tilastollisen analyysin perusteet, kevät 7 7. luento: Tarina yhden selittään lineaarisesta regressiomallista atkuu Kai Virtanen 1 Luennolla 6 opittua Kuvataan havainnot (y, x ) yhden selittään
LisätiedotABHELSINKI UNIVERSITY OF TECHNOLOGY
Johdatus regressioanalyysiin Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen vaihtelun avulla.
LisätiedotJohdatus regressioanalyysiin. Heliövaara 1
Johdatus regressioanalyysiin Heliövaara 1 Regressioanalyysin idea Oletetaan, että haluamme selittää jonkin selitettävän muuttujan havaittujen arvojen vaihtelun selittävien muuttujien havaittujen arvojen
LisätiedotTekoäly ja koneoppiminen metsävaratiedon apuna
Tekoäly ja koneoppiminen metsävaratiedon apuna Arbonaut Oy ja LUT University 26. marraskuuta 2018 Metsätieteen päivä 2018 Koneoppimisen kohteena ovat lukujen sijasta jakaumat Esimerkki 1 Koneoppimisessa
LisätiedotMännyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto 9.6.2003
Männyn laaturajojen integrointi runkokäyrän ennustamisessa Laura Koskela Tampereen yliopisto 9.6.2003 Johdantoa Pohjoismaisen käytännön mukaan rungot katkaistaan tukeiksi jo metsässä. Katkonnan ohjauksessa
LisätiedotOppijan saama palaute määrää oppimisen tyypin
281 5. KONEOPPIMINEN Älykäs agentti voi joutua oppimaan mm. seuraavia seikkoja: Kuvaus nykytilan ehdoilta suoraan toiminnolle Maailman relevanttien ominaisuuksien päätteleminen havaintojonoista Maailman
Lisätiedot1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
LisätiedotAvainsanojen poimiminen Eeva Ahonen
Avainsanojen poimiminen 5.10.2004 Eeva Ahonen Sisältö Avainsanat Menetelmät C4.5 päätöspuut GenEx algoritmi Bayes malli Testit Tulokset Avainsanat Tiivistä tietoa dokumentin sisällöstä ihmislukijalle hakukoneelle
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin
LisätiedotDynaamiset regressiomallit
MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy 2016 Tilastolliset aikasarjat voidaan jakaa kahteen
Lisätiedot1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
LisätiedotMS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.
MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä. Antti Rasila Matematiikan ja systeemianalyysin laitos Aalto-yliopisto Kevät 2016
LisätiedotTekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi
Tekoäly ja alustatalous Miten voit hyödyntää niitä omassa liiketoiminnassasi AI & Alustatalous AI Digitaalisuudessa on 1 ja 0, kumpia haluamme olla? Alustatalouden kasvuloikka Digitaalisen alustatalouden
LisätiedotTilastollisen analyysin perusteet Luento 7: Lineaarinen regressio
Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio Sisältö Regressioanalyysissä tavoitteena on tutkia yhden tai useamman selittävän muuttujan vaikutusta selitettävään muuttujaan. Sen avulla
LisätiedotÄlykäs datan tuonti kuljetusongelman optimoinnissa. Antoine Kalmbach
Älykäs datan tuonti kuljetusongelman optimoinnissa Antoine Kalmbach ane@iki.fi Sisällys Taustaa Kuljetusongelma Datan tuominen vaikeaa Teoriaa Tiedostojen väliset linkit Mikä sarake on mikäkin? Ratkaisutoteutus
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotTilastotiede ottaa aivoon
Tilastotiede ottaa aivoon kuinka aivoja voidaan mallintaa todennäköisyyslaskennalla, ja mitä yllättävää hyötyä siitä voi olla Aapo Hyvärinen Laskennallisen data-analyysin professori Matematiikan ja tilastotieteen
LisätiedotNeuroverkkojen soveltaminen vakuutusdatojen luokitteluun
Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään
LisätiedotSeuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.
T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Logistinen regressioanalyysi Vastemuuttuja Y on luokiteltu muuttuja Pyritään mallittamaan havaintoyksikön todennäköisyyttä kuulua
LisätiedotLIITE 1 VIRHEEN ARVIOINNISTA
Oulun yliopisto Fysiikan opetuslaboratorio Fysiikan laboratoriotyöt 1 1 LIITE 1 VIRHEEN RVIOINNIST Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi
LisätiedotTilastotiede ottaa aivoon
Tilastotiede ottaa aivoon kuinka aivoja voidaan mallintaa todennäköisyyslaskennalla, ja mitä yllättävää hyötyä siitä voi olla Aapo Hyvärinen Laskennallisen data-analyysin professori Matematiikan ja tilastotieteen
LisätiedotKoneoppiminen ja tekoäly suurten tietomassojen käsittelyssä yleensä ja erityisesti sovellettuina satelliittidatan käyttöön metsien arvioinnissa
Koneoppiminen ja tekoäly suurten tietomassojen käsittelyssä yleensä ja erityisesti sovellettuina satelliittidatan käyttöön metsien arvioinnissa Metsätieteen päivä 26.11.2018 Jorma Laaksonen, vanhempi yliopistonlehtori
LisätiedotTilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio
Tilastollisen analyysin perusteet Luento 9: lineaarinen lineaarinen Sisältö lineaarinen lineaarinen lineaarinen Lineaarinen Oletetaan, että meillä on n kappaletta (x 1, y 1 ), (x 2, y 2 )..., (x n, y n
LisätiedotE. Oja ja H. Mannila Datasta Tietoon: Luku 2
2. DATASTA TIETOON: MITÄ DATAA; MITÄ TIETOA? 2.1. Data-analyysin ongelma Tulevien vuosien valtava haaste on digitaalisessa muodossa talletetun datan kasvava määrä Arvioita: Yhdysvaltojen kongressin kirjasto
LisätiedotALGORITMIT & OPPIMINEN
ALGORITMIT & OPPIMINEN Mitä voidaan automatisoida? Mikko Koivisto Avoimet aineistot tulevat Tekijä: Lauri Vanhala yhdistä, kuvita, selitä, ennusta! Tekijä: Logica Mitä voidaan automatisoida? Algoritmi
LisätiedotTilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä
Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä arvon Sisältö arvon Bootstrap-luottamusvälit arvon arvon Oletetaan, että meillä on n kappaletta (x 1, y 1 ),
LisätiedotDiskriminanttianalyysi I
Diskriminanttianalyysi I 12.4-12.5 Aira Hast 24.11.2010 Sisältö LDA:n kertaus LDA:n yleistäminen FDA FDA:n ja muiden menetelmien vertaaminen Estimaattien laskeminen Johdanto Lineaarinen diskriminanttianalyysi
LisätiedotTiedonlouhinta ja sen mahdollisuudet
Tiedonlouhinta ja sen mahdollisuudet Henry Joutsijoki Sisältö Johdanto Tiedonlouhinta Koneoppiminen ja tiedonlouhinta Tiedonlouhinnan tulevaisuus Alustusta Nyky-yhteiskunnassamme käsitteet tehokkuus, nopeus,
LisätiedotPuumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu
Puumenetelmät Topi Sikanen Puumenetelmät Periaate: Hajota ja hallitse Jaetaan havaintoavaruus alueisiin. Sovitetaan kuhunkin alueeseen yksinkertainen malli (esim. vakio) Tarkastellaan kolmea mallia Luokittelu-
Lisätiedot1. TILASTOLLINEN HAHMONTUNNISTUS
1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,
LisätiedotVirhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.
Virhearviointi Fysiikassa on tärkeää tietää tulosten tarkkuus. Virhelajit A. Tilastolliset virheet= satunnaisvirheet, joita voi arvioida tilastollisin menetelmin B. Systemaattiset virheet = virheet, joita
Lisätiedot1. Tilastollinen malli??
1. Tilastollinen malli?? https://fi.wikipedia.org/wiki/tilastollinen_malli https://en.wikipedia.org/wiki/statistical_model http://projecteuclid.org/euclid.aos/1035844977 Tilastollinen malli?? Numeerinen
LisätiedotFoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.
FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa Luentokuulustelujen esimerkkivastauksia Pertti Palo 30. marraskuuta 2012 Saatteeksi Näiden vastausten ei ole tarkoitus olla malleja vaan esimerkkejä.
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:
LisätiedotHarha mallin arvioinnissa
Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
LisätiedotLuku 2. Datasta tietoon: mitä dataa? mitä tietoa?
1 / 14 Luku 2. Datasta tietoon: mitä dataa? mitä tietoa? T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 31.10.2011 2 / 14 Tämän luennon sisältö
LisätiedotTässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia.
1 Luokittelijan suorituskyvyn optimointi Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia. A. Piirteen valinnan menetelmiä
LisätiedotTutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
LisätiedotYleistetyistä lineaarisista malleista
Yleistetyistä lineaarisista malleista Tilastotiede käytännön tutkimuksessa -kurssi, kesä 2001 Reijo Sund Klassinen lineaarinen malli y = Xb + e eli E(Y) = m, jossa m = Xb Satunnaiskomponentti: Y:n komponentit
LisätiedotLaskennallinen data-analyysi II
Laskennallinen data-analyysi II Ella Bingham, ella.bingham@cs.helsinki.fi Kevät 2008 Muuttujien valinta Kalvot perustuvat Saara Hyvösen kalvoihin 2007 Laskennallinen data-analyysi II, kevät 2008, Helsingin
LisätiedotTekoäly tukiäly. Eija Kalliala, Marjatta Ikkala
Tekoäly tukiäly Eija Kalliala, Marjatta Ikkala 29.11.2018 Mitä on tekoäly? Unelma koneesta, joka ajattelee kuin ihminen Hype-sana, jota kuulee joka paikassa Väärinymmärretty sana -> vääriä odotuksia, pelkoja
LisätiedotLIITE 1 VIRHEEN ARVIOINNISTA
1 LIITE 1 VIRHEEN ARVIOINNISTA Mihin tarvitset virheen arviointia? Mittaustulokset ovat aina todellisten luonnonvakioiden ja tutkimuskohdetta kuvaavien suureiden likiarvoja, vaikka mittauslaite olisi miten
LisätiedotJohdatus tekoälyn taustalla olevaan matematiikkaan
Johdatus tekoälyn taustalla olevaan matematiikkaan Informaatioteknologian tiedekunta Jyväskylän yliopisto 3.11.2017 Mitä tekoäly on? Wikipedia: Tekoäly on tietokone tai tietokoneohjelma, joka kykenee älykkäiksi
LisätiedotTilastollinen testaus. Vilkkumaa / Kuusinen 1
Tilastollinen testaus Vilkkumaa / Kuusinen 1 Motivointi Viime luennolla: havainnot generoineen jakauman muoto on usein tunnettu, mutta parametrit tulee estimoida Joskus parametreista on perusteltua esittää
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
LisätiedotViikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi
Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu
Lisätiedot4.0.2 Kuinka hyvä ennuste on?
Luonteva ennuste on käyttää yhtälöä (4.0.1), jolloin estimaattori on muotoa X t = c + φ 1 X t 1 + + φ p X t p ja estimointivirheen varianssi on σ 2. X t }{{} todellinen arvo Xt }{{} esimaattori = ε t Esimerkki
LisätiedotLaskut käyvät hermoille
Laskut käyvät hermoille - Miten ja miksi aivoissa lasketaan todennäköisyyksiä Aapo Hyvärinen Matematiikan ja tilastotieteen laitos & Tietojenkäsittelytieteen laitos Helsingin Yliopisto Tieteen päivät 13.1.2011
LisätiedotTekoälysovellus: (Ennustaminen) Arviointi, estimointi
Tekoälysovellus: (Ennustaminen) Arviointi, estimointi ENNUSTAMINEN (PREDICT) Ennustaminen on mallitusslangia. Paremmin kuvaava termiolisi estimointi, arviointi, selittäminen. Esimerkki: Otetaanihmispopulaatiosta
LisätiedotEsimerkkejä vaativuusluokista
Esimerkkejä vaativuusluokista Seuraaville kalvoille on poimittu joitain esimerkkejä havainnollistamaan algoritmien aikavaativuusluokkia. Esimerkit on valittu melko mielivaltaisesti laitoksella tehtävään
LisätiedotLIITE 1 VIRHEEN ARVIOINNISTA
1 Mihin tarvitset virheen arviointia? Mittaustuloksiin sisältyy aina virhettä, vaikka mittauslaite olisi miten uudenaikainen tai kallis tahansa ja mittaaja olisi alansa huippututkija Tästä johtuen mittaustuloksista
LisätiedotLämpötilan ja valssausvoiman tilastollinen mallintaminen levyvalssauksessa
Lämpötilan ja valssausvoiman tilastollinen mallintaminen levyvalssauksessa VaProKe projekti (Ruukki, TEKES) Intelligent Systems Group, ILMARI JUUTILAINEN, 24.11.2011 Sisältö Projektin tavoitteet Voimamallinnuksen
LisätiedotKONEOPPIMISEN HYÖDYNTÄMINEN: AUTOMAATTINEN TIKETTIEN KÄSITTELY. Esa Sairanen
KONEOPPIMISEN HYÖDYNTÄMINEN: AUTOMAATTINEN TIKETTIEN KÄSITTELY Esa Sairanen 29.03.2017 Sisältö Taustaa Tavoite Mitä on koneoppiminen? Azure Machine Learning koneoppimismenetelmiä Projektin vaiheet Data
LisätiedotTodennäköisyyden ominaisuuksia
Todennäköisyyden ominaisuuksia 0 P(A) 1 (1) P(S) = 1 (2) A B = P(A B) = P(A) + P(B) (3) P(A) = 1 P(A) (4) P(A B) = P(A) + P(B) P(A B) (5) Tapahtuman todennäköisyys S = {e 1,..., e N }. N A = A. Kun alkeistapaukset
LisätiedotIlkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
LisätiedotHarjoitus 2: Matlab - Statistical Toolbox
Harjoitus 2: Matlab - Statistical Toolbox Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen tavoitteet Satunnaismuuttujat ja todennäköisyysjakaumat
Lisätiedot9. Tila-avaruusmallit
9. Tila-avaruusmallit Aikasarjan stokastinen malli ja aikasarjasta tehdyt havainnot voidaan esittää joustavassa ja monipuolisessa muodossa ns. tila-avaruusmallina. Useat aikasarjat edustavat dynaamisia
LisätiedotLuku 14 - Koneoppiminen ja luokittelu
Luku 14 - Koneoppiminen ja luokittelu Matti Eskelinen 6.5.2018 Tässä luvussa opimme perusasiat koneoppimisesta ja mallien kouluttamisesta. Opimme mitä tarkoittavat ylioppiminen ja alioppiminen ja miten
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 15 1 Tilastollisia testejä Z-testi Normaalijakauman odotusarvon testaus, keskihajonta tunnetaan
LisätiedotKoneoppimisen hyödyt arvopohjaisessa terveydenhuollossa. Kaiku Health
Koneoppimisen hyödyt arvopohjaisessa terveydenhuollossa Kaiku Health Petri Avikainen Kaiku Health Petri Avikainen @silputtelija @silppuri Kaiku Health Software Engineer Kaiku Health Software Engineer
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 8. marraskuuta 2007 Antti Rasila () TodB 8. marraskuuta 2007 1 / 18 1 Kertausta: momenttimenetelmä ja suurimman uskottavuuden menetelmä 2 Tilastollinen
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
Lisätiedot7.4 Sormenjälkitekniikka
7.4 Sormenjälkitekniikka Tarkastellaan ensimmäisenä esimerkkinä pitkien merkkijonojen vertailua. Ongelma: Ajatellaan, että kaksi n-bittistä (n 1) tiedostoa x ja y sijaitsee eri tietokoneilla. Halutaan
LisätiedotImageRecognition toteutus
ImageRecognition toteutus Simo Korkolainen 27 kesäkuuta 2016 Projektin tarkoituksena on tehdä ohjelma, joka opettaa neuroverkon tunnistamaan kuvia backpropagation-algoritmin avulla Neuroverkon opetuksessa
LisätiedotTekoäly liiketoiminnassa. Tuomas Ritola CEO, selko.io
Tekoäly liiketoiminnassa Tuomas Ritola CEO, selko.io Selko.io Automaattista teknisen tekstin luokittelua ja analysointia, eli tekoälyä tekstidatalle. Päivän agenda: Tekoäly. Muotisana? Strategia? Uhka?
LisätiedotOsakesalkun optimointi. Anni Halkola Turun yliopisto 2016
Osakesalkun optimointi Anni Halkola Turun yliopisto 2016 Artikkeli Gleb Beliakov & Adil Bagirov (2006) Non-smooth optimization methods for computation of the Conditional Value-at-risk and portfolio optimization.
LisätiedotTilastotieteen aihehakemisto
Tilastotieteen aihehakemisto hakusana ARIMA ARMA autokorrelaatio autokovarianssi autoregressiivinen malli Bayes-verkot, alkeet TILS350 Bayes-tilastotiede 2 Bayes-verkot, kausaalitulkinta bootstrap, alkeet
Lisätiedot(b) Vedonlyöntikertoimet syytetyn ihonvärin eri luokissa
Oulun yliopiston matemaattisten tieteiden tutkimusyksikkö/tilastotiede 805306A JOHDATUS MONIMUUTTUJAMENETELMIIN, sl 2017 (Jari Päkkilä) Harjoitus 3, viikko 47 (19.20.11.): kotitehtävät Ratkaisuja 1. Floridan
LisätiedotYhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1
Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia Heliövaara 1 Regressiokertoimien PNS-estimaattorit Määritellään havaintojen x j ja y j, j = 1, 2,...,n
LisätiedotEstimointi. Vilkkumaa / Kuusinen 1
Estimointi Vilkkumaa / Kuusinen 1 Motivointi Tilastollisessa tutkimuksessa oletetaan jonkin jakauman generoineen tutkimuksen kohteena olevaa ilmiötä koskevat havainnot Tämän mallina käytettävän todennäköisyysjakauman
LisätiedotKognitiivinen mallintaminen Neuraalimallinnus, luento 1
Kognitiivinen mallintaminen Neuraalimallinnus, luento 1 Nelli Salminen nelli.salminen@helsinki.fi D433 Neuraalimallinnuksen osuus neljä luentokertaa, muutokset alla olevaan suunnitelmaan todennäköisiä
LisätiedotTekstuurintunnistuksen lyhyt oppimäärä. Ts. pari tapaa erottaa tiiliseinä pensaasta.
Tekstuurintunnistuksen lyhyt oppimäärä Ts. pari tapaa erottaa tiiliseinä pensaasta. Mitä on tekstuuri? Vaikea määritellä, mutta: Pintakuvio Ornamentti tuntu kuviointi Miksi tämän pitäisi kiinnostaa? (Maantienmerkkausrobotti)
LisätiedotOsa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotTilastollisia peruskäsitteitä ja Monte Carlo
Tilastollisia peruskäsitteitä ja Monte Carlo Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Tilastollisia peruskäsitteitä ja Monte Carlo 1/13 Kevät 2003 Tilastollisia
LisätiedotIdentifiointiprosessi
Alustavia kokeita Identifiointiprosessi Koesuunnittelu, identifiointikoe Mittaustulosten / datan esikäsittely Ei-parametriset menetelmät: - Transientti-, korrelaatio-, taajuus-, Fourier- ja spektraalianalyysi
LisätiedotLineaariset luokittelumallit: regressio ja erotteluanalyysi
Lineaariset luokittelumallit: regressio ja erotteluanalyysi Aira Hast Johdanto Tarkastellaan menetelmiä, joissa luokittelu tehdään lineaaristen menetelmien avulla. Avaruus jaetaan päätösrajojen avulla
Lisätiedot1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa:
Tietorakenteet, laskuharjoitus 10, ratkaisuja 1. (a) Seuraava algoritmi tutkii, onko jokin luku taulukossa monta kertaa: SamaLuku(T ) 2 for i = 1 to T.length 1 3 if T [i] == T [i + 1] 4 return True 5 return
LisätiedotKognitiivinen mallintaminen. Nelli Salminen
Kognitiivinen mallintaminen Neuraalimallinnus 24.11. Nelli Salminen nelli.salminen@tkk.fi Tällä kerralla ohjelmassa vielä perseptronista ja backpropagationista kilpaileva oppiminen, Kohosen verkko oppimissääntöjen
LisätiedotTiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen
Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen hannu.toivonen@cs.helsinki.fi 1 2 A 1 4 8 2 2 1 2 6 2 A 2 4 3 7 3 2 8 4 2 A 4 5 2 4 5 5 2 6 4 A 7 2 3 7 5 4 5 2 2 A 5 2 4 6
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Johdatus monimuuttujamenetelmiin Luennot 30.10.13.12.-18 Tiistaina klo 12-14 (30.10., BF119-1) Keskiviikkoisin klo 10-12 (MA101,
LisätiedotTällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö
Tällä kerralla ohjelmassa Kognitiivinen mallintaminen Neuraalimallinnus 19.2. Nelli Salminen nelli.salminen@helsinki.fi D433 vielä perseptronista ja backpropagationista kilpaileva oppiminen, Kohosen verkko
LisätiedotT Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1
T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti 24.2.2004, 8:30-0:00 N-grammikielimallit, Versio.. Alla on erään henkilön ja tilaston estimaatit sille, miten todennäköistä on, että
LisätiedotBM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018
BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018 Tehtävä 8 on tällä kertaa pakollinen. Aloittakaapa siitä. 1. Kun tässä tehtävässä sanotaan sopii mahdollisimman hyvin, sillä tarkoitetaan
LisätiedotTietorakenteet ja algoritmit - syksy 2015 1
Tietorakenteet ja algoritmit - syksy 2015 1 Tietorakenteet ja algoritmit - syksy 2015 2 Tietorakenteet ja algoritmit Johdanto Ari Korhonen Tietorakenteet ja algoritmit - syksy 2015 1. JOHDANTO 1.1 Määritelmiä
LisätiedotLuento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja
1 Luento 23.9.2014 KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja 2 Ristiintaulukko Esim. Toyota Avensis farmariautoja, nelikenttä (2x2-taulukko) 3 Esim. 5.2.6. Markkinointisuunnitelma
LisätiedotKysynnän ennustaminen muuttuvassa maailmassa
make connections share ideas be inspired Kysynnän ennustaminen muuttuvassa maailmassa Nina Survo ja Antti Leskinen SAS Institute Mitä on kysynnän ennustaminen? Ennakoiva lähestymistapa, jolla pyritään
Lisätiedot