Introduction to Machine Learning Aki Koivu 27.10.2016 HUMAN HEALT H ENVIRONMENTAL HEALT H 2016 PerkinElmer
Miten tietokone oppii ennustamaan tai tekemään päätöksiä?
Historia tiivistettynä Machine Learning on Tietojenkäsittelytieteen osaalue Kehittyi pattern recognition:sta and computational learning theory:sta "Field of study that gives computers the ability to learn without being explicitly programmed (Arthur Samuel, 1959) 3
Machine learning I Käytetään algoritmeja jotka voivat hyödyntää olemassa olevaa dataa ratkaistaakseen ongelman Kun olemassa olevaa dataa syötetään algoritmille, se ns. oppii datan rakenteesta sääntöjä Kuin ohjelmistomoduuleita, useita algoritmeja voidaan ketjuttaa toimimaan yhdessä (implementoidaan softana) 4
Machine learning II Säännöt malli, jolla on tietty syöte ja tuloste. Prosessin aikana olemassa olevaa dataa nimitetään training dataksi, ja uusia syötettäviä datapisteitä test dataksi. Feature on dataa kuvaava arvo, ja class dataa kuvaava luokitus 5
Machine learning III Machine learning:lla on päällekkäisyyksiä statistiikan kanssa: Lähes identtiset aihepiirit and työkalut ML ja statistiikan tieteelliset julkaisut käsittelevät samoja aiheita kuten boosting, SVM, ja neural networks Mutta ne myös eroavat toisistaan: Statistiikka keskittyy formaaliin statistiseen päättelyyn, kun ML vastaavasti keskittyy saavuttamaan tarkkoja ennustuksia Tarkemmin sanottuna ML keskittyy kehittämään ohjelmistojärjestelmiä jotka osaavat laskea tarkkoja ennustuksia. Data mining lähestyy myös statistiikkaa ja ML; siinä yritetään saavuttaa arvokasta tietoa tutkivan data-analyysin tai statististen tekniikoiden avulla 6
Machine Learning IV Unsupervised learning Algoritmille esitetään dataa ilman haluttuja lopputuloksia (luokkia), jolloin sen pitää itse löytää datasta rakenne. Esimerkkinä K-Means Supervised learning Algoritmille esitetään olemassa olevaa dataa (training data) jossa ilmenee halutut lopputulokset. Algoritmi oppii yhdistämään tietyt syötteet tiettyyn tulosteeseen Esimerkkinä K-NN Reinforced learning Algoritmin pitää suoriutua tietysssä ympäristössä ongelmasta ilman eksplisiittistä opettamista onnistumisesta tai epäonnistumisesta. Ongelman ympäristö on tyypillisesti äärellinen Markovin päätösprosessi. Esimerkkinä Monte Carlo methods 7
Machine learning V Tyypillisiä ML ongelmia: Binary classification Yleisin Featureiden x1,x2,...,xn avulla päättele datapisteelle luokka y = 0 or 1. Multiclass classification y = {1,...,n} Komplesisempi kuin BC suorituksen kannalta raskaampi Regression Myös hyvin yleinen Featureiden avulla arvioi reaalilukuja sisältävää muuttujaa y. Novelty detection 8 Tunnista epänormaalisuutta datasta tietyllä päättelyketjulla Haastavaa, sillä poikkeavia arvoja oletetaan ilmenevän tosielämän datassa.
ML prosessina 1. Datan esiprosessointi (preprocessing) erittäin tärkeä askel 1. Matemaattiset metodit ovat herkkiä prosessoimattomalle datalle(esim. puuttuvat arvot, ei normalisointia) 2. Algoritmeja testataan ja iteroidaan kunnes paras malli löydetään(hienosäädetään algoritmin parametreja, kokeillaan eri algoritmeja) 3. Paras malli implementoidaan softana 9
Esimerkki: KNN algorithm I Ongelma: luokittele datasetti kahteen luokkaan hyödynnä featureita, laske class JOS tiedämme keksin suklaamurujen määrän neliösenttimetriä kohden JA keksin säde senttimetreinä, onko keksi sininen vai punainen? Tämä pystytään päättelemään olemassa olevalla datalla ja K-nearest neighbors algoritmilla features class Chocolate chips per square cm Cookie radius in cm Color Training Test 236 147 RED 135 190 BLUE 265 153??? 10
Esimerkki: KNN algorithm II KNN olettaa että Featureiden arvot ovat numeerisia, eli kahden datapisteen välinen etäisyys on laskettavissa Jokaiselle training datan datapisteelle on määrätty luokka-arvo (Color) Algoritmille annetaan parametri k, joka määrää tarkistettavien naapureiden määrän. features class Chocolate chips per square cm Cookie radius in cm Color Training Test 236 147 RED 135 190 BLUE 265 153??? 11
Esimerkki: KNN algorithm III 1. Lasketaan jokaisen training datan euklidinen etäisyys testattavaan pisteeseen nähden d e = (x 1 + x 2 ) 2 +(y 1 y 2 ) 2 (kavaa voidaan soveltaa n-ulottuvuuksisille featureille) 2. Valitaan k arvon verran kaikista läheisimmät pisteet 3. Valitut pisteet äänestävät omaa luokkaansa testattavalle pisteelle, eniten ääniä saanut vaihtoehto määrää luokan features class Training Test Chocolate chips per square cm Cookie radius in cm Color 236 147 RED 135 190 BLUE 265 153??? 12
13 1/20
14 2/20
15 3/20
16 4/20
17 5/20
18 6/20
19 7/20
20 8/20
21 9/20
22 10/20
23 11/20
24 12/20
25 13/20
26 14/20
27 15/20
28 16/20
29 17/20
30 18/20
31 19/20
32 20/20
Master s Thesis: Ennakoiva huoltomekanismi värinästä Laitteen mekaaniset osat värisevät liikkuessaan. Kun liike ei ole puhdas tai haluttu, tämä pystytään tunnistamaan värinästä Tätä värinää voidaan mitata, kerätä ja analysoida (paljon kaupallista softaa ja out-of-the-box paketteja esim. taajuusspektrien tutkimiseen) Älykkäät värinäjärjestelmät yleensä toimivat hälytyksillä kun ongelma tunnistetaan, hälytä. ML soveltuvuutta värinäpohjaisiin machine health ongelmiin on tutkittu, mutta tulokset ovat yleensä hyvin riippuvaisia spesifisestä ongelmasta (metodit eivät välttämättä ole helposti sovellettavissa) 33
Master s Thesis: Ennakoiva huoltomekanismi värinästä II Yleistettävän ja skaalautuvan ennakoivan huoltomekanismin kehittäminen Voidaan soveltaa useisiin PKI instrumentteihin Ympäristö toteutukselle on pilvipalvelu, käytettävä data on IoT dataa Jokainen instrumentti opitaan erikseen Muuttunut värinä voidaan tunnistaa voidaan ennustaa milloin se muuttuu liikaa eli laite hajoaa Haasteet: - mittaukset alttiita häiritsiville vaikuttajille - Kuinka pitkälle voidaan todenmukaisesti ennustaa - IoT aspekti Datan suodatus ja muuntaminen (preprosessointi) kriittisin askel Lopullinen tuloste on ennustus; kuinka kauan kyseisen laitteen moduulilla on aikaa hajoamiseen. 34 Aika Laite toimii Ennustus! Merkkejä hajoamisesta Hälytys! Laite hajosi!
Raakaa värinädataa GSP laitteen rungosta 35
Fourier muunnettu data 36
Kiitos!