Introduction to Machine Learning

Samankaltaiset tiedostot
ALGORITMIT & OPPIMINEN

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Tietotekniikan valintakoe

Tekoäly muuttaa arvoketjuja

Datatähti 2019 loppu

811312A Tietorakenteet ja algoritmit I Johdanto

Luentorunko perjantaille

T DATASTA TIETOON

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen

Satunnaisalgoritmit. Topi Paavilainen. Laskennan teorian opintopiiri HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Web-palvelut ja niihin kohdistuneiden poikkeavuuksien tunnistamisen. Harri Mäkelä

Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia.

Oppijan saama palaute määrää oppimisen tyypin

S09 04 Kohteiden tunnistaminen 3D datasta

Tekstuurintunnistuksen lyhyt oppimäärä. Ts. pari tapaa erottaa tiiliseinä pensaasta.

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Ongelma(t): Mikä on Turingin kone? Miten Turingin kone liittyy funktioihin ja algoritmeihin? Miten Turingin kone liittyy tietokoneisiin?

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Kukin kurssi voi sisältyä vain yhteen alemman tai ylemmän perustutkinnon moduuliin.

Harha mallin arvioinnissa

Kuinka paljon dataa on tarpeeksi?

Test-Driven Development

Bioinformatics in Laboratory of Computer and Information Science

1. Universaaleja laskennan malleja

Puun kasvu ja runkomuodon muutokset

Lajittelumenetelmät ilmakehän kaukokartoituksen laadun tarkkailussa (valmiin työn esittely)

Test-Driven Development

Poikkeavuuksien havainnointi (palvelinlokeista)

Pinoautomaatit. TIEA241 Automaatit ja kieliopit, kesä Antti-Juhani Kaijanaho. 6. kesäkuuta 2013 TIETOTEKNIIKAN LAITOS. Pinoautomaatit.

811312A Tietorakenteet ja algoritmit, , Harjoitus 6, Ratkaisu

Markkinoiden helpoin ja käytännöllisin IP Kamera

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Menetelmä Markowitzin mallin parametrien estimointiin (valmiin työn esittely)

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen

Kaikkiin kysymyksiin vastataan kysymys paperille pyri pitämään vastaukset lyhyinä, voit jatkaa paperien kääntöpuolille tarvittaessa.

Master's Programme in Life Science Technologies (LifeTech) Prof. Juho Rousu Director of the Life Science Technologies programme 3.1.

STEP 1 Tilaa ajattelulle

Liikenneteorian tehtävä

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

Kukin kurssi voi sisältyä vain yhteen alemman tai ylemmän perustutkinnon moduuliin.

Monivalintatehtävät matematiikassa

Harjoitus 7: NCSS - Tilastollinen analyysi

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Matemaatikot ja tilastotieteilijät

Kumisaappaista koneoppimiseen

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Avainsanojen poimiminen Eeva Ahonen

805306A Johdatus monimuuttujamenetelmiin, 5 op

Äärellisten automaattien ja säännöllisten lausekkeiden minimointi

Älykäs datan tuonti kuljetusongelman optimoinnissa. Antoine Kalmbach

Uolevin reitti. Kuvaus. Syöte (stdin) Tuloste (stdout) Esimerkki 1. Esimerkki 2

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kontrollipolkujen määrä

Parinmuodostuksesta tietojenkäsittelytieteen silmin. Petteri Kaski Tietojenkäsittelytieteen laitos Aalto-yliopisto

Ohjelmointi 1 / 2009 syksy Tentti / 18.12

M =(K, Σ, Γ,, s, F ) Σ ={a, b} Γ ={c, d} = {( (s, a, e), (s, cd) ), ( (s, e, e), (f, e) ), (f, e, d), (f, e)

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Algoritmit 2. Luento 1 Ti Timo Männikkö

Korkean resoluution ja suuren kuva-alueen SAR

58160 Ohjelmoinnin harjoitustyö

Hissimatkustajien automaattinen tunnistaminen. Johan Backlund

Tietorakenteet ja algoritmit

Bayesilainen päätöksenteko / Bayesian decision theory

Matemaattisen analyysin tukikurssi

Lämpötilan ja valssausvoiman tilastollinen mallintaminen levyvalssauksessa

Ennakoiva analytiikka liiketoiminnassa

KOKSIN OMINAISUUDET MASUUNIN OLOSUHTEISSA

Yhdessä innovatiivisesti Innovativt tillsammans Ryhmätyö (sininen ryhmä) Susanna Pakkala. Viranomaiset / rahoittajataso (esim.

Rekursiolause. Laskennan teorian opintopiiri. Sebastian Björkqvist. 23. helmikuuta Tiivistelmä

JOHDATUS TEKOÄLYYN TEEMU ROOS

Loppukilpailu perjantaina OSA 1 Ratkaisuaika 30 min Pistemäärä 20. Peruskoulun matematiikkakilpailu

Ohjelmoinnin perusteet, syksy 2006

JOHDATUS TEKOÄLYYN TEEMU ROOS

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 12. lokakuuta 2016

f(x) f(y) x y f f(x) f(y) (x) = lim

Joonas Haapala Ohjaaja: DI Heikki Puustinen Valvoja: Prof. Kai Virtanen

Johdatus tekoälyn taustalla olevaan matematiikkaan

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio:

Tekoäly ja sen soveltaminen yrityksissä. Mika Rantonen

Ortogonaaliprojektio äärellisulotteiselle aliavaruudelle

S Ihminen ja tietoliikennetekniikka. Syksy 2005, laskari 2

Opetus talteen ja jakoon oppilaille. Kokemuksia Aurajoen lukion tuotantoluokan toiminnasta Anna Saivosalmi

Mallipohjainen klusterointi

Accu-Chek Compact- ja Accu-Chek Compact Plus -järjestelmien luotettavuus ja tarkkuus. Johdanto. Menetelmä

JOHDATUS TEKOÄLYYN TEEMU ROOS

Laskennallinen menetelmä puun biomassan ja oksien kokojakauman määrittämiseen laserkeilausdatasta

Algoritmit 1. Luento 3 Ti Timo Männikkö

LAITTEISTOKOKOONPANON SELVITTÄMINEN JA AJURIEN ASENTAMINEN

Robotit kuntien päätöksenteon tukena

Yhteydettömän kieliopin jäsennysongelma

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Tekoäly ja data science mistä on kyse? Data Scientist Jukka Kärkimaa, Tilastokeskus

Johdatus tekoälyn taustalla olevaan matematiikkaan

JOHDATUS TEKOÄLYYN TEEMU ROOS

Transkriptio:

Introduction to Machine Learning Aki Koivu 27.10.2016 HUMAN HEALT H ENVIRONMENTAL HEALT H 2016 PerkinElmer

Miten tietokone oppii ennustamaan tai tekemään päätöksiä?

Historia tiivistettynä Machine Learning on Tietojenkäsittelytieteen osaalue Kehittyi pattern recognition:sta and computational learning theory:sta "Field of study that gives computers the ability to learn without being explicitly programmed (Arthur Samuel, 1959) 3

Machine learning I Käytetään algoritmeja jotka voivat hyödyntää olemassa olevaa dataa ratkaistaakseen ongelman Kun olemassa olevaa dataa syötetään algoritmille, se ns. oppii datan rakenteesta sääntöjä Kuin ohjelmistomoduuleita, useita algoritmeja voidaan ketjuttaa toimimaan yhdessä (implementoidaan softana) 4

Machine learning II Säännöt malli, jolla on tietty syöte ja tuloste. Prosessin aikana olemassa olevaa dataa nimitetään training dataksi, ja uusia syötettäviä datapisteitä test dataksi. Feature on dataa kuvaava arvo, ja class dataa kuvaava luokitus 5

Machine learning III Machine learning:lla on päällekkäisyyksiä statistiikan kanssa: Lähes identtiset aihepiirit and työkalut ML ja statistiikan tieteelliset julkaisut käsittelevät samoja aiheita kuten boosting, SVM, ja neural networks Mutta ne myös eroavat toisistaan: Statistiikka keskittyy formaaliin statistiseen päättelyyn, kun ML vastaavasti keskittyy saavuttamaan tarkkoja ennustuksia Tarkemmin sanottuna ML keskittyy kehittämään ohjelmistojärjestelmiä jotka osaavat laskea tarkkoja ennustuksia. Data mining lähestyy myös statistiikkaa ja ML; siinä yritetään saavuttaa arvokasta tietoa tutkivan data-analyysin tai statististen tekniikoiden avulla 6

Machine Learning IV Unsupervised learning Algoritmille esitetään dataa ilman haluttuja lopputuloksia (luokkia), jolloin sen pitää itse löytää datasta rakenne. Esimerkkinä K-Means Supervised learning Algoritmille esitetään olemassa olevaa dataa (training data) jossa ilmenee halutut lopputulokset. Algoritmi oppii yhdistämään tietyt syötteet tiettyyn tulosteeseen Esimerkkinä K-NN Reinforced learning Algoritmin pitää suoriutua tietysssä ympäristössä ongelmasta ilman eksplisiittistä opettamista onnistumisesta tai epäonnistumisesta. Ongelman ympäristö on tyypillisesti äärellinen Markovin päätösprosessi. Esimerkkinä Monte Carlo methods 7

Machine learning V Tyypillisiä ML ongelmia: Binary classification Yleisin Featureiden x1,x2,...,xn avulla päättele datapisteelle luokka y = 0 or 1. Multiclass classification y = {1,...,n} Komplesisempi kuin BC suorituksen kannalta raskaampi Regression Myös hyvin yleinen Featureiden avulla arvioi reaalilukuja sisältävää muuttujaa y. Novelty detection 8 Tunnista epänormaalisuutta datasta tietyllä päättelyketjulla Haastavaa, sillä poikkeavia arvoja oletetaan ilmenevän tosielämän datassa.

ML prosessina 1. Datan esiprosessointi (preprocessing) erittäin tärkeä askel 1. Matemaattiset metodit ovat herkkiä prosessoimattomalle datalle(esim. puuttuvat arvot, ei normalisointia) 2. Algoritmeja testataan ja iteroidaan kunnes paras malli löydetään(hienosäädetään algoritmin parametreja, kokeillaan eri algoritmeja) 3. Paras malli implementoidaan softana 9

Esimerkki: KNN algorithm I Ongelma: luokittele datasetti kahteen luokkaan hyödynnä featureita, laske class JOS tiedämme keksin suklaamurujen määrän neliösenttimetriä kohden JA keksin säde senttimetreinä, onko keksi sininen vai punainen? Tämä pystytään päättelemään olemassa olevalla datalla ja K-nearest neighbors algoritmilla features class Chocolate chips per square cm Cookie radius in cm Color Training Test 236 147 RED 135 190 BLUE 265 153??? 10

Esimerkki: KNN algorithm II KNN olettaa että Featureiden arvot ovat numeerisia, eli kahden datapisteen välinen etäisyys on laskettavissa Jokaiselle training datan datapisteelle on määrätty luokka-arvo (Color) Algoritmille annetaan parametri k, joka määrää tarkistettavien naapureiden määrän. features class Chocolate chips per square cm Cookie radius in cm Color Training Test 236 147 RED 135 190 BLUE 265 153??? 11

Esimerkki: KNN algorithm III 1. Lasketaan jokaisen training datan euklidinen etäisyys testattavaan pisteeseen nähden d e = (x 1 + x 2 ) 2 +(y 1 y 2 ) 2 (kavaa voidaan soveltaa n-ulottuvuuksisille featureille) 2. Valitaan k arvon verran kaikista läheisimmät pisteet 3. Valitut pisteet äänestävät omaa luokkaansa testattavalle pisteelle, eniten ääniä saanut vaihtoehto määrää luokan features class Training Test Chocolate chips per square cm Cookie radius in cm Color 236 147 RED 135 190 BLUE 265 153??? 12

13 1/20

14 2/20

15 3/20

16 4/20

17 5/20

18 6/20

19 7/20

20 8/20

21 9/20

22 10/20

23 11/20

24 12/20

25 13/20

26 14/20

27 15/20

28 16/20

29 17/20

30 18/20

31 19/20

32 20/20

Master s Thesis: Ennakoiva huoltomekanismi värinästä Laitteen mekaaniset osat värisevät liikkuessaan. Kun liike ei ole puhdas tai haluttu, tämä pystytään tunnistamaan värinästä Tätä värinää voidaan mitata, kerätä ja analysoida (paljon kaupallista softaa ja out-of-the-box paketteja esim. taajuusspektrien tutkimiseen) Älykkäät värinäjärjestelmät yleensä toimivat hälytyksillä kun ongelma tunnistetaan, hälytä. ML soveltuvuutta värinäpohjaisiin machine health ongelmiin on tutkittu, mutta tulokset ovat yleensä hyvin riippuvaisia spesifisestä ongelmasta (metodit eivät välttämättä ole helposti sovellettavissa) 33

Master s Thesis: Ennakoiva huoltomekanismi värinästä II Yleistettävän ja skaalautuvan ennakoivan huoltomekanismin kehittäminen Voidaan soveltaa useisiin PKI instrumentteihin Ympäristö toteutukselle on pilvipalvelu, käytettävä data on IoT dataa Jokainen instrumentti opitaan erikseen Muuttunut värinä voidaan tunnistaa voidaan ennustaa milloin se muuttuu liikaa eli laite hajoaa Haasteet: - mittaukset alttiita häiritsiville vaikuttajille - Kuinka pitkälle voidaan todenmukaisesti ennustaa - IoT aspekti Datan suodatus ja muuntaminen (preprosessointi) kriittisin askel Lopullinen tuloste on ennustus; kuinka kauan kyseisen laitteen moduulilla on aikaa hajoamiseen. 34 Aika Laite toimii Ennustus! Merkkejä hajoamisesta Hälytys! Laite hajosi!

Raakaa värinädataa GSP laitteen rungosta 35

Fourier muunnettu data 36

Kiitos!