Datan analysointi ja visualisointi Teollisen internetin työpaja Jouni Tervonen, Oulun yliopisto, Oulun Eteläisen instituutti 14.3.2016
Johdanto Tavoite yhdessä määritellä miten data-analytiikkaa voi auttaa yrityksiä Data-analyysin/tiedonlouhinnan malli Big dataksi kutsuttavia tietovarantoja syntyy hyvin monilla eri aloilla Aika- ja paikkatiedot, esimerkiksi navigointipalvelu, joka tallettaa missä asiakas on milläkin hetkellä Laitteiden toimintaa tarkkailevat mittarit ja sensoriverkot RFID-tunnisteet Telemetria autoissa tai videopelissä Älykkäät sähköverkot Tekstit, kuten asiakaspalaute tai arvostelut Internetsivustojen lokitiedot, sosiaalisen median sisältö Datan visualisointi keskeisessä osassa sekä tulkinnassa että osana aiempia vaiheita 2 Jouni Tervonen 14.3.2016
Hyödyntäminen esimerkkejä Teollisuusala Prosessiteollisuus Kunnossapito Prosessinhallinta Teollisuus Elintarvikeketju Elintarvikeketju Kauppa Älyliikenne Tiedonkeruun & analytiikan hyödyntämistapoja Prosessin tilan analysointi ja luokittelu (Matlab-pohjainen öljynjalostamon toimintatilan määrittely) Laitteiden kunnon tai huollontarpeen ennakointi Itseorganisoituvien karttojen ja Markov-ketjujen avulla teollisuusprosessin hallinta Turvallisten työskentelyolosuhteiden monitorointi Kasvukauden olosuhteiden monitoroinnilla ja säädöllä suurempi sato Varastointiolosuhteiden monitoroinnilla ja säädöllä säilyvyyden ja laadun varmistus Älykäs RFID-pohjainen asiakkaiden opastusjärjestelmä Liikennemäärien mittaukset ja ruuhkien välttämiset 3 Jouni Tervonen 14.3.2016
Data-analytiikan tilastolliset analyysit Tilastollinen prosessinohjaus eli SPC (Statistical Process Control) Näytteiden perusteella laaditaan tilastoja ja kuvaajia, joiden avulla prosessista pystytään tunnistamaan sellaiset muutokset, jotka voivat vaikuttaa tuotoksen laatuun. Prosessia analysoidaan myös tunnistamalla juurisyitä, esimerkiksi erilaisia laatutyökaluja apuna käyttäen. Valvontakorteilla pyritään erottamaan erilaiset vaihtelutyypit: prosessille ominaiset satunnaisvaihtelut, sekä erilaiset häiriöt. Tavoitteena tilanne, jossa saavutettuun tulokseen vaikuttaa ainoastaan satunnaisvaihtelu Usean parametrin prosesseista voidaan suunnitella koejärjestely, jonka avulla selvitetään prosessin herkkyydet eri parametrien vaihteluille 4 Jouni Tervonen 14.3.2016
Analyysityökaluja Lisensoituja ohjelmistoja tilastolliseen analyysiin Matlab, SPSS, MiniTab, Open source työkaluja R-kieli, Weka ja Rapid Miner Linkkejä oikean kaavion valintaan: http://www.labnol.org/software/find-right-chart-type-for-your-data/6523/ http://blog.hubspot.com/marketing/data-visualization-choosing-chart http://www.perceptualedge.com/articles/misc/graph_selection_matrix.pdf http://www.perceptualedge.com/articles/ie/the_right_graph.pdf 5 Jouni Tervonen 14.3.2016
Datan visualisoinnin työkaluja Tilastolliset analysointiohjelmat Datan visuaalinen tarkastelu on usein tehokasta analyysiä. Aineiston kiinnostavista muuttujista saa hyvän kuvan piirtämällä hajontakuvion Piirtämällä histogrammi voidaan tarkastella muuttujan jakaumaa Usean muuttujan välisiä keskinäisiä riippuvuuksia voidaan tarkastella mm. korrelaatiolla ja regressiolla Visualisointityökalujen kokoelma ulkoiseen viestintään: http://selection.datavisualization.ch/ Karttojen, kaavioiden, datan hallin ja värien käytön työkaluja 6 Jouni Tervonen 14.3.2016
Demonstraatio olosuhdemittausten sensoridatan Elintarvikevaraston olosuhteiden seurannan sensoriverkkomittaukset Yhdeksän (9) langatonta lämpötilan ja kosteuden mittauspistettä Varasto (8 x 30 x 5 metriä) Erillinen lämpötilan valvontajärjestelmä, joka oli määritetty tavoitelämpötilaan noin kolme astetta Mittausväli 16 minuuttia koko mittausjakso n. 2 kk Lämpötilan ensimmäisen viikon aikasarjojen perusteella muutos lämmitysjärjestelmään 7 Jouni Tervonen 14.3.2016
Analysointi (mittaus)prosessin laadun tarkkailussa Mittausprosessin erityisongelma laatikko-jana-kuvion avulla 8 Jouni Tervonen 14.3.2016
Mittausten aikasarjojen tarkastelut Lämpötilan ja kosteuden interaktiiviset aikasarjat Richshaw kirjastoa hyödyntäen 9 Jouni Tervonen 14.3.2016
Mittausten aikasarjojen tarkastelut Useiden aikasarjojen esittäminen allekkain samanaikaisesti ja tilaa säästäen perustuen Cubism.js kirjastoon 10 Jouni Tervonen 14.3.2016
Datan visualisointi Karttapohjaiset visualisoinnit mm. julkishallinnon keräämien tilastotietojen havainnollistamiseen ja yrityksissä kumppanuuksin ja asiakkaiden hallinnan avuksi 3D- ja virtuaaliympäristöt suunnittelun apuna mm. 3D cave ympäristö 11 Jouni Tervonen 14.3.2016
Kysymyksiä Mitä käyttökohteita teidän yrityksessänne voisi olla dataanalytiikan ja/tai datan visualisoinnin hyödyntämiseen? Mitä verkostoja tarvitsette datan analysoinnin avuksi? Mitä tietoa yrityksessänne kerätään ja olisiko muiden tietokantojen hyödyntäminen mahdollista? 12 Jouni Tervonen 14.3.2016