Big Data Smart Data Erkki Räsänen www.langis.fi www.ecitec.fi
Sisältö Datan hyödyntämiseen liittyviä käsitteitä CRISP-DM Service Stack Big, Smart & Actionable Data Big Data mitä se on? BD:n eri ilmenemismuotoja Kritiikkiä ja hyötyjä Milloin ja miten Big Dataa tulee käyttää, milloin ei Case Smart Data mitä se on ja mitä se mahdollistaa?
Datan hyödyntämiseen liittyviä käsitteitä CRISP DM Service Stack
CRISP-DM Cross Industrial Platform for Data Mining
CRISP-DM Cross Industrial Platform for Data Mining Prosessin vaihe Rooli ja tehtävät Business Understanding Asiakas (ongelman omistajat), analyytikko/asiantuntija Miten ongelma ilmenee ja kulminoituu, mitä dataa siihen liittyy? Data Understanding Asiakas, analyytikot, asiantuntijat, kuka tahansa tutustutaan dataan, muodostetaan datasta yhteinen käsitys. Määritellään hypoteesi. Data Preparation Analyytikot ja asiantuntijat Kerätään ja esikäsitellään data analytiikkaa ja mallinnusta varten. Modeling Analyytikot ja asiantuntijat Analysoidaan ja mallinnetaan käyttäen useita eri menetelmiä. Evaluation Asiakas, analyytikot ja asiantuntijat Tarkastellaan tuloksia business-näkökulmasta ja päätetään, miten tulokset hyödynnetään. Deployment Asiakas, asiantuntijat sekä concept owner toteutetaan päätetyt toimenpiteet toimenpiteiden seuranta
CRISP-DM Cross Industrial Platform for Data Mining CRISP-DM vaikuttaa hyvin yksinkertaiselta ja ilmeiseltä; tavoitteena aina datan ymmärtäminen ja dataan perustuva päätöksenteko Prosessin toteutus on usein hankalaa ja vaatii psykologista pelisilmää business-ongelmasta puhuminen, oikeiden ihmisten löytäminen, datan saanti, organisaatiosiilot, yrityksen hierarkia, vastuiden jako... Tulosten käytäntöönpano on usein vielä hankalampaa poiketaan totutuista tavoista ja joudutaan epämukavuusalueelle prosessiin tulee alusta alkaen sitouttaa ne, jotka käytännössä vastaavat toteutuksesta Prosessi on iteratiivinen ja vaatii ketterien menetelmien omaksumista tulokset voivat alussa vaikuttaa laimeilta, jolloin asiakkaan usko on koetuksella
Service Stack Päätöksenteko Tarve Palvelu Informaatio Analytiikka Vertikaali Tietokanta Tiedonsiirto Mittaus Datan lähde Data
Technology Stack
Vertikaali ja vertikaalinen lähestymistapa Vertikaali on kokonaisratkaisu tarvelähtöiseen ongelmaan Kun perustarve on tunnistettu oikein, ongelman pysyvästi korjaava palvelukin on helppo määritellä Analytiikka tietokanta tiedonsiirto mittaus datan lähde; tekniset ongelmat on helppo ratkaista, kunhan perusongelma on tunnistettu. Entä horisontaalinen lähestymistapa? Puuhastellaan epärelevanttien teknisten detaljien kanssa ja/tai kehitetään uutta ja hienoa. Insinöörit syyllistyvät usein tähän. Perusongelma voi jäädä ratkaisematta.
Big Data Smart Data Actionable Data
Big Data
Mitä ovat Big Data, Cloud Computing, Fog Computing? BIG DATA Big Data: yleensä yhdistelmä eri tietolähteistä saatua dataa Joskus, mutta ei läheskään aina, on kyse todella massiivisista datamääristä Yleensä haasteena (ja tunnusomaisena piirteenä) on datojen erilaisuus ja yhdistämisen vaikeus Volume, Velocity, Veracity, Volatility Cloud Computing: datankäsittelyn resurssit ovat saatavana keskitettyinä palveluina Fog Computing: yleensä pienemmän mittakaavan paikallinen ja jossain määrin yhteisöllinen (kollaboratiivinen) palvelu
BIG Data Globaalin tason data ja palvelut
BIG Data Teollisuus, energia Kaupunki-infra, liikenne Terveysdata
BIG Data IoT-järjestelmät Dataintensiiviset palvelut Pienten/keskisuurten yritysten mukaantulo
BIG Data SparkPi -klustereita Big Dataa miniatyyrimittakaavassa Järjestelmät Big Data työkalujen opiskeluun ja hyödyntämiseen Mahdollista kenelle tahansa
Uusia trendejä... Huom! Datan relevanssi Ymmärrys Toimenpiteet Mittarointi CRISP-DM...
IoT, Big Data ja Digitalisoituminen IoT (Internet of Things) on yhä selkeämmin erottumassa tärkeäksi Big Datan sovellusalueeksi IoT:lle luonteenomaista on datalähteiden hajautuneisuus ja eri järjestelmien monimuotoisuus IoT-datan analytiikalta edellytetään usein reaaliaikaisuutta ja automatisointia (data ohjaus seuranta) Analytiikan ja palveluiden automatisointi digitalisaatio
Big Data -kritiikkiä Big Data on ollut suunnattoman hypetyksen lähde ja kohde Volume, Velocity, Veracity, Volatility - tämä määrittely pätee ainakin osin, mutta on luonut illuusioita; höttöisestäkin datasta saisi hyötyä, kunhan sitä on paljon ja yritykset vain rupeavat rohkeasti Big Dataa hyödyntämään IoT ja Big Data käytännön konkretia? Isojen Big Data toimijoiden lähestymistapa voi usein olla epäkäytännöllinen tarjotaan turhan järeitä työkaluja ongelmiin, jotka kyllä ratkeavat kevyemminkin palvelutarjonta on edelleen kallista, vaikka palveluja on saatavilla ketterästi ns. Solution Sprint tarjoama yleistynyt (usein IoT + Big Data sovellus), mutta nämäkin ovat usein hirvittävän kalliita
Big Datan tuomia hyötyjä Erinomaisia työkaluja, esim. visualisointikirjastoja ja suurten datamäärien laskennan hallintaan tarkoitetut laskenta-alustat; Hadoop, MapReduce, Spark, R, Scipy, PyTable Dataa ja informaatiota koskevan ymmärryksen laajamittainen lisääntyminen Tietojärjestelmiä koskevan ymmärryksen lisääntyminen; osataan välttää monoliittisia järjestelmiä, pyritään saamaan datasta hyötyä nopeasti ja tiedostetaan ketterien kehitysmenetelmien hyödyt Muita hyötyjä?
Milloin ja miten Big Dataa tulee käyttää? Big Data teknologian käyttöönotto on selvästi edellytys tunnistetulle ja laajamittaiselle tarpeelle tietokonepelit; pelaajia mittaroidaan monin eri tavoin maailmanlaajuisesti Intian rautatieaikataulujen hallinta (Google Analytics case) Tanskan tuulivoimalat (IBM-case) vakuutusyhtiöt asiakasriskien hallinta esim. käyttäen sosiaalista mediaa tietolähteenä (IBM case) autovuokraamo, jossa valvotaan reaaliaikaisesti 50 000 autoa (ThingWorx case) diagnoosi MRI kuvauksesta; kolme päivää lyhenee varttituntiin Rakennetaan palvelua, jolla on tunnistettu skaalautumispotentiaali esim. mittaukset, teollisuuden kunnossapito, asset management, LIMS-järjestelmät, IoT... ei lähdetä heti toteuttamaan järeää järjestelmää, Big Data-työkalut toimivat hyvin pienessäkin mittakaavassa (ja edullisesti) Big Dataan varautuminen ei välttämättä tuo lisäkustannuksia edetään alussa pienimuotoisesti ja onnistumisesta toiseen
Milloin ja miten Big Dataa ei tule käyttää? Datan hyödyntämiseen liittyvä perusosaaminen ei ole kunnossa (ml. muut perusasiat) osaajat, työkalut, jonkinlainen infrastruktuuri... Big Data tulee ja me haluamme olla mukana tarpeet ovat sumeita datan hyödyntämisen mittakaava on epäselvää saatavilla oleva data on höttöä asiantuntijoita ei ole kuunneltu eikä kukaan ymmärrä, miksi Big Dataa tarvittaisiin Rakennetaan järjestelmää horisontaalisesti (koskee IT-järjestelmiä yleisesti) tietovarasto ensin, johdon raportointi ensin... Unohdetaan käyttäjätarpeet systeemi on monoliittinen ja bugit korjataan hitaasti testauksesta ja käyttäjävaatimuksista tingitään koulutus, roll-out ym. toteutetaan huonosti tyydytään vakioraportteihin eikä päästetä asiantuntijoita valloilleen
Smart Data
Mitä Smart Data on? Valistunutta, yhteisöllistä ja tehokkaasti organisoitua datan hyödyntämistä Osaamisen ja parhaiden käytäntöjen tietoista levittämistä Ketterien työtapojen omaksumista Siilojen purkamista Rohkeutta hyödyntää dataa päätöksenteossa Uskallusta aloittaa!
Oppimisen jatkuva hyödyntäminen (Data Rangers Oy) www.datarangers.f
Yhteistyön mahdollistaminen työkalutasolla Data Rangersin Louhin Alusta, joka mahdollistaa yhteistyön datan parissa Osaamisen monistaminen analyysimalleja jakamalla Projekteihin liittyvän tietotaidon hallinta (mm. keskustelut) Helppo kytkeytyminen erilaisiin datoihin Data-analyysimallien helppo luonti graafisesti Kaikki data on sopivan kokoista www.louhin.com
Case: IoT - Big Data-järjestelmä mittauspalvelulle...eli miten mikroyritys voi toteuttaa Big Data-järjestelmän kengännauhabudjetilla...
Kokemuksia omasta yrityksestä, Langis Oy Toiminta-ajatus #1; olemme mittausteknologian toimittaja asiakkaita kiinnostavatkin mittauspalvelut enemmän kuin itse teknologia Toiminta-ajatus #2; myymme teknologiaa ja niihin liittyviä informaatiopalveluita asiakkaiden järjestelmiin ei pääse (tai niitä ei edes ole) ja informaatiopalvelun täytyy olla reaaliaikaista, muuten palvelulla ei juuri ole arvoa Toiminta-ajatus #3; myymme kaiken avaimet käteen toimituksena kiinnostusta tuli heti valtavasti vertikaalinen, skaalautuva ratkaisu on itsessään kilpailuedun tuova tuote kehitysponnistelut moninkertaistuivat, mutta niin myös mahdollisuudet
Kokemuksia omasta yrityksestä Vertikaalisen lähestymistavan edellytykset: teknologinen koherenssi sensoritasolta palveluun asti kaikki osa-alueet toteutettu datan- ja tiedonkulun sekä laskentakapasiteetin kannalta optimaaliseksi ratkaisun skaalautuvuus asiakaskokemukset eivät saa rajoittua pilotoinnin tasolle, vaan onnistunut pilotti voi jatkua saman tien tuotantoon riippumattomuus kolmannen osapuolen lisensseistä, asiakkaat eivät halua ylimääräisiä riippuvuussuhteita ratkaisun tuotettava resurssitehokkuutta myös meille; esim. laitteiden valvonta ja päivitykset
Big Data ja IoT mitä datalle missäkin vaiheessa tapahtuu? Päätöksenteko Visualisointi, havaintojen raportointi Konsultaatio ja yhteistyö Service Stack Data muuttuu ymmärrettäväksi informaatioksi Datan esikäsittely ja matemaattinen mallinnus Datan varastointi Erilaisten datojen yhdistely Yleensä vain siirretään dataa suodatus, skaalaus, linearisointi, kalibrointi
Suoraviivainen ja minimalistinen arkkitehtuuri... Broker: ensin 28 Bladea, nyt 40-50
Oma teknologia ja open source - ohjelmistot Sensor Node Gateway Mittausverkon rauta Ohjelmistot: Mosca (MQTT) Mongo DB (kanta) R ja MapReduce (analytiikka) JS (hallinta)
värähtely Analytiikka Vedenlaadun mittaukset teollisuudessa ja vesihuollossa mittaussignaalien käsittely mittausdatojen fuusio (soft sensor) KPI:t prosessien toiminnan kuvaamiseksi Teollisuuden kunnonvalvonta laitteiden värähtelysignaalit sähkön laatu tehdasautomaation toiminta FFTtaajuusspektri luokittelu neuroverkoilla
Internet of BBQ BBQ-savustin, joka on yhteydessä Bladecenteriin 4 paistolämpömittaria 2 savustustilan lämpötila-anturia lämpötilan ohjaus PI säädöllä
Kokemukset Todellinen Big Data laskentakapasiteetti on jopa mikroyritykselle mahdollinen, budjetinkaan ei tarvitse olla suuri Niukat resurssit ovat johtaneet innovatiivisiin ratkaisuihin Big Data lähestymistapa on ollut asiakkaita kiinnostavan palvelun edellytys ja sen aikaansaanti on tuonut selvää kilpailuetua Meidän mielestämme Big Data voi olla Smart Dataa tarvelähtöisyys, kyvykkyys asiakkaan palveluun sekä ketteryys
Yhteenveto Big Data Smart Data; termeillä ja määrittelyillä ei niinkään ole väliä. Oikeiden tarpeiden tunnistaminen on tärkeintä ja ratkaisut on toteutettava niiden mukaan. Yritysten sisäinen osaaminen ja asiantuntijuus kuntoon, perusosaamisen tärkeyttä ei voi korostaa liikaa. Osaamisen kehittämisessä Smart Data lähestymistapa on paras.
Kiinnostuitko? www.datarangers.fi: Smart Data lähestymistapa ja Louhin www.ecitec.fi: Analytiikka, Big Data ja IoT, koulutusta perusosaamisen vahvistamiseksi www.langis.fi: Teollisuuden mittauspalveluita IoT-lähestymistapaa hyödyntäen