Massadatan standardisointi Jari Salo 8.12.2015
Aiheet Big Data standardisointiryhmä Viitekehys ja tehtävänasetanta Työalueet Jatkotyö ja kokousaikataulu BiFF 10.12.2015 TIEKE Tietoyhteiskunnan kehittämiskeskus ry 2
Big Data standardisointiryhmä
ISO/IEC JTC 1/SG 2/WG9 - Big Data ISO/IEC JTC 1/SG 2/WG9 - Big Data järjesti ensimmäisen kokouksensa Bremenissä, Jacobs Universityn isännöimänä. Big Data on hyväksytty uudeksi projektiksi komitean alaisuuteen. Big Data projekti sai tunnuksen ISO/IEC NP 20546. Kokoukseen osallistui 24 edustajaa eri maista: Irlanti, Japani, Kiina, Korea, Saksa, Suomi, UK ja USA. Suurimmat delegaatiot olivat USA:lla, Kiinalla ja Korealla. Työryhmän koollekutsuja (Convenor) Wo Chang, NIST, USA. 10.12.2015 TIEKE Tietoyhteiskunnan kehittämiskeskus ry 4
Viitekehys ja tehtävänasetanta
Big Data työryhmän toiminnan määrittely (ToR) Keskeinen toimija JTC 1:n Big Data standardisointiohjelmassa. Laatii perustavat standardit Big Datalle - Big Data yleiskatsaus ja sanasto (Overview and Vocabulary) Viitearkkitehtuuri (Reference Achtechture) JTC 1:n työn ohjaamiseksi ja muiden Big Data standardien kehittämiseksi. Kehittää muita perusstandardeihin pohjautuvia Big Data standardeja, jos sopivia JTC 1 alaryhmiä, jotka voivat käsitellä näitä standardeja, ei ole tai eivät pysty niitä kehittämään. Tunnistaa puutteet Big Data-standardoinnissa. 10.12.2015 TIEKE Tietoyhteiskunnan kehittämiskeskus ry 6
Toiminnan määrittely (jatkoa) Kehittää ja ylläpitää yhteyksiä kaikkien asianomaisten JTC 1:n yksiköiden ja työryhmien kanssa, joka voivat ehdottaa Big Dataan liittyviä työkohteita tulevaisuudessa. Tunnistaa JTC 1:n (ja muiden organisaatioiden) yksiköt, jotka kehittävät standardeja ja niihin liittyvää materiaalia sekä edistävät Big Dataa sekä tarvittaessa selvittää käynnissä olevat ja mahdolliset uudet työkohteet, joka voivat vaikuttaa Big Datan kehittämiseen. Luoda suhteita JTC 1:n ulkopuolella toimivien yhteisöjen kanssa, tietoisuuden lisäämiseksi, sitouttamiseksi ja yhteyksien muodostamiseksi JTC 1 Big Data-standardointiin. 10.12.2015 TIEKE Tietoyhteiskunnan kehittämiskeskus ry 7
Työalueet
Big Data - Overview and Vocabulary Big Data - Overview and Vocabulary (ISO/IEC 20546) Tavoitteena on laatia kansainvälinen standardi joka sisältää yleiskuvaksen Big Datasta sekä siihen liittyviä termejä ja määrittelyjä. Standardi muodostaa terminologisen pohjan kaikille Big Dataan liittyville standardeille. Projektin editoriksi valittiin Nancy Grady, NACS (US) ja co-editoriksi Lili Yang, Huawei (CH). Projektin kesto 36 kk. 10.12.2015 TIEKE Tietoyhteiskunnan kehittämiskeskus ry 9
Big Data viitearkkitehtuuri Big Data Reference Achitecture - BDRA (ISO/IEC 20547) Tavoitteena on määritellä Big Data viitearkkitehtuuri, joka sisältää: Roolit (System Orchestrator, Data Provider, Data Consumer, Application Provider, Framework Provider) Toiminnot ja Toiminnalliset komponentit suhteineen ja riippuvuuksineen. Projektin editoriksi valittiin Sunwook Ha, (KR) ja co-editoreiksi David Boyd (US) ja Ian Walshe (IR). Projektin kesto 36 kk. 10.12.2015 TIEKE Tietoyhteiskunnan kehittämiskeskus ry 10
Project Designation Title ISO/IEC TR 20547-1 ISO/IEC TR 20547-1, Information technology Big Data Reference Architecture -- Part 1: Framework and Application Process ISO/IEC TR 20547-2 ISO/IEC TR 20547-2, Information technology -- Big Data Reference Architecture -- Part 2: Use Cases and Derived Requirements ISO/IEC 20547-3 ISO/IEC 20547-4 ISO/IEC 20547-3, Information technology -- Big Data Reference Architecture -- Part 3: Reference Architecture ISO/IEC 20547-4, Information technology -- Big Data Reference Architecture -- Part 4: Security and Privacy Fabric ISO/IEC TR 20547-5 ISO/IEC TR 20547-5, Information technology -- Big Data Reference Architecture -- Part 5: Standards Roadmap Project Editor David BOYD (US) Ray WALSHE (IE) Ray WALSHE (IE) Jacob DILLES (US) David BOYD (US) Co-Project Editor(s) Suwook HA (KR), Ray WALSHE (IE) Suwook HA (KR) David BOYD (US) Toshihiro SUZUKI (JP), Abdellatif Benjelloun TOUIMI (UK) 10.12.2015 TIEKE Tietoyhteiskunnan kehittämiskeskus ry 11
Jatkotyö ja kokousaikataulu
Projektien tuotoksille ja etenemiselle asetettiin aikatauluksi: Työluonnos 2, maalis/huhtikuu 2016 Standardiluonnos marraskuu 2016 Kansainvälinen standardi maaliskuu- elokuu 2017 Aikataulut vaihtelevat viitearkkitehtuurin (20547) osalta projektiryhmittäin Seuraava kokous Koreassa 7.-9. heinäkuuta 2015 2015 marraskuu Brasilia, Brasilia 2016 maaliskuu Dublin, Irlanti 2016 heinäkuu Peking, Kiina 2016 marras-/joulukuu Casablanca, Marokko 2017 maalis-/huhtikuu Japani 10.12.2015 TIEKE Tietoyhteiskunnan kehittämiskeskus ry 13
Suomessa Big data Forum Finland (BiFF)
Big data buzz Ihmisten ja tietoverkkoihin kytkettyjen laitteiden ja antureiden tuottaman tiedon määrä kasvaa hyvin nopeasti. High Volume, high Velocity & high Variety of sources Datan arvo laskee nopeasti, jos sitä ei hyödynnetä. Uusi tekniikka mahdollistaa hyvin suurten tietomäärien varastoimisen ja analysoinnin murto-osalla aiemmista kustannuksista. Haasteena tiedon pirstaloituminen ja heikko laatu (puutteelliset määrittelyt, epäyhdenmukaiset tiedon esitysmuodot, puuttuva metadata) Itseään koskevan tiedon hallitseminen, my data Big Data tarkoittaa näiden tietovarantojen reaaliaikaista analysointia ja hyödyntämistä uusissa kuluttajille ja teollisuudelle tarjottavissa palvelutuotteissa toiminnan ohjaamiseksi reaaliaikaisesti tai automaattisesti.
Suomessa Big Data Forum Finland BiFF Big Data Forum Finland (BiFF) tuottaa ja välittää Big Dataosaamista ja -teknologiaa yritysten-, tutkimus- ja oppilaitosten välillä ja ennen kaikkea jäsentensä piirissä. Foorumi on avoin ja riippumaton Toimii yritys- ja liiketoimintatarvelähtöisesti Toimii yhteistyössä ja vuorovaikutuksessa muiden verkostojen kanssa (6Aika verkosto, Digile, FIIF, Finpro kansainvälistymishanke, Forest Big Data, My data allianssi, Tietoasiantuntijat jne) Osallistuu ISO:n Big Data -työryhmän WG 9:n työhön Etsii lisää yhteistyötahoja 10.12.2015 TIEKE Tietoyhteiskunnan kehittämiskeskus ry 16
BiFF törmäyttää substanssi- ja big data -osaamisen Koulutus - tarpeet - sisällöt Tutkimus - kysymys - väline Yritykset Substanssi Kunnat - tietovarat - tarpeet Ministeriöt, viranomaiset Innovaatiot - tuotteet - palvelut BiFF Tieke Big Data - tiedonhallinta - analyysi Tiedolla johtaminen - real time economy - toimintatavat Yliopistot Konsultit Tutkimuslaitokset 10.12.2015 TIEKE Tietoyhteiskunnan kehittämiskeskus ry 17
Mahdollisuuksia ja haasteita Uudet palvelut ja tuotteet Kuluttajille suunnatut palvelut, esim. terveystieto- ja elämäntapapalvelut, älykäs sähköverkko ja älykäs asuminen Investointituotteiden muuttuminen tietointensiivisiksi palveluiksi, esim. hissit, koneet, automaatiojärjestelmät Teollisuuden palvelut, esim. ennakoiva logistiikka Tiedolla johtaminen Liiketoiminnan tai julkishallinnon reaaliaikainen ohjaus (real time economy) Haasteena tunnistaa, mitä datalta halutaan kysyä (esim. visualisoimalla dataa) Big datan haasteet Tietoturva ja yksityisyyden suoja kun kaikesta ja kaikista kerätään tietoa Päätöksenteon läpinäkyvyyden katoaminen numeronmurskauksen taakse Datan laadun varmentaminen: Bad data in, terrible information out. Virheitä voivat aiheuttaa tahattomat virheet analysoitavissa tiedoissa tai analyysialgoritmeissa tai tietojen tai algoritmien tahallinen manipulointi 10.12.2015 TIEKE Tietoyhteiskunnan kehittämiskeskus ry 18