Big data tilastotoimessa: standardoinnin näkökulma, SFS-seminaari Pasi Piela, 2.6.2015
Rekisterit ja big data Vanha Big Data - Hallinnolliset rekisteriaineistot (verotus, väestö, sosiaaliturva, ulkomaankauppa ) - olleet digitalisoituja vuosikymmenet - Muodostavat nykyisen hallinnollisen tiedontuotannon perustan (hallinnollinen raportointi, virallinen tilastointi) - Tilastointia varten täydennetään tilastollisilla tiedonkeruilla Uusi Big Data - Yritysten ja kansalaisten elämän digitalisoitumisen tuloksena syntyvä datamassa 2
Standardoinnin näkökulma - Määritelmänä: nopeasti päivittyvä suuraineisto jota täytyy pilkkoa pieneksi, jotta sitä voi käsitellä ja visualisoida. - Tilastokeskus on ottamassa big dataa omiin kyselyihinsä mukaan (määritelmä TSK:n termipankin mukainen) - big datasta aggregoitu aineisto ei ole big dataa vai onko? - Kansainvälisessä tilastotoimessa osana tiedon vallankumousta: motivoi voimakkaammin kohti uusia tietolähteitä tuotantoa rikastamaan. 3
Kansainvälinen tilastotoimi - YK: Global Big Data Working Group keskittyy kolmeen pääkohtaan: mobiilidata, sosiaalinen media ja satelliittikuvannus. - UNECE: Irlannin tilastovirastoon luotu sandbox (hiekkalaatikko) ison datan kaltaisille aineistoille t. käytännössä karsituille aineistoille eri maista http://www1.unece.org/stat/platform/display/bigdata/big+data+inventory - European Statistical System Task-force on Big Data in Official Statistics, ESS (Eurostat) ESS Big Data Action Plan and Roadmap 1.0 - Tilastokeskuksella oma työryhmänsä pohtimassa tiekarttaa 4
Taksonomia 1/2 5 No. Aineistolähde Aineiston tyyppi Tilastollinen soveltamisalue 1 Teleliikenne Mobiilidata Matkailutilastot Väestötilastot 2 Internet Web-haut Työvoimatilastot Verkkokaupat Yritysten verkkosivut Avoimet työpaikat verkossa Kiinteistöjen myyntiilmoitukset verkossa Sosiaalinen media 3 Sensorit Liikenteen automaattiset mittausasemat Etäluettavat sähkömittarit Satelliittikuvat Laivojen automaattinen tunnistusjärjestelmä (AIS) Muuttoliike Hintatilastot Tietoyhteiskuntatilastot Yritysrekisteri Työllisyystilastot Hintatilastot (asuntojen hinnat) Kuluttajien luottamus Komission Beyond GDP ohjelmaan liittyvä hyvinvoinnin ja onnellisuuden mittaaminen Tietoyhteiskuntatilastot Liikennetilastot Kuljetustilastot, tavaraliikennetilastot Energiatilastot Maankäyttötilastot Maataloustilastot Ympäristötilastot Liikennetilastot Päästötilastot
Taksonomia 2/2 4 Prosessin generoima data 5 Joukkouttaminen (crowdsourcing) Lentoreitit Kauppojen hintaskanneri- ja myyntidata Liikennetilastot Päästötilastot Hintatilastot Kulutustutkimus, kotitalouksien kulutus Taloudellinen transaktiodata Kulutustutkimus Osallistava paikkatieto, VGI Maankäyttö (OpenStreetMap, Wikimapia, Geowiki) Yhteisölliset valokuvakokoelmat, CPC (Flickr, Instagram, Panoramio) 6
Big data sovellutuksia tällä hetkellä - Internet-hintatiedonkeruuprojekti (EU-rahoitteinen) - Liikenteen automaattisten mittausasemien datan hyödyntäminen osana matka-aikojen mallinnusta (Liikennevirasto) - Now-casting 7
Big data haasteet - Uusi paradigman muutos (asetelmapohjaisesta mallipohjaiseen lähestymistapaan)? - Kaikki haluavat avointa tietoa, mutta entä open business data? - Tuleeko datalle hintalappu? Kuinka pitkälle dataa voi saada hyvällä yhteistyöllä? - Lainsäädäntö: tilastolaki ja tietoyhteiskuntakaari - Asennemuutos! Yritys ja erehdys sallittava. Kaiken ei tarvitse olla valmista. Big data voi olla väliaikaista ja epätarkkaa. - Kansallinen big data strategia! - RAHOITUS 8