Uusi näkökulma big dataan... 18 Esineiden internet... 21 Älykkäät koneet... 23

Immo Salo

Sisältö JOHDANTO Maailma muuttuu vauhdilla... 6 Big data ja pilvipalvelut murroksen ytimessä... 8 Vaikutukset yhteiskuntaan... 9 Big Data siivittää teollisuuden tiikeriloikkaan... 11 1. TEOLLINEN INTERNET Uusi näkökulma big dataan... 18 Esineiden internet... 21 Älykkäät koneet... 23 2. BIG DATA ILMIÖNÄ Big datan lyhyt historia... 26 Big data ilmiö Suomessa... 34 Miten big data eroaa datasta ylipäänsä... 35 Julkishallinnon rooli big data ilmiössä... 36 Big data on kuollut, eläköön data!... 38 Avoin data... 43 Sosiaalinen media... 45 Yritysten uudet viestintävälineet... 48 Mobiili internet... 49 Big data ja tietoturva... 50 3. BIG DATA JA PALVELUNTARJOAJAT Konkretian kaipuu... 61 Big dataan liitettäviä tekniikoita... 64 Big data markkinat nyt... 65 Big data -markkinat tulevaisuudessa... 67 Toimittajan näkökulma big dataan... 68 4. HADOOP Mikä on Hadoop?... 72 Mitä Hadoop tekee?... 73

Hadoop ja SQL... 80 Hadoop-ekosysteemi... 82 HADOOP-jakelut... 84 Hadoopin tulevaisuus... 87 5. PILVIPALVELUT ILMIÖNÄ Internet on ihmiskunnan merkittävin keksintö... 92 Pilvipalveluiden määritelmä... 93 Palvelullistuminen ja pilvipalvelukategoriat... 96 Pilvipalvelumarkkinoiden toimijat...100 Pilvipalvelut mahdollistaneet tekijät...101 Mitä palvelutasolupaus tarkoittaa käytännössä?...106 Pilvipalveluiden riskeihin varautuminen...112 Pilvipalveluiden standardit...113 Pilvipalvelumarkkinoiden käyttöönotossa huomioitavaa...115 6. PILVIPALVELU MARKKINAT Pilvipalvelumarkkinat ovat kehittyneet nopeasti...118 Tunnetuimmat palveluntarjoajat...119 Pilvipalvelut ja avoin lähdekoodi...156 Pilvipalvelut ja Suomi...158 7. BIG DATA JA PILVIPALVELUT Hadoop pilvipalveluna...163 Oman Hadoop-klusterin pystyttäminen pilveen...165 Datan tallentaminen pilveen...166 Avoin data, big data ja pilvipalvelut...168 8. SMART MACHINES Älykkäiden koneiden vallankumous...172 Mitä minä voin tehdä?...175 Mitä yritys voi tehdä?...177 Mitä julkinen valta voi tehdä?...181 Datan kopernikaaninen vallankumous...185 Olemme tienhaarassa...186

ORACLE OPENSTACK INTERNET OF EVERYTHING MICROSOFT AZURE ADATABIG DATA WEB SERVICES GLACIER GOOGLE SOSIAALINEN MEDIA HP PALVELUNTARJO TEOLLINEN INTERNE BIG DATA FACEBOOK INSTAGRAM SUOMI? SALESFORCE.COM AVOIN DATA HADOOP TWITTER SMART MACHINES IBM OFFICE 365 RASPBERRY PI PILVIPALVELUT 2. big DATA IlmIÖNä

Big datan lyhyt historia Käsite big data tuli tutuksi jo vuoden 2005 tietämillä, mutta nykyinen big data hype lähti nousuun vuonna 2011. Tarkkaa alkamisajankohtaa sille, koska big datasta alettiin puhua, ei ole mahdollista määrittää. Vuonna 2001 META Group yrityksen työntekijä Doug Laney julkaisi muutaman sivun mittaisen raportin, jossa puhutaan datamäärien ja niiden sisällön vaihtelevuuden kasvusta tulevaisuudessa. Tässä yhteydessä tuli mainituksi kolme V-kirjaimella alkanutta sanaa Volume, Variety ja Velocity, jotka kääntyvät suomeksi myös V-kirjaimilla alkaviksi: volyymi, vaihtelevuus ja vauhti. Volyymi viittaa datan suureen määrään ja virheellisesti moni suomentaakin big datan juuri näin. Iso datamäärä on kuitenkin vain osa tarinaa, siitä kertovat muut V- kirjaimet. Datan paljous on silti merkittävässä roolissa luomassa painetta, joka on big datan käsitteen synnyttänyt. Dataa on paljon, zettatavuittain, ja sitä tulee koko ajan lisää. Usein toistettu mantra on, että dataa on luotu muutamien viime vuosien aikana enemmän kuin koko ihmiskunnan historian aikana. Merkityksetöntä on, kuinka lähelle totuutta tuo osuu. Totta väittämässä on kuitenkin se, että 2000-luvulla dataa on tullut valtavasti, ja jollain laskentatavalla varmasti enemmän kuin koko tunnetun historian aikana. Digitaalisen datan määrää globaalissa mittakaavassa kuvattaessa puhutaan tällä hetkellä zettatavuista (21 nollaa). Arvio on, että maailmassa on nyt noin 5 zettatavua dataa. Vuonna 2011 sitä oli alle 2 zettatavua. Alla oleva logaritmiselle asteikolle piirretty kuvaaja havainnollistaa digitaalisen datan määrän kasvua maailmassa tämän vuosisadan alkupuoliskolla. Vuotuiseksi kasvuprosentiksi on oletettu IDC:n vuosien 2011 2014 ja 2014 2020 kasvunopeuksien keskiarvo. Yottatavun (tuhat zettatavua) raja saavutetaan vuoteen 2030 mennessä ja brontotavu (miljoona zettatavua) vuoteen 2050 mennessä. Huikeita lukuja! 26 BIG DATA JA PILVIPALVELUT

Datan määrä 1300 ZB 44 ZB Digitaalisen datan määrä maailmassa Datavirtojen analyysin tarve kasvaa Data, joka kerätään ja tallennetaan pysyvästi 4.4 ZB 2014 2020 2030 Aika Vaihtelevuus viittaa datan laatuun. Osa datasta on strukturoitua, ylivoimaisesti suurin osa strukturoimatonta. Rajanveto näiden kahden välille on veteen piirretty viiva ja mahtuupa väliin semistrukturoidun datankin käsite. Esimerkki strukturoidusta datasta voisi olla asiakastieto, jossa kerrotaan asiakkaan yhteystiedot ja asiakashistoria transaktioineen. Esimerkki strukturoimattomasta voisi olla valvontakameran tuottama videokuva. Välimuodosta eli semistrukturoidusta toimiva esimerkki on metatiedoilla varustettu strukturoimaton data eli videokuvan tapauksessa voitaisiin metatiedoissa kertoa, milloin on kuvattu, missä, keitä videopätkässä esiintyy ja mitä brändejä siinä näkyy. Vauhti viittaa datan virtaamisen nopeuteen ja myös siihen, että on suuri paine reagoida uuteen dataan nopeasti. Näin varsinkin liiketoiminnassa. Datan nopea käsittely nopeuttaa päätöksentekoa ja tällä voi olla ratkaiseva merkitys esimerkiksi automatisoidussa arvopaperikaupassa tai terveydenhuollossa. Vauhtia tarvitaan myös datavirtojen käsittelyssä. Jos on tarve reagoida nopeasti, on turha ensin tallentaa raakadata ja vasta sitten analysoida se. Datavirrat kannattaa käsitellä heti ja tallentaa vasta sitten joko sellaisenaan tai aggregoituna. Datamäärien kasvaessa tulee kyvykkyydestä esikäsitellä datavirrat yhä merkittävämpi osa big datan hyödyntämistä. 2. BIG DATA ILMIÖNÄ 27

Näitä V-kirjaimia on vuoden 2001 jälkeen käytetty usein kuvaamaan meneillään olevaa suurten, vaihtelevien ja nopeasti kasvavien datamassojen aikaansaamaa painetta. Ilmiötä on alettu yleisemmin nimittää big dataksi. Mitä paremmin data täyttää mainitut kolme ulottuvuutta, sitä selkeämmin se on big dataa. BIG DATA = paljon nopeasti lisääntyvää monipuolista dataa Volume Variety Velocity Dataa itsessään voidaan tyypitellä monella tavoin ja yksi on jakaa se kahteen tyyppiin: paikallaan pysyvään ja liikkuvaan dataan. Vertauskuvana käytetään usein luonnonilmiöitä. Data tietovarastossa on vertauskuvainnollisesti meri tai järvi, ja data, joka on jatkuvassa liikkeessä, on puolestaan joki. Big data käsittää nämä molemmat. Perinteisesti on keskitytty enemmän helpommin hallittavissa olevaan ja louhittavaan paikallaan pysyvään dataan. Tähän viittaa myös tiedonlouhinnan yhteydessä usein käytetty vertauskuva datasta nykyajan öljynä. Pienemmälle huomiolle on jäänyt liikkuva data, joka kulkee virtana kuin vesi joessa. Esimerkkinä virtaavasta datasta on sensorien tuottama data, jonka määrä nousee lähitulevaisuudessa huikeisiin lukemiin. Niin huikeisiin, ettei sitä ole nykyisellä tallennustilan kustannustasolla mahdollista pysyvästi tallentaa. Tämä ei kuitenkaan tarkoita, etteikö sitä voisi hyödyntää. Esimerkkejä on helppo keksiä. Vähittäiskauppa voisi helposti seurata, kauanko asiakas joutuu odottamaan kontaktia myyjään liikkeeseen saavuttuaan tai miten pitkä on ajassa mitattu jono palvelupisteellä. Palvelupisteen ympärille voidaan rajata alue ja käynnistää laskuri siitä hetkestä, kun asiakas astuu alueelle sisään. Laskuri pysähtyy, kun henkilöstön jäseneksi tunnistettu henkilö ottaa kontaktin asiakkaaseen eli on tietyn etäisyyden päässä ja mieluiten kasvotusten tämän kanssa. Jos kontaktia ei synny, vaan asiakas poistuu il- 28 BIG DATA JA PILVIPALVELUT

siäkin työpaikkoja, jotka automaation ja robotiikan yleistyminen tulee poistamaan työmarkkinoilta. Tällä hetkellä painotus big data työvälineiden kohdalla on kuitenkin datan tallentamisessa, siirtämisessä ja sen muuttamisessa informaatioksi. Tieto ja tietämys jäävät data-analyytikoiden ja muiden ihmisammattilaisten työsaraksi. Datan, informaation, tiedon ja tietämyksen keskinäistä suhdetta voisi kuvata seuraavasti: Tietämys Tieto Informaatio Data Esitystapa on kärjistys, eivätkä big data tekniikat suinkaan ole ainoita tai aina edes parhaita välineitä datan tallentamiseen tai sen jalostamiseen informaatioksi. Roolijako kuitenkin on karkeasti ottaen tuo. Työvälinepuolen valinnoilla saadaan ensinnäkin laajennetuksi tallennettavan pysyvän datan tai lennosta analysoitavan virtaavan datan määrää, jolloin informaatiotakin saadaan siitä vastaavasti jalostetuksi enemmän. Vaikka suhdeluku informaation ja tiedon välillä on kaikkea muuta kuin vakio, niin todennäköistä kuitenkin on, että suuressa osassa tapauksista informaation määrän lisääntyminen lisää myös tietoa ja tieto puolestaan kasvattaa pitkällä aikavälillä ymmärtämystä. Pyramidi osoittaa siis käsitteellisesti sen, mikä on big data projektien pitkän aikavälin tavoite: ymmärryksen lisääminen. Minkä arvoista ymmärrys sitten on? Joskus ei välttämättä minkään, mutta toisinaan oikeissa asiayhteyksissä lähes korvaamattoman arvokasta. Ymmärrys on se, joka inhimillisessä päätöksenteossa johtaa päätöksiin ja sitä kautta toimintaan. Ymmärrykseen liittyy myös intuitio, tuo mystinen ihmisyyteen liittyvä muuttuja, jolla usein perustellaan myös sitä, että koneäly ei tule koskaan korvaamaan ihmistä päätöksenteossa. On paljon pelottavia esimerkkejä siitä, miten päätelmäketju datasta päätöksentekoon sisältää virheen, jolla sitten on ikävät seuraukset. 2. BIG DATA ILMIÖNÄ 33

SQL ja Hadoop Projekti Omistaja / Alkuperä BigSQL IBM Drill Apache-projekti (Google Dremel innoittama) HAWQ Pivotal Hive Apache-projekti (Facebook alunperin) Impala Cloudera (Google Dremel innoittama) Oracle Big Data SQL Oracle Presto Facebook (avoin lähdekoodi) Spark SQL Apache-projekti SQL-H Teradata T-SQL Microsoft Osassa listatuista ei pääfokus ole Hadoopissa, vaan ideana on tarjota yhtä yleistä kyselykieltä, jolla hakuja voi tehdä eri datalähteisiin, joista yksi on Hadoop. Näitä ovat muun muassa Microsoftin, Oraclen ja Teradatan ratkaisut T-SQL, Oracle Big Data SLQ ja SQL-H. Impala ja Drill puolestaan ovat esimerkkejä Googlen vuonna 2010 julkistaman yrityksen sisäisessä käytössä olevan Dremelin innoittamista projekteista, joissa lähdedata on esimerkiksi Parquet- (molemmat) tai JSON-muodossa (Drill). Mainituista avoimen lähdekoodin projekteista tunnetuin ja useimmin Hadoopin yhteydessä on Hive, joka myös tuli esitellyksi jo aiemmin. 4. HADOOP 81

Hadoop-ekosysteemi Hadoopin käyttöönottamiseen on tunnistettavissa neljä polkua: 1. Hadoop-projektin käyttöönotto sellaisenaan 2. Hadoop-projektin käyttöönotto sisarprojekteineen 3. Hadoop-jakelun käyttöönotto 4. Hadoopin käyttöönotto osana tuotteistettua kokonaisratkaisua. Käyttöönoton helppous Hadoop-jakelu Hadoop osana kokonaisratkaisua Hadoop sellaisenaan Hadoop sisarprojekteineen Välitön käyttövalmius Epätodennäköisin ja harvinaistuva tapa ottaa Hadoop käyttöön on projektin käyttö sellaisenaan. Sisarprojektien avulla toiminnallisuuksia saa lisää, rajapinnat monipuolistuvat ja hallintamahdollisuudet paranevat. Epätodennäköistä on kuitenkin myös se, että Hadoop käyttöönotettaisiin siten, että kaikki konfigurointi tehtäisiin alusta lähtien itse. 82 BIG DATA JA PILVIPALVELUT

Todennäköisimmät käyttöönottopolut ovat valmiit Hadoop-jakelut sekä Hadoop osana tuotteistettua kokonaisratkaisua. Hadoop-jakeluiden yhteydessä nimi Hadoop on yleensä selvästi esillä, mutta kokonaisratkaisun osana se ei välttämättä nouse markkinointimateriaalissa erityisesti esille. Yrityksiin ja julkishallinnon sekä kolmannen sektorin organisaatioihin Hadoop päätyy todennäköisimmän tätä kautta. Yleisimmin esille tuotu Hadoopin etu on sen kyky tallentaa ja analysoida suuria määriä dataa. Etuliite big big datassa on suhteellinen käsite, ja siksi suuren datamäärän määrittely on mahdotonta. Tällä hetkellä suuret datamäärät ovat tera- tai jopa petatavujen luokkaa. Hadoopin asema big data -ilmiössä Datan rakenteisuus HADOOP 1 Gb 2 Tb 20 Tb 200 Tb Datan määrä Mitä suuremmista datamääristä puhutaan, sitä suuremmat ovat Hadoopin edustaman klusteriratkaisun hyödyt. Loputtomia datamääriä ei Hadoopkaan kykene tallentamaan tai käsittelemään, mutta esimerkkejä löytyy jo petatavuluokan datamassoista. Hadoopin ensimmäisen versiopuun ongelmana skaalautuvuuden suhteen on rajoittuneisuus yhteen nimipalvelimeen, mikä luo paitsi resurssipullonkaulan niin on samalla myös yksittäinen vikaantumispiste, joka vaarantaa klusterin toiminnan. Hadoopin toinen versio poistaa tämän riippuvuuden ja ensimmäisenkin version kohdalla tästä rajoitteesta on hankkiuduttu eroon mm. Facebookin toimesta sekä useissa saatavilla olevissa Hadoop-jakeluissa. Toisen version myötä myös Hadoopin käyttömahdollisuudet ovat laajentuneet huomattavasti. Enää käyttö ei rajoitu eräajoihin tai suuriin datamääriin, vaan myös iteratiivista ja interaktiivista analytiikkaa voidaan käyttää Hadoopin yhteydessä. Datavirtojen analysointi ja muistinvarainen analytiikka ovat samoin arkipäiväistymässä Hadoop-kontekstissa. 4. HADOOP 83

Hintaesimerkkejä heinäkuulta 2014 Amazon S3, Standard Storage Google Google Storage Microsoft Windows Azure Storage < 1 TB/kk 0,0300 $/GB 0,026 $/GB 0,0179 $/GB 1 50 TB/kk 0,0295 $/GB 0,026 $/GB 0,0179 $/GB 50 500 TB/kk 0,0290 $/GB 0,026 $/GB 0,0172 $/GB 500 1000 TB/kk 0,0285 $/GB 0,026 $/GB 0,0172 $/GB 1000 5000 TB/kk 0,0280 $/GB 0,026 $/GB 0,0164 $/GB yli 5000 TB/kk 0,0275 $/GB 0,026 $/GB Ei listahintaa Huomattavaa on, että pilvipalveluiden hinnoissa vallitsee deflaatio eli hinnat laskevat ajan suhteen. Tämä johtaa myös siihen, että hintamielikuvat vanhentuvat nopeasti, jos markkinoita ei seuraa, ja tehdyt hintavertailut muiden tallennusvaihtoehtojen kanssa vaativat samoin tiuhaa uusimista. Vielä vuoden 2013 lopulla hinnat olivat toista luokkaa. Hintaesimerkkejä joulukuulta 2013 Amazon S3, Standard Storage Google Google Storage Microsoft Windows Azure Storage* < 1 TB/kk 0,095 $/GB 0,085 $/GB 0,090 $/GB 1 50 TB/kk 0,080 $/GB 0,075 0,063 $/GB** 0,075 $/GB 50 500 TB/kk 0,070 $/GB 0,063 $/GB** 0,068 $/GB 6. PILVIPALVELUMARKKINAT 121

500 1000 TB/kk 0,065 $/GB 0,054 $/GB 0,060 $/GB 1000 5000 TB/kk 0,060 $/GB 0,054 $/GB 0,056 $/GB yli 5000 TB/kk 0,055 $/GB ei listahintaa 0,053 $/GB * Hinnasto on voimassa helmikuussa 2014, sitä ennen hinnat olivat alennettuja Preview-hintoja **Googlen hinnastossa portaikko on erilainen ja hinnanlaskut tapahtuvat 10 TB:n ja 100 TB:n kohdalla. 50 TB:n rajapyykkiä ei ole lainkaan. Ostopäätöksen kannalta hinnasto ei sisällä riittävästi informaatiota. Ensinnäkin Amazonin ja Microsoftin hinnastot ovat Euroopan Unionin alueella sijaitseviin palvelinkeskuksiin tallennetulle datalle. Google ei tarjoa mahdollisuutta rajoittaa datan tallentamista maantieteellisesti tietylle alueelle, vaan hinta on sama kaikilla alueilla. Lisäksi esimerkkihinnat ovat vain pieni osa tarjolla olevista tallennusvaihtoehdoista eri hintoineen. Amazonin Glacier palvelussa gigatavun tallentamisen kuukausihinta Euroopan Unionin alueelle on 0,010 $/kk eli alle puolet taulukon parhaastakaan listahinnasta. Mainittujen hintaerojen lisäksi yhden palveluntarjoajan tarjoamien palvelujen tai varsinkin palveluntarjoajien välisten erojen hahmottaminen edes hinnan suhteen hankaloituu entisestään, kun mukaan otetaan tietoliikenteeseen ja transaktioihin liittyvät hinnat. Microsoftin Azuressa transaktiot maksavat 0,004 $ per 100 000 transaktiota ja Amazonilla hinta on 0,40 0,50 $ per 100 000 transaktiota riippuen transaktiotyypistä (GET on halvempi kuin PUT, COPY, POST ja LIST). Dataliikenne on tyypillisesti palveluntarjoajilla kalleinta ulospäin ja halvinta tai jopa ilmasta asiakkaalta palveluun tai palvelun sisällä. Dataliikenteessä saa paljousalennusta kuten datan tallentamisessakin, joten mitään yksiselitteistä listahintaa ei ole sillekään. Kun soppaan lisätään yhden palveluntarjoajan tarjoamat muut palvelut, niin valinnan tekeminen on kertaluokkaa haastavampaa. Tämä on selvästi tunnistettavissa yhdeksi ostamisen, jos ei esteeksi, niin ainakin merkittäväksi haasteeksi. Jopa yrityksissä, joissa tietotekniikan käyttö on arkipäivää, jopa keskeinen osa liiketoimintaa, ja joustavuudesta sekä erilaisista pilvipalveluista löytyvistä lisäarvopalveluista olisi merkittävää hyötyä, tuntuu vallitsevan epätietoisuus tai vanhentuneita käsityksiä siitä, mitä on tarjolla ja mitä tuo kaikki maksaa. Tämän luvun tarkoitus ei ole toimia ostajan oppaana. Sellaista ei ole mahdollista kirjoittaa kuin yhden valitun palveluntarjoajan näkökulmasta ja senkin oppaan sisäl- 122 BIG DATA JA PILVIPALVELUT

Simple Storage Service Vuonna 2006 avattu S3 oli AWS:n palveluista ensimmäinen, ja sen käyttö on kasvanut kohisten vuosi vuodelta. Palvelu on tarkoitettu datan tallentamiseen, ja sitä on todella tallennettu. S3-palveluun tallennetaan objekteja ja alla oleva kuva esittää objektien määrän kehityksen viime vuosina. Total Number of S3 Objects >3 Trillion Peak requests: 1,5 M/sec >1.7 Trillion 762 Billion 2.9 Billion 14 Billion 40 Billion 102 Billion 262 Billion Q4 2006 Q4 2007 Q4 2008 Q4 2009 Q4 2010 Q4 2011 Q4 2012 Q4 2013 S3 toimii samalla infrastruktuurilla kuin Amazonin omatkin palvelut, ja se tarjoaa globaalin mittakaavan säilytystilan datalle kuin datalle edullisesti ja tietoturvallisesti. Data tallennetaan objekteina koreihin. Objekti voi olla mitä tahansa yhden tavun ja viiden teratavun väliltä, ja koriin voi tallettaa loputtomasti objekteja, jotka ovat löydettävissä niille annettujen uniikkien avainten perusteella. Datan saatavuutta voi säädellä siten, että se on joko kaikille avoin ja saatavilla eli julkista dataa tai sitten vain tiettyjen S3-käyttäjien saatavilla. Lisäksi objektien ja korien kohdalla voi säätää käyttäjäkohtaisia oikeuksia eli antaa käyttäjille luvan avata sekä ladata tiedoston, nähdä siihen liittyvät oikeudet ja muokata oikeuksia. Tallennustilaa S3:ssa on kahdenlaista: Standard- ja Reduced Redundancy nimillä kulkevia. Eroa näillä kahdella on palvelutasossa. S3:een Standard-tietona tallennetulle luvataan 99,99 %:n saatavuus vuositasolla ja 99,90 %:n saatavuus kuukausitasolla. Säilyvyyslupaus (durability) on 99,999999999 % eli 0,000000001 % datasta saattaa tämän lupauksen mukaan hävitä vuositasolla. Reduced Redundancy tietona tallennetulle datalle luvataan myös 99,99 %:n saatavuus vuositasolla, mutta ainoastaan 99,99 %:n säilyvyys eli 0,01 % datasta saattaa hävitä vuoden aikana. Mitään liiketoimintakriittistä ja vain pilveen tallennettavaa ei kannata siis tallentaa Reduced Redundancy tietona. Reduced Redundancy on hinnaltaan Standard-mallia edullisempaa. 6. PILVIPALVELUMARKKINAT 125