Big datan laatu ja analytiikka

Koko: px
Aloita esitys sivulta:

Download "Big datan laatu ja analytiikka"

Transkriptio

1 hyväksymispäivä arvosana arvostelija Big datan laatu ja analytiikka Mirva Toivonen Seminaarityö Helsinki HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

2 HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY OF HELSINKI Tiedekunta Fakultet Faculty Laitos Institution Department Matemaattis-luonnontieteellinen tiedekunta Tekijä Författare Author Tietojenkäsittelytieteen laitos Mirva Toivonen Työn nimi Arbetets titel Title Big datan laatu ja analytiikka Oppiaine Läroämne Subject Tietojenkäsittelytiede Työn laji Arbetets art Level Seminaarityö Tiivistelmä Referat Abstract Aika Datum Month and year Sivumäärä Sidoantal Number of pages 12 sivua Big datan suuri määrä, käytettävien lähteiden moninaisuus ja nopeus jolla dataa tulee käsiteltäväksi tuovat haasteita analytiikan laadunhallintaan. Työssä tarkastellaan big datan luokittelun, tutkittavan ilmiön ymmärtämisen ja analyyseissä käytettävien moninaisten lähteiden yhteenvedon haasteita. Datan luokittelu arvokkaaseen dataan parantaa suurten tietomassojen käsittelyä, mutta oleellisen tiedon löytäminen on haasteellista, eikä suuri tietomassa aina johda tarkempaan analyysiin. Tutkittavan ilmiön ymmärtäminen big datan avulla on vaikeaa, koska näyte voi olla vinounut, mahdollisuus vääriin korrelaatioihin ja syy-seuraussuhteisiin kasvaa datan moninaisuuden ja määrän vuoksi. Datan ymmärtämistä voidaan helpottaa rakentamalla malli tutkittavasta ilmiöstä. Datan yhdistäminen auttaa suodattamaan oleellisen tiedon esimerkiksi suurista dokumenteista, mutta ongelmana on datan puuttuminen lähteiden eri rakeisuustasojen, yksityisyydensuojan ja näytteenottotiheyden takia. ACM Computing Classification System (CCS): Avainsanat Nyckelord Keywords big data, laatu, analytiikka Säilytyspaikka Förvaringställe Where deposited Muita tietoja Övriga uppgifter Additional information

3 ii Sisältö 1 Johdanto 1 2 Big Data 1 3 Big data -analytiikka 3 4 Big data haasteita analytiikalle Datan identifiointi ja luokittelu Datan ymmärtäminen Datan yhteenveto Yhteenveto 9 Lähteet 11

4 1 1 Johdanto Big data tuo perinteisen tietokantadatan rinnalla syvyyttä ja strategista liiketoimintaetua yrityksille. Perinteisellä tietovarastoratkaisuihin perustuvalla raportoinnilla voidaan tarkastella menneitä tapahtumia. Uudenlaiset datalähteet, kuten sensori-, teksti-, videoja äänidata mahdollistavat tapahtumien ennustamisen ja vastaamisen kysymykseen mitä tapahtuu juuri nyt. Big data -termi kuvaa datan ominaisuuksia, joissa dataa saadaan monenlaisista lähteistä, dataa virtaa käsiteltäväksi nopeasti ja paljon. Kaikkea big dataa ei voida esikäsitellä samaan tapaan kuin tietovarastodataa, vaan big dataa analysoidaan sellaisenaan usein ilman puhdistustoimenpiteitä. Huonoa dataa voidaan heittää pois, sillä tilalle on tarjolla paljon korvaavaa dataa. Big datan laadunhallinnassa ongelmana on hyvän, merkityksellisen datan löytäminen massasta joka on luonteeltaan sotkuista. Datan sotkuisuus vaikuttaa myös tutkittavan ilmiön ymmärtämiseen ja oleellisen tiedon tiivistämiseen moninaisista lähteistä. Tässä työssä esitellään ongelmia, joita big data aiheuttaa mielenkiintoisen ja arvokkaan datan eristämisessä, tutkittavan ilmiön ymmärtämisessä ja moninaisten lähteiden yhdistämisessä. Luvussa 2 tarkastellaan big data -termiä kolmen muuttujan, määrä, moninaisuus ja vauhti avulla, sekä esitellään minkälaista dataa liiketoiminnassa käytetään big data -analytiikan pohjana. Luvussa 3 esitellään big data -analytiikan piirteitä ja mitä yritysjohtajat toivovat analytiikalta big data ratkaisuiden yhteydessä. Luvussa 4 tarkastellaan kolmea analytiikan haastetta big datan laadun näkökulmasta: datan identifiointia ja luokittelua, datan ymmärtämisen vaikeutta sekä datalähteiden yhdistämistä. 2 Big Data Termi big data niputtaa saman termin alle datan valtavan määrän (volume), datalähteiden moninaisuuden (variety) ja vauhdin (velocity), jolla dataa tuotetaan. Big datan määrä tarkoittaa massaa jota ei perinteisin laskentakeinoin voida käsitellä. Moninaisuus tarkoittaa dataa tuottavien lähteiden ja datan rakenteen kirjoa. Dataa voidaan perinteisen operationaalisten tietolähteiden kuten tietokantadatan ja tietovarastodatan lisäksi kerätä sensoreista (esimerkiksi mobiililaitteiden GPS data),

5 2 web-sovelluksista (likkauskäyttäytymistä (clkickstream behavior) ja dataa sosiaalisesta mediasta), blogeista, uutisista ja mikroblogeista (twiitit), videoista ja äänitiedostoista. Data voi olla ihmisen tai koneen tuottamaa, rakenteeltaan strukturoitua, strukturoimatonta tai puolistruktuurista tiedostoihin pakattua dataa. Datan vauhti tarkoittaa että dataa tulee jatkuvana virtana, jota halutaan hyödyntää tosiaikaisesti sitä mukaan kuin dataa virtaa systeemiin [Laney01]. Tosiaikaista big dataa saadaan muun muassa liike- ja kuvasensoreista ja paikannusdatasta kuten GPS -datasta (Global Positioning System) [Tien 13]. Big data -analytiikkaprojekteihin valitut tai tulevaisuudessa käytettävät dataähteet ovat jakautuneet EMA:n (Enterprise Management Associates) ja IBM:n tutkimuksessa [Devlin et al. 12] seuraavasti (Kuva 1). Eniten käytetty datalähde analyyseissä on strukturoitua operationaalitason dataa, joka voi liittyä myyntiin, toimitusketjuun tai asiakkuuden hallintaan (50% vastaajista käytti operationaalitason dataa big data projekteissa). Toiseksi yleisin analytiikkadatan lähde oli ihmisten tuottamat dokumentit kuten sähköpostit ja lomakkeet (40% vastaajista). Muita datalähteitä kuten kuvia, koneen tuottamaa dataa ja sosiaalista mediaa käytti noin 30% vastaajista. Äänitiedostoja käytettiin vähiten, vain 19% vastaajista. Kuva 1: Datalähteiden käytön jakautuminen big data projekteissa. Strukturoitu operationaalinen data, ihmisen luomat dokumentit ja transaktiodata ovat kolme suosituinta datalähdettä big datan analysointiprojekteissa [Devlin et al. 12].

6 3 Kuvassa 2 big data jakautuu strukturoituun dataan, kuten relaatiotietokantadataan, sovelluskohtaiseen dataan ja struktuoimattomaan dataan, kuten video-, kuva-, ääni-, dokumenttidata ja JSON -muotoiseen dataan [Devlin et al. 12] Kuva 2: Big data ympäristössä yhdistetään strukturoitua ja strukturoimatonta dataa. 3 Big data -analytiikka Analytiikan käyttö on liiketoimintaetu. Liiketoiminnassaan erittäin hyvin menestyvät yritykset käyttivät analytiikkaa melkein 50% enemmän kuin heikommin menestyvät kilpailijat erottautuakseen kilpailijoistaan [LaValle et al 11]. LaVallen tutkimukesssa analytiikan käyttö toi liiketoimintaan tehokkuutta, kasvua tai kilpailuetua ja analytiikan ja liiketoimintamenestyksen väliltä löytyi selkeä positiivinen korrelaatio. Analytiikan tarkoituksena on eristää hyödyllistä tietoa valtavista tietosäiliöistä (data repositories) [Cuzzocrea et al 13]. Tietoa voidaan eristää laadullisilla analyyseillä, joissa pyritään ymmärtämään tutkittavaa ilmiötä tekemällä yhteyksiä ja johtopäätelmiä ilmiötä mittaavista muuttujista. Liiketoiminta-analytiikan tavoitteena on tuottaa arvoa nopeammin ja löytää tärkeimpiä muutoskohteita [LaValle et al 11]. Perinteisessä raportoinnissa data on mahdollisimman optimaalista. Tietovarastoissa dataa esikäsitellään yhdenmukaistamalla tietoa ja poistamalla väärää tai virheelistä tietoa. Datasta tehdään mahdollisimman edustava ja tarkka, jonka jälkeen data varastoidaan raportointia ja analyysejä varten. Datamassan kasvaessa yksinkertainenkin operaatio voi aiheuttaa merkittäviä viiveitä ajo- ja vastausaikaan (runtime, responsiveness) [Parker 12]. Big datan kontekstissa datan optimaalisuus on

7 4 epärealistista, erityisesti tosiaikaisissa järjestelmissä. Perinteinen data ensin lähestymistapa, jossa kaikki data kerätään ensiksi ja puhdistetaan ennen analyysien tekoa ei toimi big datan analytiikassa datan valtavan koon ja moninaisuuden takia. Data ensin lähestyminen jättää liian vähän aikaa, energiaa ja resursseja tiedon pontetiaalisen käytön ymmärtämiseen ja sen sijaan keskitytään datan keräämiseen ja puhdistamiseen [LaValle et al 11]. Big data pakottaa luopumaan optimaalisen datan vaatimuksesta ja keksimään luovempia, innovatiivisempia tapoja lähestyä datan analysointia ja käsittelyä. Perinteisten operationaalitason analyysityökalujen, kuten raporttien ja kojelautojen (dashboard) avulla voidaan seurata mitä on tapahtunut ja miksi näin on tapahtunut [Kimball 12]. Perinteisten analyysityökalujen fokus on menneessä ajassa. Rinnakkaista laskentaa käyttävän ohjelmointiparadigman MapReducen ja pilvilaskennan mahdollistamat parannukset datan käsittelynopeudessa ja skaalautuvuudessa mahdollistavat analytiikan näkökulman muuttumisen menneestä siihen mitä tapahtuu juuri nyt, mitä todennäköisesti tapahtuu seuraavaksi ja minkälaisia toimenpiteitä täytyy tehdä, jotta saavutetaan optimaalisia liiketoimintatuloksia [LaValle et al 11]. Analyyseissä dataa voidaan yhdistää strukturoidusta, yleensä yrityksen sisäisestä järjestelmästä, strukturoimattomaan usein yrityksen ulkopuolelta tulevaan dataan. Strukturoimaton data mahdollistaa vastaamisen sellaisiin kysymyksiin joihin aikaisemmin ei ollut mahdollista vastata. Big datalla ei ole tarkoitus korvata perinteistä analytiikkaa, kuten raportointia, vaan täydentää analytiikkaa lisäämällä syvyyttä ja nyansseja olemassaoleviin ratkaisuihin[letouzé 12]. Big data analytiikan omaksumisen suurimmat esteet ovat ennemmin hallinnollisia tai yrityskulttuurisia esteitä kuin datan keräämiseen, laatuun tai teknologiaan liittyviä [Madsen 13], [LaValle et al 11]. Fiksujen, uudenlaisten ja innovatiivisten ratkaisuiden tekeminen oli suurin haaste big data analytiikan käytöönotossa. LaValle et al 2011 tutkimuksessa laatuun liittyvät esteen olivat kolmanneksi yleisin ongelma (20% piti ongelmia datan laadussa päällimmäisenä esteenä). Datan moninaisuuden käsitteleminen koettiin suuremmaksi haasteeksi kuin pelkkä datan määrä big data -analytiikan omaksumisessa [Geopalkrishnan el al 12].

8 5 Yritysjohtajat kaipasivat dataan perustuvia välittömiä ohjeistuksia yllättäviin tilanteisiin, joissa esimerkiksi yllättävä kilpailija ilmaantuu markkinoille, toimitusketjun alueella tapahtuu maanjäristys tai jos asiakas näyttää merkkejä tuottajan vaihtamisesta [LaValle et al 11]. Big data analytiikalta kaivattiin apua optimaalisten ratkaisuiden löytämiseen ja ymmärtämiseen, jotta korjausliikkeitä voidaan tehdä nopeasti. 4 Big data haasteita analytiikalle Big data analytiikalta toivotaan parempaa ymmärrystä liiketoiminnasta. Big datan analysoinnin haasteina on datan heterogeeninen luonne, määrä ja vauhti, jotka vaikeuttavat oleellisen datan löytämistä, datan ja tutkittavan ilmiön ymmärtämistä sekä datan yhteenvetoa. Aliluvussa 4.1 annetaan esimerkkejä huonosta datasta ja esitellään kaksi tapaa identifioida analytiikan kannalta tärkeää, oikeaa tai mielenkiintoista tietoa: lähestymällä big dataa kysymys ensin periaatteella ja luokittelemalla dataa arvokkaaseen ja vähemmän arvokkaaseen dataan. Aliluvussa 4.2 tarkastellaan miten datan moninaisuus ja määrä vaikeuttavat datan ymmärtämistä, sekä esitellään tutkittavan ilmiön mallintamista jota vasten on helpompi ymmärtää ja luokitella dataa. Aliluvussa 4.3 esitellään datalähteiden yhteenvetoa jonka avulla data saadaan pakattua ymmärrettävämpään muotoon. 4.1 Datan identifiointi ja luokittelu Tarkoituksenmukainen tieto pitää jollain tapaa identifioida ja löytää. Jos halutaan löytää poikkeamia (anomaly) pitää ensin määritellä mikä on epänormaalia ja mikä normaalia [Letouzé 12] ja lisäksi mikä on mielenkiintoista ja mikä ei. Epäjohdonmukaisuudet voivat kertoa mielenkiintoisesta ja epätavallisesta ilmiöstä tai rikkinäisestä sensorista, jota kannattaa tutkia tarkemmin. Epätarkkaa tai väärää dataa voidaan kerätä esimerkiksi rikkinäisistä sensoreista tai mittausvirheen takia. Vanhentunutta, tahallaan tai tahattomasti väärä tai harhaanjohtavaa

9 6 dataa voidaan kerätä esimerkiksi blogeista, uutisista tai sosiaalisen median viesteistä [Bizer et al. 12],[Letouzé 12]. Esimerkkinä Letouzé [Letouzé 12] kirjoittaa blogista jossa kirjoitettiin keksittyä tarinaa arabikevään tapahtumista Damaskoksessa vuonna Kirjoittaja oli todellisuudessa Eurooppalainen heteroseksuaalinen mies, mutta esiintyi silti blogissaan homoseksuaalisena naisena. Blogi saavutti kasvavaa suosiota, kunnes huijaus paljastui. Tapaus nosti esille huolen verifioimattomasta ihmisen tuottaman datan laadusta. On haasteellista arvioida dokumenttien laatua ja löytää lähde, jota voidaan pitää uskottavana, sillä tekstit ovat luonteeltaan spontaaneja ja tietojen tarkistus on löysää. Suurten tietomassojen käsittelyä voidaan tehostaa tiivistämällä ja luokittelemalla dataa mahdollisimman aikaisessa vaiheessa. Sensoreiden tuottamaa raakaa dataa voidaan suodattaa tai tiivistää, sillä suurin osa datasta ei ole mielenkiintoista. Tapauksissa joissa datan määrä ylittää varastointikyvyn datan esikäsittely on tärkeää. Esikäsittely pitää tehdä datan käyttötarkoitus mielessä pitäen, koska muuten tärkeää tietoa voi kadota. Esimerkiksi CERNin suuri LHC hiukkaskiihdytin (Large Hadron Collide, LHC) tuottaa 15 petatavua dataa vuodessa. LHC kokeessa tuotetaan 10 9 interaktioita per sekunti ja dataa esikäsitellään niin että jäljellä on enää 10 7 interaktiota per sekunti [CERN, 08]. On haasteellista luokitella suodattimet niin, etteivät ne heitä pois hyödyllistä informaatiota. Riittääkö esimerkiksi uutisten analysoinnissa, jos tutkitaan vain uutisia joissa mainitaan tietyn yrityksen nimi? Analysoidaanko vain pientä osaa tekstiä yrityksen nimen ympäriltä vai analysoidaanko koko uutinen? Dataa kuvaileva ja määrittävä metatieto on tärkeässä roolissa kun halutaan varmistua validiudesta, datan elinkelpoisuudesta ja laajuudesta [Tien 13]. Esimerkiksi metadataa analysoimalla tiedetään mistä lähteestä uutinen on peräisin, jotta mahdolliset duplikaatit voidaan ottaa huomioon ja tutkia. Tosin on haasteellista kerätä automaattisesti metadataa, joka kuvailee datan joka on tallennettu, miten data on tallennettu ja miten data on mitattu [Labrinidis et al. 12]. Parempi luokittelu hyödyttää enemmän kuin algoritmien parantaminen [Geopalkrishnan el al 12]. Esimerkiksi pankkitoiminnan riskejä arvioiva algoritmi käytti lähteenään noin 2600 puhelinraporttia. Jotta algoritmi toimi, täytyi lähdemateriaalia suodattaa reiluun 70 oleelliseen muuttujaan ja lisäksi tarvittiin pankkialan osaajia jäljellä olevien muttujien

10 7 suodattamiseen. Joissain tapauksissa numeeriset muuttujat piti muuttaa kategorisiksi ja toisin päin. Luokittelussa datan formaatilla ei ole väliä, sillä datasta on aina löydettävissä entiteettejä kuten asiakas, tuote, palvelu, sijainti ja aika [Kimball 12]. Esimerkiksi twiitistä Wov, That is awesome! voidaan saada mittoja asiakkaasta, sijainnista, tuotteesta, tuottajasta, demografisesta klusterista, sessiosta tai twiittiä edeltävästä tapahtumasta. Dimensaliointi olisi hyvä tehdä mahdollisimman aikaisessa vaiheessa ja kaikki dimensiot pitää liittää pysyviin sijaisavaimiin (durable surrogate key) [Kimball 12]. LaValle et al esittää lähestymistavan, jossa kysymykset esitetään ensin ja data kerätään tutkittavaa ilmiötä varten. Jos kysymykset muotoillaan etukäteen, voidaan helpommin paikallistaa data jota tarvitaan analyyseissä, eikä datan välttämättä tarvitse olla täydellistä. Dataa saattaa olla jo valmiina. Kysymyslähtöinen käsittelytapa auttaa löytämään dataa, jota kannattaa puhdistaa. Se auttaa myös tunnistamaan onko näyte edustava, mikä on normaalia dataa ja mitataanko oikeaa asiaa. Zikopoulos et al identifioi artikkelissaan datan matalan ja korkean arvon dataan. Esimerkiksi datan käsittelytoimenpiteet nostavat datan arvoa per tallennettu tavu. Se onko datalla korkea vai matala arvo vaikuttaa datan käsittelyyn ja siihen kuinka paljon puhdistustoimenpiteitä tarvitaan. 4.2 Datan ymmärtäminen Datan määrä mahdollistaa tarkemmat analyysit, sillä mitä enemmän datapisteitä on, sen lähemmäs päästään näytteen odotusarvoa. Tosin tarkkuus ei välttämättä johda parempaan ymmärrykseen ratkaistavasta ongelmasta. Usein dataa käsitellään huolimattomasti ja pinnallisella tasolla, koska big data on luontaisesti sotkuista ja se saattaa hämärtää alla olevia syy-seuraus suhteita [Tien 13]. Big datassa dimensioiden määrä voi räjähtää datan strukturoimattoman luonteen vuoksi [Cuzzocrea et al 13]. Muuttujien määrä kasvattaa mahdollisten korrelaatioiden määrää, myös väärien korrelaatioiden määrää. Big datassa on siksi riski, että nähdään toistuvia malleja siellä missä niitä ei oikeasti ole [Boyd et al. 12]. Lisäksi big datan korrelaatiot voivat johtaa tarkoituksettomiin syy-seuraus suhteisiin [Tien 13]. Datan massiivinen määärän takia on riski, että keskitytään vain toistuvien mallien (pattern) tai

11 8 korrelaatioiden etsimiseen ja tehdään johtopäätöksiä ilman että syvästi ymmärretään dataa ja datan dynamiikkaa. Datan mukana ei tule tietoa näytteen tarkkuudesta, joten analyyseistä ei voida sanoa ovatko ne tarkkoja vai eivät. Näytteen suuri koko on merkityksetön, jos otos ei ole edustava [Boyd et al. 12]. Epäedustavia näytteitä ei voida yleistää näytekontekstin ulkopuolelle [Letouzé 12]. Jos datanäyte ei ole edustava, analyysi ei kerro totuutta mitattavasta ilmiöstä. Esimerkiksi digitaalisia palveluita analysoitaessa ei voida tehdä yleistyksiä koko populaatioon, sillä näytedata on vinoutunutta eikä digitaalisten palveluiden käyttäjät edusta koko populaatiota [Letouzé 12]. Myös tekaistu tai väärin tulkittavissa oleva käyttäjien tuottama sisältö voi muuttaa kokonaiskuvaa analysoitavasta ilmiöstä [Letouzé 12]. Visualisointi- ja datan yhdistämistekniikoilla data saadaan pakattua helpommin ymmärrettävään muotoon [Myllymäki et al. 11]. Yhdistetystä datasta voidaan tehdä malli, jota vasten raakaa dataa on helpompi ymmärtää ja luokitella. Esimerkiksi monen vuoden ajalta kerätystä liikennedatasta voidaan tehdä malli yhdistämällä ja tiivistämällä liikennetietoja jaettuna esimerkiksi arkipäiviin ja viikonloppuun. Näin saadusta mallista voidaan arvioida liikenteen sujuvuutta. Jos dataa puuttuu, voidaan puuttuva data korvata arvioilla. Puuttuvan datan korvaamiseen löytyy tilastotieteellisiä imputointimenetelmiä, joissa puuttuva data korvataan sijaisdatalla. Mallia vasten on helppo myös etsiä epäjohdonmukaisuuksia, kun mitattuja tuloksia voidaan verrataan odotusarvoon [Myllymäki et al. 11]. 4.3 Datan yhteenveto Yhdistämällä erilaisia datalähteitä, esimerkiksi strukturoimatonta ja strukturoitua dataa, saadaan syvempää ymmärrystä liiketoiminnasta. Dokumentteja yhdistelemällä (document summarization) voidaan suodattaa turha tieto pois suurista dokumenteista [Lomotey et Deters 13], eli data saadaan pakattua helpommin ymmärrettävään muotoon. Yhdistetyssä dokumentissa samasta aiheesta kirjoitettujen tekstidokumenttien pääpointit pakataan samaan dokumenttiin. Etuna on yhden aiheen kuvailu monesta eri näkökulmasta yhdellä silmäyksellä, ilman että luetaan alkuperäisiä tiedostoja. Dokumenttien yhdistäminen toteutetaan dokumenttien struktuuria analysoimalla ja

12 9 dokumenttien luokittelulla. Käsittelyn tuloksena tuotetaan yhteenvetoraportti ja tuloksia voidaan visualisoida. Videoita voidaan yhdistellä kuvailutiedon (metadata) perusteella, esimerkiksi videotiedostoon liitettyjen hakusanojen perusteella [Myllymäki et al. 11]. Dokumenttien yhdistämisessä strukturoimattomasta datasta tehdyt yhdisteet (aggregaatit) voivat helposti osoittautua huonoiksi [Cuzzocrea et al 13]. Ongelmana on että transaktionaalisen strukturoidun datan ja strukturoimattoman web peräisen datan yhdistäminen on häviöllistä, yli puolet (40-50% success rate) lähdedatasta puuttuu yhdistetyissä tuloksissa [Geopalkrishnan el al 12]. Datan rakeisuus voi johtaa hyvin harvaan ja hajaantuneeseen yhdisteeseen. Datan rakeisuus vaihtelee eri lähteissä saatavuudesta, näytteenoton toistumisesta, yksityisyyssuojasta ja erilaista luottamustasoista johtuen: Osa datasta on saatavilla yksilöllisellä tasolla, osa voi olla saatavilla vain yhdistetasolla. Eri lähteiden näytteenoton toistuminen voi vaihdella. Yksityisyyssyistä henkilöt voivat päättää olla jakamatta tietojaan. Eri analytiikkatulosten osissa voi olla eritasoisia luottamustasoja (confidence level) yhdistettynä niihin [Geopalkrishnan el al 12]. Oleellisten tapahtumien poimiminen ja niiden yhdistäminen muihin tietoihin ajavasta yksilöstä on vaikeaa kustakin mittauskohteesta tulevan suuren datamäärän ja nopeuden takia. Esimerkiksi autosta voidaan kerätä dataa ajonopeudesta, kiihtyvyydestä ja jarrutusmalleista, jotta ymmärrettäisiin ajavan yksilön riskiprofiilia. Ajonopeudesta, kiihtyvyydestä ja jarrutusmalleista syntyy dataa nopeasti ja suuria määriä [Geopalkrishnan el al 12]. Miten löytää oleellinen data? Tässäkin on ongelmana datan identifiointi ja ymmärtäminen. 5 Yhteenveto Työssä tarkasteltiin big datan luokittelun, tutkittavan ilmiön ymmärtämisen ja analyyseissä käytettävien moninaisten lähteiden yhteenvedon haasteita. Big data pakottaa luopumaan optimaalisen datan vaatimuksesta, jossa data esikäsitellään ja varastoidaan tietovarastoihin ja keksimään luovempia, innovatiivisempia tapoja datan analysointiin ja käsittelyyn. Analytiikan sulauttaminen liiketoimintaan parantaa yrityksen kasvua, tehokkuutta ja kilpailuetua, mutta ongelmana on että ei tiedetä miten big dataa voidaan käyttää hyväksi liiketoiminnassa.

13 10 Big data on sotkuista, joten oleellisen tiedon löytäminen, datan tiivistäminen yhteenvedoilla ja tutkittavien ilmiöiden ymmärtäminen big data -analytiikassa on vaikeaa. Datan suuri määrä ei välttämättä johda datan parempaan ymmärrykseen, koska datan määrä hämärtää monimutkaisten syy-seuraussuhteiden ymmärtämistä, lisää mahdollisuutta vääriin korrelaatioihin, näytedatan mahdollista vinoumaa voi olla vaikeampi hahmottaa ja koska datan tarkkuudesta ei ole tietoa. Datan ymmärtämistä voidaan helpottaa visualisointi- ja yhdistämistekniikoilla, joiden avulla voidaan suodattaa oleellinen tieto esimerkiksi suurista dokumenteista. Yhdisteissä ongelmana on datan puuttuminen lähteiden eri rakeisuustasojen, yksityisyydensuojan ja näytteenottotiheyden takia. Jotta ilmiötä voidaan ymmärtää ja tiivistää, täytyy ensin määritellä mikä on normaalia ja epänormaalia dataa. Luokittelu tehostaa big datan käsittelyä enemmän kuin algoritmien parantaminen, mutta ongelmana on luokitella suodattimet niin että arvokasta tietoa ei heitetä pois. Dataa identifioimalla ja luokitelemalla mahdollisimman aikaisessa vaiheessa voidaan löytää massasta mielenkiintoinen tieto. Mielenkiintoinen ja arvokas data löytyy lähestymällä dataa esimerkiksi kysymys ensin periaatteella.

14 11 Lähteet Laney01 D. Laney. 3-D Data Management: Controlling Data Volume, Velocity and Variety. META Group Research Note, February 6, Tien 13 J. M.Tien, Big data: unleashing information, Journal of Systems Science and Systems Engineering, vol 22, issue 2, p , June Kimball 12 R. Kimball, Newly Emerging Best Practices for Big Data, Kimball Consulting Group White Paper, Devlin et al. 12 B. Devlin, S. Rogers, and J. Myers, Big data comes of age, Tech. Rep. November Cuzzocrea et al 13 A. Cuzzocrea, D. Saccà, J. D. Ullman Big data: a research agenda. In Proceedings of the 17th International Database Engineering & Applications Symposium (IDEAS '13). ACM, New York, NY, USA, , LaValle et al 11 S. LaValle, E. Lesser,R. Shockley, M. S. Hopkins, N. Kruschwitz, Big data, analytics and the path from insights to value. MIT Sloan Management Review, vol. 52, no. 2, p , Winter Parker 12 C. Parker, Unexpected challenges in large scale machine learning, In Proceedings of the 1st International Workshop on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications (BigMine '12). ACM, New York, NY, USA, 1-6, Letouzé 12 E. Letouzé, Big Data for Development: Opportunities & Challenges, Global Pulse May Madsen 13 M. Madsen, The Challenges of Big Data & Approaches to Data Quality: Using big data to examine and discover the value in data for accurate analytics, Technology White paper, Third Nature Inc. and SAP AG, 2013.

15 12 Geopalkrishnan el al 12 V. Gopalkrishnan, D. Steier, H. Lewis, and J. Guszcza, Big data, big business: bridging the gap, In Proceedings of the 1st International Workshop on Big Data, Streams and Heterogeneous Source Mining: Algorithms, Systems, Programming Models and Applications, Big- Mine 12, pages 7 11, New York, NY, USA, ACM, Bizer et al. 12 C. Bizer, P. Boncz, M. L. Brodie, O. Erling, The meaningful use of big data: four perspectives -- four challenges. SIGMOD Rec. 40, 4, January, 56-60, Fan et Bifet 13 W. Fan, A. Bifet, Mining big data: current status, and forecast to the future, SIGKDD Explor. Newsl. Volume 14, Issue 2, April, 1-5, Boyd et al. 12 D. Boyd and K. Crawford. Critical Questions for Big Data. Information, Communication and Society, 15(5): , Myllymäki et al. 11 P. Myllymäki, J. Ahtikari, K. Puolamäki, C. Carlsson, S. Sahala, R. Saarnio,P. Kurki, Strategic Research Agenda for Data to Intelligence (D2I), version 1.0 TiVit, June CERN, 08 CERN (2008): Worldwide LHC Computing Grid. Zikopoulos et al 11 P. Zikopoulos, C. Eaton, D. deroos, T. Deutsch, G. Lapis, IBM Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data,McGraw-Hill Companies,Incorporated, Labrinidis et al. 12 A. Labrinidis, H. V. Jagadish, Challenges and opportunities with big data. Proc. VLDB Endow. 5, 12 (August 2012). Lomotey et Deters 13 R.K Lomotey, R. Deters, "Unstructured data extraction in distributed NoSQL," Digital Ecosystems and Technologies (DEST), 7th IEEE International Conference on, vol., no., pp.160,165, July 2013.

WWW sivujen tietosisällön louhiminen

WWW sivujen tietosisällön louhiminen WWW sivujen tietosisällön louhiminen Matti Vuorinen, Kati Blomqvist, Veli-Pekka Ahonen, Antti Tani, Sakari Jokinen 8. lokakuuta 2007 1 Johdanto Syyskuussa 2007, Netcraftin verkkotutkimus löysi Internetistä

Lisätiedot

OWASP Top 10:n suositusten huomioiminen ohjelmistokehityksessä

OWASP Top 10:n suositusten huomioiminen ohjelmistokehityksessä OWASP Top 10:n suositusten huomioiminen ohjelmistokehityksessä Jussi Saarinen Pro gradu -tutkielma HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos Helsinki, 31. heinäkuuta 2014 HELSINGIN YLIOPISTO

Lisätiedot

Globaalin IT-organisaation rakenteita

Globaalin IT-organisaation rakenteita hyväksymispäivä arvosana arvostelija Globaalin IT-organisaation rakenteita Jarkko Rantavuori Helsinki 17.09.2013 HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET

Lisätiedot

Liiketoimintatiedon hallinta ja analytiikka. esimerkkinä energiayhtiö

Liiketoimintatiedon hallinta ja analytiikka. esimerkkinä energiayhtiö Liiketoimintatiedon hallinta ja analytiikka esimerkkinä energiayhtiö Matti Vartiainen Pro gradu -tutkielma Tietojenkäsittelytieteen laitos Tietojenkäsittelytiede Joulukuu 2014 ITÄ-SUOMEN YLIOPISTO, Luonnontieteiden

Lisätiedot

BIG DATA JA YRITYKSEN MARKKINOINTI

BIG DATA JA YRITYKSEN MARKKINOINTI BIG DATA JA YRITYKSEN MARKKINOINTI Pekka Perolainen Opinnäytetyö Huhtikuu 2014 Tietojenkäsittely Aikuisopiskelija TIIVISTELMÄ Tampereen ammattikorkeakoulu Tietojenkäsittely Aikuisopinnot PEROLAINEN, PEKKA

Lisätiedot

Virtuaaliyhteisön hyöty ja arvo sen jäsenille

Virtuaaliyhteisön hyöty ja arvo sen jäsenille TEKNILLINEN KORKEAKOULU Tietotekniikan osasto Tietotekniikan tutkinto-ohjelma Virtuaaliyhteisön hyöty ja arvo sen jäsenille Kandidaatintyö Olli Huotari Ohjelmistoliiketoiminnan laboratorio Espoo 2008 TEKNILLINEN

Lisätiedot

Big data -teknologian perusteet ja mahdollisuudet

Big data -teknologian perusteet ja mahdollisuudet Susanna Juurinen Big data -teknologian perusteet ja mahdollisuudet Metropolia Ammattikorkeakoulu Insinööri (AMK) Tuotantotalous Insinöörityö 10.4.2013 Tiivistelmä Tekijä Otsikko Sivumäärä Aika Susanna

Lisätiedot

Analytiikka asiakkuuksien johtamisen tukena

Analytiikka asiakkuuksien johtamisen tukena Kauppatieteiden koulutusohjelma Kandidaatintutkielma Yrittäjyys ja pk-yritysten johtaminen Analytiikka asiakkuuksien johtamisen tukena Analytics supporting customer relationship management 16.6.2015 Tekijä:

Lisätiedot

MIKAEL NIEMELÄ Versionhallinta- ja tehtävänhallintajärjestelmistä saadun tiedon visualisointi ohjelmistoanalytiikan työkaluna

MIKAEL NIEMELÄ Versionhallinta- ja tehtävänhallintajärjestelmistä saadun tiedon visualisointi ohjelmistoanalytiikan työkaluna MIKAEL NIEMELÄ Versionhallinta- ja tehtävänhallintajärjestelmistä saadun tiedon visualisointi ohjelmistoanalytiikan työkaluna Diplomityö Tarkastajat: Kari Systä ja Terhi Kilamo Tarkastajat ja aihe hyväksytty

Lisätiedot

Käyttäjäkeskeinen suunnittelu Scrum-prosessimallissa

Käyttäjäkeskeinen suunnittelu Scrum-prosessimallissa Käyttäjäkeskeinen suunnittelu Scrum-prosessimallissa Linda Hellman Helsinki 5. toukokuuta 2009 Pro gradu -tutkielma HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET

Lisätiedot

ALOITTELIJAN OPPIMINEN. Käytäntöyhteisönä naisten salibandyjoukkue

ALOITTELIJAN OPPIMINEN. Käytäntöyhteisönä naisten salibandyjoukkue ALOITTELIJAN OPPIMINEN Käytäntöyhteisönä naisten salibandyjoukkue Elina Kouri Pro gradu -tutkielma Kasvatustieteet Käyttäytymistieteiden laitos Elokuu 2014 Ohjaaja: Fritjof Sahlström HELSINGIN YLIOPISTO

Lisätiedot

Innovatiivisten tuotteiden kysynnän ennustamisen laadulliset mallit

Innovatiivisten tuotteiden kysynnän ennustamisen laadulliset mallit TUOTANTOTALOUDEN TIEDEKUNTA Toimitusketjun johtaminen Innovatiivisten tuotteiden kysynnän ennustamisen laadulliset mallit Qualitative methods of demand forecasting for innovative products Kandidaatintyö

Lisätiedot

Aalto-yliopiston teknillinen korkeakoulu. Tuntimittausdatan käyttö sähkökuorman ennustamisessa

Aalto-yliopiston teknillinen korkeakoulu. Tuntimittausdatan käyttö sähkökuorman ennustamisessa Aalto-yliopiston teknillinen korkeakoulu Sähkötekniikan laitos Elektroniikan, tietoliikenteen ja automaation tiedekunta Matti Koivisto Tuntimittausdatan käyttö sähkökuorman ennustamisessa Diplomityö, joka

Lisätiedot

Internetin välityksellä tarjottavien palveluiden liiketoimintamallit

Internetin välityksellä tarjottavien palveluiden liiketoimintamallit Helsingin yliopisto Maatalous-metsätieteellinen tiedekunta Taloustieteen laitos Erkka Tuomela Internetin välityksellä tarjottavien palveluiden liiketoimintamallit Elintarvike-ekonomia Pro gradu EE 331

Lisätiedot

Anna Kiiskinen. Kuluttaja ja sähköisen ostamisen ongelmat

Anna Kiiskinen. Kuluttaja ja sähköisen ostamisen ongelmat Anna Kiiskinen Kuluttaja ja sähköisen ostamisen ongelmat Helsingin Yliopisto Taloustieteen laitos Selvityksiä nro 50 Kuluttajaekonomia Helsinki 2007 i HELSINGIN YLIOPISTO HELSINGFORS UNIVERSITET UNIVERSITY

Lisätiedot

WEB 2.0 PALVELUT JA NIIDEN HYÖDYNTÄMINEN YRITYSTOIMINNASSA

WEB 2.0 PALVELUT JA NIIDEN HYÖDYNTÄMINEN YRITYSTOIMINNASSA WEB 2.0 PALVELUT JA NIIDEN HYÖDYNTÄMINEN YRITYSTOIMINNASSA Case: Lahden hiihtomuseo LAHDEN AMMATTIKORKEAKOULU Tietojenkäsittelyn koulutusohjelma Yritysviestintäjärjestelmät Opinnäytetyö Kevät 2009 Tuukka

Lisätiedot

Erinomaista liiketoimintaa Big Datan avulla

Erinomaista liiketoimintaa Big Datan avulla WHITE PAPER Erinomaista liiketoimintaa Big Datan avulla Johdanto Tässä esitteessä CGI kertoo liiketoimintamahdollisuuksista, joissa hyödynnetään big dataa. Eri liiketoiminta-aloilla ja alueilla tuotetaan

Lisätiedot

Kenttätutkimuksen ja haastatteluiden hyödyt ehdotetun toiminnallisuuden

Kenttätutkimuksen ja haastatteluiden hyödyt ehdotetun toiminnallisuuden hyväksymispäivä arvosana arvostelija Kenttätutkimuksen ja haastatteluiden hyödyt ehdotetun toiminnallisuuden tarpeen arvioinnissa Laura Repo Helsinki 17.04.2012 Pro Gradu seminaarin kirjallinen alustus

Lisätiedot

DATA, MITTAAMINEN JA ANALYTIIKKA YRITYKSISSÄ

DATA, MITTAAMINEN JA ANALYTIIKKA YRITYKSISSÄ DATA, MITTAAMINEN JA ANALYTIIKKA YRITYKSISSÄ Tutkimusraportti Syyskuu 2013 SISÄLLYS JOHDANTO 2 TUTKIMUKSEN TAUSTA JA TAVOITE 3 Data muokkaa organisaatioita 3 Tutkimuksen tavoite ja lähestymistapa 4 Keskeiset

Lisätiedot

Kauppatieteellinen tiedekunta Johtaminen Kandidaatintutkielma

Kauppatieteellinen tiedekunta Johtaminen Kandidaatintutkielma Kauppatieteellinen tiedekunta Johtaminen Kandidaatintutkielma SOSIAALISEN MEDIAN KÄYTTÖ REKRYTOINNISSA TYÖNANTAJAN NÄKÖKULMASTA The Use of Social Media in Recruiting From the Perspective of Employer 11.5.2014

Lisätiedot

Kuluttajat brändisisältöjen parissa

Kuluttajat brändisisältöjen parissa Kuluttajat brändisisältöjen parissa Puolakka, Patricia Sjöblom, Siiri 2015 Laurea Leppävaara 2 Laurea-ammattikorkeakoulu Yksikkö Kuluttajat brändisisältöjen parissa Patricia Puolakka Siiri Sjöblom Liiketalous

Lisätiedot

ANTTI KOIVISTO KONTEKSTITIETOON PERUSTUVA AUTOMAATTINEN TAGIEN LUONTI MOBIILILAITTEILLA Diplomityö

ANTTI KOIVISTO KONTEKSTITIETOON PERUSTUVA AUTOMAATTINEN TAGIEN LUONTI MOBIILILAITTEILLA Diplomityö ANTTI KOIVISTO KONTEKSTITIETOON PERUSTUVA AUTOMAATTINEN TAGIEN LUONTI MOBIILILAITTEILLA Diplomityö Tarkastaja: professori Jari Multisilta Tarkastaja ja aihe hyväksytty Tieto- ja sähkötekniikan tiedekuntaneuvoston

Lisätiedot

TIINA MÄKELÄ SOSIAALINEN MEDIA TUOTTEEN ELINKAARITIEDON HALLINNASSA. Diplomityö

TIINA MÄKELÄ SOSIAALINEN MEDIA TUOTTEEN ELINKAARITIEDON HALLINNASSA. Diplomityö TIINA MÄKELÄ SOSIAALINEN MEDIA TUOTTEEN ELINKAARITIEDON HALLINNASSA Diplomityö Tarkastajat: professori Hannu Jaakkola ja professori Hannu Kärkkäinen Tarkastaja ja aihe hyväksytty Tieto- ja sähkötekniikan

Lisätiedot

Opiskelijoiden mentaaliset mallit ohjelmien suorituksesta ohjelmoinnin peruskurssilla. Vesa Vainio

Opiskelijoiden mentaaliset mallit ohjelmien suorituksesta ohjelmoinnin peruskurssilla. Vesa Vainio Opiskelijoiden mentaaliset mallit ohjelmien suorituksesta ohjelmoinnin peruskurssilla Vesa Vainio Kognitiotieteen pro gradu -tutkielma Psykologian laitos Käyttäytymistieteellinen tiedekunta Helsingin yliopisto

Lisätiedot

PIENET ERIKOISKAUPAT BIG DATAN AIKAKAUDELLA: ASIAKASTIEDONJOHTAMISEN EDELLYTTÄMÄT STRATEGISET ORIENTAATIOT

PIENET ERIKOISKAUPAT BIG DATAN AIKAKAUDELLA: ASIAKASTIEDONJOHTAMISEN EDELLYTTÄMÄT STRATEGISET ORIENTAATIOT Lappeenrannan teknillinen yliopisto LUT School of Business and Management Tietojohtaminen PIENET ERIKOISKAUPAT BIG DATAN AIKAKAUDELLA: ASIAKASTIEDONJOHTAMISEN EDELLYTTÄMÄT STRATEGISET ORIENTAATIOT Sari

Lisätiedot

4VINKKIÄ TIEDON ORGANISOINTIIN

4VINKKIÄ TIEDON ORGANISOINTIIN ILMOITUSLIITE TÄMÄ JULKAISU ON MEDIAPLANETIN TUOTTAMA TEEMALEHTI ILMOITUSLIITE Parempia päätöksiä Oikean tiedon avulla oikeat ratkaisut Tulevaisuuden trendit Business intelligence ja ECM yhdistyvät? Case

Lisätiedot

Tuomas-Matti Soikkeli. NoSQL-tietokannat: vertailu relaatiotietokantoihin ja luokittelu tietomallin sekä käyttökohteiden mukaan

Tuomas-Matti Soikkeli. NoSQL-tietokannat: vertailu relaatiotietokantoihin ja luokittelu tietomallin sekä käyttökohteiden mukaan Tuomas-Matti Soikkeli NoSQL-tietokannat: vertailu relaatiotietokantoihin ja luokittelu tietomallin sekä käyttökohteiden mukaan JYVÄSKYLÄN YLIOPISTO TIETOJENKÄSITITTELYTIETEIDEN LAITOS 2013 TIIVISTELMÄ

Lisätiedot

TUOMO RIIHENTUPA MASTERDATAN HALLINTA FINANSSIALALLA. Diplomityö

TUOMO RIIHENTUPA MASTERDATAN HALLINTA FINANSSIALALLA. Diplomityö TUOMO RIIHENTUPA MASTERDATAN HALLINTA FINANSSIALALLA Diplomityö Tarkastaja: professori Pekka Ruuskanen Tarkastaja ja aihe hyväksytty Tieto- ja sähkötekniikan tiedekuntaneuvoston kokouksessa 3. maaliskuuta

Lisätiedot

Hakukoneoptimointi. Case Toijalan Vauhti ry. Ammattikorkeakoulun opinnäytetyö. Tietojenkäsittelyn koulutusohjelma. Hämeenlinna, Visamäki, Syksy 2012

Hakukoneoptimointi. Case Toijalan Vauhti ry. Ammattikorkeakoulun opinnäytetyö. Tietojenkäsittelyn koulutusohjelma. Hämeenlinna, Visamäki, Syksy 2012 Hakukoneoptimointi Case Toijalan Vauhti ry Ammattikorkeakoulun opinnäytetyö Tietojenkäsittelyn koulutusohjelma Hämeenlinna, Visamäki, Syksy 2012 Petteri Paakkonen TIIVISTELMÄ VISAMÄKI Tietojenkäsittelyn

Lisätiedot

Tuomas-Matti Soikkeli. NoSQL-tietokannat: perusominaisuudet ja luokittelu

Tuomas-Matti Soikkeli. NoSQL-tietokannat: perusominaisuudet ja luokittelu Tuomas-Matti Soikkeli NoSQL-tietokannat: perusominaisuudet ja luokittelu JYVÄSKYLÄN YLIOPISTO TIETOJENKÄSITITTELYTIETEIDEN LAITOS 2015 TIIVISTELMÄ Soikkeli, Tuomas-Matti Kandidaatintutkielma Jyväskylä:

Lisätiedot