Big data Lasse Seppänen

Samankaltaiset tiedostot
Miten Hadoopista tuli helppoa? Jarno Lindqvist Principal Advisor SAS

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

FinFamily Installation and importing data ( ) FinFamily Asennus / Installation

Mammutti vai elefantti?

Data uuden mahdollistajana. Hanna Niemi-Hugaerts Forum Virium Helsinki

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site

Capacity Utilization

Efficiency change over time

Arkkitehtuuritietoisku. eli mitä aina olet halunnut tietää arkkitehtuureista, muttet ole uskaltanut kysyä

Power BI Tech Conference Power BI. #TechConfFI. Johdanto

Choose Finland-Helsinki Valitse Finland-Helsinki

Other approaches to restrict multipliers

7.4 Variability management

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

Algorithms and Systems on big data management

Missä mennään BI? Mikko Kontio

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

16. Allocation Models

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

Nuku hyvin, pieni susi -????????????,?????????????????. Kaksikielinen satukirja (suomi - venäjä) ( (Finnish Edition)

The CCR Model and Production Correspondence

BDD (behavior-driven development) suunnittelumenetelmän käyttö open source projektissa, case: SpecFlow/.NET.

Makrojen mystinen maailma lyhyt oppimäärä

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

Mistä 'etojohtamisessa oikeas' on kyse? Tieken Bisnestreffit

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Näin julkaiset dataa. Kuntien avoin data - miten liikkeelle Hami Kekkonen

Results on the new polydrug use questions in the Finnish TDI data

Analyysimenetelmät kouluopetuksessa: Spektrofotometri. FM Marja Happonen Kemian opetuksen keskus Kemian laitos Helsingin yliopisto

Travel Getting Around

Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto

Virtuaalitiimit ja Luottamuksen merkitys virtuaaliorganisaatioissa. Mari Mykkänen Hallman-Yhtiöt

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

Information on preparing Presentation

Erikoiskirjastot somessa. Päivikki Karhula, johtava tietoasiantuntija Eduskunnan kirjasto

Capacity utilization

RULLARADAT RULLADAT ROLLER TABLES

Sisällysluettelo Table of contents

Teollinen internet on tuo+avuuden uusi vallankumous mitä sen hyödyntäminen edelly+ää

Tarua vai totta: sähkön vähittäismarkkina ei toimi? Satu Viljainen Professori, sähkömarkkinat

SENAATTILA uudistuu keväällä 2015

National Building Code of Finland, Part D1, Building Water Supply and Sewerage Systems, Regulations and guidelines 2007

TIEKE Verkottaja Service Tools for electronic data interchange utilizers. Heikki Laaksamo

Rekisteröiminen - FAQ

Specifica(on by Example Vaa(mukset ja testaus ke9erissä projekteissa. Marko Taipale

Helsinki Region Infoshare 2013

Seuraavaksi tarkastellaan muutamia hyviä pilvijärjestelmien arkkitehtuuriratkaisuja (kohdat 1-4).

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

Avoimen lähdekoodin kehitysmallit

papinet -sanomastandardit

Alternative DEA Models

Monimediaisuus ja vuorovaikutus

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

Oma sininen meresi (Finnish Edition)

E U R O O P P A L A I N E N

Etäopetuksen monet muodot

TIETOKANTOJEN PERUSTEET MARKKU SUNI

ENY-C2003 Vesi- ja ympäristötekniikka KURSSIPALAUTE 2014

Gap-filling methods for CH 4 data

03 PYÖRIEN SIIRTÄMINEN

Mat Seminar on Optimization. Data Envelopment Analysis. Economies of Scope S ysteemianalyysin. Laboratorio. Teknillinen korkeakoulu

Innovative and responsible public procurement Urban Agenda kumppanuusryhmä. public-procurement

HARJOITUS- PAKETTI A

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

Infrastruktuurin asemoituminen kansalliseen ja kansainväliseen kenttään Outi Ala-Honkola Tiedeasiantuntija

Lab A1.FARM_Hyper-V.v3

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

TM ETRS-TM35FIN-ETRS89 WTG

TIETOKANTOJEN PERUSTEET OSIO 14 MARKKU SUNI

Fraktaalit. Fractals. Riikka Kangaslampi Matematiikan ja systeemianalyysin laitos Aalto-yliopisto. 1 / 8 R. Kangaslampi Fraktaalit

anna minun kertoa let me tell you

JA CHALLENGE Anna-Mari Sopenlehto Central Administration The City Development Group Business Developement and Competence

TM ETRS-TM35FIN-ETRS89 WTG

SIMULINK S-funktiot. SIMULINK S-funktiot

Tieto ja sen mallinnus Fonectalla - Teemme tiedosta arvokasta. Aija Palomäki, TDWI jäsenkokous

SAS ja Hadoop jotain uutta, wanhaa, lainattua ja keltaista. Jarno Lindqvist, SAS Simon Gregory, Hortonworks Woody Christy, Cloudera

18 LIITTYMÄT MUIHIN JÄRJESTELMIIN

Coolselector Asennusohje

LANSEERAUS LÄHESTYY AIKATAULU OMINAISUUDET. Sähköinen jäsenkortti. Yksinkertainen tapa lähettää viestejä jäsenille

Mobility Tool. Demo CIMO

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

TM ETRS-TM35FIN-ETRS89 WTG

Plasmid Name: pmm290. Aliases: none known. Length: bp. Constructed by: Mike Moser/Cristina Swanson. Last updated: 17 August 2009

Miksi Suomi on Suomi (Finnish Edition)

Use of spatial data in the new production environment and in a data warehouse

Hankkeiden vaikuttavuus: Työkaluja hankesuunnittelun tueksi

Tilastointi- ja tulospalveluun (TiTu) käytettävien tietokoneiden ja tulostimien käytön ohjeistus

Käyttöohje. MAITO metadatan hallintatyökalu. Helsinki Ohjelmistotuotantoprojekti HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

( ( OX2 Perkkiö. Rakennuskanta. Varjostus. 9 x N131 x HH145

TIETEEN PÄIVÄT OULUSSA

Tynnyrivaara, OX2 Tuulivoimahanke. ( Layout 9 x N131 x HH145. Rakennukset Asuinrakennus Lomarakennus 9 x N131 x HH145 Varjostus 1 h/a 8 h/a 20 h/a

Dokumenttia hyödyntävien tulee viitata siihen asianmukaisesti lähdeviitteellä. Lisätiedot:

Esimerkkinä - ilmainen blogi-julkaisujärjestelmä. WordPress:stä on myös palvelimelle asennettava versio (WordPress.

Nopeutta ja Sulavuutta Analytiikkaan

Toimilohkojen turvallisuus tulevaisuudessa

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

Internet of Things. Ideasta palveluksi IoT:n hyödyntäminen teollisuudessa. Palvelujen digitalisoinnista 4. teolliseen vallankumoukseen

Strategiset kyvykkyydet kilpailukyvyn mahdollistajana Autokaupassa Paula Kilpinen, KTT, Tutkija, Aalto Biz Head of Solutions and Impact, Aalto EE

Transkriptio:

Big data Lasse Seppänen

Erilaisia datoja Kaikki data on pohjimmiltaan bi5ejä. Data on digitaalista raaka- aine5a, kuten =lastoja, talous=etoja, kar5oja, kuvia, videotallenteita ja 3D- malleja. Erilaiset datat sopivat silmälle ja =etoteknises= prosessoitaviksi kuvat vs. relaa=okanta Yrityksen toiminnanohjausjärjestelmän ja muiden järjestelmien datat Hyvin organistoitua dataa SQL selecteillä haut dimensioiden mukaan (Business Intelligence) Teollisuuden koneiden anturien tuo5ama data

Big data Eri5äin suurten, järjestelemä5ömien, jatkuvas= lisääntyvien =etomassojen keräämistä, säily5ämistä, jakamista, etsimistä, analysoin=a sekä esi5ämistä =lasto=ede5ä ja =etotekniikkaa hyödyntäen Ei täysin vakiintumatonta määritelmää, mu5a se ei ole käsiteltävissä yleises= käytössä olevilla lai5eistoilla tai ohjelmistoilla siede5ävissä olevassa ajassa käy5äjän kannalta mahdollises= käytössä monessa paikassa yhtä aikaa data tulee eri lähteistä, eri muodoissa ja se kasaantuu ja/tai muu5uu nopeas= usein jonkin lai5een automaamses= tuo5amaa kerä5y mahdollises= ilman suunnitelmaa siitä, mihin sitä tarkkaan o5aen tullaan käy5ämään datalla on usein vain löyhäs= määritelty rakenne, tai ei rakenne5a lainkaan, jolloin sitä ei voida sellaisenaan analysoida wikipedia

Avoimet datat Big data Open data Julkisuus: Datan on sisälle5ävä julkista =etoa. Yksityisyydensuoja ja yleinen turvallisuus Ei henkilö=etoja tai liikesalaisuuksia. Tekninen saatavuus: muodossa, jo5a on käsiteltävissä =etokoneella. Ihmiselle helppoja PDF- dokumen=t (Readerilla) tai HTML- sivut (selaimen jälkeen), mu5a niitä on vaikea tulkita ohjelmallises=. Koneellises= sopivat esim. CSV-, XLS- tai XML- muodot sekä erilaiset rajapinnat suoraan datalähteeseen. Maksu/omuus Uudelleenkäytön sallivat käy/öehdot: datan yhteydestä löytyvät käy5öehdot Ilma=eteen laitoksen avoimet datat

Big datan määrä ja operaa6ot Milloin datan määrä on niin iso, e5ä sitä voidaan ajatella big dataksi? Analyysimenetelmiä voidaan käy5ää myös pienempien =etomäärien analysoimiseksi.

Dataluokituksia Rakenteellisuus Selkeä ja ennalta tarkkaan määritelty rakenne. Perinteises= data on tällaista, missä on ennalta määrite5y mitä =etoja kerätään ja miten ne merkitään ja tämä sama säännöstö pätee koko dataan. Löyhäs= määritelty rakenne. Esimerkiksi internetsivuston keräämät loki=edot ovat tällaista. Analysoin=a varten dataa joudutaan luultavas= merki5äväs= muokkaamaan ja sieltä poimimaan hyödylliset osat. Ei lainkaan rakenne5a. Esimerkiksi asiakaspalau5eet tai sosiaalisesta mediasta poimitut ihmisten lähe5ämät julkiset päivitykset. Tällaisessa =lanteessa ei voida lainkaan tehdä oletuksia siitä, mitä data tulee sisältämään tai millaisessa muodossa asioita tullaan ilmaisemaan. Turha / hyödyllinen data

Englanniksi v- sanoja Volume Velocity Variety Variability Complexity

Big data technologies: Hadoop Hadoop the most popular implementa=on of MapReduce, an open source pla\orm for handling Big Data. Works with mul=ple data sources. MapReduce is a programming paradigm that allows for massive job execu=on scalability against thousands of servers or clusters of servers. MapReduce implementa=on consists of two tasks: The "Map" task, where an input dataset is converted into a different set of key/value pairs, or tuples; The "Reduce" task, where several of the outputs of the "Map" task are combined to form a reduced set of tuples (hence the name). Hive is a "SQL- like" bridge that allows conven=onal BI applica=ons to run queries against a Hadoop cluster. Allows anyone to make queries to data stored in a Hadoop cluster just as if to a conven=onal data store. It amplifies the reach of Hadoop, making it more familiar for BI users. Developed by Facebook, now open source. PIG is a bridge that tries to bring Hadoop closer to the reali=es of developers and business users. PIG consists of a Pig la=n language that allows for query execu=on over data stored on a Hadoop cluster. Developed by Yahoo!, now open source. A lot of Hadoop modules.

The whole Hadoop picture Source: Hortonworks

Hadoop with Pig Pig la=n programming language file Data in File(s) PIG Map - > Reduce Hadoop HDFS Data out: DUMP or STORE

Pig la6n syntax <variable name> = <some ac=on> <variable name> can be used in next <ac=ons>.

Used files STOCK_A = LOAD 'NYSE_daily_prices_A.csv' using PigStorage(',') AS (exchange:chararray, symbol:chararray, date:chararray, open:float, high:float, low:float, close:float, volume:int, adj_close:float); STOCK_B = <Ac=ons> DUMP <ac=on> to the screen STORE <ac=on> INTO a file

Example bamng = load BaMng.csv`using PigStorage(, ); runs = FOREACH bamng GENERATE $0 as playerid, $1 as year, $8 as runs; grp_data = GROUP runs BY (year); max_runs = FOREACH grp_data GENERATE group as grp, MAX(runs.runs) as max_runs; join_max_run = JOIN max_runs by ($0, max_runs), runs by (year,runs); join_data = FOREACH join_max_run GENERATE $0 as year, $2 as playerid, $1 as result; DUMP join_data;