Hadoop Big Data & Analytiikka. SAS & Cloudera integraatio Live Demot: SAS Data Loader for Hadoop SAS VA SAS IMSTAT SAS HPA

Samankaltaiset tiedostot

Mammutti vai elefantti?

SAS ja Hadoop jotain uutta, wanhaa, lainattua ja keltaista. Jarno Lindqvist, SAS Simon Gregory, Hortonworks Woody Christy, Cloudera

Miten Hadoopista tuli helppoa? Jarno Lindqvist Principal Advisor SAS

DI Studion käyttökokemuksia. Kaisu Ikonen, Tilastokeskus

Visuaaliset työpöydät - lisää voimaa liiketoimintaan suurten datamassojen ketterästä analysoinnista

SAS Viya. Technical Foundation & SAS Visual Data Mining and Machine Learning demo Jarno Lindqvist Lindy Mayfield SAS Institute Oy

SAS sovellusten hallinnointi helpoksi Turbo Charge -menetelmällä Tapio Kalmi, SAS Institute Oy

Nopeutta ja Sulavuutta Analytiikkaan

Valtionhallinnon käyttäjäpäivä - IBM Cognosin tulevaisuuskatsaus ja nykypäivä

Power BI Tech Conference Power BI. #TechConfFI. Johdanto

DataLake-hanke - AWS , tietohallinto, Matti Valli, Pasi Porkka

CUDA. Moniydinohjelmointi Mikko Honkonen

KUSTANNUS- JA KANNATTAVUUSTIETOA NOPEAMMIN JA HAVAINNOLLISEMMIN SAS COST AND PROFITABILITY MANAGEMENT MIKKO VARILA BUSINESS ADVISOR

IHMISEN KOKOISTA BIG DATAA TERVEYDENHUOLLON ATK-PÄIVÄT JAANA SINIPURO

Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

TERADATAN JA SAS DI STUDION YHTEISELO CASE LÄHITAPIOLA

TUTKIMUSOPAS. SPSS-opas

DS2-proseduuri / ohjelmointisyntaksi. Tapio Kalmi Team Leader, Data Management Consulting SAS Institute Oy

Käyttöjärjestelmät: Virtuaalimuisti

SPSS ohje. Metropolia Business School/ Pepe Vilpas

Työasema- ja palvelinarkkitehtuurit (IC130301) Apumuistit. Kiintolevyt. 5 opintopistettä. Petri Nuutinen

Täysautomatisoitu raportointiympäristö. Joni-Petteri Paavilainen Jani Alatalo

Duplikaattien havaitseminen ja poisto DataFlux välinein

Tiedon suojaaminen ja hallinta. Sytyke seminaari

Tietokannan hallintajärjestelmän (DBMS) palvelut ja rakenne

IBM Iptorin pilven reunalla

Tiedon analysoinnista pitkäaikaissäilytykseen

Makrojen mystinen maailma lyhyt oppimäärä

Tips & Tricks for TestStand development NI Days 2013

HAKURATKAISUN ANATOMIA - KURKISTUS PELLIN ALLE

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Virtualisoi viisaasti paranna palvelua. Iikka Taanila Systems Architect IBM Systems and Technology Group

Ohjeita Siemens Step7, Omron CX Programmer käyttöön

Backup Exec 3600 Appliance

Dell Fluid Data TM solutions

LAS- ja ilmakuva-aineistojen käsittely ArcGIS:ssä

Kuinka paljon dataa on tarpeeksi?

The administrative process of a cluster. Santtu Rantanen Valvoja: Prof. Jorma Jormakka

TTY TKT-1110 Mikroprosessorit TKT. HEW-ohjeet ver 1.0

Massaeditorikoulutus KANSALLISKIRJASTO - Kirjastoverkkopalvelut

IoT-platformien vertailu ja valinta erilaisiin sovelluksiin / Jarkko Paavola

SQL SERVER 2012 PARALLEL DATA WAREHOUSE APPLIANCE

Koira testissä vai Racci tuotannossa O10G/IAS10 Linuxilla

Miten voin selvittää säästömahdollisuuteni ja pääsen hyötymään niistä?

Toimialan ja yritysten uudistuminen

Tietokone. Tietokone ja ylläpito. Tietokone. Tietokone. Tietokone. Tietokone

KODAK EIM & RIM VIParchive Ratkaisut

Kahden virtualisointiohjelmiston suorituskyvyn testaus (valmiin työn esittely)

Luento 1 Tietokonejärjestelmän rakenne

Luento 1 Tietokonejärjestelmän rakenne. Järjestelmän eri tasot Laitteiston nopeus

Luento 1 Tietokonejärjestelmän rakenne

HELIA 1 (15) Outi Virkki Tiedonhallinta

Luento 1 Tietokonejärjestelmän rakenne. Järjestelmän eri tasot Laitteiston nopeus

Kon Konepajojen tuotannonohjaus: ILOG CPLEX Studion käyttö

TIES530 TIES530. Moniprosessorijärjestelmät. Moniprosessorijärjestelmät. Miksi moniprosessorijärjestelmä?

Kuvapankki Imagebank Independent

Lisensointikuulumisia - Kustannustehokkuus Oracle lisensoinnissa

Big data Lasse Seppänen

Summamuuttujat, aineiston pilkkominen ja osa-aineiston poiminta 1

Jatkuvuus on arkistoinnissa avainasia

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

SAS ja R yhteiskäyttö

TTA palvelukokonaisuuden esittely Korkeakoulujen IT-päivät

TIETOKONEYLIASENTAJAN ERIKOISAMMATTITUTKINTO

TK Palvelinympäristö

CT50A2602 Käyttöjärjestelmät Seminaarityö. Tietokoneen muisti nyt ja tulevaisuudessa

Ohjelmointikielet ja -paradigmat 5op. Markus Norrena

Integrointi. Ohjelmistotekniikka kevät 2003

Ylläpitäjät, järjestelmäarkkitehdit ja muut, jotka huolehtivat VMwareinfrastruktuurin

Tech Conference On-Premises Data Mining. Peruskäsitteet. Sovelto Oyj

Tech Conference Visual Studio 2015, C#6,.NET4.6. Heikki Raatikainen. #TechConfFI

TEHTÄVÄ 4: Microsoft Windows Deployment Services asennus ja hallinta

CASE POSTI: KEHITYKSEN KÄRJESSÄ TALOUDEN SUUNNITTELUSSA KETTERÄSTI PALA KERRALLAAN

Moodle HOPS-työskentelyn tukena

Web Services tietokantaohjelmoinnin perusteet

Helsingin yliopisto/tktl DO Tietokantojen perusteet, s 2000 Johdanto & yleistä Harri Laine 1. Tietokanta. Tiedosto

TIEP114 Tietokoneen rakenne ja arkkitehtuuri, 3 op. FT Ari Viinikainen

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

Alustavia käyttökokemuksia SAS Studiosta. Timo Hurme Maa- ja elintarviketalouden tutkimuskeskus MTT (v alusta Luonnonvarakeskus / Luke)

Algorithms and Systems on big data management

Työasemien hallinta Microsoft System Center Configuration Manager Jarno Mäki Head of Training Operations M.Eng, MCT, MCSE:Security, MCTS

4.1 Frekvenssijakauman muodostaminen tietokoneohjelmilla

Testidatan generointi

jotakin käyttötarkoitusta varten laadittu kokoelma toisiinsa liittyviä säilytettäviä tietoja

Tekoäly muuttaa arvoketjuja

Maiju Mykkänen Susanna Sällinen

Tapaustutkimus big data -analytiikkakoulutuksen suunnittelusta

HP Networking. Martti Saramies, HP Networking, myynti

Järjestelmäarkkitehtuuri (TK081702) Hajautettu tietokanta. Hajautuksen hyötyjä

Työasema- ja palvelinarkkitehtuurit IC Tallennusjärjestelmät. Tallennusjärjestelmät. 5 opintopistettä.

Automaatiojärjestelmän hankinnassa huomioitavat tietoturva-asiat

Winshuttle Transactionin käyttökokemuksia SAP Retailissä Tarja Karhapää, Tieto

TIEP114 Tietokoneen rakenne ja arkkitehtuuri, 3 op. Assembly ja konekieli

StatCrunch -laskentasovellus

Tieto ja sen mallinnus Fonectalla - Teemme tiedosta arvokasta. Aija Palomäki, TDWI jäsenkokous

Ivorion missio. Ivorio on Suomen johtava riippumaton big data asiantuntija. Autamme asiakkaitamme selvitymään tiedon vallankumouksesta voittajina.

Tietokantajärjestelmien tulevaisuuden haasteet. Jan Lindström

TIE Ohjelmistojen suunnittelu

edocker PUBLISH! -paketinhallinnan käyttöohje 9/2015

Transkriptio:

Hadoop Big Data & Analytiikka SAS & Cloudera integraatio Live Demot: SAS Data Loader for Hadoop SAS VA SAS IMSTAT SAS HPA

Esittely Teemu Ojalehto Sr. Consultant BI, Big Data & Analytics teemu.ojalehto@perigeum.fi TE: SAS VA? Hadoop? Big Data? IMSTAT + HPA?

Agenda Cloudera = Hadoop SAS Clouderassa Demoja: SAS Data Loader for Hadoop SAS VA SAS IMSTAT SAS HPA Yhteenveto

Miksi Cloudera (Hadoop)? Hajautettu data & laskenta Skaalautuva lineaarisesti tehoa lisää (vrt. kustannus) Vikasietoinen automaattinen toipuminen Open source

Hadoopin perustelua: data pullonkaulana Perinteisesti, data tallennetaan keskitettyyn paikkaan Data kopioidaan prosessorille laskentaan Toimii, kun dataa ei ole paljon

Hadoopin perustelua: data pullonkaulana Ei ratkea näin. Tarvitaan toinen lähestymistapa.

Hadoopin perustelua: data pullonkaulana Hadoop: Data hajautetaan tallennusvaiheessa Hadoop: Laskenta siellä missä data on

Kaupallinen Hadoop EDW Testatuin & levinnein. Kattavin. Isoja ympäristöjä maailmalla. 100% Open Source

Slave Master Slave Slave Slave

Cloudera Manager Hadoop Admin yhdessä paikassa Konfigurointi Monitorointi Käyttöliittymä moneen paikkaan Päivitys no downtime

SAS analytiikkatarjoama Clouderaan (osajoukko) SAS Data Loader for Hadoop Web-käyttöliittymä business käyttäjille SAS Visual Analytics Datan exploraatio Raportointiportaali In-Memory Analytics IMSTAT SAS Visual Statistic SAS VA:n viereen valmiita analytiikka metodeja SAS High-Performance Analytics (SAS Embedded Process )

SAS Data Loader for Hadoop

Demoa: SAS Data Loader for Hadoop Use case: business analyytikko haluaa dataa Clouderasta Self-service portaali Perus datan muokkaus ja exploraatioita Profile Data Join / Delete / Filtter Transform data Cleanse Data: Match koodit, yms. Datan lataaminen Clouderasta esim. SAS VA:han Big Dataan pääsee kiinni kaikki. Turvallisesti ja helposti. Myös muita datanlähteitä voidaan laittaa mukaan

SAS Data Loader for Hadoop Hyödyt: Kaikki pääsevät Big Dataan kiinni helposti Vrt. Hadoopin aloituskynnys IT-admin ei ole pullonkaula Prosessit: Datan lataus/muokkaus/korjaus... Data Quality

SAS analytiikkatarjoama Clouderaan (osajoukko) SAS Data Loader for Hadoop Web-käyttöliittymä business käyttäjille SAS Visual Analytics Datan exploraatio Raportointiportaali In-Memory Analytics IMSTAT SAS Visual Statistic SAS VA:n viereen valmiita analytiikkametodeja SAS High-Performance Analytics (SAS Embedded Process )

SAS Visual Analytics distributed vs. SAS Visual Analytics non-distributed

vs.

SAS VA distributed arkkitehtuuri SAS Visual Analytics Server kerros Perus SAS serverit: metadata, workspace, etc. Lisäksi: SAS LASR Analytics Server (Distributed LASR) SAS High-Performance Computing Management Console SAS High-Performance Deployment for Hadoop SAS High-Performance Node Installation SAS LASR Analytic Server ajetaan monella koneella (n kpl) Datanoodeilla taulut ladataan muistiin. Kapasiteetin lisäys. SAS Visual Analytics middle tier VA Analytics Hub eli www-käyttöliittymä Co-located storage Cloudera Hadoop. Myös muita.

SAS VA distributed arkkitehtuuri SAS LASR Analytics Server (Distributed LASR) Useita servereitä, näyttää yhdeltä. (MPI) Laskentaklusteri jossa useita koneita (HPA) Root node. Jakaa datan & laskennan ja koordinoi prosessia (vrt. Hadoop master node) Worker node Data muistissa. Laskenta täällä. (vrt Hadoop slave node) HPA ja co-located Hadoop. Samoilla koneilla HPA & Hadoop, samoissa rooleissa.

SAS VA distributed arkkitehtuuri Co-located Hadoop Demoklusteri. Levyt + CPU + verkko

Demoa: SAS VA dist ja HPA Use case: raakadata SAS VA:n muistiin HPA:ta käyttäen CVS-filet HDFS:ssä Luetaan ensiksi sashdat muotoon hpds2 käyttäen Tutkitaan latausta SAS VA resource monitor? Ladataan sashdat suoraan muistiin. Mitä opitaan? Käytetään tauluja SAS VA:ssa.

PROC IMSTAT Muistissa olevien taulujen hyödyntäminen ja manipulointi IMSTAT Muistissa olevien taulujen hallinnointi ja muokkaus Muistissa oleville tauluille analytiikkaa RAM vs. levy IO. ~3000 nopeampi Saumattomasti SAS VA:n kanssa.

PROC IMSTAT Muistissa olevien taulujen hyödyntäminen ja manipulointi Analytiikkaa voi tehdä hyvin monipuolisesti Statements: AGGREGATE, ARM, ASSESS, BOXPLOT, CLUSTER, CORR, CROSSTAB,DECISIONTREE, DISTINCT, FORECAST, FREQUENCY, GENMODEL, GLM, GROUPBY, HISTOGRAM, HYPERGROUP, KDE, LOGISTIC, MDSUMMARY, NEURAL, PERCENTILE, RANDOMWOODS, REGCORR, SUMMARY, TEXTPARSE, TOPK, TRANSFORM SAS In-Memory Statistics Merkittävä hyöty VA distributed ympäristöstä Laskentaklusteri!

PROC IMSTAT (demo) Muistissa olevien taulujen manipulointia (+LASR server admin) Taulun partitiointi Temp-taulut, luonti+talletus Taulun rebalansointi Taulun rivien deletointi ja kirjoitus HDFS (demo) Esimerkki käyttötapaus Iso taulu koko ajan muistissa, 24h data Kerran tunnissa lisätään kuluneen tunnin data Poistetaan viimeisin tunti ja arkistoidaan se HDFS:ään

SAS analytiikkatarjoama Clouderaan (osajoukko) SAS Data Loader for Hadoop Web-käyttöliittymä business käyttäjille SAS Visual Analytics Datan exploraatio Raportointiportaali In-Memory Analytics IMSTAT SAS Visual Statistic SAS VA:n viereen valmiita analytiikka metodeja SAS High-Performance Analytics (SAS Embedded Process )

SAS High-Performance Analytics SAS High- Performance Statistics SAS High- Performance Econometrics SAS High- Performance Optimization SAS High- Performance Data Mining 1 SAS High- Performance Text Mining SAS High- Performance Forecasting HPLOGISTIC HPREG HPLMIXED HPNLMOD HPSPLIT HPGENSELECT HPCOUNTREG HPSEVERITY HPQLIM HPLSO Select features in OPTMILP OPTLP OPTMODEL HPREDUCE HPNEURAL HPFOREST HP4SCORE HPDECIDE HPTMINE HPTMSCORE HPFORECAST Common Set (HPDS2, HPDMDB, HPSAMPLE, HPSUMMARY, HPIMPUTE, HPBIN, HPCORR) Common set of HP procedures will be included in each of the individual SAS HP Analytics products

SAS High-Performance Analytics

SASHDAT Engine (Demo) SASHDAT on SASsin oma HDFS tiedostomuoto Vain kirjoitus sashdat. Tiedoston metadataa voi lukea/kirjoittaa. Kirjoitus nopeata. Rinnakkain datanoodeilla. Tarkoitettu HPA analytiikkaa varten Data laitetaan Datanoodeille (luku nopeata) Laskenta laitetaan Datanoodeille Proc: LASR, HPDS2, HPREG, HPLOGISTIC, etc. VA muistiin lataaminen LASR proc (demo) HPDS2 sashdat käsittelyä (demo) SASHDAT samassa muodossa muistissa ja levyllä

High-Performance Statistics Monet HPA proceduurit osaavat hyödyntää HDFS:ssa olevaa sashdat HPA voi hyödyntää myös muistissa olevia tauluja (SASIOLA) Datan havainnointi ja muokkaus HPCORR - Pearson correlation HPDMBD - summary of input datasets HPDS2 - DS2, parallel data step HPIMPUTE - numeric variable imputation HPBIN generate new variables HPSAMPLE - random sampling HPSUMMARY - summary statistics

High-Performance Statistics 1. Datan kuvailu & tilastolliset tunnusluvut HPCORR korrelaatiomatriisi HPSUMMARY perustunnusluvut HPDMBD selittäjien valinta by Miner Vrt. SAS VA 2. Datan muokkaus HPDS2 Datan muokkaus HPSAMPLE datan jakaminen HPMIPUTE puuttuvien arvojen korvaus HPBIN muuttujien jakaminen uusiin luokkiin HPREDUCE: dimension pienennys

High-Performance Statistics 3. Binäärikohdemuuttujien ennustaminen HPLOGICTIC Logistinen regressio HPFOREST Random forest HP4SCORE Random forest scoraus HPNEURAL - Neuroverkkoja 4. Intervallikohdemuuttujien ennustaminen HPREG - ~GLMSELECT HPGENREG Yleistetty lin. regressio (HPLMIXED,HPNLMOD, HPSPLIT)

IMSTAT & HPA

In-Memory

SAS & Hadoop integraatio Näkökulma on pitkälti SAS VA distributed SAS High-Performance Analytics (HPA) SAS High-Performance Deployment of Hadoop Muillakin SAS tuotteilla integraatio onnistuu DIS (samoja libnameja etc) SQL-pass-Through Etc.

Hadoop Engine (Demo) Voidaan lukea suoraan HDFS. Eri tiedostoformaatteja. Parquet hyvin pakattu, kolumnaarinen tiedostoformaatti. Paljon käytetty. Hiven metadataa hyödynnetään. HDFS datalla voidaan luoda oma metadata. PROC HDMD. Tunnetaan HDFS:än tiedoston muoto. Esimerkiksi tiedosto binäärimuodossa Kerrotaan muoto SASssille HDMD:n avulla

Proc Hadoop (Demo) Suoraan HDFS komentoja (demo) MapReduce komentoja Pig komentoja (Pig = ohjelmointikieli joka käytää MapReducea)

SAS Acces to Impala (demo) Cloudera Impala. Muistinvarainen tietokanta. Erittäin nopea. Käytetään paljon Clouderassa SAS/Access to Impala ominaisuudet SAS funktiot DB:hen (osajoukko, kts. Doc) SQL-pass-Through Bulk-Load Taulujen yhdistely (joins) Impalaan Datatyypit (SAS -> Impala ja Impala -> SAS, esim. timestamp)

Yhteenveto Joustavasti sopiva suorituskyky. Skaalautuvuus. SAS integroituu tehokkaasti Clouderaan Hadoop ympäristö on muutakin kuin pelkkä datalähde HPA: skaalautuvaa analytiikkaa IMSTAT: Hadoopin muistissa datan käsittelyä ja analytiikkaa Prosessointi datan vieressä Hadoopin datanodella Loppukäyttäjälle Hadoop on yksi lähde muiden joukossa SAS & Cloudera kehitys nopeata Uusi ominaisuuksia jatkuvasti

Lähteet ja lisätiedot (SAS)

Kysymyksiä?

Hadoopin perusteita Hadoop koostuu kahdesta avain komponentista HDFS (The Hadoop Distributed File System) Luotettava, hajautettu tiedostojärjestelmä Koko Hadoopin peruskivi MapReduce Metodi jolla dataa prosessoidaan hajautetusti ja rinnakkaisesti

FILE Hadoopin perusteita: HDFS HDFS pilkkoo talletettavan tiedoston blockeihin ja jakelee sen klusteriin Datan automaattinen replikointi (x3). Vikasietoisuus Datan paikallisuus tuo suorituskyvyn. Master host pitää kirjaa missä tiedosto blockit ovat HDFS metadata Master hostilla on NameNode palvelu HDFS

Hadoopin perusteita: HDFS Master Host NameNode: Tiedostojen sijainnit, luvat, blockien sijainnit yms. Kirjanpito RAMissa. Metadata luetaan levyltä käynnistymisen yhteydessä Datablockien sijainti varmistetaan DataNodeilta Slave Host Tiedostot on tallennettu blockkeina tänne DataNode: Kontroloi pääsyä data blokkeihin Kommunikoi NameNoden kanssa

Hadoopin perusteita: HDFS Eri tiedostoformaatit ovat keskeinen asia Suorityskyky & tiedostojen koko Työkalut <--> minkälainen tiedosto Muutamia: Text/CSV, Avro, RC, ORC, Parquet SASsilla oma HDFS tiedostoformaatti sashdat

Hadoopin perusteita: MapReduce MapReduce on ohjelmointi framework Ei alusta tai ohjelmointikieli riippuvainen Tehtävät hajautetaan ja jaetaan useammalle serverille Jos mahdollista niin prosessointi viedään datan lähettyville

Hadoopin perusteita: Resurssien hallinta Yarn jakaa Hadoop klusterin resurssit