SAS ja Hadoop jotain uutta, wanhaa, lainattua ja keltaista. Jarno Lindqvist, SAS Simon Gregory, Hortonworks Woody Christy, Cloudera

Samankaltaiset tiedostot

Mammutti vai elefantti?

Miten Hadoopista tuli helppoa? Jarno Lindqvist Principal Advisor SAS

Hadoop Big Data & Analytiikka. SAS & Cloudera integraatio Live Demot: SAS Data Loader for Hadoop SAS VA SAS IMSTAT SAS HPA

FinFamily Installation and importing data ( ) FinFamily Asennus / Installation

DI Studion käyttökokemuksia. Kaisu Ikonen, Tilastokeskus

BDD (behavior-driven development) suunnittelumenetelmän käyttö open source projektissa, case: SpecFlow/.NET.

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

SOA SIG SOA Tuotetoimittajan näkökulma

Dictionary taulut. Miten perus metadataa käytetään koodillisesti joustavuutta lisäämään

Security server v6 installation requirements

Power BI Tech Conference Power BI. #TechConfFI. Johdanto

7. Product-line architectures

Nopeutta ja Sulavuutta Analytiikkaan

Ylläpitäjät, järjestelmäarkkitehdit ja muut, jotka huolehtivat VMwareinfrastruktuurin

Alustavia käyttökokemuksia SAS Studiosta. Timo Hurme Maa- ja elintarviketalouden tutkimuskeskus MTT (v alusta Luonnonvarakeskus / Luke)

SAS Viya. Technical Foundation & SAS Visual Data Mining and Machine Learning demo Jarno Lindqvist Lindy Mayfield SAS Institute Oy

WAMS 2010,Ylivieska Monitoring service of energy efficiency in housing Jan Nyman,

Big data Lasse Seppänen

Security server v6 installation requirements

IHMISEN KOKOISTA BIG DATAA TERVEYDENHUOLLON ATK-PÄIVÄT JAANA SINIPURO

Software Signing System System overview and key domain concepts

HITSAUKSEN TUOTTAVUUSRATKAISUT

Tietokonearkkitehtuuri 2 TKT-3201 (5 op)

SAS sovellusten hallinnointi helpoksi Turbo Charge -menetelmällä Tapio Kalmi, SAS Institute Oy

Office 2013 ja SQL Server 2012 SP1 uudet BI toiminnallisuudet Marko Somppi/Invenco Oy

SQL SERVER 2012 PARALLEL DATA WAREHOUSE APPLIANCE

Data Governance tulee lihaksi

Get Instant Access to ebook Kasvuyritys PDF at Our Huge Library KASVUYRITYS PDF. ==> Download: KASVUYRITYS PDF

Efficiency change over time

7.4 Variability management

Täysautomatisoitu raportointiympäristö. Joni-Petteri Paavilainen Jani Alatalo

.NET 2006 ja sen jälkeen

Use of spatial data in the new production environment and in a data warehouse

Improving advisory services through technology. Challenges for agricultural advisory after 2020 Jussi Juhola Warsaw,

Duplikaattien havaitseminen ja poisto DataFlux välinein

Arkkitehtuuritietoisku. eli mitä aina olet halunnut tietää arkkitehtuureista, muttet ole uskaltanut kysyä

Algorithms and Systems on big data management

Capacity Utilization

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site

DS2-proseduuri / ohjelmointisyntaksi. Tapio Kalmi Team Leader, Data Management Consulting SAS Institute Oy

Backup Exec 3600 Appliance

KUSTANNUS- JA KANNATTAVUUSTIETOA NOPEAMMIN JA HAVAINNOLLISEMMIN SAS COST AND PROFITABILITY MANAGEMENT MIKKO VARILA BUSINESS ADVISOR

Web Services tietokantaohjelmoinnin perusteet

Paikkatietorajapinnat IT arkkitehtuurin näkökulmasta

Lab A1.FARM_Hyper-V.v3

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Tiedot hallintaan PROC CONTENTSilla makroja ja ODS:ää hyödyntäen. Päivi Heimonen ICT-erikoisasiantuntija, Kela SAS Tech Club 24.1.

The CCR Model and Production Correspondence

Sisällysluettelo Table of contents

Microsoft SQL Server -tietokannan hallinta. Jouni Huotari

Dynaamista ja joustavaa ohjelmointia - maukasta makrokielellä

Kieliversiointityökalu Java-ohjelmistoon. Ohje

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

Choose Finland-Helsinki Valitse Finland-Helsinki

Information on preparing Presentation

Smart access control.

Asynkroninen ohjelmointi.net 4.5 versiolla

BLOCKCHAINS AND ODR: SMART CONTRACTS AS AN ALTERNATIVE TO ENFORCEMENT

Winshuttle Transactionin käyttökokemuksia SAP Retailissä Tarja Karhapää, Tieto

Makrojen mystinen maailma lyhyt oppimäärä

Windows Phone. Module Descriptions. Opiframe Oy puh Espoo

Option GlobeSurfer III pikakäyttöopas

POWER analytiikka-alustana

TW-LTE 4G/3G. USB-modeemi (USB 2.0)

Other approaches to restrict multipliers

Avoimen datan liiketoimintamallit. Matti Rossi, Aalto University School of Business

Kuinka paljon dataa on tarpeeksi?

Työasemien hallinta Microsoft System Center Configuration Manager Jarno Mäki Head of Training Operations M.Eng, MCT, MCSE:Security, MCTS

Tietoturvallinen liikkuva työ. Juha Tschokkinen

Atostek. KanTa-konseptin tuotteistaminen ja vienti ulkomaille

Azuren yleiskatsaus. eli mistä on kyse ja miten vertautuu esim. AWS:ään. AWS User Group Helsinki, Petri Raitio, Sulava Oy

Lakimies PDF. ==>Download: Lakimies PDF ebook

Yksittäisasennus eli perusasennus

SAS & Cloud Computing. antti.hiltunen@sas.com

Tietorakenteet ja algoritmit

Missä mennään BI? Mikko Kontio

Tapaustutkimus big data -analytiikkakoulutuksen suunnittelusta

Käytön avoimuus ja datanhallintasuunnitelma. Open access and data policy. Teppo Häyrynen Tiedeasiantuntija / Science Adviser

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

Business Opening. Arvoisa Herra Presidentti Very formal, recipient has a special title that must be used in place of their name

ebooks in the libraries ebib trial and results

Rekisteröiminen - FAQ

Stormwater filtration unit

Automaatiojärjestelmän hankinnassa huomioitavat tietoturva-asiat

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

XML ja SAS. Mitä tänä päivänä voidaan SASista tehdä XML-muotoon

TÄYTTÖAUTOMAATIT TÄYTTÖAUTOMAATIT COMPUTER INFLATORS

Salasanan vaihto uuteen / How to change password

Uutta Remote Support Platform 3.2 -versiossa

Ivorion missio. Ivorio on Suomen johtava riippumaton big data asiantuntija. Autamme asiakkaitamme selvitymään tiedon vallankumouksesta voittajina.

TIEKE Verkottaja Service Tools for electronic data interchange utilizers. Heikki Laaksamo

MUSEOT KULTTUURIPALVELUINA

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Ruokahalu kasvaa syödessä lisää makrokielen herkkuja

Selvitysraportti. MySQL serverin asennus Windows ympäristöön

KOMPETENSSIT. Koulutus Opiskelija Tuuttori. Business Information Technologies. NQF, Taso 6 - edellyttävä osaaminen

Virtualisoi viisaasti paranna palvelua. Iikka Taanila Systems Architect IBM Systems and Technology Group

Automatisoitu sähköpostin vastaanotto Linux ympäristössä. SUGIF SAS Technical Club Tapio Kalmi, SAS Institute

Älykkäät yhteydet satamatoimijoiden välillä. Älyliikenne , Markku Koskinen

Transkriptio:

SAS ja Hadoop jotain uutta, wanhaa, lainattua ja keltaista Jarno Lindqvist, SAS Simon Gregory, Hortonworks Woody Christy, Cloudera

Kuka on Hadoop? The name Hadoop is a homey story going back to 2003 into the realm of a toddler's experimentation with oldfashioned human language. Doug Cutting's son, then 2, was just beginning to talk and called his beloved stuffed yellow elephant "Hadoop" (stress on the first syllable). Doug Cutting creator of Hadoop (now working for Cloudera)

Mikä on Hadoop? An open source framework for distributed storage and processing, designed for commodity hardware and capable of handling very large quantities of data

Kunnon elefantti ei unohda! (koska sillä on hajautettu, vikasietoinen tiedostojärjestelmä) HDFS Distributed, Redundant, Reliable Storage on sosiaalinen eläin! (koska se osaa prosessoida rinnakkain) voi olla todella ISO! (koska se skaalautuu miltei rajattomasti) MapReduce Distributed Data Processing Company Confidential For Internal Use Only Copyright 2014, SAS Institute Inc. All rights reserved.

SASin tulevaisuuden nuotit Company Confidential - For Internal Use Only Copyright 2014, SAS Institute Inc. All rights reserved.

Miten SAS hyödyntää Hadoopia? Hadoop-klusteri dataalustana Hadoop-klusteri analyyttisenä In- Memory alustana EVALUATE / MONITOR RESULTS IDENTIFY / FORMULATE PROBLEM DATA PREPARATION DEPLOY MODEL DATA EXPLORATION VALIDATE MODEL BUILD MODEL TRANSFORM & SELECT SAS DI Studio SAS Data Loader SAS/ACCESS to Hadoop PROC Hadoop SAS HPA proseduurit SAS Visual Analytics SAS Visual Statistics SAS Scoring Accelerator

SAS halaa nyt elefanttia joka suunnasta! Company Confidential For Internal Use Only Copyright 2014, SAS Institute Inc. All rights reserved.

SAS ja Hadoop-ekosysteemi User Interface SAS Data Management SAS Enterprise Miner SAS Studio SAS Visual Analytics SAS Visual Statistics SAS In-memory Statistics for Hadoop SAS User Metadata Data Access Base SAS & SAS/ACCESS to Hadoop SAS Metadata In-Memory Data Data Access Access Next-Gen SAS User Data Processing Pig Hive SAS Embedded Process SAS LASR Analytic Server Map Reduce File System HDFS

Hadoop analyyttisenä In-Memory alustana SAS ANALYTIC HADOOP ENVIRONMENT SAS In-Memory Analytics Process In-Memory, use Hadoop for storage persistence and commodity computing HADOOP SAS LASR ANALYTIC SERVER APPLICATIONS WEB AND MOBILE CLIENTS SAS IN-MEMORY Data Loader SAS IN-MEMORY Visual Analytics SAS IN-MEMORY Visual Statistics SAS IN-MEMORY SAS IN-MEMORY In Memory Statistics for Hadoop

SAS Data Management ja Hadoop SAS Data Loader for Hadoop New web based solution for Data Management and Quality processing within the Hadoop cluster SAS Data Integration Studio Traditional SAS ETL/ELT development environment PROC HADOOP & SAS/ACCESS to Hadoop Enables HiveQL, Pig, HDFS and Map Reduce statement submission SAS/ACCESS to Hadoop makes HIVE tables behave like any other SAS library

SAS Data Loader For Hadoop Enables true self service Hadoop Data Management via user friendly web interface ETL/ELT in Hadoop Executes SAS DS2 (SAS Embedded Process) and HiveQL Data Extraction, Filtering, Expressions & Summarization Parallel Data Loading from Hadoop to SAS LASR Server (In Memory) Data Quality Data Profiling Copyright 2014, SAS Institute Inc. All rights reserved.

SAS Data Loader For Hadoop User is enabled to work independently Doesn t have to know how to use Hadoop. Non-technical user SAS Data Loader for Hadoop Query data Filter data Transform data Summarize data Profile data Cleanse data Load data Hadoop Hadoop does the work. Processing is fast. All data management is done in Hadoop

SAS Data Loader For Hadoop SAS Data Loader for Hadoop Hadoop Non-technical user Query data Filter data Transform data Summarize data Profile data Cleanse data Load data You can also direct high speed loads of data into distributed SAS LASR Analytic Server Optional: SAS LASR

Components SAS Data Loader for Hadoop SAS vapp (Windows 7, VM Player 6) Deployed components (Cloudera CDH 5.0, Hortonworks HDP 2.0) Self Service User interface Buttons/Directives Query data Filter data Transform data Summarize data Profile data Cleanse data Load data Execution Environment Directives/tasks run inside the Hadoop Cluster to minimize unnecessary data movement Hadoop Cluster SAS components installed in cluster enable data processing to run inside Hadoop SAS Embedded Process SAS Code Accelerator SAS DQ Accelerator SAS Code Accelerator for Hadoop SAS Data Quality Accelerator for Hadoop We use HiveQL and DS2 to invoke processing Optional: SAS LASR distributed server SAS Embedded Process

Company Confidential For Internal Use Only Copyright 2014, SAS Institute Inc. All rights reserved.

Company Confidential For Internal Use Only Copyright 2014, SAS Institute Inc. All rights reserved.

Company Confidential For Internal Use Only Copyright 2014, SAS Institute Inc. All rights reserved.

Typical filter, summary and sort options available Company Confidential For Internal Use Only Copyright 2014, SAS Institute Inc. All rights reserved.

Company Confidential For Internal Use Only Copyright 2014, SAS Institute Inc. All rights reserved.

Company Confidential For Internal Use Only Copyright 2014, SAS Institute Inc. All rights reserved.

Company Confidential For Internal Use Only Copyright 2014, SAS Institute Inc. All rights reserved.

SAS Data Integration Studio Miksi wanhaa? Koska SASkehittäjälle entuudestaan tuttu SAS DI Studio on nyt myös tehokas Hadoop-kehitysväline! (ei se niin wanha ole, DI Studio 4.9 julkaistiin elokuussa!)

SAS Data Integration Studio ja Hadoop Kaksi tasoa: HIVE (tai Impala) SAS Data Integration Studio SAS Workspace Server SAS/ACCESS Interface to Hadoop Hadoop JAR Files (distro specific) HDFS Hadoop Hive / Hive2 Server Hive Metastore Tables -kerros (taulut) ja HDFS-kerros (tiedostot) Työasema ja SAS DI Studio SAS palvelin Hadoop-klusteri

SAS Data Integration Studio ja Hadoop SAS DI Studio sisältää kattavan valikoiman valmiita Hadooptransformaatioita. Lisäksi myös tutut SQL-transformaatiot luovat pass-thru kelpoista HiveQL syntaksia. High-Performance Analytics transformaatiot lataavat dataa joko VA:n Hadoopiin (SASHDAT) tai suoraan SAS LASR (In-Memory) prosessille

SAS Data Integration Studio ja Hadoop HIVE-kirjastot näkyvät SAS Management Consolessa kuten muutkin kirjastot ja Register Tables toiminnolla voidaan lukea HIVE-taulujen metadata

SAS Data Integration Studio ja Hadoop Lue Hadoop data (HIVEtaulun muodossa) Muokkaa taulua HIVE QL syntaksia käytten Kirjoita tulostaulu takaisin Hadoopiin (HIVE:n kautta) SAS DI Studiolla voi käsitellä HIVEtauluja Hadoopin sisällä, niin että prosessointi pysyy Hadoopissa, (huomaa symboli H )

SAS Data Integration Studio ja Hadoop SAS DI Studiolla voi lukea ja kirjoittaa peräkkäistiedostoa suoraan Hadoopin tiedostojärjestelmään, (HDFS) -tasolle valmiita transformaatioita hyödyntäen

SAS Data Integration Studio ja Hadoop SAS DI Studiolla voi helposti siirtää tiedostoja Hadoopin ja paikallisen tiedostojärjestelmän välillä (binäärit, mediatiedostot, jar-paketit jne jne.)

PROC Hadoop Helppo tapa kutsua Hadoopia SASista Hadoop_config file PROC Hadoop NameNode Miksi lainattua? Koska PROC HADOOP mahdollistaa Hadoopkoodin upottamisen mihin tahansa SASohjelmaan Hadoop JAR Files HDFS SAS työasema ja Base SAS / EG Hadoop-klusteri

PROC Hadoop HDFS komentojen kutsuminen HDFS-komennoilla filename cfg "C:\Users\hadoop_config.xml"; PROC HADOOP options=cfg username="hadoop" password="hadoop"; hdfs mkdir="/user/hadoop/testfolder" ; hdfs rename="/user/hadoop/testfolder" out="/user/hadoop/testfolder_new"; hdfs delete="/user/hadoop/testfolder_new" ; hdfs copyfromlocal="c:\sample_data\dept.txt" out="/user/hadoop/testfolder/ ; hdfs copytolocal="/user/hadoop/testfolder" out="c:\sample_data\" ; run; operoidaan Hadoopin tiedostojärjestelmätasolla

PROC Hadoop MapReduce jarpakettien kutsuminen filename cfg "C:\Users\hadoop_config.xml"; PROC HADOOP options=cfg username="hadoop" password="hadoop" verbose; hdfs delete="/user/hadoop/out"; mapreduce input="/user/hadoop/gutenberg" output="/user/hadoop/out" jar="c:\sample_data\hadoop examples 2.0.0 mr1 cdh4.1.2.jar" outputkey="org.apache.hadoop.io.text" outputvalue="org.apache.hadoop.io.intwritable" reduce="org.apache.hadoop.examples.wordcount$intsumreducer" combine="org.apache.hadoop.examples.wordcount$intsumreducer" map="org.apache.hadoop.examples.wordcount$tokenizermapper" reducetasks=0 ; run; MapReduce -koodi pakataan Javatyyppisiin jarpaketteihin ennen Hadoopiin vientiä

PROC Hadoop PigLatin koodin kutsuminen SAS-ohjelmasta /* Pig statement to process HDFS data file */ filename cfg "C:\Users\hadoop_config.xml"; filename code1 "C:\Users\pig_cd.txt"; PROC HADOOP options=cfg username="hadoop" password="hadoop" verbose; pig code=code1 ; run; Contents of C:\Users\pig_cd.txt : cd NYSE; dividends = load 'NYSE_dividends' as (exchange, symbol, date, dividend); grouped = group dividends by symbol; avg = foreach grouped generate group, AVG(dividends.dividend); store avg into 'average_dividend'; Pig Latin on ylätason kieli Hadoop datamanipulointia varten

SAS/ACCESS to Hadoop SAS-ohjelmointia kuten ennenkin LIBNAME hdplib hadoop PORT=10000 SERVER=sascldserv02 USER=hadoop PASSWORD= hadoop ; 1. Suorita Hadoop (HIVE) PROC DATASETS lib=hdplib; quit; PROC CONTENTS data=hdplib.hdp_table; quit; PROC SQL; select * from hdplib.hdp_table ; quit; PROC MEANS data= hdplib.hdp_table; run; kirjastoviittaus 2. Käytä SASproseduureja ja DATA stepiä kuten ennenkin 3. Tai mene Enterprise Guidella kiinni Hadoopdataan. SAS ajaa SORT, MEANS, SUMMARY, TABULATE, REPORT proseduurit automaattisesti Hadoop-klusterissa (In- Database)

KIITOS!