Mammutti vai elefantti?

Samankaltaiset tiedostot
Miten Hadoopista tuli helppoa? Jarno Lindqvist Principal Advisor SAS

SAS ja Hadoop jotain uutta, wanhaa, lainattua ja keltaista. Jarno Lindqvist, SAS Simon Gregory, Hortonworks Woody Christy, Cloudera

Nopeutta ja Sulavuutta Analytiikkaan

IHMISEN KOKOISTA BIG DATAA TERVEYDENHUOLLON ATK-PÄIVÄT JAANA SINIPURO

SOA SIG SOA Tuotetoimittajan näkökulma

Valtionhallinnon käyttäjäpäivä - IBM Cognosin tulevaisuuskatsaus ja nykypäivä

KODAK EIM & RIM VIParchive Ratkaisut

Hadoop Big Data & Analytiikka. SAS & Cloudera integraatio Live Demot: SAS Data Loader for Hadoop SAS VA SAS IMSTAT SAS HPA

Power BI Tech Conference Power BI. #TechConfFI. Johdanto

IoT-platformien vertailu ja valinta erilaisiin sovelluksiin / Jarkko Paavola

Tieto ja sen mallinnus Fonectalla - Teemme tiedosta arvokasta. Aija Palomäki, TDWI jäsenkokous

SAS Viya. Technical Foundation & SAS Visual Data Mining and Machine Learning demo Jarno Lindqvist Lindy Mayfield SAS Institute Oy

Procom-koulutus: Web-analytiikka Jaakko Knuutila Tulos Helsinki Oy

Big-data analytiikka-alusta osana markkinoinnin kokonaisratkaisua

SAS & Cloud Computing. antti.hiltunen@sas.com

Tapaustutkimus big data -analytiikkakoulutuksen suunnittelusta

Algorithms and Systems on big data management

Virtualisoi viisaasti paranna palvelua. Iikka Taanila Systems Architect IBM Systems and Technology Group

Poweria analytiikkaan

Data Warehouse kuulumisia

.NET 2006 ja sen jälkeen

Miten kaupunki hyödyntää dataa ja mitä esimerkiksi raportointi vaatii järjestelmiltä

DataLake-hanke - AWS , tietohallinto, Matti Valli, Pasi Porkka

Perinteisesti käytettävät tiedon (datan) tyypit

Envibase-hanke. Esittely KTKlle SYKE Saku Anttila Yrjö Sucksdorff

DI Studion käyttökokemuksia. Kaisu Ikonen, Tilastokeskus

ARVOA PALVELUPROSESSIEN ANALYSOINNILLA

Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Miten voin selvittää säästömahdollisuuteni ja pääsen hyötymään niistä?

TERADATAN JA SAS DI STUDION YHTEISELO CASE LÄHITAPIOLA

Oracle 11g tietokannan päivityksen tarjoamat hyödyt ja kustannussäästöt

Terveydenhuollon tietojärjestelmien hyvä käytettävyys totta vai tarua? Johannes Niemi Compuware Finland Oy

MARKKINOINTIAUTOMAATIO + CRM: ENSIKONTAKTISTA ASIAKKUUTEEN. Copyright Element AB, All Rights Reserved.

Uusia tuulia mediaseurannassa:! PR-palveluiden integraatio ja digitalisoituva maailma. Koodiviidakko Oy

Visualisoi tapahtumat ja selvitä niiden kulku

Jatkuvuus on arkistoinnissa avainasia

Web Services tietokantaohjelmoinnin perusteet

HITSAUKSEN TUOTTAVUUSRATKAISUT


Millainen osaaminen saa uudet yritykset siirtymään Tampereelle?

Internet of Things. Käänteentekeviä innovaatioita ja uusia liiketoimintamahdollisuuksia. Pekka Pykäläinen, Product & Solutions Manager Microsoft Oy

ja itsenäisen harjoittelun jälkeen Microsoftin koe Luennot ja käytännön harjoitukset lähiopetusjaksolla

Osittavat arkkitehtuurityylit. Palveluihin perustuvat arkkitehtuurityylit. Erikoisarkkitehtuurityylit

Digitalisaatio oppimisen maailmassa. Tommi Lehmusto Digital Advisor Microsoft Services

MIHIN SUUNTAAN ARVIOINTI KEHITTYY MAAILMALLA? Didaktiikan teemapäivä, , Turun yliopisto Petri Uusikylä, Suomen arviointiyhdistys

Pilvi mitä, miksi ja miten

SAS sovellusten hallinnointi helpoksi Turbo Charge -menetelmällä Tapio Kalmi, SAS Institute Oy

SAP Alustan Optimointi

Kiekun arkkitehtuuri ja tekniikka. Ghita von Gerdten projektipäällikkö

WAMS 2010,Ylivieska Monitoring service of energy efficiency in housing Jan Nyman,

KUSTANNUS- JA KANNATTAVUUSTIETOA NOPEAMMIN JA HAVAINNOLLISEMMIN SAS COST AND PROFITABILITY MANAGEMENT MIKKO VARILA BUSINESS ADVISOR

Testiautomaatio tietovarastossa. Automaattisen regressiotestauksen periaate ja hyödyt

LIITE 2 HANKITTAVA KOULUTUS POHJOIS-POHJANMAAN ELY-KESKUS Koulutuksen nimi ja koulutuskuvauksen numero

TkK-tutkielmat

UNA PoC-yhteenveto CGI Aino Virtanen

Tietojärjestelmä uusiksi? Toimijaverkostot, niiden haasteet ja ratkaisut


TIETOMALLI JA TIETOVARASTO PALVELUKONSEPTI

Microsoft Dynamics Marketing markkinoinnin mittaamisen lähteenä. Jani Rauhala, Senior Consultant (DI,

Backup Exec 3600 Appliance

Kari Rouvinen Johtaja, Technology Products & Solutions. Oracle Finland Oy

Järjestelmäarkkitehtuuri (TK081702) Järjestelmäarkkitehtuuri. Järjestelmäarkkitehtuuri

Tapahtumankäsittely Semanttisen Webin Menetelmillä

Big data Lasse Seppänen

Tech Conference Hybrid Cloud: On-premises ja Public Cloud yhdessä Heikki Bergius Senior-konsultti Sovelto.

Konesali ilman rajoja Kongressi A

Ivorion missio. Ivorio on Suomen johtava riippumaton big data asiantuntija. Autamme asiakkaitamme selvitymään tiedon vallankumouksesta voittajina.

SMART BUSINESS ARCHITECTURE

XPages käyttö ja edut Jarkko Pietikäinen toimitusjohtaja, Netwell Oy

Järjestelmäarkkitehtuuri (TK081702) Lähtökohta. Integroinnin tavoitteet

SQL SERVER 2012 PARALLEL DATA WAREHOUSE APPLIANCE

Sähkönjakeluverkon hallinnan arkkitehtuuri. Sami Repo

API:Hack Tournee 2014

Tiedon suojaaminen ja hallinta. Sytyke seminaari

Visuaaliset työpöydät - lisää voimaa liiketoimintaan suurten datamassojen ketterästä analysoinnista

TIETOJOHDETTU RAKENNUSPROJEKTI Niko Vironen Kehityspäällikkö Fira Group

ebooks in the libraries ebib trial and results

HAKURATKAISUN ANATOMIA - KURKISTUS PELLIN ALLE

TKK 100 vuotta -merkki

Järjestelmäarkkitehtuuri (TK081702) Pilvipalvelut. Pilvipalvelut - lähtökohtia

Enterprise GIS Strategy

PixInsight. Tampereen Ursa Jouni Raunio

Uudella palvelinteknologialla otat palvelut käyttöön nopeammin. Micke Sjöblom Category Manager - HP Servers

KAOS 2015: Integraatioiden standardointi suunnittelumallien avulla. Ilkka Pirttimaa, Chief ICT Architect, Stockmann ICT

Health Intelligence - Parempaa informaatiota terveydenhuollon päätöksentekoon. Terveydenhuollon ATK päivät Sibelius Talo, Lahti

MITEN OPIT SKAALATAAN? TONI LUHTI - PLATFORM OF TRUST

HELSINKI AREA TESTBED. Martti Mäntylä, HIIT

Automaatiojärjestelmän hankinnassa huomioitavat tietoturva-asiat

Helpottuuko sovellusten välinen integraatio XML:n avulla - kokemuksia ja ratkaisuja, teknologiajohtaja Sauli Tujunen, atbusiness Communications Oyj

Bachelor level exams by date in Otaniemi

Risto Kauppi, CEO. Rugged Tooling Subject to change

Bachelor level exams by subject in Otaniemi

Älykäs ja turvallinen pilvi

Valtiokonttorin Voimaraportointi. Tero Mäkinen

ACCOUNTOR - EXPERTISE CLOSE TO YOU

Dokumenttien hallinta SharePoint - ympäristössä HANASAARI TERVETULOA

Avointen ohjelmistojen käyttö ohjelmistokehityksessä

Avoimen datan liiketoimintamallit. Matti Rossi, Aalto University School of Business

Paikkatietorajapinnat IT arkkitehtuurin näkökulmasta

Monikanavaisen asiakkuuden analytiikkaa

Transkriptio:

Mammutti vai elefantti?

Tänään tarjolla Arkkitehtuuri - baseline Esittelyssä Elefantti ylhäältä ja alhaalta teoriaa ja kokemuksia Elefantti vs. Mammutti Kuka vie peliä ja millä säännöillä Meidän esimerkki SAS + Hadoop

Tietoarkkitehtuuri - baseline 6. Tiedon louhinta, oivaltaminen, innovointi, analytiikka Kehittämisympäristöt Raportointi, analytiikka BI-työkalut, liittymät 5. 3. Tapahtumadata, NoSQL/Hadoop BIG DATA Palvelurajapinta 4. EDW Asiakastieto, tapahtumadata Rajapinta olemassa oleviin raportointivälineisiin, - palveluihin jne. Myös Data Virtualization/Federation. 2. Landing area 1. Strukturoimaton data, ulkoinen tieto Strukturoitu data, in-house data, sovellukset, tietokannat

Hadoop Ecosystem palapeli

Mikä Spark? Alusta (framework) big data prosessoinnille Hadoop alustan palveluissa ETL väline; shell komennoilla -> ohjelmiksi Runsaasti valmiskirjastoja: Streaming, SQL, GraphX, MLlib Core concept: RDD (Resilient Distributed Dataset)

Mikä Spark? Nopeasti kasvava käyttäjäkunta Distribuutioissa mukana; hyvin tuettu Rock star Scala, Java, Python

Kokemuksia Verrattuna esim. MapReduceen Spark SQL ja Sparkin DataFrame API nostavat abstraktiotaso huomattavasti (esim. rajaukset, liitokset, aggregointi) (vrt. SAS ja Python/Panda) Tulee ymmärtää miten operaatiot toimivat pohjimmiltaan (transactions ja actions)

Rinnakkaistuuko ajo, ja miten siinä autetaan (esim. miten data on ositettu levylle) Alusta kehittyy huikeaa vauhtia Kokemuksia Hyvin ja kattavien dokumentaatioiden rajallisuus Tunaamista, esim.: http://blog.cloudera.com/blog/2015/03/how-to-tune-yourapache-spark-jobs-part-2/

Mammutti+ Toimivaa, evolutiivisesti edennyttä teknologiaa Substanssista yksimielisyyttä (mallinnus, relaatiot, arkkitehtuurit) Osaajia Vaihtoehtoja

Mammutti- Tietovarasto perusjäykkä muutoksille Muutostyöt usein hitaita ja kalliita (self service BI ei vielä ihan tätä päivää) Aktiivisen tiedon ylläpito kallista Skaalautuvuus

Elefantti- Nousevia teknologioita; yksittäisten komponenttien dokumentointi, toimivuus, käyttäjätuki, yhteensopivuus Osaaminen Best practises Mihin junaan hypätä (minne ja kauan juna kulkee)

Elefantti+ Nousevia teknologioita; kehitystyö nopeaa Laaja, aktiivinen käyttäjäkunta Runsaasti vaihtoehtoja Tehty skaalautuvaksi ja fault-tolerantiksi Mahdollistaja (jota EDW:llä ei voida tehdä; tiedon määrä, talletus, prosessointi, skaalautuvuus )

Elefantti+ Pilvipalveluista löytyy valmis(komponentti)ratkaisuja Pilvi/in-house/kombinaatio (Paas/Saas/Iaas)

Miten (ja miksi) verrata elefanttia ja mammuttia(antikliimaksi)? Eivät ole kilpailevia vaan toisiaan täydentäviä Elefanttiteknologiat lisäävät vaihtoehtojen määrää Käytetään tapauskohtaisesti

Samaan aikaan toisaalla(?) Uber(isaatio ) AirBnb Verkkokaupat Mediamyllerrys Informaatiokupla (Filter Bubble) Crowdsourcing/talkoista minen

Mistä kumpuaa

SAS SOLUTIONS IN HADOOP ECOSYSTEM User Interface SAS Data Integration Studio SAS Enterprise Miner SAS Studio SAS Enterprise Guide SAS Visual Analytics SAS Visual Statistics SAS In-Memory Statistics Metadata SAS Metadata Data Access SAS/ACCESS to Hadoop SAS LASR In-Memory Analytic Data Server Access Data Processing Hive / Impala / Spark Pig Hive SAS Embedded Process SAS Data Loader Hadoop Hadoop HDFS Source Systems Source A Source B Source C Source D

How does it work? Hadoop Cluster Profile Cleanse Join Load Query Filter Transform De-duplicate SAS vapp SAS Data Loader (Web App) SAS/Access to Hadoop RDBMS SAS Text Files SAS LASR In-Memory Analytic Server (Optional) (Web Browser) Hadoop Cluster Node SAS DS2 code SAS Embedded Process SAS Data Quality Accelerator for Hadoop SAS Code Accelerator for Hadoop SAS Embedded Process

Avarea Marketing Dashboard Datasources Data Ingestion Storage Delivery Search Engine Marketing (SEM) Social and Display Ads Referrals, Social Engagement Offline Ads Search Engine Optimization (SEO) Content Marketing Email Marketing Engineering as Marketing Target Market Blogs Business Development (Partnerships, Distribution) Affiliate Programs Internal Data (Business Applications, Sales, CRM..) -Real-time datapipelines -Historical data -Dashboards -Advanced Analytics -Export (Applications, Marketing Automation etc)

http://www.avarea.fi/blog/ (http://suomestapois.com) Yhteenveto