Mammutti vai elefantti?
Tänään tarjolla Arkkitehtuuri - baseline Esittelyssä Elefantti ylhäältä ja alhaalta teoriaa ja kokemuksia Elefantti vs. Mammutti Kuka vie peliä ja millä säännöillä Meidän esimerkki SAS + Hadoop
Tietoarkkitehtuuri - baseline 6. Tiedon louhinta, oivaltaminen, innovointi, analytiikka Kehittämisympäristöt Raportointi, analytiikka BI-työkalut, liittymät 5. 3. Tapahtumadata, NoSQL/Hadoop BIG DATA Palvelurajapinta 4. EDW Asiakastieto, tapahtumadata Rajapinta olemassa oleviin raportointivälineisiin, - palveluihin jne. Myös Data Virtualization/Federation. 2. Landing area 1. Strukturoimaton data, ulkoinen tieto Strukturoitu data, in-house data, sovellukset, tietokannat
Hadoop Ecosystem palapeli
Mikä Spark? Alusta (framework) big data prosessoinnille Hadoop alustan palveluissa ETL väline; shell komennoilla -> ohjelmiksi Runsaasti valmiskirjastoja: Streaming, SQL, GraphX, MLlib Core concept: RDD (Resilient Distributed Dataset)
Mikä Spark? Nopeasti kasvava käyttäjäkunta Distribuutioissa mukana; hyvin tuettu Rock star Scala, Java, Python
Kokemuksia Verrattuna esim. MapReduceen Spark SQL ja Sparkin DataFrame API nostavat abstraktiotaso huomattavasti (esim. rajaukset, liitokset, aggregointi) (vrt. SAS ja Python/Panda) Tulee ymmärtää miten operaatiot toimivat pohjimmiltaan (transactions ja actions)
Rinnakkaistuuko ajo, ja miten siinä autetaan (esim. miten data on ositettu levylle) Alusta kehittyy huikeaa vauhtia Kokemuksia Hyvin ja kattavien dokumentaatioiden rajallisuus Tunaamista, esim.: http://blog.cloudera.com/blog/2015/03/how-to-tune-yourapache-spark-jobs-part-2/
Mammutti+ Toimivaa, evolutiivisesti edennyttä teknologiaa Substanssista yksimielisyyttä (mallinnus, relaatiot, arkkitehtuurit) Osaajia Vaihtoehtoja
Mammutti- Tietovarasto perusjäykkä muutoksille Muutostyöt usein hitaita ja kalliita (self service BI ei vielä ihan tätä päivää) Aktiivisen tiedon ylläpito kallista Skaalautuvuus
Elefantti- Nousevia teknologioita; yksittäisten komponenttien dokumentointi, toimivuus, käyttäjätuki, yhteensopivuus Osaaminen Best practises Mihin junaan hypätä (minne ja kauan juna kulkee)
Elefantti+ Nousevia teknologioita; kehitystyö nopeaa Laaja, aktiivinen käyttäjäkunta Runsaasti vaihtoehtoja Tehty skaalautuvaksi ja fault-tolerantiksi Mahdollistaja (jota EDW:llä ei voida tehdä; tiedon määrä, talletus, prosessointi, skaalautuvuus )
Elefantti+ Pilvipalveluista löytyy valmis(komponentti)ratkaisuja Pilvi/in-house/kombinaatio (Paas/Saas/Iaas)
Miten (ja miksi) verrata elefanttia ja mammuttia(antikliimaksi)? Eivät ole kilpailevia vaan toisiaan täydentäviä Elefanttiteknologiat lisäävät vaihtoehtojen määrää Käytetään tapauskohtaisesti
Samaan aikaan toisaalla(?) Uber(isaatio ) AirBnb Verkkokaupat Mediamyllerrys Informaatiokupla (Filter Bubble) Crowdsourcing/talkoista minen
Mistä kumpuaa
SAS SOLUTIONS IN HADOOP ECOSYSTEM User Interface SAS Data Integration Studio SAS Enterprise Miner SAS Studio SAS Enterprise Guide SAS Visual Analytics SAS Visual Statistics SAS In-Memory Statistics Metadata SAS Metadata Data Access SAS/ACCESS to Hadoop SAS LASR In-Memory Analytic Data Server Access Data Processing Hive / Impala / Spark Pig Hive SAS Embedded Process SAS Data Loader Hadoop Hadoop HDFS Source Systems Source A Source B Source C Source D
How does it work? Hadoop Cluster Profile Cleanse Join Load Query Filter Transform De-duplicate SAS vapp SAS Data Loader (Web App) SAS/Access to Hadoop RDBMS SAS Text Files SAS LASR In-Memory Analytic Server (Optional) (Web Browser) Hadoop Cluster Node SAS DS2 code SAS Embedded Process SAS Data Quality Accelerator for Hadoop SAS Code Accelerator for Hadoop SAS Embedded Process
Avarea Marketing Dashboard Datasources Data Ingestion Storage Delivery Search Engine Marketing (SEM) Social and Display Ads Referrals, Social Engagement Offline Ads Search Engine Optimization (SEO) Content Marketing Email Marketing Engineering as Marketing Target Market Blogs Business Development (Partnerships, Distribution) Affiliate Programs Internal Data (Business Applications, Sales, CRM..) -Real-time datapipelines -Historical data -Dashboards -Advanced Analytics -Export (Applications, Marketing Automation etc)
http://www.avarea.fi/blog/ (http://suomestapois.com) Yhteenveto