Ivorion missio Ivorio on Suomen johtava riippumaton big data asiantuntija. Autamme asiakkaitamme selvitymään tiedon vallankumouksesta voittajina.
Big data?
Joko olet kuullut siitä? Kuinka usein käsitettä big data on haettu Googlesta n u a sa s ipu pe y H yrä ä k h on
Yleisesittely big data -ilmiöstä Big datan lyhyt historia, viitekehykset ja tunnetuimmat esimerkit
Mitä tarkoittaa big data? Big data tarkoittaa kahta asiaa: 1. Havaintoa siitä, että dataa on koko ajan määrällisesti enemmän ja sen muoto ja laatu vaihtelee suuresti 2. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan
Big datan 3 V:tä, se käytetyin määritelmä 1. Volume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään. 2. Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti. 3. Variety Tietoa (dataa) tulee kiihtyvällä tahdilla erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin Veracity, Value Virality, Validity, Viscosity myös muita V-kirjaimia on lisätty kuvaamaan ilmiötä.
Ivorio 2013 Mistä sitä dataa oikein tulee? Digitaalinen todellisuus (internet, sosiaalinen media) Fyysinen todellisuus (sensorit, esineiden internet) Organisaation hallussa tai saatavilla oleva data (ERP, CRM, DW, RDBMS) Saatavilla olevat datavarannot (avoin data, datamarkkinat) Potentiaalinen data (ei vielä kerätä)
Ivorio 2013 Suppein näkökulma dataan Eihän meillä edes ole big dataa! Tästä näkökulmasta big data koskettaa ilmiönä n. 0.2 % maailman organisaatioista Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
Ivorio 2013 Suppeahko näkökulma dataan Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme? Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
Ivorio 2013 Laaja näkökulma dataan Itse asiassa voisimme tallentaa ja analysoida kaiken, mitä asiakkaat sanovat puhelimessa! Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista Yrityksen oma strukturoitu data Yrityksen vielä hyödyntämätön data Yrityksen vielä keräämätön data
Ivorio 2013 Verkostoitunut näkökulma dataan Verkottunut yritys ei voi hillota dataansa! Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista Kumppani Kumppani Organisaatio Kumppani Kumppani Kumppani Kumppani
Ivorio 2013 Kokonaisvaltainen näkökulma dataan Palvelinkellarissa homehtuva data ei tuota lisäarvoa tai kilpailuetua! Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista Avoin data Julkishallinnon avaamat datavarannot Datamarkkinat pilvessä olevat datan markkinapaikat Datakauppiaat yksittäiset dataansa myyvät toimijat Puoliavoin data ei rajapintoja, hajallaan
Mitä pitäisi tehdä?
Ottaa kaikki data käyttöön! Kerää Tallenna Datavirrat on analysoitava heti Analysoi Hyödynnä Ennusta Automatisoi Lopullinen tavoite
Kuinka suuret ovat markkinat?
Kuinka suuret ovat big data -markkinat? IDC sanoo (12/2012), että vuonna 2016 markkinoiden koko on n. 26 mrd $ Gartner sanoo (10/2012), että vuonna 2012 big data markkinat olivat n. 28 mrd $ Wikibon ennustaa (02/2012), että big data -markkinat ovat vuonna 2015 n. 54 mrd $
Entä kuinka suuri on potentiaali?
McKinsey 2011: Big data: The next frontier for innovation, competition and productivity McKinseyn raportissa (05/2011) arvioitiin big datan vuotuisen lisäarvo- ja kustannussäästöpotentiaalin olevan vuonna 2011 arviolta 1 000 mrd
Kuka on innostunut? Kaikki!
General Electrics 2012 Industrial Internet: Pushing the Boundaries of Minds and Machines Today, the people that manage big data systems or perform advanced analytics have developed unique talents through self-driven specialization, rather than through any programs that build a standard set of skills or principles
Gartner, 2013: Survey Analysis: Big Data Adoption in 2013 64 % of organizations investing or planning to invest in big data technology.
Tieto Oyj, Q3/2013: Osavuosikatsaus Q3 2013 Big datan odotetaan olevan yksi tietotekniikkapalvelujen nopeimmin kasvavista alueista keskipitkällä aikavälillä.
Osaajapula uhkaa!
Big datan haasteet Suomessa 1. Osaajapula (teknologiat, datatieteilijät) 2. Lähdedatan vaihteleva laatu ja kasvava määrä 3. Ilmiön ja teknologioiden jäsentymättömyys % Lähde: LVM:n Big data Suomessa -selvitys 09/2013
McKinsey, 2011: Big data: The next frontier for innovation, competition and productivity By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills.
Big data -teknologiat
Big datan teknologiat Hadoop (tunnetuin yksittäinen uusi teknologia) NoSQL (uudenlaiset tietokannat) Appliancet (valmisratkaisut) In-memory-, In-database analytics Pilvipalvelut Amazon Elastic MapReduce Google BigQuery Microsoft HDInsight
Hadoop Big datan moottori
Innoittajana Google Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen? GFS ja MapReduce 2004 Hadoop 2006 Datan tallentaminen ja analysointi (klusteri) Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL) Pregel 2010 Giraph 2011 Graph-tietokanta Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL) Spanner 2012????? Transaktiot Googlen julkaisu
Ivorio 2013 Tiedon rakenteisuus Hadoopin asema big data -ilmiössä Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees. McKinsey 2011 Hadoop By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop. Gartner 2013 1 Gb 2 Tb 20 Tb 200 Tb Tiedon määrä
Ivorio 2013 Hadoop Suomessa Käyttäjiä lähitulevaisuudessa Käyttäjiä v. 2013 mm. Vähittäiskauppa Rovio Sanoma Supercell Media Palvelualat Telekommunikaatio Teollisuus
Mitä Hadoop tekee? Hadoop auttaa rakentamaan klusterin palvelimista Miksi haluaisin Hadoop-klusterin? - edullista tallennustilaa (mikä vaan x86-palvelin käy) - tehokasta prosessointia (rinnakkaisuus) - toimintavarmuutta (moninkertainen tallennus) - skaalautuvuutta (klusteria helppo laajentaa) - ekosysteemi, lisäosia ja laajennoksia!
Hadoop Käyttöönotto
Hadoopin käyttöönotto Neljä vaihtoehtoa 1. http://hadoop.apache.org 2. Valmis jakelu 3. Hadoop osana kokonaisratkaisua 4. Pilvipalvelu
1. http://hadoop.apache.org Vahvuudet (+) Ilmainen Heikkoudet (-) Joutuu tekemään kaiken itse Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.
2. Valmis jakelu Otetaan käyttöön valmiiksi paketoitu kokonaisuus Amazon (AWS EMR) Cloudera (CHD) Hortonworks (HDP) MapR (M7) Microsoft (HDInsight) Pivotal (Pivotal HD) IBM (IHC) Intel (Intel Distribution for Apache Hadoop)
2. Valmis jakelu Vahvuudet (+) Helppous, tuki, koulutus, partnerit ja optimoitu suorituskyky Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada.
3. Hadoop osana Appliance-ratkaisua Big data Appliancet (esimerkkilista tunnetuista) HP (HAVEn) IBM (Infosphere BigInsights) Microsoft (Parallel Data Warehouse) Oracle (Big Data Appliance) Pivotal (Pivotal) SAP (SAP HANA Platform) Teradata (Teradata Aster Big Analytics Appliance)
3. Hadoop osana Appliance-ratkaisua Hadoop-kytkökset HP (all leading distros) IBM (Cloudera) Microsoft (Hortonworks) Oracle (Cloudera) Pivotal (Pivotal HD) SAP (Intel, Hortonworks) Teradata (Hortonworks)
3. Hadoop osana Appliance-ratkaisua Vahvuudet (+) Kehittyneet ominaisuudet, integroitavuus, tuki- ja partneriverkosto Heikkoudet (-) Kallis, vendor lock-in Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin osana isompaa kokonaisuutta.
4. Hadoop pilvipalveluna Vahvuudet (+) Nopea käyttöönotto, joustavuus Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.
Datan analysoiminen pilvessä Terasortin maailmanennätys Googlen pilvipalvelussa: Since the servers used in MapR s world record were virtually instantiated in the Cloud, the cost estimate for running the TeraSort was about $9 compared to the over $5M estimate to run the previous record. Tästä on kysymys: $9 vs. $ 5 000 000 joustavuudesta!
Ivorio 2013 Teratavun tallentaminen paikallisesti Ulkoinen kovalevy LaCie Rikiki 1 TB USB 3.0 Hinta: 106,90 TAI JOS HALUTAAN KOLMINKERTAINEN VARMENNUS Ulkoinen kovalevy LaCie Rikiki 1 TB USB 3.0 Hinta: 320,70
Ivorio 2013 Datan tallentaminen pilveen Mitä maksaa gigatavun tallentaminen per kuukausi julkisessa pilvessä? Dataa yht. Amazon (S3) Google Storage Microsoft Azure Storage < 1 TB 0.095 $ 0.085 $ 0.095 $ < 50 TB 0.080 $ 0.076 $ 0.080 $ < 500 TB 0.070 $ 0.063 $ 0.070 $ < 1000 TB 0.065 $ 0.063 $ 0.065 $ < 5000 TB 0.060 $ 0.054 $ 0.055 $ Kustannussäästöt eivät ole olennaisin asia pilvipalveluissa! Olennaista on joustavuus, toimintatapojen sekä prosessien muutos ja uusien liiketoimintamallien mahdollistuminen.
Ivorio 2013 Teratavun tallentaminen pilveen Amazon Web Services Glacier -palvelu Hinta: 99,60 / vuosi 298,80 / 3 vuotta Säilyvyys (Durability) 99,999999999 %
Ivorio 2013 n ti k je Ob Eufris aloitti käytön o k ko 1B T 5 - B Tilanne suunnilleen vuoden 2013 puolivälissä Objektien määrä AWS S3-palvelussa
Keskustelua.
Kiitos