Tapaustutkimus big data -analytiikkakoulutuksen suunnittelusta Milla Järvi Aalto-yliopisto Sähkötekniikan korkeakoulu Valvoja: Prof. Heikki Hämmäinen Ohjaaja: TkL Janne Salonen
Sisällysluettelo Motivaatio Tutkimuskysymykset Rajaus ja tutkimusmenetelmät Teoreettinen tausta Pilvipalvelualustat Big data -palvelualustat Palvelualustojen valinnan kriteerit ja valinta Koulutusohjelman suunnittelu Kysymyksiä 2
Motivaatio 1/2 Gartnerin innostuskäyrä [1] 3
Motivaatio 2/2 Päämääränä kehittää opintokokonaisuus big data -ympäristöön käyttäen pilvipalveluita. Harjoitusympäristö tulee olla muokattavissa tarpeen mukaan erilaisiin ympäristöihin joustava ja sopiva kohderyhmälle. Lopputuloksesta ehdotelma opintokokonaisuudeksi 4
Tutkimuskysymykset Mitkä pilvipohjaiset palvelut ja ratkaisut soveltuvat parhaiten käytännön suoritusalustoiksi? Mitä ovat big data -analytiikan sovellukset ja mitä niiden piirteitä huomioidaan mietittäessä uutta opintokokonaisuutta? Miten työn tuloksia voidaan käyttää koulutusohjelman suunnittelussa? 5
Tutkimuksen rajaus ja tutkimusmenetelmät Julkiset pilvipalveluympäristöt Isot helposti saatavilla olevat big data -toimijat Kirjallisuustutkimus Tapaustutkimus Laadullinen vertailututkimus Hermeneuttinen tieteenkäsitys Korostaa tulkinnan, merkityksen, historian ja ymmärtämisen käsitteitä 6
Teoreettinen tausta 1/2 Big datan ja pilvipalveluiden määrittely Pilvipalvelut hajautettu verkkopalvelu, jossa tietokoneita, ohjelmia, tallennustilaa ja muita tietoteknisiä palveluja käytetään verkon kautta Cloud computing is a model for enabling ubiquitous, convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction [2, 3] 7
Teoreettinen tausta 2/2 Big datan ja pilvipalveluiden määrittely Big data -prosessit [4] 8
Pilvipalvelualustojen rajaus IaaS-Palveluntarjoajien ja -palveluiden sijoittuminen Gartnerin Magic Quadratnelikenttään [5] 9
Pilvipalvelualustat Amazon Web Services (AWS) pilvipalvelukehys Microsoft Azure -julkinen pilvipalvelu Google Cloud Platform -pilvipalveluympäristö Lisäksi avoin ympäristö (Hortonworks) 10
Pilvipalveluiden vertailu 1/2 11
Pilvipalveluiden vertailu 2/2 12
Pilvipalveluiden kokeilutilien hinnoittelu 13
Big data -palvelualustojen vertailu 1/4 Amazon AWS: Amazon EMR Paketoitu ratkaisu Hadoop- ja Spark -prosessien suorittamiseen, kokeilu rajattiin Hadoopiin Automaattinen skaalautuminen ja nopea vaste kuormituksen muuttuessa Rajoitettu käyttö selaimella, operointi konsolilla Kokeilutili ei kata kaikkea EMR-käyttöä, laskutus käynnistyy välittömästi 14
Big data -palvelualustojen vertailu 2/4 Microsoft Azure Hortonworks Data Platform -ympäristö (HDP) Sisältää Hortonworks Hadoop -hiekkalaatikon ja -sovelluskehyksen Käyttö selainpohjaisen Ambarin tai SSH:n välityksellä Ei sisällä kaikkia HDP-toimintoja Microsoft Azure HDInsight Täydellinen HDP-rypäs Käyttö selainpohjaisen Ambarin tai SSH:n välityksellä Suoraviivainen, yhdenmukainen hallintanäkymä muiden Microsoft-tuotteiden kanssa 15
Big data -palvelualustojen vertailu 3/4 Google Dataproc Käyttö selaimella, API-rajapinnoilta ohjelmallisesti tai SSH:n välityksellä Yksinkertaistettu käyttöliittymä 16
Big data -palvelualustojen vertailu 4/4 Paikallinen Hadoop-asennus Linuxkäyttöjärjestelmään Hortonworks Hadoop Data Platform virtualisoidussa ympäristössä (VirtualBox) 17
Palvelualustan valinnan kriteerit ja valinta 1. Käytettävyys 2. Soveltuvuus 3. Palvelun kustannukset Toiminta-alusta (Microsoft Azure Hortonworks Hadoop) Monipuolinen, monistettava harjoitusympäristö 18
Koulutusohjelman suunnittelu (15 op) Lähiopetus Itseopiskelu Harjoitukset Osa-alueet: 1. Big data- ja analytiikkasovellukset yleisellä tasolla 2. Tärkeimmät prosessit 3. Palveluntarjoajat 4. Sovellusalueet 5. Palveluiden testaus käytännössä (Hortonworks, Azure HDP hiekkalaatikko ja HDInsight ja Azure Machine Learning Studio) 19
Koulutuskokonaisuuden alustava sisältö 1/3 Tavoitteet Koulutuksen jälkeen osallistujat: tietävät mitä big data on oppivat pilvipalveluiden perusteet, palveluiden kehittymisen ja tulevaisuuden haasteet tuntevat pilvipalvelumallit ja palvelut ymmärtävät virtualisoinnin merkityksen pilvipalveluiden taustalla osaavat käyttää tavallisimpia julkisen pilven palveluita ymmärtävät tietoturvan ja käytettävyyden merkityksen osaavat kuvata ja analysoida pilvipalveluiden ja big data -analytiikan välisisiä suhteita tuntevat big data -ekosysteemit ml. Hadoop- ja Spark -alustat osaavat valmistella palvelualustan pilveen osaavat rakentaa ja käyttää pilvessä olevia analytiikkasovelluksia. 20
Koulutuskokonaisuuden alustava sisältö 2/3 1. Big data -johdanto Mitä big data on? Big datan kolme V:tä Datan muodot ja määrän kasvu Big datan merkitys ja vaikutukset Sovellusalueet ja ratkaisumallit. 2. Pilvipalvelut ja palvelualustat Mitä ovat pilvipalvelut? Pilvipalveluiden historia Palvelumallit Palveluiden jaottelu: Iaas, PaaS, SaaS Virtualisointi Tietoturvan perusteet Pilvisovellukset Julkisen pilven palveluntarjoajat: Amazon, Azure, Google Muita toimijoita Amazon-, Azure- ja Google -demonstraatiot. 3. Big data -analytiikka Datan lähteet Datan keräys ja hankinta Datan muokkaus ja tallennus Datan analysointi Big data -ekosysteemit Hadoop-sovelluskehys Pig, Hive, Spark Hadoop-demonstraatio (HDP/Ambari) Harjoitus: Hadoop-YARN-MapReduce-Hive-Pig (SSH) Harjoitus: Hadoop-YARN-MapReduce-Hive-Pig (HDP/Ambari). Harjoitustyö: Paikallisen Hortonworks Hadoop -ympäristön luonti 21
Koulutuskokonaisuuden alustava sisältö 3/3 4. Big data -analytiikka pilvipalvelualustoilla Suosituimmat julkisen pilven palveluntarjoajat (Amazon, Microsoft, Google) Muut toimijat Big data -analytiikan pilvialustat: Amazon EMR, Azure HDInsight ja Google Dataproc Amazon EMR-, Azure HDInsight- ja Google Dataproc -demonstraatio Harjoitus: Azure HDInsight -ympäristön rakentaminen Harjoitus: Azure Hortonworks/HDInsight: Hadoop-YARN-MapReduce-Hive-Pig (SSH) Harjoitus: Azure Hortonworks/HDInsight: Hadoop-YARN-MapReduce-Hive-Pig (Ambari). 5. Big data -sovellukset Analytiikka Tiedonlouhinta Koneoppiminen Harjoitus: Azure Machine Learning -ympäristön rakentaminen Harjoitus: Azure Machine Learning. 22
Kiitos Kysymyksiä? 23
Viitteet [1] Thampi, G. An Empirical Analysis of Hype-cycle: A Case Study of Cloud Computing Technologies. International Journal of Advanced Research in Computer and Communication Engineering Vol. 4, Issue 10, October 2015 [2] TEPA Sanastokeskus TSK:n termipankki. <http://www.tsk.fi/tepa/netmot.exe?ui=figr&height=161> [3] Hogan, M. et al. NIST Cloud Computing Standards Roadmap. Cloud Computing Standards Roadmap Working Group. 2011 [4] Cavallines, J. et al. New Horizons for a Data-Driven Economy. SpringerLink. 2016. ISBN 978-3-319-21568-6 [5] Magic Quadrant for Cloud Infrastructure as a Service, Worldwide. <https://www.gartner.com/doc/reprints?id=1-2g2o5fc&ct=150519> 24