Tapaustutkimus big data -analytiikkakoulutuksen suunnittelusta

Samankaltaiset tiedostot
GIS-arkkitehtuurit. Lassi Lehto,

SAS & Cloud Computing. antti.hiltunen@sas.com

IoT-platformien vertailu ja valinta erilaisiin sovelluksiin / Jarkko Paavola

Pilivipalavelut Cloud Business 2012 Parempaa paikallista pilveä

Ivorion missio. Ivorio on Suomen johtava riippumaton big data asiantuntija. Autamme asiakkaitamme selvitymään tiedon vallankumouksesta voittajina.

Järjestelmäarkkitehtuuri (TK081702) Pilvipalvelut. Pilvipalvelut - lähtökohtia

IBM Iptorin pilven reunalla

JHS 179 Kokonaisarkkitehtuurin suunnittelu ja kehittäminen Liite 9. Virtualisointi ja pilvipalvelut teknologia-arkkitehtuurin suunnittelussa

Amazon Web Services (AWS) on varmaankin maailman suosituin IaaS-tarjoaja. Lisäksi se tarjoaa erilaisia PaaS-kategoriaan kuuluvia palveluita.

Pilvi mitä, miksi ja miten

Mennäänkö pilveen? Klo 08-10

Miten pilvipalvelut sopivat teidän organisaationne tarpeisiin? Case-esimerkki: M-Files; verkkolevykaaoksesta tehokkaaseen tiedonhallintaan

Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Lyhyesti uusista DI-ohjelmista Isohenkilökoulutus to Opintoasianpäällikkö Mari Knuuttila

TkK-tutkielmat

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Aalto-yliopiston verkkopalveluiden arkkitehtuuri

Pilvipalvelujen tietoturvasta

Asiakaskohtaisesta varmistuspalvelusta pilvivarmistamiseen. Pasi Haatanen

Digitalisaatio oppimisen maailmassa. Tommi Lehmusto Digital Advisor Microsoft Services

Mobiilin ekosysteemin muutos - kuoleeko tietoturva pilveen?

ACCOUNTOR ICT Digitaalinen työympäristö Markkinatutkimus joulukuu 2018

Pilvilaskennan perusteet ja sanasto (ISO/IEC 17788) sekä jatkotyöstö. SFS SR-310 Pasi Mäkinen, Open Source Lead, Microsoft

Sopimusten Verkkopankki

Käytettävyyslaatumallin rakentaminen web-sivustolle. Oulun yliopisto tietojenkäsittelytieteiden laitos pro gradu -suunnitelma Timo Laapotti 28.9.

TSSH-HEnet : Kansainvälistyvä opetussuunnitelma. CASE4: International Master s Degree Programme in Information Technology

pilvipalvelu tarkoittaa?

Kahden virtualisointiohjelmiston suorituskyvyn testaus (valmiin työn esittely)

Sähkötekniikan tutkintoohjelma. DI-tutkinto ja uranäkymät

Mammutti vai elefantti?

Oulu D.C. kapasiteettipalveluita oululaiseen ekosysteemiin

WEBINAARI CLOUD SOFTWARE SRA- esi;ely

Rajattomat tietoverkot ja niiden rooli pilvipalveluissa. Jukka Nurmi Teknologiajohtaja Cisco Finland

Digikoulu Pilviteknologiat - Tunti 1001: Tiedon varastointi Amazon Simple Storage Service (Amazon S3) palveluun

Uusi vuosikymmen: vanhat haasteet, uudet välineet. Pekka Järvinen teknologiajohtaja Enfo

ANVIA PILVI. kotimaisia pilvipalveluita yrityksille 24/7

Mikä on suomalaisille organisaatioille nyt IN pilvipalveluissa?

Tutkinnonuudistus ja uudet DI-ohjelmat Master s Programme in Information Networks

Aalto-yliopiston sähkötekniikan korkeakoulu Korvaavuusluettelo

Sonera perustaa Helsinkiin Suomen suurimman avoimen datakeskuksen. #SoneraB2D

Internet of Things. Käänteentekeviä innovaatioita ja uusia liiketoimintamahdollisuuksia. Pekka Pykäläinen, Product & Solutions Manager Microsoft Oy

Osoitteena O365. Toimisto ja yhteydet pilvestä

Tutkinnonuudistus ja uudet DI-ohjelmat / Teknillinen fysiikka ja matematiikka. Infotilaisuus

Toiminnanohjaus ja tiedolla johtaminen tänään ja tulevaisuudessa

Aalto-yliopiston sähkötekniikan korkeakoulu Korvaavuusluettelo

Kestävä kehitys, vastuullisuus. Työryhmän kokous 26.10

KYMENLAAKSON AMMATTIKORKEAKOULU Tietotekniikan koulutusohjelma / Tietoverkkotekniikka

Mika Seitsonen Executive Consultant Marika Kotola Customer Executive

Pilvipalveluiden arvioinnin haasteet

Ficolo Oy COLOCATION - KONESALI-PALVELUT - (PILVI)PALVELUALUSTAT

DataLake-hanke - AWS , tietohallinto, Matti Valli, Pasi Porkka

Tukea projekteille: IT-järjestelmät ja -työkalut

Web-palvelut ja niihin kohdistuneiden poikkeavuuksien tunnistamisen. Harri Mäkelä

SFS/SR315 Tekoäly Tekoälyn standardisointi

Aalto-yliopiston sähkötekniikan korkeakoulu Korvaavuusluettelo

Azuren yleiskatsaus. eli mistä on kyse ja miten vertautuu esim. AWS:ään. AWS User Group Helsinki, Petri Raitio, Sulava Oy

Kumppaniratkaisu. M-Files Cloud Vault Dokumenttien hallinta on helppoa. Paranna tietotyön tehokkuutta ja laatua!

Aalto-yliopiston sähkötekniikan korkeakoulu Korvaavuusluettelo

Jarmo Suomisto / Helsinki Kaupunkisuunnitteluvirasto

Tuunix Oy Jukka Hautakorpi

Uuden sukupolven soteratkaisut

Virtualisoi viisaasti paranna palvelua. Iikka Taanila Systems Architect IBM Systems and Technology Group

Ryhmäharjoitus I: Google Drive. TIEY4 Tietotekniikkataidot, kevät 2017 Tehdään ryhmäharjoitustunnilla 13.3.

Älykäs ja turvallinen pilvi

Sulautettu tietotekniikka Kimmo Ahola

Juha Karppinen liiketoimintajohta palvelinohjelmistot Microsoft Oy. Millaisiin ratkaisuihin pilvipalvelut soveltuvat?

Power BI Tech Conference Power BI. #TechConfFI. Johdanto

Suoritustavat: Laboratoriotöitä 2.-3.periodi. Luennot 2h, Laboratorityöt 4h, itsenäinen työskentely 124 h. Yhteensä 130 h.

TIETOJÄRJESTELMIEN AMMATILLISET ERIKOISTUMISOPINNOT (30 op)

PLAY. TP1 Mobiili musiikkikasvatusteknologia MEDIAT Kuvan ja äänen tallentaminen, muokkaaminen ja jakaminen (v1.1)

ANVIA PILVI. kotimaisia pilvipalveluita yrityksille 24/7

Alustatalous liiketoimintatapojen uusi malli

KODAK EIM & RIM VIParchive Ratkaisut

WP5: Järjestelmäintegraatio. Ilkka Tikanmäki ja Ville Roisko

Tiedon analysoinnista pitkäaikaissäilytykseen

Teemu Kerola Orientointi Syksy 2018

Konesali ilman rajoja Kongressi A

Tosi elävä virtuaalimalli Mika Karaila Tutkimuspäällikkö Valmet Automation

Mistä on kyse ja mitä hyötyä ne tuovat?

Loikkaa turvallisesti pilveen

Case Otaniemi. Eetu Ristaniemi

Internet of Things. Ideasta palveluksi

SAP alustat ja Live Patching

HS ipad kokemukset mitä seuraavaksi

Käyttöjärjestelmät. 1pJÄKÄ1 KÄYTTÖJÄRJESTELMÄN HALLINTA, 12 OSP

Kaikki analogiset järjestelmät digitaalisiksi ja verkkokäyttöisiksi - jo tänään Kustannustekkuutta ja joustavuutta työskentelyyn

Sulautettu tietotekniikka Ubiquitous Real World Real Time for First Lives

Analytiikan teknologiset trendit ja uudet mahdollisuudet HR:lle. Heikki Penttinen, OlapCon Oy

Julkisen hallinnon linjaukset tiedon sijainnista ja hallinnasta. Yhteenveto. Taustaa linjauksille. Linjausten tavoitteet. Lausunto

Moderni käyttäjähallinta oppilaitosympäristössä. Korkeakoulujen IT-päivät Petri Karppinen

Alkuraportti. LAPPEENRANNAN TEKNILLINEN YLIOPISTO TIETOJENKÄSITTELYN LAITOS Ti Kandidaatintyö ja seminaari

Pilvipalvelut kehityksen mahdollistajana - (valmistavan PK-yrityksen näkökulmaa)

Julkisen hallinnon linjaukset tiedon sijainnista hallinnasta Pauli Kartano

Open Data Tampere Region Kickoff Avoimen datan käyttömahdollisuudet liikenteessä

Sähköisen liiketoiminnan tason mittaaminen pk-yrityksissä (aihe-esittely)

Pertti Pennanen DOKUMENTTI 1 (5) EDUPOLI ICTPro

Selkokielinen ohjeistus Microsofthankintatavoista

10:30 Tauko. 12:00 Lopetus. Yhteistyössä:

Automaatiojärjestelmän hankinnassa huomioitavat tietoturva-asiat

Mitä Piilaaksossa & globaalisti tapahtuu ja mitä Tekes voi tarjota yrityksille

Transkriptio:

Tapaustutkimus big data -analytiikkakoulutuksen suunnittelusta Milla Järvi Aalto-yliopisto Sähkötekniikan korkeakoulu Valvoja: Prof. Heikki Hämmäinen Ohjaaja: TkL Janne Salonen

Sisällysluettelo Motivaatio Tutkimuskysymykset Rajaus ja tutkimusmenetelmät Teoreettinen tausta Pilvipalvelualustat Big data -palvelualustat Palvelualustojen valinnan kriteerit ja valinta Koulutusohjelman suunnittelu Kysymyksiä 2

Motivaatio 1/2 Gartnerin innostuskäyrä [1] 3

Motivaatio 2/2 Päämääränä kehittää opintokokonaisuus big data -ympäristöön käyttäen pilvipalveluita. Harjoitusympäristö tulee olla muokattavissa tarpeen mukaan erilaisiin ympäristöihin joustava ja sopiva kohderyhmälle. Lopputuloksesta ehdotelma opintokokonaisuudeksi 4

Tutkimuskysymykset Mitkä pilvipohjaiset palvelut ja ratkaisut soveltuvat parhaiten käytännön suoritusalustoiksi? Mitä ovat big data -analytiikan sovellukset ja mitä niiden piirteitä huomioidaan mietittäessä uutta opintokokonaisuutta? Miten työn tuloksia voidaan käyttää koulutusohjelman suunnittelussa? 5

Tutkimuksen rajaus ja tutkimusmenetelmät Julkiset pilvipalveluympäristöt Isot helposti saatavilla olevat big data -toimijat Kirjallisuustutkimus Tapaustutkimus Laadullinen vertailututkimus Hermeneuttinen tieteenkäsitys Korostaa tulkinnan, merkityksen, historian ja ymmärtämisen käsitteitä 6

Teoreettinen tausta 1/2 Big datan ja pilvipalveluiden määrittely Pilvipalvelut hajautettu verkkopalvelu, jossa tietokoneita, ohjelmia, tallennustilaa ja muita tietoteknisiä palveluja käytetään verkon kautta Cloud computing is a model for enabling ubiquitous, convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction [2, 3] 7

Teoreettinen tausta 2/2 Big datan ja pilvipalveluiden määrittely Big data -prosessit [4] 8

Pilvipalvelualustojen rajaus IaaS-Palveluntarjoajien ja -palveluiden sijoittuminen Gartnerin Magic Quadratnelikenttään [5] 9

Pilvipalvelualustat Amazon Web Services (AWS) pilvipalvelukehys Microsoft Azure -julkinen pilvipalvelu Google Cloud Platform -pilvipalveluympäristö Lisäksi avoin ympäristö (Hortonworks) 10

Pilvipalveluiden vertailu 1/2 11

Pilvipalveluiden vertailu 2/2 12

Pilvipalveluiden kokeilutilien hinnoittelu 13

Big data -palvelualustojen vertailu 1/4 Amazon AWS: Amazon EMR Paketoitu ratkaisu Hadoop- ja Spark -prosessien suorittamiseen, kokeilu rajattiin Hadoopiin Automaattinen skaalautuminen ja nopea vaste kuormituksen muuttuessa Rajoitettu käyttö selaimella, operointi konsolilla Kokeilutili ei kata kaikkea EMR-käyttöä, laskutus käynnistyy välittömästi 14

Big data -palvelualustojen vertailu 2/4 Microsoft Azure Hortonworks Data Platform -ympäristö (HDP) Sisältää Hortonworks Hadoop -hiekkalaatikon ja -sovelluskehyksen Käyttö selainpohjaisen Ambarin tai SSH:n välityksellä Ei sisällä kaikkia HDP-toimintoja Microsoft Azure HDInsight Täydellinen HDP-rypäs Käyttö selainpohjaisen Ambarin tai SSH:n välityksellä Suoraviivainen, yhdenmukainen hallintanäkymä muiden Microsoft-tuotteiden kanssa 15

Big data -palvelualustojen vertailu 3/4 Google Dataproc Käyttö selaimella, API-rajapinnoilta ohjelmallisesti tai SSH:n välityksellä Yksinkertaistettu käyttöliittymä 16

Big data -palvelualustojen vertailu 4/4 Paikallinen Hadoop-asennus Linuxkäyttöjärjestelmään Hortonworks Hadoop Data Platform virtualisoidussa ympäristössä (VirtualBox) 17

Palvelualustan valinnan kriteerit ja valinta 1. Käytettävyys 2. Soveltuvuus 3. Palvelun kustannukset Toiminta-alusta (Microsoft Azure Hortonworks Hadoop) Monipuolinen, monistettava harjoitusympäristö 18

Koulutusohjelman suunnittelu (15 op) Lähiopetus Itseopiskelu Harjoitukset Osa-alueet: 1. Big data- ja analytiikkasovellukset yleisellä tasolla 2. Tärkeimmät prosessit 3. Palveluntarjoajat 4. Sovellusalueet 5. Palveluiden testaus käytännössä (Hortonworks, Azure HDP hiekkalaatikko ja HDInsight ja Azure Machine Learning Studio) 19

Koulutuskokonaisuuden alustava sisältö 1/3 Tavoitteet Koulutuksen jälkeen osallistujat: tietävät mitä big data on oppivat pilvipalveluiden perusteet, palveluiden kehittymisen ja tulevaisuuden haasteet tuntevat pilvipalvelumallit ja palvelut ymmärtävät virtualisoinnin merkityksen pilvipalveluiden taustalla osaavat käyttää tavallisimpia julkisen pilven palveluita ymmärtävät tietoturvan ja käytettävyyden merkityksen osaavat kuvata ja analysoida pilvipalveluiden ja big data -analytiikan välisisiä suhteita tuntevat big data -ekosysteemit ml. Hadoop- ja Spark -alustat osaavat valmistella palvelualustan pilveen osaavat rakentaa ja käyttää pilvessä olevia analytiikkasovelluksia. 20

Koulutuskokonaisuuden alustava sisältö 2/3 1. Big data -johdanto Mitä big data on? Big datan kolme V:tä Datan muodot ja määrän kasvu Big datan merkitys ja vaikutukset Sovellusalueet ja ratkaisumallit. 2. Pilvipalvelut ja palvelualustat Mitä ovat pilvipalvelut? Pilvipalveluiden historia Palvelumallit Palveluiden jaottelu: Iaas, PaaS, SaaS Virtualisointi Tietoturvan perusteet Pilvisovellukset Julkisen pilven palveluntarjoajat: Amazon, Azure, Google Muita toimijoita Amazon-, Azure- ja Google -demonstraatiot. 3. Big data -analytiikka Datan lähteet Datan keräys ja hankinta Datan muokkaus ja tallennus Datan analysointi Big data -ekosysteemit Hadoop-sovelluskehys Pig, Hive, Spark Hadoop-demonstraatio (HDP/Ambari) Harjoitus: Hadoop-YARN-MapReduce-Hive-Pig (SSH) Harjoitus: Hadoop-YARN-MapReduce-Hive-Pig (HDP/Ambari). Harjoitustyö: Paikallisen Hortonworks Hadoop -ympäristön luonti 21

Koulutuskokonaisuuden alustava sisältö 3/3 4. Big data -analytiikka pilvipalvelualustoilla Suosituimmat julkisen pilven palveluntarjoajat (Amazon, Microsoft, Google) Muut toimijat Big data -analytiikan pilvialustat: Amazon EMR, Azure HDInsight ja Google Dataproc Amazon EMR-, Azure HDInsight- ja Google Dataproc -demonstraatio Harjoitus: Azure HDInsight -ympäristön rakentaminen Harjoitus: Azure Hortonworks/HDInsight: Hadoop-YARN-MapReduce-Hive-Pig (SSH) Harjoitus: Azure Hortonworks/HDInsight: Hadoop-YARN-MapReduce-Hive-Pig (Ambari). 5. Big data -sovellukset Analytiikka Tiedonlouhinta Koneoppiminen Harjoitus: Azure Machine Learning -ympäristön rakentaminen Harjoitus: Azure Machine Learning. 22

Kiitos Kysymyksiä? 23

Viitteet [1] Thampi, G. An Empirical Analysis of Hype-cycle: A Case Study of Cloud Computing Technologies. International Journal of Advanced Research in Computer and Communication Engineering Vol. 4, Issue 10, October 2015 [2] TEPA Sanastokeskus TSK:n termipankki. <http://www.tsk.fi/tepa/netmot.exe?ui=figr&height=161> [3] Hogan, M. et al. NIST Cloud Computing Standards Roadmap. Cloud Computing Standards Roadmap Working Group. 2011 [4] Cavallines, J. et al. New Horizons for a Data-Driven Economy. SpringerLink. 2016. ISBN 978-3-319-21568-6 [5] Magic Quadrant for Cloud Infrastructure as a Service, Worldwide. <https://www.gartner.com/doc/reprints?id=1-2g2o5fc&ct=150519> 24