Algorithms and Systems on big data management

Samankaltaiset tiedostot
Seminar on big data management

Efficiency change over time

7.4 Variability management

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

7. Product-line architectures

Mammutti vai elefantti?

Informaatioteknologia vaikuttaa ihmisten käyttäytymiseen ja asenteisiin

HITSAUKSEN TUOTTAVUUSRATKAISUT

Perinteisesti käytettävät tiedon (datan) tyypit

Windows Phone. Module Descriptions. Opiframe Oy puh Espoo

Information on preparing Presentation

SOA SIG SOA Tuotetoimittajan näkökulma

Capacity Utilization

WP3 Decision Support Technologies

Enterprise Architecture TJTSE Yrityksen kokonaisarkkitehtuuri

Collaborative & Co-Creative Design in the Semogen -projects

BDD (behavior-driven development) suunnittelumenetelmän käyttö open source projektissa, case: SpecFlow/.NET.

Technische Daten Technical data Tekniset tiedot Hawker perfect plus

Making diversity manageable. Miradore. Käytännön kokemuksia rahoituksen hakemisesta. Tiistai Technopolis Vapaudenaukio / Lappeenranta

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Bachelor level exams by date in Otaniemi

TIEKE Verkottaja Service Tools for electronic data interchange utilizers. Heikki Laaksamo

Bachelor level exams by subject in Otaniemi

Data Quality Master Data Management

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Ohjelmien kehittämisstudiot varmistavat laadukkaat ja linjakkaat maisteriohjelmat Maire Syrjäkari ja Riikka Rissanen

Office 2013 ja SQL Server 2012 SP1 uudet BI toiminnallisuudet Marko Somppi/Invenco Oy

ProAgria. Opportunities For Success

Atostek. KanTa-konseptin tuotteistaminen ja vienti ulkomaille

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

Julkaisun laji Opinnäytetyö. Sivumäärä 43

Ylläpitäjät, järjestelmäarkkitehdit ja muut, jotka huolehtivat VMwareinfrastruktuurin

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

KOMPETENSSIT. Koulutus Opiskelija Tuuttori. Business Information Technologies. NQF, Taso 6 - edellyttävä osaaminen

TietoEnator Pilot. Ari Hirvonen. TietoEnator Oyj. Senior Consultant, Ph. D. (Economics) presentation TietoEnator 2003 Page 1

Arkkitehtuuritietoisku. eli mitä aina olet halunnut tietää arkkitehtuureista, muttet ole uskaltanut kysyä

Master's Programme in Life Science Technologies (LifeTech) Prof. Juho Rousu Director of the Life Science Technologies programme 3.1.

WAMS 2010,Ylivieska Monitoring service of energy efficiency in housing Jan Nyman,

DIGITAL MARKETING LANDSCAPE. Maatalous-metsätieteellinen tiedekunta

Infrastruktuurin asemoituminen kansalliseen ja kansainväliseen kenttään Outi Ala-Honkola Tiedeasiantuntija

Tietojenkäsittelytieteiden koulutusohjelma. Tietojenkäsittelytieteiden laitos Department of Information Processing Science

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto

Innovative and responsible public procurement Urban Agenda kumppanuusryhmä. public-procurement

Esitykset jaetaan tilaisuuden jälkeen, saat linkin sähköpostiisi. Toivottavasti vastaat myös muutamaan kysymykseen tapahtumasta Have a lot of fun!

Helsinki Metropolitan Area Council

Miten Hadoopista tuli helppoa? Jarno Lindqvist Principal Advisor SAS

Ostamisen muutos muutti myynnin. Technopolis Business Breakfast

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site

Sisällysluettelo Table of contents

toukokuu 2011: Lukion kokeiden kehittämistyöryhmien suunnittelukokous

BOARD PROGRAM Hallitusohjelma

LIIKETOIMINNAN JATKUVUUDEN VARMISTAVAT PALVELURATKAISUT Simo Leisti Myyntijohtaja, IBM teknologiapalvelut

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

Security server v6 installation requirements

FYSE301(Elektroniikka(1(A3osa,(kevät(2013(

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

Big data Lasse Seppänen

Genome 373: Genomic Informatics. Professors Elhanan Borenstein and Jay Shendure

Automaatiojärjestelmän hankinnassa huomioitavat tietoturva-asiat

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

Security server v6 installation requirements

Älykkäämpi päätelaitteiden hallinta Juha Tujula, CTO, Enfo Oyj IBM Corporation

Improving advisory services through technology. Challenges for agricultural advisory after 2020 Jussi Juhola Warsaw,

VÄRE premises Sari Dhima

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

Tapaustutkimus big data -analytiikkakoulutuksen suunnittelusta

Skene. Games Refueled. Muokkaa perustyyl. for Health, Kuopio

TIETEEN PÄIVÄT OULUSSA

Statistical design. Tuomas Selander

Results on the new polydrug use questions in the Finnish TDI data

Konetekniikan koulutusohjelman opintojaksomuutokset

OUGF syysseminaari Back to Basics

Rakentamisen 3D-mallit hyötykäyttöön

SFS/SR315 Tekoäly Tekoälyn standardisointi

Nopeutta ja Sulavuutta Analytiikkaan

IBM Iptorin pilven reunalla

Other approaches to restrict multipliers

Tietojenkäsittelyn historiaa

Kurssin koodi ja nimi Ryhmä Päivä Aika Sali Viikot Henkilöt Course code and name Group Day Time Lecture Weeks Course staff

RANTALA SARI: Sairaanhoitajan eettisten ohjeiden tunnettavuus ja niiden käyttö hoitotyön tukena sisätautien vuodeosastolla

Reliable sensors for industrial internet

Korkeakoulujen tietohallinto ja tutkimus: kumpi ohjaa kumpaa?

Tutkimusdata ja julkaiseminen Suomen Akatemian ja EU:n H2020 projekteissa

Making use of BIM in energy management

AYYE 9/ HOUSING POLICY

PYÖRÄILY OSANA HELSINGIN SEUDUN KESTÄVÄÄ KAUPUNKILIIKENNETTÄ

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

Use of spatial data in the new production environment and in a data warehouse

Käytön avoimuus ja datanhallintasuunnitelma. Open access and data policy. Teppo Häyrynen Tiedeasiantuntija / Science Adviser

Ivorion missio. Ivorio on Suomen johtava riippumaton big data asiantuntija. Autamme asiakkaitamme selvitymään tiedon vallankumouksesta voittajina.

Tietokonearkkitehtuuri 2 TKT-3201 (5 op)

FROM VISION TO CRITERIA: PLANNING SUSTAINABLE TOURISM DESTINATIONS Case Ylläs Lapland

Power BI Tech Conference Power BI. #TechConfFI. Johdanto

Lab A1.FARM_Hyper-V.v3

Tarua vai totta: sähkön vähittäismarkkina ei toimi? Satu Viljainen Professori, sähkömarkkinat

Millainen on viihtyisä kaupunki ja miten sitä mitataan?

Helsinki Region Infoshare 2013

LYTH-CONS CONSISTENCY TRANSMITTER

Transkriptio:

Algorithms and Systems on big data management Lecturer: Fall 2016 24.2.2017 1

We are in the era of big data Lots of data is being collected Web data, e-commerce Bank/Credit Card transactions Social Network Scientific data 24.2.2017 2

Data sizes Byte (B) Kilobyte (KB) Megabyte (MB) Gigabyte (GB) Terabyte (TB) Petabyte (PB) Exabyte (EB) Zettabyte (ZB) Yottabyte (YB) 24.2.2017 3

How much data? Google processes 100 PB a day, 3 millions servers Facebook has 300 PB of user data + 500 TB/day Youtube has 1000 PB video storage SMS messages 6.1 TB per year US Credit card: 1.4B cards, 20B transaction/year In 2009, total data is about 1ZB, in 2020, it is estimated to be 35ZB.

Type of Data Relational Data (Tables/Transaction/Legacy Data) Text Data (Web) Image data, audio data, video data Graph Data Social Network, Semantic Web (RDF), XML and JSON data

Four V s 24.2.2017 6

Watch two videos about big data What is big data https://www.youtube.com/watch?v=plajssetgk4 Explaining big data https://www.youtube.com/watch?v=dx7kit8jkjo Henkilön nimi / Esityksen nimi 24.2.2017 7

Outline About the course Practical information and requirement Course topics Our schedule Henkilön nimi / Esityksen nimi 24.2.2017 8

At the end of the course You should be able to tell what these terms stand for! And more Hadoop Mapreduce Bigtable Henkilön nimi / Esityksen nimi 24.2.2017 9

After this course Students are expected to Select a data model to suit the characteristics of your data; Understand sketch techniques to handle streaming data, including Count-Min, Count- Sketch and FM Sketch; Understand GFS, MapReduce and Bigtable technology Hands-on experience on Hadoop MapReduce Henkilön nimi / Esityksen nimi 24.2.2017 10

Workflow of this course Exercise 1 Exercise 2 Exercise 3 (one programming task) 15 November 29 November 13 December Study group 1 Study group 2 Final Examination 9 November 23 November Henkilön nimi / Esityksen nimi 24.2.2017 11

Topics of this course Introduction to big data and data models (2 weeks) NoSQL databases (1 week) Sketches algorithms (2 weeks) GFS, Mapreduce and Bigtable (2 weeks) Henkilön nimi / Esityksen nimi 24.2.2017 12

Introduction to big data engineering Five steps in Big data engineering 1. Acquire data 2. Prepare data 3. Analyze data 4. Report data 5. Act 24.2.2017 13

Step 1 Acquire data Identify data set Retrieve data or buy data 24.2.2017 14

Step 2. Prepare data 2.1 Explore data Understand the nature of data Preliminary analysis 2.2 Preprocess data Clean, integrate and package 24.2.2017 15

Step 3. Analyze data Select analytical techniques Build model 24.2.2017 16

Step 4. Communication results Visualization and summary 24.2.2017 17

Step 5. Apply results The above five steps are iterative process 24.2.2017 18

Key technical challenges for big data 1. Enable scalability Commodity hardware is cheap 2. Handle fault tolerance Be ready, crashes happen 3. Optimize performance 4. Provide values 24.2.2017 19

What is Hadoop? Apache top level project, open-source implementation of frameworks for reliable, scalable, distributed computing and data storage.

Hadoop s Developers 2005: Doug Cutting and Michael J. Cafarella developed Hadoop to support distribution for the Nutch search engine project. The project was funded by Yahoo. 2006: Yahoo gave the project to Apache Software Foundation.

Google Origins 2003 2004 2006

Some Hadoop Milestones 2008 - Hadoop Wins Terabyte Sort Benchmark (sorted 1 terabyte of data in 209 seconds, compared to previous record of 297 seconds) 2010 - Hadoop's Hbase, Hive and Pig subprojects completed, adding more computational power to Hadoop framework 2013 - Hadoop 1.1.2 and Hadoop 2.0.3 alpha. - Ambari, Cassandra, Mahout have been added 2016 - Hadoop 3.0.0 Alpha-1

24.2.2017 24

Hadoop File System Hadoop File System was developed using distributed file system design. It is run on commodity hardware. Unlike other distributed systems, HDFS is highly fault tolerant and designed using low-cost hardware. 24.2.2017 25

YARN YARN is the architectural center of Hadoop that allows multiple data processing engines such as interactive SQL, real-time streaming, data science and batch processing to handle data stored in a single platform. 24.2.2017 26

Apache HBase Apache HBase is the Hadoop database, a distributed, scalable, big data store. 24.2.2017 27

Apache Mahout The Apache Mahout project's goal is to build an environment for quickly creating scalable performant machine learning applications. 24.2.2017 28

Apache Pig Apache Pig is a platform for analyzing large data sets that consists of a highlevel language for expressing data analysis programs, coupled with infrastructure for evaluating these programs. 24.2.2017 29

Apache Hive The Apache Hive data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. 24.2.2017 30

Apache Spark Apache Spark is a fast and general engine for large-scale data processing. 24.2.2017 31

Oozie Oozie is a workflow scheduler system to manage Apache Hadoop jobs. Oozie Workflow jobs are Directed Acyclical Graphs (DAGs) of actions. 24.2.2017 32

ZooKeeper ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services. 24.2.2017 33

Apache Sqoop Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases. 24.2.2017 34

Apache Storm Apache Storm adds reliable real-time data processing capabilities to Enterprise Hadoop. Storm on YARN is powerful for scenarios requiring real-time analytics, machine learning and continuous monitoring of operations. 24.2.2017 35

Apache Ambari The Apache Ambari project is aimed at making Hadoop management simpler by developing software for provisioning, managing, and monitoring Apache Hadoop clusters. 24.2.2017 36

Wrap-up We are in the era of big data 4Vs of Big data: Volume, Variety, Velocity and Veracity There are five steps in big data engineering, including Acquire data, Prepare data, Analyze data, Report data and Act Hadoop is an open-source implementation of frameworks for reliable, scalable, distributed computing and big data storage. 24.2.2017 37