Seminar on big data management

Samankaltaiset tiedostot
Information on preparing Presentation

Algorithms and Systems on big data management

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Uusi Ajatus Löytyy Luonnosta 4 (käsikirja) (Finnish Edition)

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

TU-C2030 Operations Management Project. Introduction lecture November 2nd, 2016 Lotta Lundell, Rinna Toikka, Timo Seppälä

Choose Finland-Helsinki Valitse Finland-Helsinki

anna minun kertoa let me tell you

Security server v6 installation requirements

Skene. Games Refueled. Muokkaa perustyyl. for Health, Kuopio

Capacity Utilization

Sisällysluettelo Table of contents

Security server v6 installation requirements

1. Liikkuvat määreet

FinFamily Installation and importing data ( ) FinFamily Asennus / Installation

TIETEEN PÄIVÄT OULUSSA

AYYE 9/ HOUSING POLICY

Windows Phone. Module Descriptions. Opiframe Oy puh Espoo

PYÖRÄILY OSANA HELSINGIN SEUDUN KESTÄVÄÄ KAUPUNKILIIKENNETTÄ

You can check above like this: Start->Control Panel->Programs->find if Microsoft Lync or Microsoft Lync Attendeed is listed

Results on the new polydrug use questions in the Finnish TDI data

1.3 Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

Perinteisesti käytettävät tiedon (datan) tyypit

TIEKE Verkottaja Service Tools for electronic data interchange utilizers. Heikki Laaksamo

Statistical design. Tuomas Selander

Lab SBS3.FARM_Hyper-V - Navigating a SharePoint site

LANSEERAUS LÄHESTYY AIKATAULU OMINAISUUDET. Sähköinen jäsenkortti. Yksinkertainen tapa lähettää viestejä jäsenille

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

7.4 Variability management

Efficiency change over time

SELL Student Games kansainvälinen opiskelijaurheilutapahtuma

1. SIT. The handler and dog stop with the dog sitting at heel. When the dog is sitting, the handler cues the dog to heel forward.

Collaborative & Co-Creative Design in the Semogen -projects

Other approaches to restrict multipliers

Asuntoreformi 2018

toukokuu 2011: Lukion kokeiden kehittämistyöryhmien suunnittelukokous

Master's Programme in Life Science Technologies (LifeTech) Prof. Juho Rousu Director of the Life Science Technologies programme 3.1.

OP1. PreDP StudyPlan

Gap-filling methods for CH 4 data

koiran omistajille ja kasvattajille 2013 for dog owners and breeders in 2013

Aalto Service Factory

Opiskelijat valtaan! TOPIC MASTER menetelmä lukion englannin opetuksessa. Tuija Kae, englannin kielen lehtori Sotungin lukio ja etälukio

WindPRO version joulu 2012 Printed/Page :47 / 1. SHADOW - Main Result

Data Quality Master Data Management

Office 2013 ja SQL Server 2012 SP1 uudet BI toiminnallisuudet Marko Somppi/Invenco Oy

Expression of interest

make and make and make ThinkMath 2017

BLOCKCHAINS AND ODR: SMART CONTRACTS AS AN ALTERNATIVE TO ENFORCEMENT

Tutkimusdata ja julkaiseminen Suomen Akatemian ja EU:n H2020 projekteissa

Tietojenkäsittelyn historiaa

MEETING PEOPLE COMMUNICATIVE QUESTIONS

EU DIGITAL EUROPE MITEN SAAMME NOPEUTETTUA TAVOITELTUA MUUTOSTA? CSC Markku Markkula COR RAPPORTEUR ON DIGITAL EUROPE

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

Cloud, Convergence, Ubiquity ja muita uudissanoja - ICT toimialan näkymät 2011

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

Julkaisun laji Opinnäytetyö. Sivumäärä 43

Nuku hyvin, pieni susi -????????????,?????????????????. Kaksikielinen satukirja (suomi - venäjä) ( (Finnish Edition)

Infrastruktuurin asemoituminen kansalliseen ja kansainväliseen kenttään Outi Ala-Honkola Tiedeasiantuntija

Käytön avoimuus ja datanhallintasuunnitelma. Open access and data policy. Teppo Häyrynen Tiedeasiantuntija / Science Adviser

Voice Over LTE (VoLTE) By Miikka Poikselkä;Harri Holma;Jukka Hongisto

VUOSI 2015 / YEAR 2015

Smart access control.

Kysymys 5 Compared to the workload, the number of credits awarded was (1 credits equals 27 working hours): (4)

Innovative and responsible public procurement Urban Agenda kumppanuusryhmä. public-procurement

1.3Lohkorakenne muodostetaan käyttämällä a) puolipistettä b) aaltosulkeita c) BEGIN ja END lausekkeita d) sisennystä

The role of 3dr sector in rural -community based- tourism - potentials, challenges

Esimerkkinä - ilmainen blogi-julkaisujärjestelmä. WordPress:stä on myös palvelimelle asennettava versio (WordPress.

Uusi Ajatus Löytyy Luonnosta 3 (Finnish Edition)

Tutkimuksen huippuyksiköt. Maiju Gyran tiedeasiantuntija

Genome 373: Genomic Informatics. Professors Elhanan Borenstein and Jay Shendure

EUROOPAN PARLAMENTTI

Opiskelijoiden ajatuksia koulun alkuun liittyen / students thoughts about the beginning of their studies at KSYK

16. Allocation Models

Capacity utilization

HITSAUKSEN TUOTTAVUUSRATKAISUT

EVALUATION FOR THE ERASMUS+-PROJECT, STUDENTSE

Uusia kokeellisia töitä opiskelijoiden tutkimustaitojen kehittämiseen

LYTH-CONS CONSISTENCY TRANSMITTER

Paikkatiedon semanttinen mallinnus, integrointi ja julkaiseminen Case Suomalainen ajallinen paikkaontologia SAPO

C++11 seminaari, kevät Johannes Koskinen

The CCR Model and Production Correspondence

Copernicus, Sentinels, Finland. Erja Ämmälahti Tekes,

,0 Yes ,0 120, ,8

Miksi Suomi on Suomi (Finnish Edition)

Guidebook for Multicultural TUT Users

TM ETRS-TM35FIN-ETRS89 WTG

Smart specialisation for regions and international collaboration Smart Pilots Seminar

Salasanan vaihto uuteen / How to change password

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

TM ETRS-TM35FIN-ETRS89 WTG

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

WindPRO version joulu 2012 Printed/Page :42 / 1. SHADOW - Main Result

Ylläpitäjät, järjestelmäarkkitehdit ja muut, jotka huolehtivat VMwareinfrastruktuurin

Lataa SETI Revisited - Risto Isomäki. Lataa

Vertaispalaute. Vertaispalaute, /9

Transkriptio:

Seminar on big data management Lecturer: Jiaheng Lu Spring 2017 17.1.2017 1

We are in the era of big data Lots of data is being collected Web data, e-commerce Bank/Credit Card transactions Social Network Scientific data 17.1.2017 2

Data sizes Byte (B) Kilobyte (KB) Megabyte (MB) Gigabyte (GB) Terabyte (TB) Petabyte (PB) Exabyte (EB) Zettabyte (ZB) Yottabyte (YB) Iso tiedonhallinta/ Jiaheng Lu 17.1.2017 3

How much data? Google processes 20 PB a day (2008) Facebook has 2.5 PB of user data + 15 TB/day (4/2009) ebay has 6.5 PB of user data + 50 TB/day (5/2009) CERN atomic facility generates 40TB per second. In 2009, total data is about 1ZB, in 2020, it is estimated to be 35ZB.

Type of Data Relational Data (Tables/Transaction/Legacy Data) Text Data (Web) Semi-structured Data (XML) Graph Data Social Network, Semantic Web (RDF), Streaming Data You can only scan the data once

Four V s 17.1.2017 6

Watch videos about big data Henkilön nimi / Esityksen nimi 17.1.2017 7

Outline About the seminar Practical information and requirement Seminar topics Our schedule Henkilön nimi / Esityksen nimi 17.1.2017 8

The seminar is about Big data management Data querying, exploration, sampling, sharing, cleansing, cloud data management, big data benchmark and applications. Henkilön nimi / Esityksen nimi 17.1.2017 9

At the end of the seminar You should be able to tell what these terms stand for! And more Spark RDD Hadoop Mapreduce Cassadra Henkilön nimi / Esityksen nimi 17.1.2017 10

After this seminar Students are expected to Have a decent understanding of big data challenge Conduct research on one of topics related to big data management Know how to read/write/review a technical paper Know how to present a paper Henkilön nimi / Esityksen nimi 17.1.2017 11

More formally Pick a topic from the offered topics Read papers on that topic Present the paper Write a report on the topic Review two other reported written by your classmates Ask questions as an opponent for the presentation by your classmates Attend the lectures (at least 80%) Henkilön nimi / Esityksen nimi 17.1.2017 12

Deadlines for each task Submit the first version of the report Submit the peer review comments Submit the final report Topic Selection 13 Mar 27 Mar 1 May 30 Jan Present the paper Ask questions as an opponent Henkilön nimi / Esityksen nimi 17.1.2017 13

Topic assignment Submit your list- the preferred 3 topics If you have something in mind which is not listed in, please send an email to the teacher Same topics will be assigned to more than one person. Henkilön nimi / Esityksen nimi 17.1.2017 14

Start researching your topics immediately after topic assignment Henkilön nimi / Esityksen nimi 17.1.2017 15

Topics of this seminar Big data survey Hadoop and Spark platforms Cloud data management Graph data management Data sampling Data exploration Henkilön nimi / Esityksen nimi 17.1.2017 16

Topics of this seminar Approximate data processing Data cleansing Knowledge base Big data benchmark Big data applications Henkilön nimi / Esityksen nimi 17.1.2017 17

Hadoop and Spark platforms Two open-sources platforms for big data processing Henkilön nimi / Esityksen nimi 17.1.2017 18

Cloud data management Cloud data management is to deploy database systems in the cloud. New challenges: Data is stored at an untrusted host Data is replicated across large geographic distances Compute power is elastic Iso tiedonhallinta/ Jiaheng Lu 17.1.2017 19

Data sketches and sampling It is not always possible to store the big data in full Many applications (telecoms, ISPs, search engines) can t keep everything It is inconvenient to work with data in full It is faster to work with a compact summary Better to explore data on a laptop than a cluster Iso tiedonhallinta/ Jiaheng Lu 17.1.2017 20

Graph data management Graph data management has long been a topic of interest for database researchers. New application domains for big data including social networks and the Web of data. Iso tiedonhallinta/ Jiaheng Lu 17.1.2017 21

Data exploration Data exploration is about efficiently extracting knowledge from big data even if we do not know exactly what we are looking for. Topics: Query Result Visualization Query by example Approximation query processing Interactive interface Iso tiedonhallinta/ Jiaheng Lu 17.1.2017 22

Approximate string processing String data is ubiquitous. Approximate string processing tolerates the error with string matching. Actual queries gathered by Google Iso tiedonhallinta/ Jiaheng Lu 17.1.2017 23

Data cleansing Data cleansing or data cleaning is the process of detecting and correcting (or removing) corrupt or inaccurate records from a record set, table, or database. Example: Gender Frequency 2 1 F 12 M 13 X 1 f 2 Iso tiedonhallinta/ Jiaheng Lu 17.1.2017 24

Knowledge base A knowledge base (KB) contains a set of concepts, instances, and relationships. Applications: query understanding Deep Web search In-context advertisement Event monitoring in social media Product search, and social mining. Iso tiedonhallinta/ Jiaheng Lu 17.1.2017 25

Big data benchmark Create a standard benchmark to assist in the evaluation of different big data systems. Performance Scale-up Elastic speedup Availability Iso tiedonhallinta/ Jiaheng Lu 17.1.2017 26

Big data applications Big data will have many applications in different areas: Science and research Public health Customer relation management Machine and Device Performance Security and Law Enforcement Optimizing Cities and Countries Iso tiedonhallinta/ Jiaheng Lu 17.1.2017 27

Task for Next week Perform 1st pass on the papers in the seed papers list All papers available on the course home-page Select interesting papers for your presentation and report Henkilön nimi / Esityksen nimi 17.1.2017 28

Conclusion Big data seminar focuses on the presentation and paper writing skill training on the topic of big data Select the topic of your interests and start to work as soon as possible Please enter your topic preferences here: http://goo.gl/forms/wa4agimdfe Please enter your available time for presentation and opponent here: http://goo.gl/forms/ssr56ftuf6 Iso tiedonhallinta/ Jiaheng Lu 17.1.2017 29