Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Samankaltaiset tiedostot
Tekoäly ja tietoturva Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Miten uusi teknologia mahdollistaa reaaliaikaisen riskien arvioinnin

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi

Tekoäly muuttaa arvoketjuja

Miten uusi teknologia mahdollistaa reaaliaikaisen riskien arvioinnin

ARVOA PALVELUPROSESSIEN ANALYSOINNILLA

Carat-projekti: Tutkimuspohjaista tietoa mobiilikäytöstä

Tapaustutkimus big data -analytiikkakoulutuksen suunnittelusta

J u k k a V i i t a n e n R e s o l u t e H Q O y C O N F I D E N T I A L

pilvipalvelu tarkoittaa?

Tosi elävä virtuaalimalli Mika Karaila Tutkimuspäällikkö Valmet Automation

TIETOJENKÄSITTELYTIEDE

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Teemu Kerola Orientointi Syksy 2018

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Tekoäly lääkärin päätöksenteon tukena. Arho Virkki, DI, FT Lääketieteellisen matematiikan dosentti, TY Auria tietopalvelun johtaja, TYKS

Avoin data ja sen hyödyntäminen tähtitieteessä. Juhani Huovelin Fysiikan laitos Helsingin yliopisto

DATA-ANALYYSIN TEMAATTINEN MAISTERIKOULUTUS (DATA)

Rajattomat tietoverkot ja niiden rooli pilvipalveluissa. Jukka Nurmi Teknologiajohtaja Cisco Finland

Tekoäly tänään , Vadim Kulikov (Helsingin Yliopisto)

Tilastotiede ottaa aivoon

Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

Digitalisaatio oppimisen maailmassa. Tommi Lehmusto Digital Advisor Microsoft Services

Tutkimusprojekti: Siemens Simis-C -asetinlaitteen data-analytiikka

Mammutti vai elefantti?

Tulevaisuuden Internet. Sasu Tarkoma

Helsingin yliopiston tohtorikoulutusuudistus. Ritva Dammert

Tilastotiede ottaa aivoon

Ennakointi johtamisen perustana

Tekoäly liiketoiminnassa. Tuomas Ritola CEO, selko.io

Paikkatietojen käytön tulevaisuus -

Tutkinnonuudistus ja uudet DI-ohjelmat Master s Programme in Information Networks

Poweria analytiikkaan

Data-analytiikkakonseptin esiselvitys. Palvelu innovaatioseteliin Steamlane Oy

Tutkinnonuudistus ja uudet DI-ohjelmat / Teknillinen fysiikka ja matematiikka. Infotilaisuus

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Uuden tietoyhteiskunnan teesit. #uusitietoyhteiskunta

IBM Iptorin pilven reunalla

SQL SERVER 2012 PARALLEL DATA WAREHOUSE APPLIANCE

Dataintensiivinen tutkimus ja osaamistarpeet tutkimuslaitoksissa

GOOGLE DATA WORKSHOP MIHIN GOOGLE DATAA VOI KÄYTTÄÄ JA MITÄ SE KÄYTÄNNÖSSÄ TARKOITTAA?

Kuinka paljon dataa on tarpeeksi?

Digitaalinen transformaatio muuttaa asiakkaidemme liiketoimintaa

Digitalisaatiossa tuumasta toimeen, vinkkejä ensi askeliin

Moderni biolääketieteellinen optiikka X - Optinen mittaaminen sekä valmistusmenetelmät X X X

Jälkidigitaalinen tiede tieteellisen tiedon saatavuuden muutos

WEBINAARI CLOUD SOFTWARE SRA- esi;ely

Tietojenkäsittelytieteen pääaine Pääaineinfo ke

Tilastotieteen rooli uuden tieteellisen tiedon tuottamisessa Mitä tilastotiede on?

Verohallinto ennakoi muutoksia

Tarvitseeko informaatioteknologia matematiikkaa?

Computing Curricula raportin vertailu kolmeen suomalaiseen koulutusohjelmaan

Bioinformatics in Laboratory of Computer and Information Science

Paula Eerola

Keinoälyn mahdollisuudet terveydenhuollossa

Oulun yliopiston tutkinto-ohjelmaportfolio 2017 alkaen

Kahden virtualisointiohjelmiston suorituskyvyn testaus (valmiin työn esittely)

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

Verkkokauppaalustojen oppimäärä. LADEC Verkkokaupan ABC Jussi Kujansuu / Head of ecommerce / Solita

Kehityshankkeet 2030-luvulla. Jukka Santala ja Kristian Meissner SYKE YMPÄRISTÖTIETO EILEN, TÄNÄÄN, HUOMENNA Helsinki

Tilaisuus alkaa klo 9 ( ). #digibarometri Wi-Fi: FinlandiaHall

Yhteisöllinen mallintaminen ja hajautetut mallit Ari Jolma Aalto-yliopisto. Mallinnusseminaari 2011 Lahti. Ari Jolma 1

Ennakoinnin digitaalinen ekosysteemi valtakunnallisen osaamis- ja koulutustarpeiden ennakoinnin näkökulmia

Datan analysointi ja visualisointi Teollisen internetin työpaja

Monimutkaisesta datasta yksinkertaiseen päätöksentekoon. SAP Finug, Emil Ackerman, Quva Oy

Lyhyesti uusista DI-ohjelmista Isohenkilökoulutus to Opintoasianpäällikkö Mari Knuuttila

Matemaatikot ja tilastotieteilijät

Digitalisaatio / Digiloikka. Digiloikka-työryhmä Kari Nuuttila

KULUTTAJAN KONTEKSTI

Kitkaton Suomi kasvu, kilpailukyky ja osaaminen uuden edessä

KONEOPPIMINEN SISÄLLÖNTUOTANNOSSA CASE NESTE

Tekoäly ja sen soveltaminen yrityksissä. Mika Rantonen

Faculty of Economics and Administration

Cisco Unified Computing System -ratkaisun hyödyt EMC- ja VMwareympäristöissä

Rationaalisen lääkehoidon tutkimuksen edellytykset

Älykkään vesihuollon järjestelmät

Sovelletun fysiikan laitoksen tutkimus- ja yritysyhteistyö osana yhteiskäyttölaboratoriota

Data-analytiikan mahdollisuudet ja osaamiskeskittymän verkosto. Robottirannikon Automaatioseminaari Ulvila

Pilivipalavelut Cloud Business 2012 Parempaa paikallista pilveä

Page 1 of 9. Ryhmä/group: L = luento, lecture H = harjoitus, exercises A, ATK = atk-harjoitukset, computer exercises

Tekoälysovellusten vaatimukset datalle, tiedon hallinnan prosesseille ja johtamiselle

Kokonais-IS-arkkitehtuuri korkeakouluissa Tietohallinnon näkökulma

DOB - Datasta oivalluksia ja bisnestä DOB valmennus, Tikkurilan kurssi

Verkostot kasvun ja kehittämisen moottorina Alihankintamessut

Pilvi mitä, miksi ja miten

Tiedonkeruun miljoonat pisteet

Yhteistyötä yli tiedekuntarajojen. Krista Lagus Helsingin yliopisto Kynä & Kone,

Avoimen ja jaetun tiedon hyödyntäminen. Juha Ala-Mursula BusinessOulu

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

5.10. Työ Työkykyjohtamisen opintopolku 2017, osa 8/9: Työkyvyn johtaminen tiedolla

Tekoäly terveydessä ja taloudessa Nykytila, haasteet ja mahdollisuudet. Elina Jeskanen Petrus Metsälä

ELEC-A0120 opintojen suunnittelu. Riikka Leikola

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

Mitä muutoksia pilvipalvelut tulevat aikaansaamaan tietoteknisten ratkaisujen hankinta- ja toimitusmalleissa? Miten pilvipalvelut muokkaavat

Digitalisaation hyödyntäminen yhteismetsissä Oulun yhteismetsäpäivät

Tulevaisuuden kuljetus ja varastointi data-analytiikalla

Teollinen Internet. Tatu Lund

ACTION SPACE FOR CURIOUS MINDS

Tietotekniikka ei riitä palvelujen tuottavuus ratkaisee. Olli Martikainen

Moderni biolääketieteellinen optiikka X - Optinen mittaaminen sekä valmistusmenetelmät X X X

Transkriptio:

Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto Faculty of Science Department of Computer Science www.cs.helsinki.fi 9.5.2017 1

Sisällys Johdanto Data-analyysi Datatiede Big Data ratkaisut Tutkimusesimerkkejä www.cs.helsinki.fi

Digitalisaatio Teknologia mahdollistaa esineiden ja asioiden reaali-aikaisen seurannan ja säätämisen Tilat, liikenne, teollisuus, ketjut ja verkostot Kehittyneet data-analytiikkaratkaisut mahdollistavat uudenlaisen lisäarvon löytämisen datasta Kone-oppiminen ja tekoäly tulevat muuttamaan toimialoja ja luomaan uusia. ETLA ennustaa, että 36% työnimikkeistä katoaa Suomessa tämän muutoksen seurauksena. Samalla syntyy myös uusia nimikkeitä, kuten datatieteen asiantuntija (data scientist)

Data-analyysi Data sisältää informaatiota liittyen asiaan tai ilmiöön. Tieto on hyvin perusteltu väite maailman tilasta. Data-analyysi käsittää menetelmiä ja metodeja kerätyn datan jalostamiseen korkeamman tason tiedoksi tavoitteena hyödyllisten johtopäätösten tekeminen. Data-analyysiä käytetään monilla alueilla hyödyntäen erilaisia menetelmiä ja lähestymistapoja.

Data-analyysin monet kasvot Data-analyysi luo pohjan datatieteelle, joka käsittää sekä menetelmät että niiden soveltamisen eri alueilla. Data-analyysin ja datatieteen tutkimusaloja ovat mm. hahmontunnistus (pattern recognition), tiedon louhinta (data mining) koneoppiminen (machine learning), bioinformatiikka (bioinformatics). Moderni datatiede ja data-analyysi keskittyy big data aineistoihin, joissa keskiössä ovat erittäin suuret järjestelemättömät ja jatkuvasti lisääntyvät data-aineistot.

Data-analyysi Tilastotiede Havaintoaineiston tilastollinen analyysi Tilastolliset mallit ja estimointimenetelmät Tutkitaan ilmiöitä, joissa esiintyy vaihtelua (variation) ja pyritään erottelemaan vaihtelun systemaattinen ja satunnainen osa toisistaan Tietojenkäsittelytiede Tiedon louhinta Koneoppiminen Neuroverkot, Deep learning Big Data www.cs.helsinki.fi

Käsitteitä Datatieteen perusta Tekoäly Deep learning Tilastotiede Koneoppiminen Big Dataanalytiikka Tietojenkäsittelytiede

Kohti datatieteen määritelmää Koneoppiminen Datatiede Sovellusaluekohtainen osaaminen http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

Datatieteen käytäntö Datan esikäsittely Datan tutkiminen Mallin rakentaminen Suuren mittakaavan hyödyntämine n Evaluaatio Tulkinta Source: Databricks introduction slides

Data-analyysin haasteita Skaalautuvuus ja Big Data Menetelmien automatisointi Reaaliaikaisuus Tietosuoja Keskitetty vs. hajautettu toiminta Datan moniulotteisuus, rakenteettomuus, hälyisyys Suuressa data-aineistossa (Big Data) on arvoa Pieni data on myös arvokasta!

Korrelaatio ja kausaatio Princetonin tutkijat ennustivat Google hakudatan (MySpace hakusanana) rakennetun mallin avulla, että Facebookin käyttö vähenee nopeasti muutamassa vuodessa Facebook käytti samaa mallia: Princetonilla ei ole opiskelijoita 2021 http://techcrunch.com/2014/01/23/facebook-losing-usersprinceton-losing-credibility/ Google Flu Trends toimi alkuun, mutta sittemmin ennusteet eivät ole toimineet hyvin. Hakusanapohjainen malli on liian yksinkertainen. Pelkkä datavetoisuus ei riitä, tarvitaan tilastollinen validius ja merkitsevyys Haut sanalle Facebook

Laskentakeskukset ja pilvilaskenta Palvelimet Palvelintehokkuuden lisääminen (scale up) Kalliit työvälineet luotettavuuden lisäämiseen Virtualisoidut elastiset resurssit Hajautetut konesalit Vikasietoisuus sisäänrakennettuna Sovellukset skaalautuvat virtualisoidussa ympäristössä (scale out)

Esimerkkejä Big Data -ratkaisuista Lisätään uusi data Rinnakkaiset operaatiot MapReduce Iteratiivinen laskenta Datan kerääminen Datan tallennus Data-analyysi Tulokset

Lambda-arkkitehtuuri Kaikki data Eräajoon perustuva prosessointi Eräajon tulokset Uusi data ja sen keräys Reali-aikainen datan tallennus Data-analyysi Yhdistetyt tulokset Integroituna esimerkiksi Apache Sparkissa

Google Tensor Processing Unit Lähde: Google 15-30x nopeampi kuin perinteinen CPU deep learning tehtäviin

Data-analyysin automatisointi Uudet kehittyneet menetelmät pyrkivät data-analyysin automatisointiin Tiedon keruun automatisointi Algoritmien valinta ja parametrisointi Tulosten hyödyntäminen reaali-aika sovelluksissa www.cs.helsinki.fi

Tutkimusesimerkkejä

Kohti esineiden Internetin reaaliaikaista analytiikkaa Reunalla tapahtuva analytiikka Big Data -kehikot Eräajokäsittely Reaaliaikainen käsittely Reaaliaikainen käsittely Reaaliaikainen käsittely Datan kerääminen ja prosessointi Datan välitys ja prosessointi verkossa (4G ja 5G) Datan prosessointi pilvialustan ja Big Data kehikon avulla hajautetussa ympäristössä

Platform View: Secure Scientific Cloud for High Energy Physics L. Osmani, S. Toor, M. Komu, M. J. Kortelainen, T. Lindén, J. White, R. Khan, P. Eerola, S. Tarkoma. Secure Cloud Connectivity for Scientific Applications. IEEE Transactions on Services Computing, 2015.

Carat Yhteistyöprojekti UC Berkeleyn ja Helsingin yliopiston välillä Ilmainen mobiilisovellus Androidille sekä iosille Yli 850 000 käyttäjää Yli 5 vuotta dataa >2,5 TB dataa, > 250 miljoonaa näytettä Yli 450 000 eri sovellusta Tutkimusprojektilla on monta suuntaa http://carat.cs.helsinki.fi

data mining data analysis statistics machine learning distributed computing natural sciences and engineering life sciences and medicine humanities, social sciences pedagogics, economics HiDATA Helsinki Centre for Data Science Research results Education of experts Innovations Information for the general public

Yhteenveto Rakennamme datavetoista reaaliaikaista digitaalista infrastruktuuria. Datatiede kehittää menetelmiä ja mahdollistaa niiden laajan monitieteisen soveltamisen. Data-analytiikan ja tekoälyn alustat ovat kehittyneet paljon viime vuosina. Data-analytiikan ja datatieteen automatisointi on vasta alussa.