Tekoäly ja data science mistä on kyse? Data Scientist Jukka Kärkimaa, Tilastokeskus

Samankaltaiset tiedostot
Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Johdatus tekoälyn taustalla olevaan matematiikkaan

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Ennakoiva analytiikka liiketoiminnassa

Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Tekoäly muuttaa arvoketjuja

Tekoälysovellusten vaatimukset datalle, tiedon hallinnan prosesseille ja johtamiselle

Tekoäly ja sen soveltaminen yrityksissä. Mika Rantonen

ALGORITMIT & OPPIMINEN

API:Hack Tournee 2014

805306A Johdatus monimuuttujamenetelmiin, 5 op

KONEOPPIMISEN HYÖDYNTÄMINEN: AUTOMAATTINEN TIKETTIEN KÄSITTELY. Esa Sairanen

Power BI Tech Conference Power BI. #TechConfFI. Johdanto

Introduction to Machine Learning

Tekoäly tukiäly. Eija Kalliala, Marjatta Ikkala

Tekoäly liiketoiminnassa. Tuomas Ritola CEO, selko.io

Monimutkaisesta datasta yksinkertaiseen päätöksentekoon. SAP Finug, Emil Ackerman, Quva Oy

Koneoppiminen ja tekoäly suurten tietomassojen käsittelyssä yleensä ja erityisesti sovellettuina satelliittidatan käyttöön metsien arvioinnissa

Digitalisaatio oppimisen maailmassa. Tommi Lehmusto Digital Advisor Microsoft Services

Koneoppimisen hyödyt arvopohjaisessa terveydenhuollossa. Kaiku Health

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

Laskennallisen fysiikan esimerkkejä avoimesta tutkimuksesta Esa Räsänen Fysiikan laitos, Tampereen teknillinen yliopisto

PGP: E 0DF EADD F31 FC66

Tilaisuus alkaa klo 9 ( ). #digibarometri Wi-Fi: FinlandiaHall

Tekoälysovellus: (Ennustaminen) Arviointi, estimointi

Avoimen lähdekoodin kehitysmallit

Avoimen lähdekoodin ratkaisut paikkatiedon analysoinnin ja visualisoinnin mahdollistajina

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Tekoäly terveydessä ja taloudessa Nykytila, haasteet ja mahdollisuudet. Elina Jeskanen Petrus Metsälä

Olet vastuussa osaamisestasi

Puheentunnistus. Joel Pyykkö 1. 1 DL-AT Consulting

HARJOITUS- PAKETTI A

Missä mennään BI? Mikko Kontio

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Tavaroiden ulkomaankauppatilastojen tulkinnan haasteet Timo Koskimäki

Valtion hankinnat esiin

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Testiautomaatio tietovarastossa. Automaattisen regressiotestauksen periaate ja hyödyt

Tapaustutkimus big data -analytiikkakoulutuksen suunnittelusta

Analytiikan teknologiset trendit ja uudet mahdollisuudet HR:lle. Heikki Penttinen, OlapCon Oy

Data-analytiikan mahdollisuudet ja osaamiskeskittymän verkosto. Robottirannikon Automaatioseminaari Ulvila

Tietojärjestelmän osat

R intensiivisesti. Erkki Räsänen Ecitec Oy

Data-analytiikkakonseptin esiselvitys. Palvelu innovaatioseteliin Steamlane Oy

Appseja statseista - Apps4Finland-kilpailun kumppanipuheenvuoro

Tietopolitiikka, tietojohtaminen ja tilastot. Tulevaisuusvaliokunnan kokous Marjo Bruun, 7.11.

Ohjelmiston lisensoinnin avoimet vaihtoehdot

Robotit ja tekoäly terveydenhuollon työvälineinä nyt ja tulevaisuudessa työn tutkimukseen perustuva näkökulma

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

Tekoäly ja ihmisyyden tulevaisuus Keski-Suomen tulevaisuusfoorumi XVI Maija-Riitta Ollila

Miten kaupunki hyödyntää dataa ja mitä esimerkiksi raportointi vaatii järjestelmiltä

Nopeutta ja Sulavuutta Analytiikkaan

Avoin tilastotieto ja Apps4Finland Asiakasaamu Tietopalvelujohtaja Heli Mikkelä Tilastokeskus

Big data tilastotoimessa: standardoinnin näkökulma, SFS-seminaari. Pasi Piela,

Tekoäly ja tietoturva Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Tutkimus Auria Biopankissa ja tulevaisuuden visiot Samu Kurki, FT, data-analyytikko

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Mustat joutsenet pörssikaupassa

FinFamily PostgreSQL installation ( ) FinFamily PostgreSQL

Safari-selaimen ohjelmistolisenssi kuluttajan näkökulmasta

Viikko 1: Johdantoa Matti Kääriäinen

Googlen pilvipalvelut tutuksi / Google Drive

Paikkatietojen käytön tulevaisuus -

Sivuston tiedotemreemir.com

Tutkimusprojekti: Siemens Simis-C -asetinlaitteen data-analytiikka

Kirjastotoimen raportointipalvelu Matti Sarmela

Copyright Observis Oy All rights reserved. Observis Oy Ville Kanerva, CTO Heikki Isotalus, COO Datasta tietoa

Uuden sukupolven soteratkaisut

Avoimen ja jaetun tiedon hyödyntäminen. Juha Ala-Mursula BusinessOulu

Teollinen internet on tuo+avuuden uusi vallankumous mitä sen hyödyntäminen edelly+ää

Linked Events. Helsingin tapahtumarajapinta. Aleksi Salonen

LAS- ja ilmakuva-aineistojen käsittely ArcGIS:ssä

Arkkitehtuuritietoisku. eli mitä aina olet halunnut tietää arkkitehtuureista, muttet ole uskaltanut kysyä

Datan hyödyntäminen yrityksissä

Perinteisesti käytettävät tiedon (datan) tyypit

Tekoälykoulutus seniorimentoreille

IBM Iptorin pilven reunalla

Googlen pilvipalvelut tutuksi / Google Drive

Digiajan menestyksekäs toimitusketju / Expak Materiaalivirtojen ohjaus ja optimointi Caset - Vilpe Oy, Airam Electric Oy Ab

Tieto ja sen mallinnus Fonectalla - Teemme tiedosta arvokasta. Aija Palomäki, TDWI jäsenkokous

Robotit kuntien päätöksenteon tukena

Kuinka paljon dataa on tarpeeksi?

Älykäs datan tuonti kuljetusongelman optimoinnissa. Antoine Kalmbach

JOHDATUS TEKOÄLYYN TEEMU ROOS

Esiselvitys ja avoin lähdekoodi

Muuttaako tekoäly maailmaa - ja miten? Kansainvälinen Telepäivä

Mammutti vai elefantti?


ITSM. Olli Saranen Senior Consultant Avoset Oy Oliko ennen kaikki paremmin kuin nykyään? Kivikaudelta nykyaikaan

IBM IT Education Services - DB2 YTR - sertifioinnit

Lämpötilan ja valssausvoiman tilastollinen mallintaminen levyvalssauksessa

Data Quality Master Data Management

Teknologian hyödyntäminen oppimisen ja kehittämisen tukena

Metatieto mihin ja miten? Juha Hakala Helsingin yliopiston kirjasto

Toimitusketjun hallinnasta vähittäiskaupan kokonaisvaltaiseen suunnitteluun ja optimointiin

Poraustyökierrot ja piirteiden tunnistus

Autamme asiakkaitamme menestymään parantamalla tekemisen luottamustasoa ja läpinäkyvyyttä uusilla innovatiivisilla konsepteilla ja ratkaisuilla.

Transkriptio:

Tekoäly ja data science mistä on kyse? Data Scientist Jukka Kärkimaa, Tilastokeskus

Sisällys 1. Keskeiset käsitteet ja tilannekuva 2. Data scientistin tehtäväkenttä 3. Mitä osaamista tarvitaan? 4. Kehittäjän työkalut

1. Keskeiset käsitteet ja tilannekuva

You are already a Data Scientist!

Case: Veronmaksajat https://blogi.nordnet.fi/ihminen-vai-robotti/ Ongelma on siinä, että hienoinkin tekoäly on tyhmä. Se osaa tehdä vain ne tehtävät, jotka sille on osattu ohjelmoida. Ne se sitten tekeekin nopeasti, varmasti ja taatusti aina samalla tavalla. Kone ei pysty ymmärtämään eikä tulkitsemaan

Brief history of AI 1940-> Intelligence is logic (if-then, and, or) 1980-> No, logic is too limited. Intelligence requires imitating the brain. 1980-> Intelligence requires learning 2000-> Learning is just statistics. No need to imitate the brain. 2012-> Intelligent processing is highly non-linear, like the brain: Deep Learning Lähde: https://www.helsinki.fi/sites/default/files/atoms/files/aapo_hyvarinen_hidata_2018_05_29.pdf

Koneoppiminen Arthur Samuel (1959), Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed Eli väärin: Se osaa tehdä vain ne tehtävät, jotka sille on osattu ohjelmoida. Oikein: Se osaa tehdä vain ne tehtävät, jotka ovat opittavissa saatavilla olevasta opetusdatasta (heikko tekoäly) Tom Mitchell (1998), Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if: its performance on T, as measured by P, improves with experience E

Tekoäly Heikko tekoäly eli Narrow AI Tarvitsee riittävän määrän opetusdataa Toteutus koneoppimismalleilla Nykyisen tekoälyn taso Esim. AlphaGo (2015) Vahva tekoäly eli General AI Osaa suunnitella kuten ihminen ilman erityistä opetusdataa Alkumetreillä, mutta kuuma tutkimusaihe Esim. AlphaGo Zero (2017) Reinforcement learning

Koneoppimisen alakategorioita Ohjattu oppiminen supervised learning Oikeat vastaukset sisältävästä historiadatasta muodostetaan malli, jota voidaan jatkossa käyttää ennustamiseen Luokittelu classification, kategorisen muuttujan ennustaminen Regressio regression, jatkuvan muuttujan ennustaminen Ohjaamaton oppiminen unsupervised learning Oikeita vastauksia ei ole saatavilla, on vain luokittelematonta dataa Ryhmittely clustering Dimensionpudotus dimensionality reduction Vahvistusoppiminen reinforcement learning Jatkuva vuorovaikutus ympäristön kanssa tuottaa palautetta ja toimintaa muuttamalla pyritään maksimoimaan positiivinen palaute

Big Data - Datan (tiedon?) vallankumous Yhdysvaltojen kongressin kirjasto Washingtonissa: 32 miljoonaa kirjaa ja lehteä, 3 miljoonaa äänitettä, 14.7 miljoonaa valokuvaa, 5.3 miljoonaa karttaa, 61 miljoonaa käsikirjoitusta. Kerätty 200 vuoden aikana Nyt sama datamäärä kertyy levyille joka 15. minuutti (noin 100 kertaa vuorokaudessa). Tämä on 5 exatavua (10 18 ) vuodessa. Sama määrä tulisi, jos kaikki ihmispuhe kaikkina aikoina (n. 100.000 vuotta) koodattaisiin sanoiksi ja digitoitaisiin (R. Williams, CalTech). https://mycourses.aalto.fi/pluginfile.php/385091/mod_resource/content/1/cs-c3110-datasta-tietoon-

Vuonna 1939 https://www.scoopnest.com/user/sirwilliamd/ 527803582553546752

Vuonna 2018 Telia Crowd Insights -kaupunki- ja liikennesuunittelutyökalun demovideo / lyhyt: www.youtube.com/watch?v=3akbukca7hy

Tekoälyn ja datatieteen tuomia mahdollisuuksia Turvallisuus Esim. autojen ennakoivat turvajärjestelmät Katastrofien hallinta Hurrikaanituhot, kuivuus, pakolaiskriisit Ajankohtaisemmat talouspoliittiset päätökset Esim. nopeammat tilastojulkistukset (BKT, ulkomaankauppa, työttömyys) Yritysten kansainvälinen kilpailukyky

Hyvä pitää mielessä 1. All models are wrong, some are useful 2. Tulevaisuuden ennustaminen on mahdotonta

Tietosuoja vs. Cost of not using data Katastrofit, jotka olisi voitu estää? Kaikessa on hyvää ja huonoa Maksimoidaan yhdessä se hyvä, joka nyt voidaan saada aikaan

Yhteenveto Tekoäly helpottaa, nopeuttaa ja tarkentaa monia ihmisen tähän asti käsin tekemiä työvaiheita, jolloin ihminen voi tehdä vähemmän ikäviä, toisteisia ja ihmiselle huonosti soveltuvia työtehtäviä. Vapautunut työpanos kohdistuu uusien, ennalta tuntemattomien ja tekoälylle vaikeiden tai toistaiseksi mahdottomien tehtävien hoitamiseen ja tekoälyn opettamiseen. Kun esim. vuoden kuluttua osasta nykyisiä uusia tehtäviä tulee hyvin tunnettuja ja niistä on olemassa riittävän paljon tekoälylle soveltuvaa opetusdataa, voidaan taas osa näistä tehtävistä siirtää tekoälyn tehtäväksi, ja ihmisen työpanosta jälleen vapauttaa uusien, vaikeampien tehtävien hoitamiseen. Results exist only on the outside eli organisaation tuottama hyöty arvioidaan lopulta asiakkaiden, kansalaisten, potilaiden, kilpailijoiden tai jonkun muun organisaation ulkopuolisen toimijan kannalta. Tekoälyn hyödyntäminen siellä, missä se selvästi parantaa organisaation nykyistä toimintaa on pitkällä aikavälillä kilpailulle avoimessa yhteiskunnassa välttämätöntä. Kenties vielä tärkeämpää kuin tekoälytekninen huippuosaaminen on se, kuinka hyvin kaikki muut kuin tekoälyn tekniset toteuttajat ymmärtävät tekoälyn mahdollisuudet ja rajoitteet ja siten yhteiskunnallisen pitkän aikavälin vaikutuksen.

Ihminen JA tekoäly > ihminen TAI tekoäly Tekoälystä tulee ihmiselle yhä tärkeämpi työkaveri

2. Data scientistin tehtäväkenttä

https://www.helsinki.fi/sites/default/files/atoms/files/

Esimerkkejä Data Scientist rooleista Data Scientist Paino mahdollisimman tarkkojen ennustemallien luomisessa (koneoppiminen) Data Engineer / Data Scientist Paino skaalautuvien dataputkien luomisessa (hajautetut järjestelmät, pilvet), datan esikäsittelyssä ja datan laadun valvonnassa Data Scientist / Software developer tai AI Data Scientist Paino tekoälyä sisältävien ohjelmistokokonaisuuksien kehittämisessä Statistician / Data scientist Paino ilmiöiden selittämisessä ja tilastollisessa analyysissä Data Analyst Paino raportoinnissa (BI eli business intelligence)

Esimerkkejä Tilastokeskukselta 1: Liikenneonnettomuuksien luokittelu Onnettomuusseloste 250 000 tieliikenneonnettomuudesta viimeisen 10 vuoden ajalta Vapaamuotoinen teksti, jota kone opetettiin tulkitsemaan Dokumenttien luokittelu: henkilövahinko vai omaisuusvahinko Mallin tarkkuus yli 92 % Voitaisiin hyödyntää myös onnettomuustutkinnassa

Esimerkkejä Tilastokeskukselta 2: Jätelajin ennustaminen kuvaustekstin perusteella Esimerkiksi jätetilastossa sekä jatkuva muuttuja jätemääristä ja kategorinen muuttuja jätelajista sekä sanallinen kuvaus kuljetetusta jätelastista Jätelaji pystyttiin kokeilussa ennustamaan 200k opetusesimerkin pohjalta 1-numerotasolla (3 eri luokkaa) 93 % tarkkuudella ja 8-numerotasolla (740 eri luokkaa) 72 % tarkkuudella pelkän vapaamuotoisen sanallisen kuvauksen perusteella

Esimerkkejä Tilastokeskukselta 3: Toimialan ja ammatin automaattinen luokittaminen Työvoimatutkimus haastattelee n. 100k henkilöä vuodessa ja nämä halutaan luokittaa TOL2008-toimialaluokituksen mukaisesti 5- numerotasolla (n. 800 eri luokkaa) Nykyisellään 15% ajasta menee pelkästään luokittamiseen 600k opetusesimerkin pohjalta kokeilussa malli pystyi luokittamaan toimialan automaattisesti yli 85 % tarkkuudella 14 lähtömuuttajan perusteella (ammatti, ikä, sukupuoli, koulutusaste, tulot jne.) Toinen malli pystyi samoista opetusesimerkeistä luokittamaan pelkän toimialan vapaan sanallisen kuvauksen perusteella yli 70 % tarkkuudella Mallit yhdistämällä saavutetaan yksittäisiä malleja parempi tarkkuus

Rakenteinen ja rakenteeton data Rakenteellinen data ehkä 20 % kaikesta? Esim. taulukko, jossa asuntojen asuinneliöt, huoneiden lukumäärä, ikä ja kauppahinta Rakenteeton data ehkä 80 % kaikesta? Tai paljon enemmän? Esim. kuvat ja vapaa teksti Data science työ voi olla myös rakenteettoman datan muuttamista rakenteelliseksi 1. Esim. Tilastokeskuksella 400k kotitalouden täyttämä 1950- ja 1960-lukujen väestönlaskentalomake (perhekoot, ammatit jne.) paperilta skannattuina 2. Tai esim. vallitsevan tunnelman, kuluttajaluottamuksen jne. mittaaminen Twitter-päivityksistä 3. Tai kotitalouksien aurinkopaneelien laskeminen satelliittikuvista 4. Tai Lontoon puuston ilmastovaikutuksen laskeminen Google Street View -kuvista

Data Scientistin tilaaminen laatikossa netistä Automatic Machine learning aka. "Expert Data Scientist in a box https://www.h2o.ai/products/h2o-

3. Mitä osaamista tarvitaan?

Citizen Data Scientist (Gartner) Expert Data Scientist Yhteistyötä Kenelläkään yksin ei ole kaikkea tarvittavaa osaamista (ks. kuva)

Web-tekniikat ja interaktiivinen visualisointi! Esim. Unkarin tilastoviraston visualisointi eri maiden ajankäytöstä: http://www.ksh.hu/interaktiv/timeuse/index.html#en

Verkkokursseja Paljon ilmaisia kursseja ja lisäksi tosi halpoja, mutta hyviä kursseja Suomalaisten yliopistojen tarjonta esim. http://www.elementsofai.com/fi - kansantajuinen yleiskatsaus Tulossa lisää Coursera.org https://www.coursera.org/learn/python-machine-learning www.coursera.org/specializations/deep-learning DataCamp.com Fast.ai

4. Kehittäjän työkalut

Näillä pääsee hyvin pitkälle (ja ilman euroja) SQL Python, esim. Anaconda Distribution R, esim. RStudio Git Shell Jupyter Notebook (Python, R jne. tuki) Spreadsheets

Jupyter Notebook toimii web-selaimessa! Tilastokeskuksen avoin työssäkäyntiaineisto esimerkki: https://www.stat.fi/tup/ mikroaineistot/ opetusaineistot.html https://notebooks.azure.com/ jukkak-tk/libraries/puf-testi- FLEED/html/FLEED.ipynb Aurinkovoimalan tuotannon ennustaminen neuroverkoilla: https://notebooks.azure.com/

Lisäksi Pilvipalvelut esim. Azure, Google Cloud, AWS Hajautetut järjestelmät esim. Spark Container-tekniikat, esim. Docker Web-rajapinnat mahdollistavat eri teknologioiden välisen yhteistyön ja koneoppimismallien tuotantoonviennin Paljon kaupallisia analytiikka-/bi-/koneoppimis-ympäristöjä

Avoin lähdekoodi eli open source - Käyttäjällä mahdollisuus tutustua ohjelman lähdekoodiin ja muokata sitä omien tarpeidensa mukaisesti - Vapaus käyttää ohjelmaa mihin tahansa tarkoitukseen ja kopioida ja levittää sekä alkuperäistä että muokattua versiota

Avoin data ja linkattu avoin data Webissä voidaan jakaa alkuperäisten tekstidokumenttien lisäksi dataa Metatieto ja linkkaus auttaa yhdistämään dataa eri lähteistä koneellisesti avoindata.fi Tilastokeskuksen Paavo: www.stat.fi/org/avoindata/paikkatietoaineistot/paavo.html HSL liikennevälineiden reaaliaikainen sijainti

Linkkejä www.anaconda.com/distribution/ www.rstudio.com www.h2o.ai www.databricks.com www.alphagomovie.com/ www.nextrembrandt.com www.helsinki.fi/en/helsinki-centre-for-data-science/news/ event-materials