Tekoäly ja data science mistä on kyse? Data Scientist Jukka Kärkimaa, Tilastokeskus
Sisällys 1. Keskeiset käsitteet ja tilannekuva 2. Data scientistin tehtäväkenttä 3. Mitä osaamista tarvitaan? 4. Kehittäjän työkalut
1. Keskeiset käsitteet ja tilannekuva
You are already a Data Scientist!
Case: Veronmaksajat https://blogi.nordnet.fi/ihminen-vai-robotti/ Ongelma on siinä, että hienoinkin tekoäly on tyhmä. Se osaa tehdä vain ne tehtävät, jotka sille on osattu ohjelmoida. Ne se sitten tekeekin nopeasti, varmasti ja taatusti aina samalla tavalla. Kone ei pysty ymmärtämään eikä tulkitsemaan
Brief history of AI 1940-> Intelligence is logic (if-then, and, or) 1980-> No, logic is too limited. Intelligence requires imitating the brain. 1980-> Intelligence requires learning 2000-> Learning is just statistics. No need to imitate the brain. 2012-> Intelligent processing is highly non-linear, like the brain: Deep Learning Lähde: https://www.helsinki.fi/sites/default/files/atoms/files/aapo_hyvarinen_hidata_2018_05_29.pdf
Koneoppiminen Arthur Samuel (1959), Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed Eli väärin: Se osaa tehdä vain ne tehtävät, jotka sille on osattu ohjelmoida. Oikein: Se osaa tehdä vain ne tehtävät, jotka ovat opittavissa saatavilla olevasta opetusdatasta (heikko tekoäly) Tom Mitchell (1998), Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if: its performance on T, as measured by P, improves with experience E
Tekoäly Heikko tekoäly eli Narrow AI Tarvitsee riittävän määrän opetusdataa Toteutus koneoppimismalleilla Nykyisen tekoälyn taso Esim. AlphaGo (2015) Vahva tekoäly eli General AI Osaa suunnitella kuten ihminen ilman erityistä opetusdataa Alkumetreillä, mutta kuuma tutkimusaihe Esim. AlphaGo Zero (2017) Reinforcement learning
Koneoppimisen alakategorioita Ohjattu oppiminen supervised learning Oikeat vastaukset sisältävästä historiadatasta muodostetaan malli, jota voidaan jatkossa käyttää ennustamiseen Luokittelu classification, kategorisen muuttujan ennustaminen Regressio regression, jatkuvan muuttujan ennustaminen Ohjaamaton oppiminen unsupervised learning Oikeita vastauksia ei ole saatavilla, on vain luokittelematonta dataa Ryhmittely clustering Dimensionpudotus dimensionality reduction Vahvistusoppiminen reinforcement learning Jatkuva vuorovaikutus ympäristön kanssa tuottaa palautetta ja toimintaa muuttamalla pyritään maksimoimaan positiivinen palaute
Big Data - Datan (tiedon?) vallankumous Yhdysvaltojen kongressin kirjasto Washingtonissa: 32 miljoonaa kirjaa ja lehteä, 3 miljoonaa äänitettä, 14.7 miljoonaa valokuvaa, 5.3 miljoonaa karttaa, 61 miljoonaa käsikirjoitusta. Kerätty 200 vuoden aikana Nyt sama datamäärä kertyy levyille joka 15. minuutti (noin 100 kertaa vuorokaudessa). Tämä on 5 exatavua (10 18 ) vuodessa. Sama määrä tulisi, jos kaikki ihmispuhe kaikkina aikoina (n. 100.000 vuotta) koodattaisiin sanoiksi ja digitoitaisiin (R. Williams, CalTech). https://mycourses.aalto.fi/pluginfile.php/385091/mod_resource/content/1/cs-c3110-datasta-tietoon-
Vuonna 1939 https://www.scoopnest.com/user/sirwilliamd/ 527803582553546752
Vuonna 2018 Telia Crowd Insights -kaupunki- ja liikennesuunittelutyökalun demovideo / lyhyt: www.youtube.com/watch?v=3akbukca7hy
Tekoälyn ja datatieteen tuomia mahdollisuuksia Turvallisuus Esim. autojen ennakoivat turvajärjestelmät Katastrofien hallinta Hurrikaanituhot, kuivuus, pakolaiskriisit Ajankohtaisemmat talouspoliittiset päätökset Esim. nopeammat tilastojulkistukset (BKT, ulkomaankauppa, työttömyys) Yritysten kansainvälinen kilpailukyky
Hyvä pitää mielessä 1. All models are wrong, some are useful 2. Tulevaisuuden ennustaminen on mahdotonta
Tietosuoja vs. Cost of not using data Katastrofit, jotka olisi voitu estää? Kaikessa on hyvää ja huonoa Maksimoidaan yhdessä se hyvä, joka nyt voidaan saada aikaan
Yhteenveto Tekoäly helpottaa, nopeuttaa ja tarkentaa monia ihmisen tähän asti käsin tekemiä työvaiheita, jolloin ihminen voi tehdä vähemmän ikäviä, toisteisia ja ihmiselle huonosti soveltuvia työtehtäviä. Vapautunut työpanos kohdistuu uusien, ennalta tuntemattomien ja tekoälylle vaikeiden tai toistaiseksi mahdottomien tehtävien hoitamiseen ja tekoälyn opettamiseen. Kun esim. vuoden kuluttua osasta nykyisiä uusia tehtäviä tulee hyvin tunnettuja ja niistä on olemassa riittävän paljon tekoälylle soveltuvaa opetusdataa, voidaan taas osa näistä tehtävistä siirtää tekoälyn tehtäväksi, ja ihmisen työpanosta jälleen vapauttaa uusien, vaikeampien tehtävien hoitamiseen. Results exist only on the outside eli organisaation tuottama hyöty arvioidaan lopulta asiakkaiden, kansalaisten, potilaiden, kilpailijoiden tai jonkun muun organisaation ulkopuolisen toimijan kannalta. Tekoälyn hyödyntäminen siellä, missä se selvästi parantaa organisaation nykyistä toimintaa on pitkällä aikavälillä kilpailulle avoimessa yhteiskunnassa välttämätöntä. Kenties vielä tärkeämpää kuin tekoälytekninen huippuosaaminen on se, kuinka hyvin kaikki muut kuin tekoälyn tekniset toteuttajat ymmärtävät tekoälyn mahdollisuudet ja rajoitteet ja siten yhteiskunnallisen pitkän aikavälin vaikutuksen.
Ihminen JA tekoäly > ihminen TAI tekoäly Tekoälystä tulee ihmiselle yhä tärkeämpi työkaveri
2. Data scientistin tehtäväkenttä
https://www.helsinki.fi/sites/default/files/atoms/files/
Esimerkkejä Data Scientist rooleista Data Scientist Paino mahdollisimman tarkkojen ennustemallien luomisessa (koneoppiminen) Data Engineer / Data Scientist Paino skaalautuvien dataputkien luomisessa (hajautetut järjestelmät, pilvet), datan esikäsittelyssä ja datan laadun valvonnassa Data Scientist / Software developer tai AI Data Scientist Paino tekoälyä sisältävien ohjelmistokokonaisuuksien kehittämisessä Statistician / Data scientist Paino ilmiöiden selittämisessä ja tilastollisessa analyysissä Data Analyst Paino raportoinnissa (BI eli business intelligence)
Esimerkkejä Tilastokeskukselta 1: Liikenneonnettomuuksien luokittelu Onnettomuusseloste 250 000 tieliikenneonnettomuudesta viimeisen 10 vuoden ajalta Vapaamuotoinen teksti, jota kone opetettiin tulkitsemaan Dokumenttien luokittelu: henkilövahinko vai omaisuusvahinko Mallin tarkkuus yli 92 % Voitaisiin hyödyntää myös onnettomuustutkinnassa
Esimerkkejä Tilastokeskukselta 2: Jätelajin ennustaminen kuvaustekstin perusteella Esimerkiksi jätetilastossa sekä jatkuva muuttuja jätemääristä ja kategorinen muuttuja jätelajista sekä sanallinen kuvaus kuljetetusta jätelastista Jätelaji pystyttiin kokeilussa ennustamaan 200k opetusesimerkin pohjalta 1-numerotasolla (3 eri luokkaa) 93 % tarkkuudella ja 8-numerotasolla (740 eri luokkaa) 72 % tarkkuudella pelkän vapaamuotoisen sanallisen kuvauksen perusteella
Esimerkkejä Tilastokeskukselta 3: Toimialan ja ammatin automaattinen luokittaminen Työvoimatutkimus haastattelee n. 100k henkilöä vuodessa ja nämä halutaan luokittaa TOL2008-toimialaluokituksen mukaisesti 5- numerotasolla (n. 800 eri luokkaa) Nykyisellään 15% ajasta menee pelkästään luokittamiseen 600k opetusesimerkin pohjalta kokeilussa malli pystyi luokittamaan toimialan automaattisesti yli 85 % tarkkuudella 14 lähtömuuttajan perusteella (ammatti, ikä, sukupuoli, koulutusaste, tulot jne.) Toinen malli pystyi samoista opetusesimerkeistä luokittamaan pelkän toimialan vapaan sanallisen kuvauksen perusteella yli 70 % tarkkuudella Mallit yhdistämällä saavutetaan yksittäisiä malleja parempi tarkkuus
Rakenteinen ja rakenteeton data Rakenteellinen data ehkä 20 % kaikesta? Esim. taulukko, jossa asuntojen asuinneliöt, huoneiden lukumäärä, ikä ja kauppahinta Rakenteeton data ehkä 80 % kaikesta? Tai paljon enemmän? Esim. kuvat ja vapaa teksti Data science työ voi olla myös rakenteettoman datan muuttamista rakenteelliseksi 1. Esim. Tilastokeskuksella 400k kotitalouden täyttämä 1950- ja 1960-lukujen väestönlaskentalomake (perhekoot, ammatit jne.) paperilta skannattuina 2. Tai esim. vallitsevan tunnelman, kuluttajaluottamuksen jne. mittaaminen Twitter-päivityksistä 3. Tai kotitalouksien aurinkopaneelien laskeminen satelliittikuvista 4. Tai Lontoon puuston ilmastovaikutuksen laskeminen Google Street View -kuvista
Data Scientistin tilaaminen laatikossa netistä Automatic Machine learning aka. "Expert Data Scientist in a box https://www.h2o.ai/products/h2o-
3. Mitä osaamista tarvitaan?
Citizen Data Scientist (Gartner) Expert Data Scientist Yhteistyötä Kenelläkään yksin ei ole kaikkea tarvittavaa osaamista (ks. kuva)
Web-tekniikat ja interaktiivinen visualisointi! Esim. Unkarin tilastoviraston visualisointi eri maiden ajankäytöstä: http://www.ksh.hu/interaktiv/timeuse/index.html#en
Verkkokursseja Paljon ilmaisia kursseja ja lisäksi tosi halpoja, mutta hyviä kursseja Suomalaisten yliopistojen tarjonta esim. http://www.elementsofai.com/fi - kansantajuinen yleiskatsaus Tulossa lisää Coursera.org https://www.coursera.org/learn/python-machine-learning www.coursera.org/specializations/deep-learning DataCamp.com Fast.ai
4. Kehittäjän työkalut
Näillä pääsee hyvin pitkälle (ja ilman euroja) SQL Python, esim. Anaconda Distribution R, esim. RStudio Git Shell Jupyter Notebook (Python, R jne. tuki) Spreadsheets
Jupyter Notebook toimii web-selaimessa! Tilastokeskuksen avoin työssäkäyntiaineisto esimerkki: https://www.stat.fi/tup/ mikroaineistot/ opetusaineistot.html https://notebooks.azure.com/ jukkak-tk/libraries/puf-testi- FLEED/html/FLEED.ipynb Aurinkovoimalan tuotannon ennustaminen neuroverkoilla: https://notebooks.azure.com/
Lisäksi Pilvipalvelut esim. Azure, Google Cloud, AWS Hajautetut järjestelmät esim. Spark Container-tekniikat, esim. Docker Web-rajapinnat mahdollistavat eri teknologioiden välisen yhteistyön ja koneoppimismallien tuotantoonviennin Paljon kaupallisia analytiikka-/bi-/koneoppimis-ympäristöjä
Avoin lähdekoodi eli open source - Käyttäjällä mahdollisuus tutustua ohjelman lähdekoodiin ja muokata sitä omien tarpeidensa mukaisesti - Vapaus käyttää ohjelmaa mihin tahansa tarkoitukseen ja kopioida ja levittää sekä alkuperäistä että muokattua versiota
Avoin data ja linkattu avoin data Webissä voidaan jakaa alkuperäisten tekstidokumenttien lisäksi dataa Metatieto ja linkkaus auttaa yhdistämään dataa eri lähteistä koneellisesti avoindata.fi Tilastokeskuksen Paavo: www.stat.fi/org/avoindata/paikkatietoaineistot/paavo.html HSL liikennevälineiden reaaliaikainen sijainti
Linkkejä www.anaconda.com/distribution/ www.rstudio.com www.h2o.ai www.databricks.com www.alphagomovie.com/ www.nextrembrandt.com www.helsinki.fi/en/helsinki-centre-for-data-science/news/ event-materials