DATA-ANALYYSIN KOULUTUS 20.8.2015 JYVÄSKYLÄN YLIOPISTO INFORMAATIOTEKNOLOGIAN TIEDEKUNTA 2015
SISÄLTÖ 1 DATA-ANALYYSIN OPETUS... 3 1.1 Opetuksen perusteet... 3 1.1.1 Tilastotieteen maisteritutkinto... 4 1.1.2 Sovelletun matematiikan maisteritutkinto... 4 1.1.3 Laskennallisten tieteiden maisteritutkinto... 5 1.1.4 Data-analyysin osaamisprofiili... 5 2 DATA-ANALYYSIN KOULUTUKSEN KEHITTÄMINEN... 7 2.1 Yhteistoiminta IBM Watsonin kanssa... 7 2.2 Data-analyysin sivuainekokonaisuus... 8 2.3 Data-analyysin maisteriohjelma (DATA)... 9
3 1 DATA-ANALYYSIN OPETUS 1.1 Opetuksen perusteet Data-analyysin asiantuntijan tulee kyetä vaativaan tilastolliseen mallintamiseen ja osata ohjelmointia ja tiedonhallintaa. Näiden taitojen oppiminen puolestaan vaatii pohjakseen matematiikan osaamista. Alan vaativuuden vuoksi tutkijakoulutus on usein tarpeen käytännön työtehtävissä. Ohjelmistojen tekninen hallitseminen ei riitä lisäarvon tuottamiseen, vaan big datan hyödyntäminen vaatii sekä substanssialueen että analyysimenetelmien syvällistä ymmärtämistä. Vain näin voidaan varmistaa prosessien ja tulosten luotettavuus ja käyttökelpoisuus pitkällä aikavälillä. Kuvassa 1 on esitetty datan hyödyntämisen arvoketju. Kuva 1 Datan hyödyntämisen arvoketju
1.2 Data-analyysin nykyinen opetus 4 Data-analyysin maisteri- ja tohtorikoulutus pohjautuvat Jyväskylän yliopistossa vankkaan matematiikan, tietotekniikan ja tilastotieteen tutkimukseen. Jyväskylän yliopiston monitieteinen toimintaympäristö antaa erinomaisen lähtökohdan kehittää uusia dataanalyysin ja big datan menetelmiä ja soveltaa niitä eri tieteen aloilla sekä yritysmaailman että julkisen sektorin osa-alueilla. Tällä hetkellä suurien tietomassojen analyysin opiskelu toteutetaan kolmen maisteriohjelman sisällä, joissa opiskelija voi profiloitua data-analyysiin. Tietotekniikan laitoksella toteutetaan laskennallisten tieteiden ja sovelletun matematiikan maisteriohjelmat ja Matematiikan ja tilastotieteen laitoksella toteutetaan tilastotieteen maisteriohjelma. 1.2.1 Tilastotieteen maisteritutkinto Tilastotieteen maisteriopinnot sisältävät sekä teoreettisia opintoja että tilastotieteen sovelluksia ja tähtäävät ammattitilastotieteilijän taitoon. Tilastotiede kehittää malleja ja menetelmiä numeerisen havaintoaineiston keräämiseen, kuvaamiseen ja analysointiin ja tähän liittyvään laskennalliseen toteuttamiseen. Tilastotieteellä on kiinteä yhteys lähes kaikkiin empiiristä tutkimusta tekeviin tieteenaloihin: tilastollisia menetelmiä sovelletaan niin informaatioteknologiassa, bio- ja ympäristötieteissä, taloustieteessä, lääketieteessä kuin yhteiskunta- ja kasvatustieteissäkin. Tilastotieteessä on kysymys reaalimaailman ilmiöiden mallintamisesta ja sen osaamista tarvitaan yhä enemmän yhteiskunnassa ja elinkeinoelämässä, missä tutkimusaineistojen ja tietovarantojenanalyyseilla ja mallinnuksella halutaan tuottaa jalostettua tietoa päätöksenteon tueksi. Tilastotieteen opetuksen tavoitteena on antaa valmiudet edustavien havaintoaineistojen keräämiseen, aineistojen kuvaamiseen ja analysointiin sekä yleensä numeerisesti mitattavissa olevienilmiöiden pätevään tilastolliseen mallintamiseen. Tilastotieteellä on käytettävissä erilaisia analysointityökaluja data-analyysin toteuttamiseen. 1.2.2 Sovelletun matematiikan maisteritutkinto Sovelletun matematiikan avulla pyritään ratkaisemaan tosielämän ongelmia. Sovelletun matematiikan tavoitteena on mallintaa erilaisia ilmiöitä, kuvailla niitä ja yrittää ymmärtää niitä. Sovelletun matematiikan opiskelussa yhdistyy tieteellisen laskennan käsitteet ja menetelmät, joita käytetään kysymyksiin, jotka ilmentyvät matematiikan ja muiden tieteenalojen rajapinnoissa. Jyväskylän yliopistossa opinnoissa keskitytään sellaisiin osa-alueisiin, kuten funktionaalianalyysi, mitta- ja integraaliteoria, kompleksianalyysi, numeerinen analyysi, optimointi ja simulointi. Valmistunut maisteri hallitsee laaja-alaisesti sovelletun matematiikan ja tieteellisen laskennan käsitteitä ja menetelmiä, joita käytetään itsenäisen ajattelun ja tutkimuksen
5 perustana. Ymmärtää matematiikan ja lähitieteenalojen rajapintojen tietoihin liittyviä laskennallisia kysymyksiä ja tarkastelee niitä ja uutta tietoa kriittisesti. Sovellettu matematiikka tuottaa matemaattisia työkaluja data-analyysin toteuttamiseen. 1.2.3 Laskennallisten tieteiden maisteritutkinto Laskennallisten tieteiden maisteriohjelmassa käsitellään jatkuvan ja diskreetin simuloinnin periaatteet ja sovelluskohteet. Tavoitteena ovat jatkuvien simulointimallien tavallisimmat diskretisointimenetelmät ja niiden tehokkaan toteuttamisen perusperiaatteet moderneissa tietokonearkkitehtuureissa ja lisäksi yksi- ja monitavoitteisen epälineaarisen optimoinnin periaatteet ja ratkaisumenetelmät. Opetuksessa muodostetaan tekniikan ja luonnontieteiden ilmiöille matemaattisia simulointimalleja. Opetuksessa käsitellään laaja-alaisesti tilastotieteen, numeerisen laskennan ja ohjelmoinnin käsitteitä ja menetelmiä. Data-analyysissä opetetaan ja tutkitaan menetelmiä ja lähestymistapoja, joilla eritavoin kerätystä tiedosta (data) pyritään muodostamaan malleja ja korkeampaa tai tarkempaa informaatiota. 1.2.4 Data-analyysin osaamisprofiili Edellä kuvatut kolme maisterikoulutusta antavat opiskelijalle mahdollisuuden profiloitua suurten datamassojen analyysiin kunkin tieteenalan näkökulmasta ja tutkimustyökaluja hyväksikäyttäen. Data-analyysissä opetetaan ja tutkitaan menetelmiä ja lähestymistapoja, joilla eritavoin kerätystä tiedosta (data) pyritään muodostamaan malleja ja korkeampaa tai tarkempaa informaatiota. Opetuksessa korostuu keskeisinä tekijöinä datan kerääminen, käsittely ja visualisointi. Data-analyysiin erikoistuva opiskelija rakentaa osaamisprofiilinsa mukaisesti opintosuunnitelmansa eri kurssikokonaisuuksista, kuten; tilastotieteen kursseja sovelletun matematiikan kursseja tietoliikennetekniikan kursseja sensoriverkkoihin liittyviä kursseja kokonaisarkkitehtuurin rakentamiseen liittyviä kursseja Data-analyysin maisterikoulutus vastaa muuttuvan maailman tilanteeseen, jossa suurien data-aineistojen automaattisesta analysoinnista on tullut keskeinen työkalu useilla aloilla. Koulutuksen tavoitteena on antaa opiskelijoille data-analyysiin liittyvää erikoisosaamista sekä tilastollisista menetelmistä että niiden soveltamisesta tietokoneympäristöön.
6 Jyväskylän yliopiston laaja-alainen ja monitieteellinen toimintaympäristö antaa mahdollisuuden data-analyysin opiskelijoille käyttää hyväkseen erilaisia datamassoja, kuten: oppimiseen liittyvä data (Learning Analytics) hiukkaskiihdyttimen tuottama havaintoaineisto aivotutkimusyksikön tuottama havaintoaineisto erilaiset prosessien tuottamat data-aineistot (Process mining) muu empiirinen tutkimusaineisto Kuvassa 2 on esitetty nykyinen data-analyysin osaamisprofiilin rakentuminen Jyväskylän yliopiston toimintaympäristössä. Kuva 2 Data-analyysin osaamisprofiilin rakentuminen Big datan ja data-analyysin koulutusta annetaan IT-tiedekunnassa lisäksi Web Intelligence and Service Engineering (WISE) kansainvälisessä maisteriohjelmassa. WISE keskittyy suunnittelemaan web-pohjaisia sovelluksia, jotka auttavat verkossa toimivaa palveluyhteiskuntaa niin julkisella kuin yksityisellä sektorilla. Maisteriohjelmalla on suora yhteys big data strategian tavoitteisiin, kuten verkossa olevan datan käsittelyssä tarvittavaan "älykkyyteen" ja tämän päälle rakennettaviin palveluihin.
7 2 DATA-ANALYYSIN KOULUTUKSEN KEHITTÄMINEN 2.1 Yhteistoiminta IBM Watsonin kanssa IT-tiedekunnan ja Matemaattis-luonnontieteellisen tiedekunnan tavoitteena on kehittää data-analyysin koulutusta ja tutkimusta yhteistyössä IBM Watsontoimintaympäristössä. IBM Watsonin Cognitive computing -pohjainen järjestelmä luo interaktiivisen suhteen ihmisen ja koneen välillä. Malli antaa ihmiselle mahdollisuuden päästä käsiksi kompleksiseen datamassaan, kohdistamaan siihen hakuja ja saamaan relevantteja vastauksia ja analyysejä päätöksenteon pohjaksi. IBM Watson voi tukea yliopistoa laajasti eri tavoin kuten: IBM ammattilaisten tuki (systeemikehittäjiä, tutkijoita) auttamaan kurssien ja materiaalien valmistelussa Vierailuluentoja IBM Watson ekosysteemin työkalujen monipuolinen käyttö IBM Watsonin tekninen tuki kurssien aikana opiskelijoiden suunnitellessa ja rakentaessa applikaatioita Suunnitelmissa on tuottaa yhdessä IBM:n kanssa kaksi kurssia, joiden avulla opiskelijat tutustuvat Watsonin teknologiaan ja sen mahdollisuuksiin. Nämä kurssit ovat osa dataanalyysin maisteriohjelmaa ja data-analyysin sivuaineopintoja. Kurssit ovat: Cognitive Computing 1: Innovation with Watson Cognitive Computing 2: Question Answering Technologies behind IBM Watson's Jeopardy! -system Tehdyn suunnitelman mukaan Jyväskylän yliopiston IBM Watson yhteistyö rakentuu neljään vaiheeseen tulevien 2-3 vuoden aikana. Vaiheisiin kuuluvat tutustuminen Watsonin toimintaympäristöön, koulutusyhteistyö, laajennettu koulutus- ja tapahtumayhteistyö sekä tutkimusyhteistyö. Kuvassa 3 on esitetty yhteistyön pelkistetty tiekartta ja aikataulu.
8 Kuva 3 Yhteistyön tiekartta ja aikataulu Tavoitteena on, että IBM Watson-yhteistyö kattaa laajasti koko yliopiston koulutus- ja tutkimusaloja, aloja, joissa data-analyysi tuottaa lisäarvoa. Alkuvaiheessa on suunniteltu, että toiminta-alueita IBM Watsonin kanssa on kasvatustieteissä, informaatioteknologiassa, tilastotieteessä, liikuntatieteissä ja taloustieteissä. Toiminta vahvistaa monitieteistä toimintaa tiedekuntien ja laitosten välillä. 2.2 Data-analyysin sivuainekokonaisuus Tietotekniikan laitos sekä Matematiikan ja tilastotieteenlaitos tuleva tarjoamaan dataanalyysin sivuaineopinnot (25 op), jotka koostuvat Cognitive Computing -kursseista ja valinnaisista syventävistä kursseista. Sivuainekokonaisuus on esitetty taulukossa 1 Taulukko 1 Data-analyysin sivuainekokonaisuus Pakolliset kurssit 10 op TIESXXX Cognitive Computing 1, 5 op TIESXXX Cognitive Computing 2, 5 op Valinnaiset kurssit 15 op Valittavissa seuraavista kursseista:
9 TJTST19 Tietokannat ja tiedon louhinta, 5 op TIES445 Tiedonlouhinta, 5 op TIES438 Big data engineering, 5 op TIESXXX Syventävä data-analyysi, 5 op TIES483 Epälineaarinen optimointi, 5 op TIES588 Monitavoiteoptimointi, 5 op TIES487 Advanced Data Mining and Machine Learning, 5 op TILA 141 Tilastollinen päättely 1, 5 op TILA350 Bayes-tilastotiede 1, 5 op TILS150 Teoreettinen tilastotiede 1, 5 op TILS151 Teoreettinen tilastotiede 2, 5 op 2.3 Data-analyysin maisteriohjelma (DATA) Data-analyysin maisteriohjelma (DATA) (120 op) on Tietotekniikan laitoksen sekä Matematiikan ja tilastotieteen laitoksen Informaatioteknologian tiedekunnan ainelaitosten yhteinen koulutus. Lisäksi DATA on tarkoitettu aihepiiristä kiinnostuneille sivuaineopiskelijoille tai erillisellä opinto-oikeudella opiskeleville ei-tutkinto-opiskelijoille sekä jo työelämässä oleville tutkintonsa täydentäjille. Koulutus toteutetaan monitieteisenä 2-vuotisena kokonaisuutena, jossa perinteisen opiskelun lisäksi aikaa käytetään erilaisiin projekteihin (yritysprojektit, tutkimusprojektit, pro gradu). Data-analyysin opetuksessa korostuvat opintojen suuntaaminen uusien osaamisprofiilien mukaisesti. Käytännössä tämä tarkoittaa, että tutkintovaatimuksien ei-sidotut osat (projekti, opinnäytetyö + seminaari, valinnaiset opinnot, vapaavalintaiset opinnot, kurssien harjoitukset ja harjoitustyöt ym.) kohdennetaan valitun opintopolun mukaisesti. Koulutuksella vastataan muuttuvan maailman tilanteeseen, jossa suurien dataaineistojen automaattisesta analysoinnista on tullut keskeinen työkalu useilla aloilla. Digitalisoinnin ja erilaisten sensoritekniikoiden avulla tietomassat kasvavat huimaa vauhtia ja sekä tutkimus että teollisuus ovat havainneet data-analyysin tuomat mahdollisuudet. Ala vaatii kuitenkin erikoistunutta osaamista, sekä tilastollisista menetelmistä, että niiden soveltamisesta tietokoneisiin, eikä vastaava koulutusta ole riittävästi. Data-analyysin maisteriohjelman tarkoituksena on kouluttaa osaajia tämän tarpeen täyttämiseksi. Opiskelijoita koulutetaan matematiikan ja tilastotieteen sekä tietotekniikan laitoksen yhteistyönä. Opiskelijoilla on valmistuttuaan hyvät mahdollisuudet siirtyä teollisuuden ja elinkeinoelämän vaativiin asiantuntijatehtäviin tai jatkaa tutkimustyötä poikkitieteellisissä tutkimusryhmissä.
10 Tutkintonimike on FM (data-analyysi). Kurssien ja tutkimustyön erilaisilla valinnoilla opiskelija voi suuntautua erilaisiin osaamisprofiileihin. Tutkinnon suorittaneet opiskelijat ovat yritysten näkökulmasta arvonmuodostuksessa korkealla. He ovat tuottamassa informaatiota suoraan yritysten operatiiviseen päätöksen tekoon. Tiedot Maisteri hallitsee laaja-alaisesti tilastotieteen, numeerisen laskennan ja ohjelmoinnin käsitteitä ja menetelmiä, joita käytetään itsenäisen ajattelun ja tutkimuksen perustana. Ymmärtää tilastotieteen ja lähitieteenalojen rajapintojen tietoihin liittyviä tiedon käsittelyyn liittyviä kysymyksiä ja tarkastelee niitä ja uutta tietoa kriittisesti. Taidot Maisteri kykenee ratkaisemaan vaativia ongelmia hyödyntämällä matemaattista, tilastollista, laskennallista ja tietoteknistä erikoisosaamista ja yhdistämällä sitä eri alojen tietoihin. Kykenee kartuttamaan alansa erikoisosaamista ja käytäntöjä sekä seuraamaan ja arvioimaan tilastotieteen, sovelletun matematiikan ja laskennallisten tieteiden kehitystä. Osaa viestiä ja hyvin suullisesti ja kirjallisesti alan sisäisille ja ulkopuolisille kohderyhmille englannin kielellä. Asenteet Maisteri on kiinnostunut soveltamaan tilastotieteen, sovelletun matematiikan ja tieteellisen laskennan menetelmiä ongelmien ratkaisuun. Maisteri on utelias ja avoin tilastotieteen, sovelletun matematiikan ja tieteellisen laskennan ongelmille. Maisteri on yhteistyökykyinen ja valmis ottamaan vastuuta. Maisteri on valmis opettelemaan ja opettamaan uutta tietoa. Maisteri asennoituu vakavasti eettisiin kysymyksiin ja noudattaa eettisiä periaatteita. Data-analyysin maisteriohjelman rakenne on esitetty taulukossa 2 Taulukko 2 Data-analyysin maisteriohjelman rakenne Pakolliset syventävät opinnot 25 op TIESXXX Cognitive Computing 1, 5 op TIESXXX Cognitive Computing 2, 5 op TJTST19 Tietokannat ja tiedon louhinta, 5 op TIES445 Tiedonlouhinta, 5 op TIES438 Big data engineering, 5 op Teeman valinnaiset syventävät opinnot Valinnaisissa syventävissä opinnoissa opiskelijan on suositeltavaa valita ainakin yksi seuraavista teemakokonaisuuksista. Halutessaan opiskelija voi kuitenkin valita kursseja myös teemakokonaisuuksista riippumatta. 20 op Data-analyysi ja päätöksenteko, 20 ECTS
11 TIESXXX Syventävä data-analyysi, 5 op TIES483 Epälineaarinen optimointi, 5 op TIES588 Monitavoiteoptimointi, 5 op TIES487 Advanced Data Mining and Machine Learning, 5 op Teolliset järjestelmät ja kriittinen infrastruktuuri, 18 op TIES324 Signaalinkäsittely, 4 op TIES411 Konenäkö ja kuva-analyysi, 4 op TIESXXX Koneoppiminen ja hahmontunnistus, 5 op TIES487 Advanced Data Mining and Machine Learning, 5 op Cloud Computing and Semantic Web 15 25 op TIES456 Introduction to SOA and Cloud Computing (5 op) TIES532 Service oriented architectures and cloud computing for developers, 5-10 op ITKS544 Semantic Web and Ontology Engineering (5-10 op) Computational statistics, 11 13 op TILS150 Teoreettinen tilastotiede 1, 5 op TILS151 Teoreettinen tilastotiede 2, 5 op TILS800 Tilastotiede ja yhteiskunta, 1-3 op Cyber Security Technology, 30 op ITKST42 Anomaly Detection, 5 op ITKST47 Advanced Anomaly Detection: Theory, Algorithms and Applications, 5 op ITKST48 Advanced Persistence Threat, 5 op ITKSTXXX Hardware rooted security, 5 op ITKST50 Secure Systems Design, 5 op, ITKST51 Operating system security 1, 5 op TIES327 Network Security 3-5 op Social Science and Health care, 20 op DEVS222 Globalization: Perspectives from development, culture and civil society, 5 ECTS Terveydenhuollon johtaminen, Avance Executive MBA, 5 op TERS006 Terveyskasvatuksen ja terveyden edistämisen teoriat ja sovellusmallit, 7 op TERS004 Terveyskasvatuksen ja terveyden edistämisen asiantuntijuus III, 3 op Liiketoiminta, 21 op YJOS510 Strategia-ajattelu, 6 op YRIS641 Innovative marketing, 5 op
12 YJOS467 Työ, organisoituminen ja yhteiskunta, 5 op TJTSM61 Business Analytics and Big Data Management, 5 op Lisäksi saatavilla on useita verkkokursseja. Teemaan liittyvät projektiopinnot TIES405 Sovellusprojekti (10 op) tai Data-analyysin sovellusprojekti (10 op) Pro Gradu -tutkielma TIES501 Pro gradu -seminaari 5 op TIES502 Pro gradu -tutkielma 30 op TIES503 Kypsyysnäyte 0 op Sivuaineopinnot Kandidaatin tutkinnon suorittaneella henkilöllä tulee olla suoritettuna kaksi perusopintoja vastaavaa sivuainekokonaisuutta tai yhden aineen perus- ja aineopinnot 10 op 35 op 0-25 op Kandidaatin ja maisterin tutkinnon suorittaneella henkilöllä tulee olla suoritettuna kaksi perusopintoja vastaavaa sivuainekokonaisuutta tai yhden aineen perus- ja aineopinnot. Mikäli alempaan tutkintoon ei sisälly matematiikan perusopintokokonaisuutta (25 op) ja/tai tilastotieteen perusopintoja (25 op), tulee ne suorittaa osana FM-tutkintoa. Matematiikan perusopinnot, 25 op ja/tai Matematiikan aineopinnot, 35 op sekä Tilastotieteen perusopinnot, 25 op Sivuainekokonaisuutta suositellaan täydentämään tilastotieteen syventävillä kursseilla: TILAS646 Ryhmittely-, luokittelu-, ja regressiomenetelmät TILS150 Teoreettinen tilastotiede 1, 5 op TILS151 Teoreettinen tilastotiede 2, 5 op Vapaavalintaiset opinnot Suositellaan: Johtamista & Yrittäjyyttä 0-10 op