R intensiivisesti. Erkki Räsänen Ecitec Oy

Samankaltaiset tiedostot
E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Määrällisen aineiston esittämistapoja. Aki Taanila

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Teema 5: Ristiintaulukointi

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Poikkeavuuksien havainnointi (palvelinlokeista)

Datan analysointi ja visualisointi Teollisen internetin työpaja

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Määrällisen aineiston esittämistapoja. Aki Taanila

Teema 3: Tilastollisia kuvia ja tunnuslukuja

ARVOA PALVELUPROSESSIEN ANALYSOINNILLA

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi

Tilastojen visualisointi Excelillä. PiKe-kehittämiskirjasto Leena Parviainen

Kvantitatiiviset menetelmät

Mittaaminen menettely (sääntö), jolla tilastoyksikköön liitetään tiettyä ominaisuutta kuvaava luku, mittaluku.

Tähtitieteen käytännön menetelmiä Kevät 2009

Kuvioita, taulukoita ja tunnuslukuja. Aki Taanila

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

MONISTE 2 Kirjoittanut Elina Katainen

GOOGLE DATA WORKSHOP MIHIN GOOGLE DATAA VOI KÄYTTÄÄ JA MITÄ SE KÄYTÄNNÖSSÄ TARKOITTAA?

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Koulutus 2: Pistepilviohjelmistot

Kvantitatiiviset menetelmät

Data-analytiikkakonseptin esiselvitys. Palvelu innovaatioseteliin Steamlane Oy

Materiaalinäytteiden qpcr-tulosten tulkinnasta

CLT255: Tulosten esittäminen ja niiden arviointi tilastomenetelmillä

Kandidaatintutkielman aineistonhankinta ja analyysi

ROVANIEMEN KAATOPAIKAN GEOFYSIKAALISTEN JA GEOKEMIALLISTEN HAVAINTOJEN YHTEISISTA PIIRTEISTA

LAS- ja ilmakuva-aineistojen käsittely ArcGIS:ssä

TEEMA 2 TAULUKKODATAN KÄSITTELY JA TIEDON VISUALISOINTI LUENTO 3

Älykäs datan tuonti kuljetusongelman optimoinnissa. Antoine Kalmbach

805324A (805679S) Aikasarja-analyysi Harjoitus 4 (2016)

Tosi elävä virtuaalimalli Mika Karaila Tutkimuspäällikkö Valmet Automation

Tarkista vielä ennen analysoinnin aloittamista seuraavat seikat:

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Siili Solutions demototeutus tehokkaaseen tilankäyttöön ja vuorovaikutussuhteiden seurantaan Oulun ammattikorkeakoululla

StatCrunch -laskentasovellus

Paretoratkaisujen visualisointi. Optimointiopin seminaari / Kevät 2000 Esitelmä 11 Petteri Kekäläinen 45305L

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Analytiikan teknologiset trendit ja uudet mahdollisuudet HR:lle. Heikki Penttinen, OlapCon Oy

Identifiointiprosessi

Data-analyysi tieteenalana Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Basic Vector Styling

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

ReplicaX työkalu avointen datakopioiden luomiseen

Monitasomallit koulututkimuksessa

Tekoäly muuttaa arvoketjuja

Katsaus visualisointitekniikoihin

Luentorunko perjantaille

Avoin Data Kehittäjäyhteisön käynnistäminen

Tekoäly tukiäly. Eija Kalliala, Marjatta Ikkala

... Vinkkejä lopputyön raportin laadintaan. Sisältö 1. Johdanto 2. Analyyseissä käytetyt muuttujat 3. Tulososa 4. Reflektio (korvaa Johtopäätökset)

Harjoitus 9: Excel - Tilastollinen analyysi

Populaatio tutkimusobjektien muodostama joukko, johon tilastollinen tutkimus kohdistuu, koko N

Uuden mittausmenetelmän kokeilu metsäkonetutkimuksessa. Esko Rytkönen Työterveyslaitos

Harjoitus 1: Matlab. Harjoitus 1: Matlab. Mat Sovelletun matematiikan tietokonetyöt 1. Syksy 2006

Location Business Forum 2015 Paikkatieto osana uudistuvaa analytiikkaa ja tiedolla johtamista

Aureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

SPSS-pikaohje. Jukka Jauhiainen OAMK / Tekniikan yksikkö

Flipped classroom (2op) Käänteinen opetus/luokkahuone Lähipäivä

JOHDATUS TEKOÄLYYN TEEMU ROOS

Esimerkki 1: auringonkukan kasvun kuvailu

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tutkimusprojekti: Siemens Simis-C -asetinlaitteen data-analytiikka

Matemaattinen Analyysi, k2012, L1

ALKUSANAT... 4 ALKUSANAT E-KIRJA VERSIOON... 5 SISÄLLYSLUETTELO... 6

Ohjelmistoradio tehtävät 4. P1: Ekvalisointi ja demodulaatio. OFDM-symbolien generoiminen

Customer Intelligence ja Big Data. Digile D2I Kimmo Valtonen

HARJOITUSKERTA 1: SPSS-OHJELMAN PERUSKÄYTTÖ JA MUUTTUJAMUUNNOKSET

805324A (805679S) Aikasarja-analyysi Harjoitus 3 (2016)

Kon Konepajojen tuotannonohjaus: ILOG CPLEX Studion käyttö

Tilastotieteen johdantokurssin harjoitustyö. 1 Johdanto Aineiston kuvaus Riippuvuustarkastelut...4

Tilastotiede ottaa aivoon

Internet of Things (IoT) - sovellusten ja palveluiden toteutus käytännössä

Mendeleyn käyttö viittamisessa. Maria Söderholm Tietoasiantuntija Oppimiskeskus

Projektinhallintaa paikkatiedon avulla

Pythonin Kertaus. Cse-a1130. Tietotekniikka Sovelluksissa. Versio 0.01b

Tilastotieteen aihehakemisto

KTKO104 Tieto- ja viestintätekniikka

Avoimen lähdekoodin ratkaisut paikkatiedon analysoinnin ja visualisoinnin mahdollistajina

Tähtitieteen käytännön menetelmiä Kevät 2009 Luento 4: Ohjelmointi, skriptaus ja Python

Harjoittele tulkintoja

Tänään ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus laskarit. Ensi kerralla (11.3.)

Visualisointi kansanedustajista neljässä eri ulottuvuudessa

Harjoitustyö 3. Heiluri-vaunusysteemin parametrien estimointi

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

Tilastotiede ottaa aivoon

Moottorin kierrosnopeus Tämän harjoituksen jälkeen:

Tekoälykokeiluprojekti. Henkilökohtaisen kalenterin optimointi tekoälyllä Skycode Oy (ent. Suomen Mediatoimisto Oy)

Teemat. Vaativien säätösovellusten käyttövarmuus automaation elinkaarimallin näkökulmasta Tampere. Vaativat säätösovellukset

Harjoitus 12: Monikriteerinen arviointi

TUTKIMUSOPAS. SPSS-opas

Tekoäly ja tietoturva Professori, laitosjohtaja Sasu Tarkoma Tietojenkäsittelytieteen laitos Helsingin yliopisto

Transkriptio:

R intensiivisesti Erkki Räsänen Ecitec Oy

Päivän tavoitteet Yleinen perehdytys R:ään; miten sitä käytetään ja mitä sillä voi tehdä Ymmärrämme yleisimpiä analyysimenetelmiä ja osaamme tulkita tuloksia Madallamme oppimiskynnystä ja helpotamme itseopiskelua Sopisiko R sinun tai yrityksenne käyttöön

Datan ominaisuudet ja analyysimenetelmän valinta tärkeimmät huomioitavat seikat

Minkälaista dataa on olemassa? Kategorista; mies, nainen, punatukkainen, omakotitalo, koira, kissa Data, johon liittyy kategoriat, joita ei voida verrata toisiinsa arvon perusteella. Ordinaalidataa; ikäryhmät, tulotaso, erilaiset arvoluokitukset Data, joka on luokiteltu toisiinsa verrannollisiin arvoluokkiin. Kategorisen ja ordinaalidatan välimuoto; Likertin skaalan mukainen data Jatkuvaa dataa; lämpötila, ilmankosteus, nopeus Erilaiset jatkuvasti mitattavat suureet Käytettävät analyysimenetelmät on valittava datan tyypin mukaan. Harva menetelmä sopii kaikille datatyypeille.

Miten datasta tehdään havaintoja? Tilastollisten ominaisuuksien perusteella Korrelaatioiden perusteella korrelaatio- ja regressioanalyysi Datajoukkojen eroavaisuuksien/samankaltaisuuksien perusteella luokittelu, klusterointi pääkomponenttianalyysi neuroverkot...

Miten datasta tehdään havaintoja? ei klustereita, ei korrelaatiota korrelaatio, ei klustereita klustereita, ei korrelaatiota klustereita ja korrelaatio

Datan ominaisuudet käyttökelpoiset menetelmät Korrelatiiviset menetelmät, riippuvuussuhteiden määrittely Klusterianalyysi, samankaltaisuuksien luokittelu Klusterianalyysi ja korrelatiiviset menetelmät

Miten saan analyysin onnistumaan? Tiedosta, minkälaista dataa ja/tai muuttujia sinulla on; kategorista, ordinaalidataa, jatkuvaa usein näitä kaikkia. Tiedosta, mitkä menetelmät sopivat datallesi. Jos yksi menetelmä sopii joillekin muuttujille, se ei välttämättä sovi kaikille muuttujille. Tunnista datasi erityispiirteet, jotka ilmeisimmin vaikuttavat analyysiin. Esim. aikasarjadatan korrelaatio/regressioanalyysi; kuinka leveällä aikaikkunalla analyysin voi luotettavasti tehdä. Varmista tuloksesi useilla menetelmillä. Hyödynnä visuaalisia menetelmiä. Silmä näkee parhaiten.

Kurssilla käytetyt esimerkkidatat Markkinatutkimusdata kuntoilutottumukset ; ainoastaan kategorisia ja ordinaalimuuttujia, Likertin 5-tasoinen mielipideasteikko Prosessidataa paperikoneelta; jatkuvasti mitattuja suureita, myös muutama kategorinen muuttuja. Data on otettu tilanteesta, jolloin koneella on ollut toimintahäiriö. IoT-dataa kiinteistön vedenkulutuksesta R:n demonstroinnissa usein käytettyjä demodatoja; NHL & NBA Statistics, Cars, Diamonds

R on visuaalisen analytiikan työkalu johdantoa harjoituksiin - yleisimmät analyysimenetelmät ja niiden soveltaminen datan tilastolliset ominaisuudet ja laatu - korrelaatiot - klusterianalyysi - itseorganisoituvat kartat - muut visuaaliset analyysimenetelmät - ennustaminen aikasarjadatoilla

Datan tilastolliset ominaisuudet ja laatu Hajonta, kvartiilit, keskiarvo, mediaani, poikkeamat Box Plot on havainnollinen ja tehokas työkalu datan laadun arviointiin Box Plot on erittäin käyttökelpoinen analyysimenetelmä, kun vertaillaan jatkuvia datamuuttujia kategorioittain Visualisoitavana muuttujana ei kuitenkaan saa olla kategorinen tai ordinaalidata

Korrelaatioanalyysi

Datajoukkojen samankaltaisuus Mosaic Plot (yläkuva); sopiva kategoriselle ja ordinaalidatalle Itseorganisoituvat kartat (SOM, alakuva) ovat klusterianalyysin ilmentymiä SOM sopii datalle, jossa tarkasteltavaan asiaan liittyy paljon laadullisia muuttujia SOM on hyvin yleiskäyttöinen monilla sovellusalueilla

Muita käyttökelpoisia visuaalisia analyysimenetelmiä Rinnakkaiskoordinaatisto (Parallel Plot) perustuu moniulotteisen datan esittämiseen rinnakkaisilla akseleilla erinomainen menetelmä esim. laadullisten ominaisuuksien vertailuun ja normaalista poikkeavien asioiden tai tilanteiden löytämiseen käytetään paljon teollisten prosessien toimintaongelmien ratkaisuun ja optimointiin

Muita käyttökelpoisia visualisointeja Heatmap vertailutaulukko (tai koordinaatisto), jossa numeroarvot on korvattu väreillä menetelmä helpottaa arvotasojen (min-max) löytämistä datassa esiintyvät säännöllisyydet tulevat näkyviin (jos niitä on) Big Data -analytiikassa paljon käytetty menetelmä

Ennustaminen (Forecast) Ennustavaa (prediktiivistä) analytiikkaa voi tehdä monella tavalla: Datojen luokitteluun perustuen (SOM, klusterointi, neuroverkot) jos luokittelun perustana on riittävän monta laatumuuttujaa, hyvä aineisto voi antaa luotettavan ennusteen Korrelatiiviset menetelmät kohdemuuttujan/muuttujien käyttäytymisen ennustaminen korreloivien muuttujien perusteella Aikasarjamenetelmät; Luokitteluun perustuvat ja korrelatiiviset menetelmät aikadynaamisesti sovellettuina Machine Learning, Deep Learning Yhden muuttujan ennustaminen sen aikaisemman käyttäytymisen perusteella (varianssi, kohina, transientit)

Ennustaminen (Forecast)

Interaktiivisten visualisointien ja appien toteutus R Studioon saa lisäosat, joilla voi toteuttaa interaktiivisia web-visualisointeja ja sovelluksia; Plotly Shiny Kirjastot saa ilmaiseksi rajoitetuin ominaisuuksin.

R, Big Data ja IoT

Harjoitukset ja demot

Harjoitus 1 - datan käsittelyn perusteet R Studio työympäristönä Datan import / export data frame (tiedostot ja tietokantadata) Sarakkeisiin ja riveihin viittaaminen ja niiden käsittely Dataobjektit ja -muuttujat Ensimmäiset visualisoinnit plot-funktiolla Datojen esikäsittely; datasettien yhdistäminen, sarakkeiden ja rivien poisto, poikkeamien poisto

Harjoitus 2 - datan tilastolliset ominaisuudet Box plot -visualisointien toteutus ja tulkinta Tarkastellaan tässä harjoituksessa myös, miten R:llä tuotettujen visualisointien yhdistäminen tapahtuu

Harjoitus 3 - klusterit ja korrelaatiot Miten tuodaan esiin datan klusteroituminen jitter-funktio ja kohinan lisääminen ordinaalidataan hexbin-visualisointi (density plot) Korrelaatiokartat (correlation map, correllogram) tavanomainen korrelaatiokartta tuo esiin korrelaatiot klusterointia voi hyödyntää keskenään korreloivien muuttujien ryhmittelyyn (datajoukkojen samanlaisuuksien / erilaisuuksien perusteella)

Harjoitus 4 - Self Organizing Maps Tarkastellaan SOM-visualisointien generointia ja tulkintaa erilaisilla datoilla markkinatutkimusdata demografinen data NHL & NBA-statistiikka

Harjoitus 5 - muut visualisointimenetelmät Parallell plot - prosessidata ja Cars-data Heatmap - NHL ja NBA Stats Big Data -esimerkki

Harjoitus 6 R:n Forecast -kirjaston käyttö aikasarjaennusteisiin

Harjoitus (demo) 7 - edistyneemmät visualisoinnit Ggplot2 -kirjasto; R:ään sisäänrakennettu visualisoinnin makrokieli Plotly; Interaktiivisten visualisointien toteutus Shiny; Interaktiivisten appien toteutus, miten tuoda omaa dataa esimerkki-appeihin

Harjoitus (demo) 8 - reaaliaikaisen IoT-datan tuonti R:ään

Miten tästä eteenpäin? Analytiikka R:llä vaatii koodaustaitoa. Koodaamista oppii vain, kun sitä itse tekee. Onneksi R-kieli on verrattain helposti omaksuttavissa. Kurssilla käytetyt esimerkit ovat vapaasti käytettävissä, myös netistä löytyy paljon esimerkkejä ja oppimateriaalia. Järjestämme räätälöityjä yrityskohtaisia kursseja. Erkki Räsänen 050 371 6229 erkki.rasanen@ecitec.fi