Luku Yleistä tietovarastoinnista 6.2 Tietovaraston kehittäminen 6.3 Tiedonlouhinta

Samankaltaiset tiedostot
TIETOVARASTOJEN SUUNNITTELU

Tietovarastojen suunnittelu

Tietovarastointiratkaisut massaräätälöinnin konfiguraattoreiden tukena. DI Mika Aho BI/DW Specialist

Data Warehouse kuulumisia

Data, informaatio, tieto, ymmärtäminen ja viisaus

Tällä viikolla. Kotitehtävien läpikäynti Aloitetaan Pelifirman tietovaraston suunnittelu Jatketaan SQL-harjoituksia

Opettajana Mika Sorsa, HAMK:n ammatillisen opettajakoulutuksen opetusharjoittelija

1.1 Käsitteet ja termit 1.2 Historia. Luku 1. Johdanto. ITKA204 kevät

ITKA204 Tietokannat ja tiedonhallinnan perusteet

Health Intelligence - Parempaa informaatiota terveydenhuollon päätöksentekoon. Terveydenhuollon ATK päivät Sibelius Talo, Lahti

Web-seminaari

HAAGA-HELIA Heti-09 1 (12) ICT05 Tiedonhallinta ja Tietokannat O.Virkki Näkymät

Tiedonhallinnan perusteet. Viikko 1 Jukka Lähetkangas

UNA PoC-yhteenveto Atostek Sami Konttinen

Liiketoimintatiedon hallinta ja hyödyntäminen (BI) Nice Tuesday. Minna Oksanen Avarea Oy

SELECT-lauseen perusmuoto

Hyödyt irti XDW:stä. Kim Johnsson Projektipäällikkö/Cerion Solutions Oy

Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

XDW-projektissa rakennetut palvelut

TIEDONHALLINTA - SYKSY Luento 8. Saapumisryhmä: Pasi Ranne /9/13 Helsinki Metropolia University of Applied Sciences

SQL-perusteet, SELECT-, INSERT-, CREATE-lauseet

Tällä viikolla. Kotitehtävien tarkistus Upotettu SQL Indeksi-harjoitus täydennetään pelifirman tietokantamallia SQL-tehtäviä

HELIA 1 (14) Outi Virkki Tiedonhallinta

Jouni Huotari OLAP-ohjetekstit kopioitu Microsoftin ohjatun OLAP-kuution teko-ohjeesta. Esimerkin kuvaus ja OLAP-määritelmä

OPM taloushallinnon työpaja yliopistoille Kokonaiskustannusmalli ja viranomaistarpeet

Nopeutta ja Sulavuutta Analytiikkaan

POLKU LUOKKAKAAVIOISTA TAULUJEN TOTEUTUKSEEN

Ennustava analytiikka B2B- myynnissä. Miten hyötyä säännönmukaisuuksista markkinoinnissa ja myynnissä

ARVOA PALVELUPROSESSIEN ANALYSOINNILLA

Diplomityö TEHDASMITTAUSTEN VARASTOINTI MONIULOTTEISELLA TIETOMALLILLA

ETL-DEMO. Esimerkki ETL-kuvauskielen käyttöstä

TIETOJEN TUONTI TIETOKANNASTA + PIVOT-TAULUKON JA OLAP-KUUTION TEKO

UNA PoC-yhteenveto CGI Aino Virtanen

Ketterät tietovarastot ratkaisuna muuttuviin tiedolla johtamisen tarpeisiin. Korkeakoulujen IT-päivät Kari Karru, Cerion Solutions Oy

Miten asiakaspolku näkyy asiakaskokemuksen seurannassa?

HELIA 1 (8) Outi Virkki Tietokantasuunnittelu

Monitoimittajaympäristö ja SIAM, haasteet eri toimijoiden näkökulmasta

Toimintaja rjestelma (johtamisja rjestelma ) opas

Ville Niemijärvi Metatieto tietovarastoympäristössä

Tieto ja sen mallinnus Fonectalla - Teemme tiedosta arvokasta. Aija Palomäki, TDWI jäsenkokous

KONEOPPIMISEN HYÖDYNTÄMINEN: AUTOMAATTINEN TIKETTIEN KÄSITTELY. Esa Sairanen

TIEDONHALLINTA - SYKSY Luento 11. Hannu Markkanen /10/12 Helsinki Metropolia University of Applied Sciences

IIO10200 Tietokantaohjelmointi (4 op)

HELIA TIKO ICT03D Tieto ja tiedon varastointi T.Mikkola, O. Virkki. Tieto tietojärjestelmässä

Liikkuvien työkoneiden etäseuranta

IIO10200 TIETOKANTAOHJELMOINTI (4 OP) OPINTOJAKSON ESITTELY JOUNI HUOTARI

UNA PoC-yhteenveto DIGIA Ari-Pekka Paananen

Terveydenhuollon tehokas johtaminen edellyttää parhaat raportointi- ja analysointityövälineet

Testiautomaatio tietovarastossa. Automaattisen regressiotestauksen periaate ja hyödyt

Haaga-Helia HeTi-09 1 (20) Outi Virkki, Tiina Mikkola ICT05 Tiedonhallinta ja tietokannat Johdanto

Relaatiotietokantojen perusteista. Harri Laine Helsingin yliopisto

TIETOMALLI JA TIETOVARASTO PALVELUKONSEPTI

TIEDONHALLINNAN PERUSTEET - SYKSY 2013

2. Haet työntekijöiden tiedot etunimen mukaan nousevasti järjestettyinä. (ORDER BY) SELECT * FROM employees ORDER BY firstname ASC;

Tietoarkkitehtuuri nyt!

Jouni Huotari & Ari Hovi. Käsitemallinnuksesta relaatiokantaan KÄSITEMALLI. LOOGINEN MALLI: tietomalli valittu. FYYSINEN MALLI: DBMS valittu

TIETOVARASTON UUDELLEENSUUNNITTELU JA TOTEUTTAMINEN

Työkalujen merkitys mittaamisessa

Tietovarastointi, OLAP ja tiedon louhinta

Moniulotteisen datan liitos tähtimallissa

Liiketoimintatarpeista toimivaksi järjestelmäksi Jari Kekkonen Chief Consulting Officer Ixonos Oyj

Projektiportfolion valinta

Tietokantasuunnittelun pääperiaatteena on tiedon toiston välttäminen. Tiedon toistumiseen liittyy monenlaisia ongelmia.

Harjoittelu P. Kauppatieteiden kandidaatin tutkinto-ohjelma. Oulun yliopiston kauppakorkeakoulu

Auditorio. Miten henkilöstön näkemys ja osaaminen saadaan työyhteisöissä käyttöön? TYÖKALUJA ONGELMIEN RATKAISUUN. 1.

Liiketoimintajärjestelmien integrointi

NORMALISOINTI TIETOJEN MALLINNUS JOUNI HUOTARI & ARI HOVI

Lupapiste verkkopalvelun tietovarastoja raportointiratkaisu

Poweria analytiikkaan

Tietovarastokuvausten takaisinmallinnus mallinnustyökalun avulla. Samuel Heino

pandia Business Intelligence Asuinkiinteistöjen omistajille Pandia Oy Sinikalliontie Espoo

Liiketoimintajärjestelmien integrointi

IIO30100 Tietokantojen suunnittelu (6 op)

YTHS Raportointijärjestelmähankkeen

BUSINESS INTELLIGENCE- OHJELMISTON VALINTA

ICT:n johtamisella tuloksia

APPLICATION MANAGEMENT SERVICES. ecraft

Tekoälysovellusten vaatimukset datalle, tiedon hallinnan prosesseille ja johtamiselle

TIETOKANTOJEN PERUSTEET OSIO 14 MARKKU SUNI

Visuaaliset työpöydät - lisää voimaa liiketoimintaan suurten datamassojen ketterästä analysoinnista

Kiinteistö- ja rakennusalan digitalisaatio: BIM & GIS

YRKK18A Agrologi (ylempi AMK), Ruokaketjun kehittäminen, Ylempi AMK-tutkinto

5.1 Normalisoinnin tarkoitus 5.2 Funktionaalinen riippuvuus 5.3 Normaalimuodot. Luku 5. Normalisointi. ITKA204 kevät

Tietovarasto automaattisten tarkastusjärjestelmien keräämälle datalle

Riskienhallintamalli. ja kuvaus riskienhallinnan kehittämisestä keväällä Inka Tikkanen-Pietikäinen

TIEDONHALLINNAN PERUSTEET - SYKSY 2013

Pyhäjärven kaupungin 100 % tytäryhtiö Rekisteröity 6/2013 Yhtiön toiminta-ajatuksena on omistaa, vuokrata ja rakentaa tietoliikenneverkkoja ja

Digitaalisen liiketoiminnan kehittäjä 30 op erikoistumiskoulutus

FROM-lausekkeessa voidaan määritellä useampi kuin yksi taulu, josta tietoja haetaan: Tuloksena on taululistassa lueteltujen taulujen rivien

VAASAN YLIOPISTO TEKNILLINEN TIEDEKUNTA TIETOTEKNIIKKA. Jarkko Lehto TIETOVARASTOINTI JA BUSINESS INTELLIGENCE. Tietotekniikan pro gradu tutkielma

Käsiteanalyysi prosessina ja tarveanalyysi

BUDJETOINTI- JA RAPORTOINTIPROSESSIEN KEHITTÄMISEN KAUTTA TEHOKKUUTTA TALOUSOHJAUKSEEN

Monimutkaisesta datasta yksinkertaiseen päätöksentekoon. SAP Finug, Emil Ackerman, Quva Oy

IIO30100 TIETOKANTOJEN SUUNNITTELU (6 OP)

KÄSITEANALYYSI PROSESSINA JA TARVEANALYYSI

Uudistuva kansainvälinen ohjelmistoyhtiö. Yritysesittely

IIO30100 Tietokantojen suunnittelu (6 op)

KARELIA-AMMATTIKORKEAKOULU Tietojenkäsittelyn koulutusohjelma. Timo Jalkanen TIETOVARASTOINTI- JA BUSINESS INTELLIGENCE -YMPÄRISTÖJEN VERTAILU

Tietokantojen suunnittelu, relaatiokantojen perusteita

Helsinki Testbedin säätuotteet tänään ja tulevaisuudessa

Transkriptio:

6.1 Yleistä tietovarastoinnista 6.2 Tietovaraston kehittäminen 6.3 Tiedonlouhinta Luku 6 Tietovarastointi Our job is to marshal an organization s data and bring it to business users for their decision making. Collectively, you ve delivered on this objective; business professionals everywhere are making better decisions and generating payback on their DW/BI [Data Warehouse / Business Intelligence] investments. -Ralph Kimball (2013) ITKA204 kevät 2017 TONI TAIPALUS JYVÄSKYLÄN YLIOPISTO 1

6.1 Yleistä tietovarastoinnista Tietovarastointi Tietovarastoinnilla (data warehousing) tarkoitetaan suunnitelmallista ja jaksotettua datan kopioimista, muuntamista ja jalostamista useista eri lähteistä ympäristöön, joka on tarkoitettu tiedon analysointiin. Tätä kohdetietokantaa tai -tietokantoja kutsutaan tietovarastoksi (data warehouse). Tietovarastoinnin isänä pidetään William Bill Inmonia (Building the Data Warehouse, 1992). Liiketoimintatiedon analysoinnin työkaluja ja tekniikoita kutsutaan yleisesti nimellä OLAP (online analytical processing). Yleiskielessä puhutaan OLAP-tietokannoista. Tuotantotietokannoista (ts. operatiivisista tietokannoista) käytetään erottelun vuoksi nimitystä OLTP (online transaction processing). ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 2

6.1 Yleistä tietovarastoinnista Tietovarastoinnin tarkoitus Tietovarastoinnin tarkoituksena (Inmon 1992) on yhdistää eritasoisissa ja eri-ikäisissä tietojärjestelmissä (legacy systems) oleva epäyhtenäinen ja eriaikainen (time-variant) tieto tietyistä aihe-alueista (subject-oriented) pysyvästi tallennetuksi (non-volatile) ja mielekkäällä tavalla haettavaksi. OLTP OLTP DW (OLAP) OLTP ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 3

6.1 Yleistä tietovarastoinnista Tietovarastoinnin hyöty organisaatiolle Taloudellinen tuotto: Tietovaraston toteuttaminen vaatii erityisesti suurissa organisaatioissa suuria investointeja. Saadut hyödyt taloudellisina tuottoina voivat olla hyvinkin merkittäviä, esim. Connolly & Begg (2005, s. 1152): 90% yrityksistä 40% ROI. Päätöksentekijöiden tuottavuuden parantuminen: Kokonaisvaltaisen tiedon saanti on auttanut johtoa havaitsemaan mahdollisuudet ja uhat markkinoilla aiemmin, reagoimaan nopeammin ja seuraamaan muutosten vaikutuksia luotettavammin ja tarkemmin. Tietovarasto yhdistää mahdollisesti kymmenissä erillisissä järjestelmissä olevan tiedon päätöksentekijöille valmiiksi. Tällaista organisaation toiminnan kokonaiskuvan saamista mahdollistamaa järjestelmää on korostettu toistuvasti koko tietojenkäsittelyn historian ajan. Tekniset näkökulmat: Usean lähdetietokannan dataa voidaan hakea yhdellä kyselyllä ja kyselykielellä. Vähentää samanaikaisista tapahtumista johtuvia lukitusongelmia. Datan analysointi ei kuormita herkkiä ja kriittisiä operatiivisia tietokantoja. Datan uudelleenorganisointi luontevasti tarkasteltavaksi, yhdenmukaiseksi ja laadukkaaksi. ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 4

6.1 Yleistä tietovarastoinnista Hyödyn saavuttaminen Tietovarastointi voi hyödyttää organisaatiota edellä mainituilla tavoilla, mutta myös tietovarastointi ja siihen liittyvä raportointi, analysointi ja tiedonlouhinta voi olla liiketoimintaa. Raportointi: koostetaan ja johdetaan tietoa. Analysointi: selvitetään syy-seuraussuhteita. Louhinta: jalostetaan tietoa löytämällä mielenkiintoisia malleja datasta. SQL:n koostefunktiot ja laajennokset kuten OLAP package: supersummaukset (CUBE, ROLLUP), ikkunointifunktiot (WINDOW) ja analysointifunktiot kuten perusjoukon varianssi (VAR_POP) tai korrelaatiokerroin (CORR). ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 5

6.1 Yleistä tietovarastoinnista Arkkitehtuuri Maksuliikenne Pörssi Luottotiedot E Lähdetietokannat ODS Lataustietokanta T Lataustietokanta (staging area) Kerääminen (Extract) L Muuntaminen (Transform) Saattaminen (Load) Ydintieto (master data) Ydintieto Tietovarasto Paikallisvarastot (data mart) Raportointi, analysointi, louhinta Operatiivinen tietovarasto (operational data store, ODS) Asiakasprofiilit Riskit Portfolio Julkinen Raportointi Analysointi Louhinta ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 6

6.1 Yleistä tietovarastoinnista Potentiaalisia ongelmia ETL-prosessi vaatii paljon resursseja. Tiedon yhtenäistäminen edellyttää ylimääräistä työtä. Piilevien ongelmien ilmaantuminen operatiivisissa lähdejärjestelmissä. Korjataanko lähdetietokantoja? Tietovaraston käyttäjät vaativat aiempaa enemmän käyttötukea: väline uusi, käyttäjäkunta kasvaa. Tietovarasto vaatii tehokkaan palvelimen ja hyvin suuren levytilan. Tietovaraston integrointi operatiivisiin järjestelmiin voi olla teknisesti vaikea tehtävä. Myös tiedonvarastoinnissa ja analysoinnissa käytettävät apuvälineet vaativat onnistunutta integrointia. Tiedon omistussuhteet tulevat uudelleen pohdittaviksi. Myöhemmät muutokset operatiivisten järjestelmissä ja liiketoimintaprosesseissa edellyttävät muutoksia myös tietovarastossa. Tietovaraston pystyttäminen kaikessa laajuudessaan voi olla useamman vuoden projekti. ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 7

6.2 Tietovaraston kehittäminen Analyysi Tietovaraston kehittämisen vaiheita voidaan verrata tietojärjestelmän kehittämisen tunnistettuihin vaiheisiin. Kuten tietojärjestelmien kehittämisessä, vaiheet eivät ole lineaarisia. Analyysivaiheeseen kuuluu erityisesti seuraavat asiat: Painopisteiden määrittäminen, ts. mitä tietovarastoinnilla pyritään saavuttamaan. Mitä informaatiota tarvitaan, jotta painopiste saavutetaan? Mitä dataa tarvitaan informaation saavuttamiseksi? Mistä data saadaan, esim. riittävätkö organisaation operatiiviset tietokannat? ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 8

6.2 Tietovaraston kehittäminen Suunnittelu Tietovaraston suunnitteluun kuuluu 1. Päätös operatiivisen tietovaraston toteuttamisesta. 2. Looginen suunnittelu: Tietovarastojen loogiset rakenteet eroavat tuotantotietokantojen rakenteesta. Tunnistettuja loogisia rakenteita ovat ns. tähti- (star), lumihiutale- (snowflake), ja tähtihiutalemalli (starflake). 3. Tietokannan fyysinen suunnittelu kuten indeksit, taulualueet ja hajautus. 4. ETL-prosessin suunnittelu. Erityisesti datan käsittelyprosessi (transform) voi olla äärimmäisen monimutkainen. ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 9

6.2 Tietovaraston kehittäminen Suunnittelu Yhteistä tähti- lumihiutale ja tähtihiutalemalleille on taulujen jako ns. faktatauluihin (fact table) ja ulottuvuustauluihin (dimension table). Loogisen rakenteen keskiössä on faktataulu tai faktatauluja. Faktataulu sisältää mitattavaa dataa tapahtumista (vrt. suhderelaatio). Taululla on moniosainen perusavain ja mahdollisesti muita sarakkeita. Faktatauluun liittyy ulottuvuustauluja, jotka sisältävät kuvailevaa dataa kohteista (vrt. kohderelaatio). Tähtimallin mukaisessa rakenteessa ulottuvuustaulut ovat heikosti normalisoituja (esim. 2NF). Lumihiutalemallin mukaisessa rakenteessa ne ovat puolestaan vahvasti normalisoituja (esim. 3NF, BCNF). Lisäksi rakenteeseen voi kuulua ns. summatauluja. Summataulut sisältävät johdettua (siis ollen toisteista) dataa. Data on tavallisesti koottua: se on johdettu koostefunktioita ja ryhmittelyä käyttäen. ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 10

6.2 Tietovaraston kehittäminen Suunnittelu 2NF 2NF Faktataulu MYYJÄ myyjätunnus nimi osoite puh AIKA pvm päivä viikko kuukausi kvartaali vuosi viikonpäivä MYYNTI tuotekoodi (FK) myyjätunnus (FK) aluekoodi (FK) pvm (FK) myynti_euroa kpl maksutapa TUOTE tuotekoodi tuoteryhmä nimi toimittaja yksikköhinta ALUE aluekoodi aluenimi 3NF 3NF 3NF 2NF Faktataulu 3NF 3NF 2NF 3NF 3NF 3NF ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 11

6.2 Tietovaraston kehittäminen Luentotehtävä 8 Jyväskylän yliopistossa ollaan toteuttamassa tietovarastoa, joka tukee opetuksen suunnittelua. Operatiivisina järjestelminä toimivat muiden muassa opintosuoritusrekisteri ja jotkin hallinnon tietojärjestelmät. Seuraavat tietotarpeet ovat tiedossa: Suoritettujen opintopisteiden määrä lukuvuosittain ja laitoksittain. Pääaineopiskelijoiden suorittamien opintopisteiden määrä lukuvuosittain ja laitoksittain. Suoritettujen opintopisteiden määrä opiskelijoittain ja vuosittain ensimmäisen vuoden opintojen jälkeen. Kesälukukausina suoritettujen opintopisteiden määrä lukuvuosittain. Kurssisuoritusten arvosanakeskiarvot periodeittain sellaisilta kursseilta, joilla tentaattori on ollut lehtori. Suunnittele tähtimallin mukainen looginen rakenne, joka koostuu faktataulusta ja ulottuvuustauluista. ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 12

6.2 Tietovaraston kehittäminen Luentotehtävä 8: ratkaisu SELECT o.laitos, a.lukuvuosi, SUM(s.ojlaajuus) FROM opintojakso o, aika a, suoritus s WHERE o.ojtun = s.ojtun AND s.pvm = a.pvm GROUP BY o.laitos, a.lukuvuosi; SELECT o.htun, a.lukuvuosi, SUM(s.ojlaajuus) FROM opiskelija o, suoritus s, aika a WHERE o.htun = s.htun AND s.pvm = a.pvm AND (o.tulovuosi + 1) <= a.lukuvuosi GROUP BY o.htun, a.lukuvuosi; Aika pvm kk periodi lukukausi lukuvuosi Tentaattori Suoritus htun ojtun pvm tent_nimi arvolause ojlaajuus Opiskelija htun etunimi sukunimi paa_aine tulovuosi laitos Opintojakso SELECT a.lukuvuosi, SUM(s.ojlaajuus) FROM suoritus s, aika a WHERE s.pvm = a.pvm AND a.lukukausi = kesä GROUP BY a.lukuvuosi; tent_nimi titteli tutkinto laitos ojtun ojnimi ojlaajuus laitos oppiaine ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 13

6.2 Tietovaraston kehittäminen Toteutus Toteutusvaiheessa toteutetaan suunniteltu tietovarasto kokonaisuudessaan: toteutetaan tietovarasto painopisteiden mukaisesti toteutetaan lataustietokanta lähdetietokantojen kanssa yhteensopivaksi toteutetaan sekä sovellus- että palvelinarkkitehtuuri käsittelyprosessille (transform) ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 14

6.2 Tietovaraston kehittäminen Käyttöönotto ja ylläpito Käyttöönotto on kriittinen osa tietovarastointia. Monipuolisinkaan tietovarasto ei palvele organisaatiota, jos sitä ei osata hyödyntää. Tavallisesti vasta näissä vaiheissa havaitaan tarve paikallisvarastoille: Tietovarasto on rakenteeltaan liian monimutkainen. Tämä osa tietovarastosta voidaan antaa tai myydä kolmansille osapuolille. Tämä osa tietovarastosta kuuluu vain sidosryhmille. Tietovarasto voidaan jakaa paikallisvarastoihin esim. maantieteellisen sijainnin mukaan, tietotarpeen mukaan markkina-alueiden mukaan tai datan arkaluontoisuuden mukaan. Paikallisvarastot voidaan kerätä kokonaisuudessaan tietovarastosta (Inmon 1992), tai paikallisvarastot voivat sisältää lisäksi muuta dataa (Kimball 1996). ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 15

6.2 Tietovaraston kehittäminen Tietovarastojen ja operatiivisten tietokantojen vertailua Operatiivinen (OLTP) Tietovarasto (OLAP) Käyttötarkoitus Päivittäinen liiketoiminta Analysointi, suunnittelu, ongelmanratkaisu Datan lähde Sovellusohjelma, käyttäjät Lähdetietokannat Datan rakeisuus Tarkka Koottu, tarkka Datan luonne Dynaaminen tilannekuva Staattinen historia, koonti Datan määrä Pieni, keskikokoinen Suuri, massiivinen Hakulauseet Yksinkertaisia, vähän rivejä palauttavia Monimutkaisia, koostavia Muokkauslauseet Loppukäyttäjiltä tulevia: pieniä, nopeita Eräajo: suuria, hitaita Indeksejä Vähän Paljon Normaalimuoto Pitkälle normalisoitu Denormalisoitu Palvelee Lähes kaikkia asiakkaita Osaa käyttäjistä Käyttötapa Toistuvaa, ennustettavissa Rakenteeton, heuristinen, ennustamaton ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 16

6.3 Tiedonlouhinta Tiedonlouhinta yleisesti Tiedon tallentaminen tietovarastoon ei sinänsä tuo vielä mitään hyötyä. On oltava välineitä, joilla arvokkaat tiedot saadaan esille. Tiedonlouhinnalla (data mining) tarkoitetaan tilastomenetelmiin pohjautuvien algoritmien avulla toteutettua tiedon jalostamista suurista datamääristä käytettäväksi liiketoiminnan päätöksenteossa. Tiedonlouhinta eroaa analysoinnista monimutkaisuudellaan. Lisäksi siinä missä analysointi pyrkii ennen kaikkea vastaamaan ennalta määrättyihin kysymyksiin, tiedonlouhinta pyrkii etsimään mielenkiintoisia malleja datasta. Näitä malleja tarkastelemalla johdetaan lopulta tietämystä (knowledge discovery). On mahdollista, että massiivisissa datamäärissä piilee jo ratkaisu esim. sään ja katastrofaalisten luonnonilmiöiden ennustamiseen sekä sairauksien tunnistamiseen ja parantamiseen (Bramer 2013 s. 2). ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 17

6.3 Tiedonlouhinta Tiedonlouhinnan käyttötarkoituksia Elmasri & Navathe (2007): Ennustaminen: ennustetaan miten tiettyjen attribuuttien arvot tulevat kehittymään tulevaisuudessa, esim. tulevat myyntimäärät ja miten liiketoimintapäätökset tulevat vaikuttamaan myyntiin. Tunnistaminen: mallien ja kaavojen (patterns) avulla voidaan tunnistaa erilaisia kohteita, tapahtumia, toimintaa ja eri asioiden välisiä yhteyksiä. esim. tietojärjestelmään tunkeutuja tunnistetaan heidän noudattamansa käyttäytymismallin mukaan. Luokittelu: louhinnan avulla yritetään löytää luokkia ja kategorioita, joita voidaan käyttää muiden louhinnan tekniikoiden kanssa, esim. asiakasryhmien ja opiskelijaryhmien tunnistaminen. Optimointi: esimerkiksi myynnin tai voiton maksimoiminen. ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 18

6.3 Tiedonlouhinta Käytännönläheisiä esimerkkejä Yhtään demotehtävää tekemättömän opiskelijan kurssiarvosana on 65% todennäköisyydellä hylätty. Asiakas A käyttää luottokorttiaan tavallisesti Suomessa, Ruotsissa tai Virossa. Omakotitalojen myyntihinnat todennäköisesti nousevat seuraavalla kvartaalilla potentiaalisten ostajien määrän kasvaessa. Lisättyyn todellisuuteen liittyvien laitteiden maailmanlaajuinen liikevaihto ylittänee 100 miljardin euron rajan vuonna 2020. Asiakkaat X, Y ja Z syövät paljon leipää, koska he ovat ostaneet viimeisen vuoden aikana ainakin kolme leivänpaahdinta. Dokumentit J, K ja L käsittelevät kissoja, koska sana kissa mainitaan niissä useasti. Asiakkaat, jotka ostavat tuotteita X ja Y ostavat todennäköisesti myös tuotetta Z (sijoitetaanko tuotteet X ja Y lähelle vai kauas tuotteesta Z?) Asiakaskertomuksia lukeneet asiakkaat eivät tavallisesti tee sähkösopimusta. Tilauksen tekeminen peruutetaan yleensä maksutavan valinta -vaiheessa. ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 19

Osaamistavoitteet Ymmärtää tietovarastoinnin käsitteen, hyödyt ja ongelmat. Osaa kuvailla tietovarastoinnin arkkitehtuurin ja sen osien toimintaperiaatteet. Osaa soveltaa tietovarastoinnin tyypillisiä loogisia rakenteita. Tietää OLAP-käsitteen merkityksen ja tyypilliset erot OLTP-järjestelmiin. Tietää yleisellä tasolla mitä tiedon louhinnalla tarkoitetaan ja missä ja miten sitä voidaan hyödyntää. Esim.: Kuvaile tietovarastointiarkkitehtuuria. Kuvaillaan yhden tai useamman operatiivisen järjestelmän tietokantoja ja pyydetään esittämään relaatiotietokannan looginen rakenne käyttäen tähti- tai lumihiutalemallia. ITKA204 kevät 2017 Toni Taipalus Jyväskylän yliopisto 20