Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen

Samankaltaiset tiedostot
Tiedonlouhinta rakenteisista dokumenteista (seminaarityö)

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

ALGORITMIT & OPPIMINEN

Matemaatikot ja tilastotieteilijät

3. Laskennan vaativuusteoriaa

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Älykäs datan tuonti kuljetusongelman optimoinnissa. Antoine Kalmbach

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tutkimustiedonhallinnan peruskurssi

Esimerkkejä vaativuusluokista

Uudelleenkäytön jako kahteen

Avainsanojen poimiminen Eeva Ahonen

Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?

Rekisterit tutkimusaineistona: tieteenfilosofis-metodologiset lähtökohdat

Johnson, A Theoretician's Guide to the Experimental Analysis of Algorithms.

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

tilastotieteen kertaus

1. Tilastollinen malli??

Algoritmit 2. Luento 13 Ti Timo Männikkö

Harjoitus 7: NCSS - Tilastollinen analyysi

Poikkeavuuksien havainnointi (palvelinlokeista)

Tilastotiede ottaa aivoon

Matematiikan tukikurssi, kurssikerta 3

Tilastotieteen aihehakemisto

Tilastotiede ottaa aivoon

Trichoderma reesein geenisäätelyverkoston ennustaminen Oskari Vinko

Laadullinen tutkimus. KTT Riku Oksman

Logistinen regressio, separoivat hypertasot

Lectio praecursoria. Satunnaistusalgoritmeja tiedonlouhinnan tulosten merkitsevyyden arviointiin. Markus Ojala. 12.

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

Matematiikan tukikurssi

Identifiointiprosessi

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Laskennallinen data-analyysi II

Tilastolliset ohjelmistot A. Pinja Pikkuhookana

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

MONISTE 2 Kirjoittanut Elina Katainen

Introduction to Machine Learning

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Sisällönanalyysi. Sisältö

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

Aureolis Oy. Analytiikka määrää myymälävalikoiman - Case Alkon myymäläuudistus 2015

Sovellettu todennäköisyyslaskenta B

Diplomi-insinööri- ja arkkitehtikoulutuksen yhteisvalinta 2017 Insinöörivalinnan matematiikan koe , Ratkaisut (Sarja A)

805306A Johdatus monimuuttujamenetelmiin, 5 op

Simulation and modeling for quality and reliability (valmiin työn esittely) Aleksi Seppänen

Edistyksen päivät, Helsinki. Voiko tutkija muuttaa maailmaa? Humanistista meta-analyysiä merkitysneuvottelevien koneiden avulla.

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Jatkuvat satunnaismuuttujat

Viikko 1: Johdantoa Matti Kääriäinen

Tarvitseeko informaatioteknologia matematiikkaa?

Sovellettu todennäköisyyslaskenta B

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Oppimistavoitematriisi

T Luonnollisten kielten tilastollinen käsittely

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

Yhteydettömän kieliopin jäsennysongelma

Lajittelumenetelmät ilmakehän kaukokartoituksen laadun tarkkailussa (valmiin työn esittely)

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Harjoitus 9: Excel - Tilastollinen analyysi

Tiedonlouhinta (kl 2013) Kurssin kuvaus. Esitiedot. Kurssin arvostelu

811312A Tietorakenteet ja algoritmit I Johdanto

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Muotoilumaailman hahmottaminen - Tuotesemantiikka

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Verkon värittämistä hajautetuilla algoritmeilla

Väliestimointi (jatkoa) Heliövaara 1

2 Osittaisderivaattojen sovelluksia

Etsintä verkosta (Searching from the Web) T Datasta tietoon Heikki Mannila, Jouni Seppänen

RAMBOLL WATER TEKOÄLYN HYÖDYNTÄMINEN JÄTEVEDENPUHDISTAMON OPEROINNISSA

Koneoppimisen hyödyt arvopohjaisessa terveydenhuollossa. Kaiku Health

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Tietorakenteet ja algoritmit

HELIA 1 (11) Outi Virkki Käyttöliittymät ja ohjelmiston suunnittelu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Osa 2: Otokset, otosjakaumat ja estimointi

Sijainnin merkitys Itellassa GIS. Jakelun kehittämisen ajankohtaispäivä

Algoritmit 1. Luento 3 Ti Timo Männikkö

Oppimistavoitematriisi

Kynä-paperi -harjoitukset. Taina Lehtinen Taina I Lehtinen Helsingin yliopisto

Tekoäly tukiäly. Eija Kalliala, Marjatta Ikkala

Kun yhtälöä ei voi ratkaista tarkasti (esim yhtälölle x-sinx = 1 ei ole tarkkaa ratkaisua), voidaan sille etsiä likiarvo.

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Reaalifunktioista 1 / 17. Reaalifunktioista

Luentorunko perjantaille

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

Reaalilukuvälit, leikkaus ja unioni (1/2)

Geneettiset algoritmit

Transkriptio:

Tiedon louhinnan teoria (ja käytäntö) OUGF kevätseminaari 2004 Hannu Toivonen hannu.toivonen@cs.helsinki.fi 1

2 A 1 4 8 2 2 1 2 6 2 A 2 4 3 7 3 2 8 4 2 A 4 5 2 4 5 5 2 6 4 A 7 2 3 7 5 4 5 2 2 A 5 2 4 6 2 4 2 6 1 A 3 4 3 7 3 1 3 3 4 A 1 2 1 5 2 5 2 6 2 A 5 3 3 7 3 2 1 4 3 B 2 4 7 1 3 4 1 4 8 B 7 3 7 7 5 7 8 6 6 B 3 4 3 2 5 3 2 3 2 B 2 5 2 4 3 1 3 6 2 B 3 3 1 2 4 2 1 4 2 B 1 6 4 5 5 5 9 1 3 B 4 2 8 4 2 3 5 2 5 B 2 2 4 9 5 4 4 2 4

3 A 1 4 8 2 2 1 2 6 2 A 2 4 3 7 3 2 8 4 2 A 4 5 2 4 5 5 2 6 4 A 7 2 3 7 5 4 5 2 2 A 5 2 4 6 2 4 2 6 1 A 3 4 3 7 3 1 3 3 4 A 1 2 1 5 2 5 2 6 2 A 5 3 3 7 3 2 1 4 3 B 2 4 7 1 3 4 1 4 8 B 7 3 7 7 5 7 8 6 6 B 3 4 3 2 5 3 2 3 2 B 2 5 2 4 3 1 3 6 2 B 3 3 1 2 4 2 1 4 2 B 1 6 4 5 5 5 9 1 3 B 4 2 8 4 2 3 5 2 5 B 2 2 4 9 5 4 4 2 4

4 yksilön osa yksilön tyyppi perimästä luettua dataa sairas 1 4 8 2 2 1 2 6 2 sairas 2 4 3 7 3 2 8 4 2 sairas 4 5 2 4 5 5 2 6 4 sairas 7 2 3 7 5 4 5 2 2 sairas 5 2 4 6 2 4 2 6 1 sairas 3 4 3 7 3 1 3 3 4 sairas 1 2 1 5 2 5 2 6 2 sairas 5 3 3 7 3 2 1 4 3 verrokki 2 4 7 1 3 4 1 4 8 verrokki 7 3 7 7 5 7 8 6 6 verrokki 3 4 3 2 5 3 2 3 2 verrokki 2 5 2 4 3 1 3 6 2 verrokki 3 3 1 2 4 2 1 4 2 verrokki 1 6 4 5 5 5 9 1 3 verrokki 4 2 8 4 2 3 5 2 5 verrokki 2 2 4 9 5 4 4 2 4

Geenikartoitus 5 Sairaudelle altistavien geenien paikantaminen ihmisen perimässä Tautia aiheuttavien mekanismien tutkiminen ja ymmärtäminen Lääkkeiden suunnittelu Geenitestit mahdollistavat ennaltaehkäisevän ja räätälöidyn lääkityksen Tiedon louhinta Geenikartoitus perustuu perimästä luettavan datan analysointiin ja siitä löytyviin hahmoihin Menetelmän datan tuottamiseksi kehittyvät -> enemmän ja uudenlaista dataa -> uusia ongelmia ja mahdollisuuksia

Tiedon louhinta Tyypillinen tavoite: tuottaa datasta sellaisia havaintoja ja analyysejä, jotka auttavat tutkijaa ymmärtämään paremmin aineistoaan ja sen tuottanutta prosessia Uuden ja hyödyllisen tiedon päättelemistä datasta Mitä data kertoisi, jos siltä osaisi kysyä oikeat kysymykset? Tiedon louhinta työkaluna: tavoitteena tunnistaa datasta sellaisia ilmiöitä, joita voidaan hyödyntää edelleen komponentteina tarkemmassa mallinnuksessa tai analyysissä 6

Tiedon louhinta ja tilastotiede Ilmiöiden valinta käyttäjä ja kone yhdessä käyttäjä kuvailu ennustaminen selittäminen Monimutkaisuus 7

Tiedon louhinta ja tilastotiede Ilmiöiden valinta käyttäjä ja kone yhdessä käyttäjä Vis. DM DM perinteinen tilastotiede kuvailu ennustaminen selittäminen Monimutkaisuus 8

Tiedon louhinta ja OLAP Ilmiöiden valinta käyttäjä ja kone yhdessä käyttäjä DM DM Vis. OLAP perinteinen tilastotiede kuvailu ennustaminen selittäminen Monimutkaisuus 9

Data-analyysin tyypillisiä vaiheita Ilmiöiden valinta käyttäjä ja kone yhdessä 3. data mining 2. visualisointi 4. tilastollinen mallinnus käyttäjä 1. tunnusluvut kuvailu ennustaminen selittäminen Monimutkaisuus 10

Tyypillisiä tiedon louhintatehtäviä ennustaminen klusterointi poikkeusten havaitseminen toistuvien hahmojen etsintä Tiedon louhinta on laaja käsite, ei yksittäinen tekniikka 11

Ennustaminen sairas 1 4 8 2 2 1 2 6 2 sairas 2 4 3 7 3 2 8 4 2 sairas 4 5 2 4 5 5 2 6 4 sairas 7 2 3 7 5 4 5 2 2 sairas 5 2 4 6 2 4 2 6 1 sairas 3 4 3 7 3 1 3 3 4 sairas 1 2 1 5 2 5 2 6 2 sairas 5 3 3 7 3 2 1 4 3 verrokki 2 4 7 1 3 4 1 4 8 verrokki 7 3 7 7 5 7 8 6 6 verrokki 3 4 3 2 5 3 2 3 2 verrokki 2 5 2 4 3 1 3 6 2 verrokki 3 3 1 2 4 2 1 4 2 verrokki 1 6 4 5 5 5 9 1 3 verrokki 4 2 8 4 2 3 5 2 5 verrokki 2 2 4 9 5 4 4 2 4 3 7 sairas 12

Ennustaminen sairas 1 4 8 2 2 1 2 6 2 sairas 2 4 3 7 3 2 8 4 2 sairas 4 5 2 4 5 5 2 6 4 sairas 7 2 3 7 5 4 5 2 2 sairas 5 2 4 6 2 4 2 6 1 sairas 3 4 3 7 3 1 3 3 4 sairas 1 2 1 5 2 5 2 6 2 sairas 5 3 3 7 3 2 1 4 3 verrokki 2 4 7 1 3 4 1 4 8 verrokki 7 3 7 7 5 7 8 6 6 verrokki 3 4 3 2 5 3 2 3 2 verrokki 2 5 2 4 3 1 3 6 2 verrokki 3 3 1 2 4 2 1 4 2 verrokki 1 6 4 5 5 5 9 1 3 verrokki 4 2 8 4 2 3 5 2 5 verrokki 2 2 4 9 5 4 4 2 4 3 7 tai 2 6 sairas 13

Ennustaminen Opetusaineisto: joukko pareja (x i, f(x i )), i = 1,, n Tehtävä: opi funktio f (x i ) f(x i ) kohteena tapaukset i > n Mitä enemmän f:stä (tai f :stä) tiedetään ennalta, sen paremmin menetelmää voidaan ohjata Tyypilliset ratkaisut tuottavat yhden funktion f, joka on paras jonka menetelmä löysi Tuloksen testaaminen riippumattomalla testijoukolla, i = n+1,, n+m (aineisto jaetaan siis osiin, joiden koot n+m) Jos mallin valinta tehdään testijoukolla, pitää lopullinen malli testata vielä erillisellä validointijoukolla (aineisto osissa n+m+k) 14

Klusterointi 1 4 8 2 2 1 2 6 2 2 4 3 7 3 2 8 4 2 4 5 2 4 5 5 2 6 4 7 2 3 7 5 4 5 2 2 5 2 4 6 2 4 2 6 1 3 4 3 7 3 1 3 3 4 1 2 1 5 2 5 2 6 2 5 3 3 7 3 2 1 4 3 2 4 7 1 3 4 1 4 8 7 3 7 7 5 7 8 6 6 3 4 3 2 5 3 2 3 2 2 5 2 4 3 1 3 6 2 3 3 1 2 4 2 1 4 2 1 6 4 5 5 5 9 1 3 4 2 8 4 2 3 5 2 5 2 2 4 9 5 4 4 2 4 15

Klusterointi 1 4 8 2 2 1 2 6 2 2 4 3 7 3 2 8 4 2 4 5 2 4 5 5 2 6 4 7 2 3 7 5 4 5 2 2 5 2 4 6 2 4 2 6 1 3 4 3 7 3 1 3 3 4 1 2 1 5 2 5 2 6 2 5 3 3 7 3 2 1 4 3 2 4 7 1 3 4 1 4 8 7 3 7 7 5 7 8 6 6 3 4 3 2 5 3 2 3 2 2 5 2 4 3 1 3 6 2 3 3 1 2 4 2 1 4 2 1 6 4 5 5 5 9 1 3 4 2 8 4 2 3 5 2 5 2 2 4 9 5 4 4 2 4 16

Klusterointi 7 2 3 7 5 4 5 2 2 5 3 3 7 3 2 1 4 3 2 4 3 7 3 2 8 4 2 3 4 3 7 3 1 3 3 4 3 4 3 2 5 3 2 3 2 5 2 4 6 2 4 2 6 1 4 5 2 4 5 5 2 6 4 1 2 1 5 2 5 2 6 2 1 4 8 2 2 1 2 6 2 2 5 2 4 3 1 3 6 2 2 4 7 1 3 4 1 4 8 7 3 7 7 5 7 8 6 6 3 3 1 2 4 2 1 4 2 1 6 4 5 5 5 9 1 3 4 2 8 4 2 3 5 2 5 2 2 4 9 5 4 4 2 4 17

Klusterointi 7 2 3 7 5 4 5 2 2 5 3 3 7 3 2 1 4 3 2 4 3 7 3 2 8 4 2 3 4 3 7 3 1 3 3 4 3 4 3 2 5 3 2 3 2 5 2 4 6 2 4 2 6 1 4 5 2 4 5 5 2 6 4 1 2 1 5 2 5 2 6 2 1 4 8 2 2 1 2 6 2 2 5 2 4 3 1 3 6 2 2 4 7 1 3 4 1 4 8 7 3 7 7 5 7 8 6 6 3 3 1 2 4 2 1 4 2 1 6 4 5 5 5 9 1 3 4 2 8 4 2 3 5 2 5 2 2 4 9 5 4 4 2 4 18

Klusterointi Syöte: joukko datapisteitä x i Tulos esim: parit (x i, g(x i )) kaikilla i, missä g 1, 2,, k kertoo mihin k:sta klusterista kukin piste kuuluu pisteet kussakin klusterissa ovat keskenään mahdollisimman samankaltaisia eri klusterit ovat keskenään mahdollisimman erilaisia Paljon erilaisia variaatiota k annettu vai ei, hierarkkinen klusterointi, sumea klusterointi, Tavoitteen täsmällinen määritteleminen, esim. minimoidaan i dist(x i, mean(g(x i )) 2, missä dist(x, y) on pisteiden x, y välinen etäisyys ja mean(j) on klusteriin j kuuluvien pisteiden keskiarvo 19

Toistuvat hahmot sairas 1 4 8 2 2 1 2 6 2 sairas 2 4 3 7 3 2 8 4 2 sairas 4 5 2 4 5 5 2 6 4 sairas 7 2 3 7 5 4 5 2 2 sairas 5 2 4 6 2 4 2 6 1 sairas 3 4 3 7 3 1 3 3 4 sairas 1 2 1 5 2 5 2 6 2 sairas 5 3 3 7 3 2 1 4 3 verrokki 2 4 7 1 3 4 1 4 8 verrokki 7 3 7 7 5 7 8 6 6 verrokki 3 4 3 2 5 3 2 3 2 verrokki 2 5 2 4 3 1 3 6 2 verrokki 3 3 1 2 4 2 1 4 2 verrokki 1 6 4 5 5 5 9 1 3 verrokki 4 2 8 4 2 3 5 2 5 verrokki 2 2 4 9 5 4 4 2 4 20

Toistuvat hahmot sairas 1 4 8 2 2 1 2 6 2 sairas 2 4 3 7 3 2 8 4 2 sairas 4 5 2 4 5 5 2 6 4 sairas 7 2 3 7 5 4 5 2 2 sairas 5 2 4 6 2 4 2 6 1 sairas 3 4 3 7 3 1 3 3 4 sairas 1 2 1 5 2 5 2 6 2 sairas 5 3 3 7 3 2 1 4 3 verrokki 2 4 7 1 3 4 1 4 8 verrokki 7 3 7 7 5 7 8 6 6 verrokki 3 4 3 2 5 3 2 3 2 verrokki 2 5 2 4 3 1 3 6 2 verrokki 3 3 1 2 4 2 1 4 2 verrokki 1 6 4 5 5 5 9 1 3 verrokki 4 2 8 4 2 3 5 2 5 verrokki 2 2 4 9 5 4 4 2 4 -hahmo 1: (3)(4) 3 (7)(3)(2) 21

Toistuvat hahmot sairas 1 4 8 2 2 1 2 6 2 sairas 2 4 3 7 3 2 8 4 2 sairas 4 5 2 4 5 5 2 6 4 sairas 7 2 3 7 5 4 5 2 2 sairas 5 2 4 6 2 4 2 6 1 sairas 3 4 3 7 3 1 3 3 4 sairas 1 2 1 5 2 5 2 6 2 sairas 5 3 3 7 3 2 1 4 3 verrokki 2 4 7 1 3 4 1 4 8 verrokki 7 3 7 7 5 7 8 6 6 verrokki 3 4 3 2 5 3 2 3 2 verrokki 2 5 2 4 3 1 3 6 2 verrokki 3 3 1 2 4 2 1 4 2 verrokki 1 6 4 5 5 5 9 1 3 verrokki 4 2 8 4 2 3 5 2 5 verrokki 2 2 4 9 5 4 4 2 4 -hahmo 1: (3)(4) 3 (7)(3)(2) -hahmo 2: (5)(2) 6 (2) 22

Toistuvien hahmojen etsintä Tehtävän kuvaus: Syöte: aineisto A joukko P aineistossa mahdollisesti olevia hahmoja minimiyleisyys k Tulos: kaikki sellaiset joukon P hahmot p, jotka esiintyvät vähintään k kertaa annetussa aineistossa A Tehtävän analyysi, esim.: jos joukon P hahmoilla on yleisyyshierarkia, toistuvien hahmojen haku voidaan tehdä tehokkaasti Algoritmit: yleinen ratkaisumalli, joka on sovitettavissa erilaisiin erikoistapauksiin 23

Toistuvia hahmoja Ostoskorianalyysi Jos vaippoja niin olutta (todennäköisyys 56 %, frekvenssi 12 %) Kurssi-ilmottautumiset Jos tietoliikenne ja C-ohjelmointi niin ei gradua Tekstidokumenttien analysointi Jos innovative ja Microsoft niin <piste> sanojen välissä Geenikartoitus Jos geneettinen hahmo 4 3 7 3 niin sairas Ostoskorianalyysi on sovellusriippumaton tekniikka 24

Toistuvat hahmot työkaluna Yksinkertaiset hahmot ovat helposti ymmärrettäviä Etsintä on tehokasta Tarkasteltavat hahmotyypit voidaan räätälöidä sovelluksen mukaan Toistuvia hahmoja voidaan käyttää monimutkaisempien mallien rakennuspalikoina (mm. ennustuksessa tai klusteroinnissa) Hyvin harvinaiset hahmot ovat harvoin mielenkiintoisia 25

Toistuvien hahmojen etsintä Mahdollisia hahmoja voi olla valtavasti Jos perimästä tarkastellaan vaikkapa 100 kohtaa (attribuuttia), jossa kussakin esiintyy kahta alleelia (arvoa), niin erilaisia yhdistelmiä on yli 1200000000000000000000000000000. Jos yhdistelmiä tutkitaan miljoona sekunnissa, niin aikaa kaikkien tutkimiseen kuluu 40000000000000000 vuotta. Kuitenkin vain murto-osa yhdistelmistä toistuu edes kaksi kertaa Yksi tiedon louhinnan ydinalueita on ollut tehokkaiden menetelmien kehittäminen toistuvien hahmojen etsintään 26

Tiedon louhinta tieteenalana Tutkimuskohteita: Louhinta-algoritmien suunnittelu ja analyysi miten annettu data-analyysitehtävä ratkaistaan? Tiedon louhinnan teoria millaisia tehtävätyyppejä ja millä edellytyksillä tietyllä algoritmilla voidaan ratkaista? millaisia ominaisuuksia eri tehtävätyypeillä on? miten tulosten laatua voidaan arvioida? Tehtävätyyppien muotoilu, hyvät kysymykset millaiset data-analyysitehtävät ovat yleiskäyttöisiä? Tiedon louhintaprosessi mitkä ovat ne toimintatavat, joilla uudelle ongelmalle löydetään hyvät kysymykset ja niille hyvät ratkaisut? 27

Menetelmäkehityksen tavoitteita Tavoitteita tiedon louhintamenetelmille automaattisuus: laajan etsintäavaruuden läpikäynti korkean tason kieli: ymmärrettävät tulokset hyödylliset tulokset: uutta, hyödynnettävää tulosteen tarkkuus: hyvä ja tarvittaessa arvioitavissa tehokkuus: analyysiajat kohtuullisia ja ennakoitavissa 28

Tiedon louhijan pitää tietää (1/3) mitä hän louhii Millaista data on? Miksi ja miten se on tuotettu? Miten se on kerätty? Miten sitä on jo käsitelty? Miksi dataa analysoidaan? Mihin tiedon louhinnalla pyritään? Minkä tyyppisistä tuloksista olisi hyötyä? Assosiaatiosäännöistä, klusteroinnista, luokittelijasta, trendeistä, poikkeuksista - vai jostain muuta? Millaisia hahmoja, sääntöjä tai piirteitä datasta voi ylipäätään etsiä? 29

Tiedon louhijan pitää tietää (2/3) miten louhia Mikä on louhintatehtävän abstrakti kuvaus? Mitkä menetelmät soveltuvat ongelmaan? Mitkä menetelmät ja niiden muunnelmat sopivat tavoitteisiin? Onko tehtävään valmiita työkaluja? Jos ei, miten muokata työkalua tai ongelmaa? 30

Tiedon louhijan pitää tietää (3/3) tekniikoiden tärkeimmät ominaisuudet Miksi työkalu (käytetty menetelmä ja käytetty ohjelma) tuotti tietyt tulokset? Millä perusteilla se valitsi mahdollisten tulosten joukosta juuri kyseiset? Mitkä ovat työkalun rajoitukset? Millaisia oletuksia työkalu tekee? Takaako se parhaan tuloksen löytymisen vai likimäärin parhaan? Kuinka herkkä se on käytetyille parametreille? Kertooko se myös muista lähes yhtä hyvistä (ja mahdollisesti täysin erilaisista) tuloksista? 31

Tekniikoiden eroja: etsittävän ilmiön rajaus Etsiikö menetelmä vain tiettyyn tai tiettyihin attribuutteihin liittyviä hahmoja? assosiaatiosäännöt, toistuvat ilmiöt klusterointi ennustaminen tilastollisen mallin sovitus löysä rajaus mielivaltaisten attribuuttien välisiä suhteita kohdeattribuutti on kiinnitettu tarkka rajaus kohde- ja selittävät muuttujat kiinnitetty 32

Tekniikoiden eroja: hahmojen ilmaisuvoima Kuinka monimutkaisia ilmiöitä hahmot voivat kuvata? assosiaatiosäännöt, toistuvat ilmiöt klusterointi ennustaminen tilastollisen mallin sovitus yksinkertaisia kuvaa vain asioiden liittymistä yhteen monimutkaisempia sääntöjä, puita monimutkaisia mielivaltaisia käyttäjän laatimia malleja 33

Tekniikoiden eroja: tuloksen koko Tuottaako menetelmä tuloksena yhden hahmon vai monta? assosiaatiosäännöt, toistuvat ilmiöt klusterointi ennustaminen tilastollisen mallin sovitus monta paljon, jossakin "paremmuusjärjestyksessä" tyypillisesti yksi tai muutamia vaihtoehtoja vähän paras sovitus 34

Tekniikoiden eroja: yhteenveto paljon yksinkertaisia tuloksia assosiaatiosäännöt, toistuvat ilmiöt klusterointi luokittelu, regressio tilastollisen mallin sovitus 35 tarkka rajaus, voimakkaat hahmot

9 askelta epäonnistumiseen Näin varmistat louhintaprojektin epäonnistumisen [D. Pyle, DB2 Magazine, 2004] 1. Ryhdy välittömästi louhintaan. Älä tuhlaa aikaa datan ja menetelmien valintaan tai tarpeiden selvittämiseen. 2. Muotoile ongelma datalähtöisesti. Muotoile tavoite sitten tekemiesi havaintojen mukaiseksi. 3. Keskity ilmeisimpään tapaan analysoida dataa. Luota ohjelmistosi tarjoamiin menetelmiin ja tarkkuusmittareihin. 4. Luota omaan harkintakykyysi, äläkä anna asiakkaiden johtaa harhaan. 36

9 askelta epäonnistumiseen 5. Etsi paras algoritmi. Tiedon louhinta on oleellisesti parhaan algoritmin etsimistä annetulle datalle. 6. Luota omaan muistiisi. Älä tuhlaa aikaa prosessin vaiheiden dokumentointiin, kyllä ne muistaa sitten myöhemmin. 7. Oma näkemys on tärkeämpi kuin vakioidut käytännöt, jotka ovat vain noviiseja varten. Jokainen tapaus ja data on yksilöllinen. 8. Minimoi tiedon louhijan ja asiakkaan vuorovaikutus. Hyvä louhija löytää työkaluillaan kaikki tärkeät, hyödylliset, yllättävät arvokkaat ilmiöt ilman asiakkaan opastusta. 9. Minimoi datan esikäsittely. Mielenkiintoisin osa tiedon louhintaa on algoritmien ja parametrien virittäminen. Sitä paitsi esiprosessointiin kuluu paljon aikaa. 37

Yhteenveto Tiedon louhinta ei toimi nappia painamalla Tiedon louhinta on prosessi (datan käsittely, analyysi, tulosten tulkinta)* Onnistunut tiedon louhinta edellyttää sovellusalueen, datan ja menetelmien tuntemista, käytännössä siis eri asioiden asiantuntijoiden yhteistyötä 38