Tiedonlouhinta 2013/L3 p. 1. Data-avaruus. Olk. muuttujat A 1,...,A k, joiden arvoalueet. Dom(A 1 ),...,Dom(A k ). Silloin D = Dom(A 1 )...

Samankaltaiset tiedostot
Tiedonlouhinta (kl 2013) Tiedonlouhinta 2013/L1 p. 1

Riippuvuussäännöt. Luento 4. Riippuvuuden vahvuus: Tavallisimmat mitat. Muuttuja- vs. arvoperustainen tulkinta

Globaali optimonti haastaa lokaalit menetelmät: luotettavampia riippuvuuksia tehosta tinkimättä

Esimerkkejä vaativuusluokista

Tiedonlouhinta (kl 2013) Kurssin kuvaus. Esitiedot. Kurssin arvostelu

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

HAVAITUT JA ODOTETUT FREKVENSSIT

Ongelmien ja menetelmien tyypittelyä. Käyttötarkoituksia. Konsistentti ja epäkonsistentti data. Esimerkki: Deterministinen luokittelu

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

1. TILASTOLLINEN HAHMONTUNNISTUS

Harjoitus 6 ( )

Algoritmit 2. Luento 12 To Timo Männikkö

Tietorakenteet, laskuharjoitus 7, ratkaisuja

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Harjoitus 6 ( )

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Joukot. Georg Cantor ( )

Algoritmit 2. Luento 12 Ke Timo Männikkö

T Luonnollisten kielten tilastollinen käsittely

Kuvaus eli funktio f joukolta X joukkoon Y tarkoittaa havainnollisesti vastaavuutta, joka liittää joukon X jokaiseen alkioon joukon Y tietyn alkion.

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Johdatus matematiikkaan

Malliratkaisut Demot

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Harjoitus 7: NCSS - Tilastollinen analyysi

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

Algoritmit 2. Luento 11 Ti Timo Männikkö

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

A ja B pelaavat sarjan pelejä. Sarjan voittaja on se, joka ensin voittaa n peliä.

Kieli merkitys ja logiikka. 2: Helpot ja monimutkaiset. Luento 2. Monimutkaiset ongelmat. Monimutkaiset ongelmat

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Mat Lineaarinen ohjelmointi

Tietorakenteet ja algoritmit - syksy

Aineistoista. Laadulliset menetelmät: miksi tarpeen? Haastattelut, fokusryhmät, havainnointi, historiantutkimus, miksei videointikin

Ryhmäfaktorianalyysi neurotiedesovelluksissa (Valmiin työn esittely) Sami Remes Ohjaaja: TkT Arto Klami Valvoja: Prof.

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Kandidaatintutkielman aineistonhankinta ja analyysi

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Ratkaisu: a) Kahden joukon yhdisteseen poimitaan kaikki alkiot jotka ovat jommassakummassa joukossa (eikä mitään muuta).

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

pitkittäisaineistoissa

4.5 Kaksivaiheinen menetelmä simplex algoritmin alustukseen

TIEA341 Funktio-ohjelmointi 1, kevät 2008

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Vektoreiden virittämä aliavaruus

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Matriisilaskenta, LH4, 2004, ratkaisut 1. Hae seuraavien R 4 :n aliavaruuksien dimensiot, jotka sisältävät vain

Korrelaatiokerroin. Hanna Heikkinen. Matemaattisten tieteiden laitos. 23. toukokuuta 2012

Tehtävä 1. Päättele resoluutiolla seuraavista klausuulijoukoista. a. 1 {p 3 } oletus. 4 {p 1, p 2, p 3 } oletus. 5 { p 1 } (1, 2) 7 (4, 6)

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Matematiikka B2 - TUDI

1. Tilastollinen malli??

Tietorakenteet ja algoritmit Johdanto Lauri Malmi / Ari Korhonen

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Valitaan alkio x 1 A B ja merkitään A 1 = A { x 1 }. Perinnöllisyyden nojalla A 1 I.

Tekoäly ja koneoppiminen metsävaratiedon apuna

Implementation of Selected Metaheuristics to the Travelling Salesman Problem (valmiin työn esittely)

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

Rottien hyvinvointiin ja stressiin vaikuttavat tekijät

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kuvaus eli funktio f joukolta X joukkoon Y tarkoittaa havainnollisesti vastaavuutta, joka liittää joukon X jokaiseen alkioon joukon Y tietyn alkion.

Johdatus tn-laskentaan perjantai

Algoritmit 2. Luento 13 Ti Timo Männikkö

pitkittäisaineistoissa

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Regressioanalyysi. Vilkkumaa / Kuusinen 1

jens 1 matti Etäisyydet 1: 1.1 2: 1.4 3: 1.8 4: 2.0 5: 3.0 6: 3.6 7: 4.0 zetor

Y ja

Algoritmit 1. Luento 12 Ti Timo Männikkö

Lauseen erikoistapaus on ollut kevään 2001 ylioppilaskirjoitusten pitkän matematiikan kokeessa seuraavassa muodossa:

JOHDATUS TEKOÄLYYN LUENTO 4.

Poikkeavuuksien havainnointi (palvelinlokeista)

Mat Lineaarinen ohjelmointi

Tilastollinen aineisto Luottamusväli

30A02000 Tilastotieteen perusteet

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

Mat Tilastollisen analyysin perusteet, kevät 2007

Vektorien virittämä aliavaruus

Funktiot. funktioita f : A R. Yleensä funktion määrittelyjoukko M f = A on jokin väli, muttei aina.

Algoritmit 1. Luento 12 Ke Timo Männikkö

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä?

Ongelma(t): Miten merkkijonoja voidaan hakea tehokkaasti? Millaisia hakuongelmia liittyy bioinformatiikkaan?

Sovellettu todennäköisyyslaskenta B

Reaalilukuvälit, leikkaus ja unioni (1/2)

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät

Kanta ja dimensio 1 / 23

Ongelma 1: Ovatko kaikki tehtävät/ongelmat deterministisiä?

Monitavoiteoptimointi

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Numeeriset menetelmät

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Transkriptio:

Luento 3: 1 Yleiset mallinnusperiaatteet ja 2 Riippuvuusanalyysi Yleiset mallinnusperiaatteet 1. Ongelman määrittely datan ja taustateorian ymmärtäminen 2. siprosessointi datan siivous, piirteiden eristys ja valinta 3. Tiedonlouhinta (mallinnus/hahmojen haku) 4. Tulosten luotettavuuden arviointi data-avaruus = kaikki mahdolliset muuttujien arvokombinaatiot hakuavaruus = kaikki mahdolliset annetun formaatin mukaiset mallit/hahmot, jotka datasta voisi johtaa globaalisti ja lokaalisti optimaaliset hakualgoritmit = Ovatko löydetyt mallit/hahmot varmasti parhaita mahdollisia? ylisovittuminen Kuvaako malli liian hyvin syötedatan? 5. Tulosten havainnollinen esitys ja tulkinta Tiedonlouhinta 2013/L3 p. 1 Tiedonlouhinta 2013/L3 p. 2 Parhaan mallin haku datasta ata-avaruus hakualgoritmi Kaikki mahdolliset formaatin mukaiset mallit Olk. muuttujat A 1,...,A k, joiden arvoalueet om(a 1 ),...,om(a k ). Silloin = om(a 1 )... om(a k ) määrittää data-avaruuden. ata avaruus tietty datajoukko Haku avaruus paras malli ko. syötedatasta atan dimensio k Jos kaikki muuttujat diskreettejä, voi kokoa luonnehtia solujen lukumäärällä: = om(a 1 )... om(a k ). Nyt om(a i ) = {a i1,...,a im } = m Jos jatkuvia muuttujia, ei voi laskea solujen lkm:ää! Nyt om(a i ) = [a min,a max ] = a max a min (voi olla ) Huom! Annetut muuttujat määräävät data-avaruuden. Tiedonlouhinta 2013/L3 p. 3 Tiedonlouhinta 2013/L3 p. 4

sim. 3-ulotteisen diskreetin datan esitys Hakuavaruus om(b) =14 om() =12 Kattaa kaikki mahdolliset mallit, jotka mallinnusmenetelmän ja data-avaruuden mukaisia ja jotka voi löytää annetulla hakualgoritmilla ata-avaruus (annetut muuttujat ja niiden arvoalueet) määräävät, millaisia malleja voi löytää Samaan mallinnusmenetelmään ( mallinnusparadigmaan, esim. päätöspuut, neuroverkot, riippuvuussäänöt) voi liittyä erilaisia hakualgoritmeja! voivat löytää eri malleja om(a) =12 Koko 12 12 14 = 2016 solua. Tiedonlouhinta 2013/L3 p. 5 Tiedonlouhinta 2013/L3 p. 6 simerkki: riippuvuussääntöjen hakuavaruus Binäärimuuttujat R = {A 1,...,A k } ja etsitään säännöt muotoa X A, X R, A X. Hakuavaruus koostuu kaikista mahdollisista säännöistä eli 1. Tutkitaan kaikki mahdolliset R:n osajoukot Y, joiden koko vähintään 2 attribuuttia ( Y 2) R:n potenssijoukko (koko 2 k ) simerkki (jatk.) 2 Jokaisesta osajoukosta Y muodostetaan kaikki mahdolliset säännöt Jos Y = l, voi muodostaa l sääntöä, Y \{A i } A i ( A i Y ). Hakuavaruuden koko on siis k i=2 i (k i) = O(k 2 k ) P(R) = {,A 1,A 2,...,A k,a 1 A 2,A 1 A 3,...,A k 1 A k,a 1 A 2 A 3,...,...,A 1 A 2...A k } i tarvitse tutkia joukkoja,{a 1 },...,{A k }. Tiedonlouhinta 2013/L3 p. 7 Tiedonlouhinta 2013/L3 p. 8

Hakuavaruus (jatk.) Mallin hyvyysmitta Jos binäärimuuttujat R = {A 1,...,A k } ja luokkamuuttuja. Millainen olisi kaikkien mahdollisten päätöspuiden joukko? Tiedonlouhinta 2013/L3 p. 9 Tarvitaan jokin hyvyysmitta M, joka kertoo mallin hyvyyden. esim. miten monta alkiota luokittelee oikein, miten vahva tai merkitsevä riippuvuus on, miten tiheä klusteri on tms. yleensä pyrkii heijastamaan myös sitä, miten hyvin malli yleistyy mallin muodostusdatan ulkopuolelle (ts. että hahmo pätee oikeasti tai malli toimii tulevaisuudessa) Jos malli paranee, kun M kasvaa, on M hyvyyden mukaan kasvava (esim. luokittelun accuracy, χ 2 -mitta) muuten taas hyvyyden mukaan vähenevä (esim. luokitteluvirhe, p-arvot) Tiedonlouhinta 2013/L3 p. 10 Hakuongelma: 2 variaatiota Hakualgoritmin optimaalisuus? Annettu mallinnusmenetelmä, data ja hyvyysmitta M. 1. Luettelointiongelma (enumeration problem): tsi kaikki riittävän hyvät mallit (annettu jokin M:n raja-arvo). 2. Optimointiongelma (optimization problem): tsi K parasta mallia (ML:ssä yleensä K = 1) Loppujen lopuksi ei suurta eroa! Käyttäjä ei halua tulokseksi tuhansia (saati miljoonia) hahmoja! Globaalisti optimaalinen, jos palauttaa parhaat K mallia hakuavaruudesta Takuu: datasta ei mahdollista löytää näitä parempia annetun muotoisia malleja. Lokaalisti optimaalinen: Löydetyt mallit parhaita jossain hakuavaruuden osassa, mutta eivät välttämättä koko hakuavaruudessa. algoritmi ei tutki koko avaruutta, vaan valikoi tutkittavan alueen heuristisesti algoritmi voi juuttua lokaaliin optimiin Keskitytään optimointiongelmaan Tiedonlouhinta 2013/L3 p. 11 Tiedonlouhinta 2013/L3 p. 12

Heuristiikka Intuitiivisesti: apumenetelmä tai periaate, jota soveltamalla ongelma ratkeaa nopeammin mutta tulokset silti melko hyviä/useimmiten hyviä. yleensä ovat alioptimaalisia (suboptimal) eli eivät takaa globaalia optimia (parhaan mallin löytymistä) sim. ahne heuristiikka (greedy heuristic): detään haussa sillä hetkellä parhaalta näyttävään suuntaan. Tyypillistä ihmisille! Tyyliin Väsyttää ja masentaa, hirveästi rästitöitä, paras pitää lökeripäivä. (optimoi mielihyvää lyhyellä tähtäimellä) joskus heuristiikan virheellisyys merkitsee vain hidasta hakua, ei oikeiden tulosten hukkaamista (riippuu mihin heuristiikkaa käytetään) Tiedonlouhinta 2013/L3 p. 13 simerkki: Luokittelusääntöjen hakuavaruus Olk. R = {A,B,,,} ja luokka-attribuutti F. Hakuavaruus P(R) voidaan esittää luettelointipuuna (enumeration tree). B A B Tiedonlouhinta 2013/L3 p. 14 Parhaan säännön ahne haku Jos tasoittain haku ylhäältä alas ja ahne haku tuottaisi B F :n. Tutkisi vain 9 solmua 32:sta, mutta voi mennä metsään! B A B Varoituksen sana! Aina menetelmää/sen hakualgoritmia valitessasi päile alioptimaalista heuristiikkaa! Ota selvää, mikä heuristiikka on ja milloin se voi hukata parhaat mallit. Miten todennäköistä on, että saadaan huonoja tuloksia? Hälytyskellojen paras soida, jos kuulet sanan ahne heuristiikka (vaikka joskus harvoin turha hälytys) Ongelma: Menetelmien kehittäjät eivät mielellään kerro, ettei menetelmä ole globaalisti optimaalinen... Tiedonlouhinta 2013/L3 p. 15 Tiedonlouhinta 2013/L3 p. 16

Mallin ylisovittuminen (overfitting) Intuitiivisesti: Malli/hahmo h kuvaa mallinnettavan datan d liian yksityiskohtaisesti, mukaan lukien satunnaisvaihtelun, eikä siksi yleisty d:n ulkopuolelle. Täsmällisemmin: h ylisovittunut, jos h s.e. M(h,d) > M(h,d) mutta M true (h) < M true (h ), missä M true on mallin oikea hyvyys. Oikeaa hyvyyttä M true ei voi mitata! Koetettava arvioida heuristisesti. Oletus: M hyvyyden mukaan kasvava (jos ei, niin vaihda > ja <) Tiedonlouhinta 2013/L3 p. 17 Occamin partaveitsi periaate Tärkeä havainto: Ylisovittuminen edellyttää monimutkaista mallia. monimutkaisella mallilla voi kuvata yksityiskohdat tarkka kuvaus mutta harvoille (tai vain yhdelle) datajoukoille yksinkertaisella mallilla ei voi kuvata kaikkia yksityiskohtia kuvaa ylimalkaisemmin mutta useampia datajoukkoja ylisovittumista voi estää kontrolloimalla mallin monimutkaisuutta! = Occamin partaveitsi (Occam s Razor) periaate: (Yhtä hyvistä) malleista suosi yksinkertaisinta. tai rankaise monimutkaisuudesta Tiedonlouhinta 2013/L3 p. 18 Alisovittuminen (underfitting) simerkki: Päätöspuun ylisovittuminen Intuitio: Jos malli on liian yksinkertainen, se kuvaa minkä tahansa datan liian ylimalkaisesti. Helppo havaita! Hyvyysmitta saa huonon arvon myös opetusdatassa. Huom! Jos data oikeasti satunnaista, ei siitä voi muodostaa parempaa mallia! Tiedonlouhinta 2013/L3 p. 19 Tiedonlouhinta 2013/L3 p. 20

Mallin monimutkaisuus suhteutettava datan määrään! Perusperiaate: mitä enemmän datarivejä, sitä monimutkaisemman mallin voi muodostaa. Peukalosääntö: oltava vähintään 5 10 datariviä jokaista malliparametria kohden Jos jokin hahmo esiintyy < 5 rivillä, ei mitään takeita, etteikö sattumaa Jos vähän dataa, käytettävä yksinkertaisia mallinnusmenetelmiä ja etsittävä yksinkertaisia malleja. Mallin monimutkaisuus vs. datan määrä Poikkeus: tukivektorikoneet (support vector machines, SVM) hyviä välttämään ylisovittumisen, ainakin teoriassa (käytännössä valittava malliparametrit huolella!) Tiedonlouhinta 2013/L3 p. 21 Tiedonlouhinta 2013/L3 p. 22 Tilastollisten riippuvuuksien analyysi Tilastollinen riippuvuus: Monta tulkintaa! Tilastollisen riippuuden määritelmä/tulkinnat Riippuvuussääntöjen haku kategorisesta (tai diskretoidusta) datasta Riippuvuuksien haku numeerisesta datasta kskursio: Bayesläinen riippuvuuksien mallinnus (Bayes-verkoilla) Määritelmä: Tapahtumat X ja Y ovat tilastollisesti riippumattomia, jos P(XY) = P(X)P(Y). Mutta: Milloin muuttujat tai muuttuja-arvokombinaatiot ovat tilastollisesti riippuvia? (termi korrelaatio viittaa yleensä kahden numeerisen muuttujan väliseen lineaariseen riippuvuuteen, mutta käytetään väljästi) Tiedonlouhinta 2013/L3 p. 23 Tiedonlouhinta 2013/L3 p. 24

Tilastollinen riippuvuus: Monta tulkintaa! Tilastollinen riippuvuus: 3 tulkintaa Tilastollinen riippuvuus edellyttää siis että P(XY) P(X)P(Y). Mutta: pieni poikkeama P(X)P(Y):stä johtuu todennäköisesti sattumasta! Miten arvioida, onko riippuvuus aitoa? Mitat riippuvuuden voimakkuuden ja merkitsevyyden arviointiin. Jos A ja B binäärimuuttujia, riittää tutkia yhtä arvokombinaatiota: P(A = 1B = 1) P(A = 1)P(B = 1) a {0,1} b {0,1}P(A = ab = b) P(A = a)p(b = b). ntä jos A ja B moniarvoisia muuttujia? muuttuja- ja arvoperustaiset tulkinnat Miten määritellä kolmen muuttujan, A, B ja, välinen riippuvuus? ainakin 3 vaihtoehtoista tulkintaa. Tiedonlouhinta 2013/L3 p. 25 Olk. A,B, binäärisiä. Merk. A (A = 0) ja A (A = 1) 1. Riippuvuussääntö AB : oltava δ = P(AB) P(AB)P() > 0 ja δ riittävän suuri. 2. Kokonaistodennäköisyysmalli: Lasketaan δ 1 = P(AB) P(AB)P(), δ 2 = P(A B) P(A B)P(), δ 3 = P( AB) P( AB)P() ja δ 4 = P( A B) P( A B)P(). Jos δ 1 = δ 2 = δ 3 = δ 4 = 0, ei ainakaan riippuvuutta. Muuten päätellään jollain laskukaavalla d i :stä (i = 1,...,4) 3. AB on korreloiva joukko jos ρ = P(AB) P(A)P(B)P() 0 ja ρ riittävän suuri. (Yl. olt. ρ > 0 eli positiivinen riippuvuus) Tiedonlouhinta 2013/L3 p. 26 1. Riippuvuussäännöt 1. Riippuvuussäännöt: simerkkejä Yleisessä muodossa X A = a, X R, A R\X ja a {0,1}. Yleensä ei siis sallita negaatioita ehto-osassa X (ei esim. A 1 A 3 A 5. Helppo kiertää: luo uudet binäärimuuttujat negaatioille! (esim. A i = B 2i ja A i = B 2i+1 ) X A i (tai X A i = 1) merkitsee positiivista riippuvuutta (P(XA i ) > P(X)P(A i )) X A i (tai X A i = 0) merkitsee negatiivista riippuvuutta X:n ja A i :n välillä (P(XA i ) < P(X)P(A i ) eli P(X A i ) > P(X)P( A i )) Tiedonlouhinta 2013/L3 p. 27 korkea LL ateroskleroosi korkea HL ateroskleroosi tupakoi ateroskleroosi paljon tupakkaa alzheimer kahvi, ei tupakoi ateroskleroosi kohtuudella alkoholia sydänsairaus miestyypin kaljuus -> sydänsairaus Apo-e4 -> aivoinfarkti Apo-e4, kohtuudella alkoholia alzheimer Apo-e4, kohtuudella tupakkaa alzheimer ABA1-R219K alzheimer ABA1-R219K, nainen alzheimer Tiedonlouhinta 2013/L3 p. 28

1. Riippuvuussäännöt 2. Kokonaistodennäköisyysmalli lokaaleja hahmoja, eivät globaaleja malleja erittäin tehokkaat algoritmit! (silti globaalisti optimaalisia) tuhansille tai jopa kymmenille tuhansille binäärimuuttujille (riippuu datan jakaumasta, miten tehokkaita) ei-binäärimuuttujat edellyttävät binärisointia esittävät kokonaistodennäköisyysjakauman P(A 1 = a 1...A k = a k ), a i {0,1} globaaleja malleja paljon raskaampia oppia esivalittava joukko hyviä muuttujia, silti vain lokaalisti optimaalisia voi esittää havainnollisesti Bayes-verkkona Tiedonlouhinta 2013/L3 p. 29 Tiedonlouhinta 2013/L3 p. 30 2. Kokonaistodennäköisyysmalli: simerkki 3. Korreloiva joukko Yleisessä muodossa X R, missä P(X) > Π Ai XP(A i ) Lähde: Jiang. et al. Learning genetic epistasis using Bayesian network scoring criteria, Bioinformatics 12:89 2011. Tiedonlouhinta 2013/L3 p. 31 kätevä kun ei selkeää säännön seurausosaa esim. esiintymisdata (ocurrence data) ata: kasvilistoja eri havaintopaikoista. Hahmo: lajit jotka esiintyvät poikkeuksellisen usein yhdessä. monia heuristisia hahmoja ja niille hakualgoritmeja, mutta vähän hyviä (tilastollisesti mielekkäitä) Älä sekoita säännöllisiin joukkoihin (frequent sets)! Koostuu riittävän usein yhdessä esiintyvistä attribuuteista, joiden välillä ei välttämättä tilastollista riippuvuutta. Tiedonlouhinta 2013/L3 p. 32