Optimointiopin semminaari Mat-2.142 Uskomusverkot Jari Mustonen 8.12.1999
1 Johdanto Uskomusverkko -jota kutsutaan myos Bayesilaiseksi verkoksi, vaikutus kaavioksi tai seuraamus verkko - on tapa esitaa informaatiota, siten etta laskennallisesti on mahdollisimman kevytta paivittaa dataan uutta informaatiota. Uskomusverkossa kasitellaan dirkreetteja todennakoisyys muuttujia. Graasessa esityksessa kutakin muuttujaa kuvaa solmu ja niiden muuttujien valilla on kaari jotka ovat suoraan kytkoksissa toisiinsa. Kaarella on suunta (eli kaari on nuoli:). Jos solmusta X lahtee kaari solmuun Y, tarkoittaa se sita, etta muutos solmun X jakaumassa vaikuttaa myos solmun Y jakaumaan. 1.1 Tutkimuksen lahtokohdat Uskomusverkko tutkimus sai alkunsa yrityksista luoda laskennallinen malli, joka mukailisi ihmisen aivojen sisaisia paattely mekanismeja. Erikoisesti haluttiin yhdistaa informaatiota useista informaatiolahteista siten, etta datasta saataisiin jarkeva presentaatio. Voidaan olettaa suuren osan informaatiosta olevan tulkinnan varaista. On siis luonnollista ottaa lahtokohdaksi todennakoisyysteoria. Kuitenkin helposti nahdaan, laskennallisen vaikeuden eksponenttiaalinen kasvu informaatio lahteiden funktiona,kun kaikki vaikuttaa kaikken. On siis jarkevaa koittaa rajata monimutkaisuutta siten, etta todetaan jotkin muuttujat keskenaan riippumattomiksi. 2 Uskomusverkko Graasessa esityksessa on nyt solmuja, jotka kuvaavat satunnaismuuttujia ja niiden valilla kaari, jotka kuvaavat yhdistamiensa solmujen valista ehdollista todennakoisyytta. Kuvassa 1muutos solmun x 5 jakaumaan vaikuttaa solmujen x 6, x 2, x 3 jakaumaan. Mutta ei suoranaisesti solmun x 1 jakaumaan. Huomion arvoista kuitenkin on, etta solmun x 5 jakauman muuttuessa, muuttuvat jakaumat x 2 ja x 3.Taman seurauksena muuttu myos jakauma x 1. Graa luodaan siis siten, etta vain suoraa vaikutusta kuvataan kaarilla. Vaikkakin edellisessa esimerkissa muutos solmussa x 5 muutti myos solmua x 1,einaiden kahden solmun valilla onkaarta. On myos huomattava, etta uskomusverkon topologia saattaa olla aarimmaisen herkka solmu jarjestykselle. Esimerkiksi, olkoon x 1 ; :::; x n yksittaisten kolikkojen heittojen tuloksia ja x n+1 totuusmuuttuja joka saa arvon tosi, jos mika tahansa kolikoista on klaava. Uskomusverkko on tassa tapauksessa verkko 1
jossa solmuun x n+1 osoittaa n nuolta. Jos taas totuusmuuttujan nimeksi valitaan x 0,onverkko talloin puurakenne. 2.1 Ehdollinen riippumattomuus ja graan separoituvuus Tama kappale on ohitettavissa ja on matemaattinen kaavasulkeinen. Jos kuitenkin lukijalla on aikomusta syventya aiheeseen huomattavasti enemman saattaa kappale olla lukemisen arvoinen. Suosittelen kuitenkin ko. lukijalle talloin itse alkuperaisen paperin lukemista. Otetaan solmu kolmikko x 1 ;x 2 ;x 3. Kaksi kaarta yhdistaen parit (x 1 ;x 2 ) ja (x 2 ;x 3 )voivat liittya keskikohdassa x 2 kolmella eri tavalla. Hanta hantaan (tail-to-tail) x 1 x 2! x 3 Karki hantaan (head-to-tail) x 1! x 2! x 3 x 1 x 2 x 3 Karki karkeen (head-to-head) x 1! x 2 x 3 Maaritelma (a) Osajoukon S e sanotaan separiovan muuttujat x i :n ja x j :n, jos S e separoi kaikki polut x i :n ja x j :n valilla. (b) S e separoi polun P, jos S e erottaa ainakin yhden kaari parin P :ta pitkin. Seuraavaksi erottuminen: Maaritelma (a) S e erottaa kaksi kaarta `Paa hantaan' tai `Hanta hantaan' kytkoksessa solmussa X, jos X kuuluu S e :n. (b) S e erottaa kaksi kaarta `Hanta hantaan' kytkoksessa solmussa X, jos X eika kukaan sen lapsi solmu kuulu S e :n. Nailla ehdoilla voidaan maaritella nakyyvyysalue solmulle. Nakyvyys alue maaritellaan siten, etta nakyvyysalue on pienin solmujen joukko, joka eristaa mainitun sulmun kaikista nakyvyysalueeseen kuulumattomista solmuista. Suomeksi sanottuna nakyvyysalue koostuu solmun suorista vanhemmista, suorista lapsista ja jalkimmaisen suorista vanhemmista. Kuvassa 1 solmun x 3 nakyvyysalue on x 1 ;x 5 ;x 2. 3 Uskomusverkon paivitys puussa Saatuamme maarittettya uskomusverkon rakenteen voimme alkaa kayttaa verkkoa ongelman ratkaisussa. Asetamme kullekin kaarelle muutosmatriisin, joka kertoo miten kaaren yhdistamat informaatiot suhtautuvat toisiinsa. Tama malli vaatii informaation riippuvuudelta lineaarisuutta, mutta on viela asilloinkin hyvin kattava mallintamaan monimutkaisiakin jarjestelmia. Seuraavaksi asetamme alkuehdon jollekin muuttujalle ja suoritamme paivityksen muille muuttujille. Paivitys tapahtuu kaytannossa siten, etta kullekin muutujalle maarataan -viesti, joka tulee ylhhalta ja -viesti, joka tulee alhaal- 2
ta. Muuttujan todennakoisyys jakauma on naiden viestien painotettu tulo. Painotus tapahtuu siten, etta kaikkien todennakoisyyksien summa on yksi. Solmun X todennakoisyys jakaumaa merkitaan BEL(X). Ajatellaan tilannetta, jossa oikeudessa on syytettyna 3 ihmistamurhasta. Henkilot X; Y; Z. Olkoon solmu A murhaaseen viimeinen kayttaja, eli murhaaja. Olkoon B murhaaseen viimeinen koskettaja; han kenen sormenjaljet ovat aseessa. Ja olkoon C sormenjalkilaboratorion mahdollisuuden loytaa kunkin sormenjaljet aseesta. Nyt voimme piirtaa uskomusverkon, josta tulee ketju A! B! C. A luo odotuksia B:lle ja B luo odotuksia C:lle, mutta A:lla ei ole vaikutusta C:n sen jalkeen, kun B arvo on tunnettu. Kaytamme maalaisjarkea ja asetamme A:n ja B:n valisen kaaren arvoksi todennakoisyys matriisin: P (B j ja i )= 2 6 4 0:80 0:10 0:10 0:10 0:80 0:10 0:10 0:10 0:80 3 7 5 ;i;j =1; 2; 3: (1) Laboratoriotulosten luotettavuuteen taas kaytamme matriisia P (C k jb j ), tyydyttaen ehdon: X P (C k jb j )=1kaikillej: (2) k Matriisin kukin alkio esitaa jos-niin saantoa siten, etta JOS sormenjaljet kuuluvat B j :lle NIIN laboratorio antaa tulokseksi C k todennakoisydella P (C k jb j ). Voimme saada kahdenlaista informaatiota. Tarkaa tai naennaista. Tarkka informaatio vahvistaa jonkin satunnaismuutujan johonkin tiettyyn arvoon, kun taas naennainen informaatio vai paivittaa jonkin muutujan jakaumaa. Naennaista informaatiota kuvataan naennaisella solmulla, joka on kytketty (naennaisella) kaarella muuttujaan, johon tama uusi informaatio vaikuttaa. Nama kaaret vievat informaatiota vain yhteen suuntaan. Virtuaalisten solmujen todennakoisyys jakaumaa ei siis paiviteta, vaikka solmun nakyvyys alueessa tapahtuu muutoksia. Esimerkissamme C on naennainen solmu. Laboratorio saattaisi julkaista raportin joka antaisi seuraavat todennakoisyydet sormenjalkien omistajalle: P (C tarkistettu jb) =(0:80; 0:60; 0:50): (3) raportti siis sanoo, etta sormenjaljet kuuluvat henkilolle B 1 todennakoisyydella 80%, henkilolle B 2 todennakoisyydella 60% ja henkilolle B 3 todennakoisyydella 50%. Huomaa ettei naiden summan tarvitse olla 1, sallien kunkin arvion olevan riippumaton toisista. Nyt siis (B) =(0:80; 0:60; 0:50) ja jos ajattelemme etta (B) =(0:60; 0:30; 0:10) olisi (B)(B) =(0:48; 0:18; 0:05). Nyt suorittaisimme viela painotuksen ja saisimme: BEL(B) =(0:676; 0:254; 0:07): (4) 3
Olisimme siis paivittaneen BEL(B):n (0:60; 0:30; 0:10):ta (0:676; 0:254; 0:07):n. Jos meilla olisi kaytossa toinenkin sormenjalkilaboratorio, joka tekisi oman tutkimuksensa siita kenen sormen jaljet murhaaseessa on, saaden tulokseksi listan (0:30; 0:50; 0:90). Nyt edellisissa laskuissa kaytettaisiin vain (B) =(0:80; 0:60; 0:50) (0:30; 0:50; 0:90) = (0:24; 0:30; 0:45). Tilanteessa jossa uutta informaatiota lahdetaan tuomaan on kuhunkin solmuun talletettu vektorin ja. Katsotaan kuinka annetun solmun ja voidaan maarittaa naapureidensa :eilla ja :oilla. Ajatellaan, etta solmu B paattaa paivittaa itsensa. Solmu tarkistaa viestin B (A) aitisolmultansa A ja viestit 1 (B); 2 (B); ::: lapsiltansa. Kayttaen naita B laskee oman :n ja :n seuraavasti: (B i )= Y k k (B i ); (5) ja (B) = X P (B i ja j ) B (A j ); (6) j missa on painotusvakio. Nyt B:n uusi viesti aidilleen on: B (A j )= X i P (B i ja j )(B j ): (7) ja k:nelle lapselle E uusi viesti on: E (B i )=(B i ) Y m6=k m (B i ): (8) Eraan puun paivitys on naytetty kuvassa 2. Eraat solmut vaativat erityiskohtelua: (1)Epaselva solmu: Lehtisolmu, jota ei ole alustettu viela. Solmun BEL asetetaan yhta suureksi kuin ja =(1; 1; :::; 1). (2) Tieto solmu: Solmu jonka satunnaismuuttujan arvo tiedetaan: =(0; 0; 0:::; 1; 0; :::; 0) se. todeksi tarkistetussa kohdassa on 1. (3) Naennainen solmu: Emme maarita :ta emmeka :aa, vaan lahetamme vain viestin B (A i ) eteenpain. (4) Juuri solmu: Asetamme (root) = alkuehto. 4 `Lievasti' kytketyt verkot Verkko, jossa rakenne on sellainen, etta solmulla voi olla useita lapsi ja vanhempia, mutta kaikki naista ovat erillisa ja ainut polku naiden valilla kulkee vain yhden solmun kautta. Esimerkiksi seuraava kuvitteellinen tilanne vaatii tallaisen verkon: Paavo saa 4
puhelun naapuriltaan toihin. Naapuri kertoo, etta kuuli murtohalyttimen soivan Paavon kodin suunnalla. Paavo on ryntaamassa takaisin kotiinsa, kun muistaa, etta viimeaikoina maanjaristykset ovat laukaiseet murtohalytinta viimeaikoina. Kotimatkalla Paavo kuulee radiosta, etta 100000km paassa on ollut maanjaristys. Paavon nakokulmasta on olemassa kaksi skenaariota. Joko rosvo on murtautunut hanen kotiinsa tai maanjaristys on laukaissut murtohalyttimen. Tata tilannetta kasittelevassa uskomusverkossa on solmulla `murtohalytin on lauennut' kaksi aiti solmua. Manjaristys- ja `varas on murtautunut'-solmut. Tallaiseen verkkoa koskevat paivityskaavat ovat huomattavasti monimutkaisemmat. Jos lukijalla on tarvetta kasitella tallaisia verkkoja on syyta tutustua aiheeseen huomattavasti tata referaattia lahemmin. 5 Yhteenveto Uskomusverkko on tehokas tapa informaation kasittelemiseen ja mahdollistaa tietylla tasolla rinnakkaislaskennan. Uskomusverkot eivat ole viela loppuun tutkitut, hoten aiheesta kiinnostuneille loytyy varmasti haastava perustutkinuksen kentta, joka yhdistaa tekoaly tutkimusta ja simulointia. 5
x1 x2 x3 x4 x5 x6 Kuva 1:Tyypillinen Bayesian verkko esittamassa jakaumaa P (x 1 ; :::; x 6 )= P (x 6 jx 5 )P (x 5 jx 2 ;x 3 )P (x 4 jx 1 ;x 2 )P (x 3 jx 1 )P (x 2 jx 1 )P (x 1 ). 6
1. 2. Uutta dataa Uutta dataa 3. 4. 5. 6. Kuva 2: Uuden informaation vaikutuksen kulku verkossa. 7