301 TILASTOLLINEN OPPIMINEN Salmiakki- ja hedelmämakeisia on pakattu samanlaisiin käärepapereihin suurissa säkeissä, joissa on seuraavat sekoitussuhteet h 1 : 100% salmiakkia h 2 : 75% salmiakkia + 25% hedelmää h 3 : 50% salmiakkia + 50% hedelmää h 4 : 25% salmiakkia + 75% hedelmää h 5 : 100% hedelmää Satunnaismuuttuja H on säkin tyyppi ja havaintomuuttujia D 1,, D n ovat avattujen makeisten maut Tehtävänä on seuraavan karkin maun ennustaminen 302 Bayes-oppimisessa lasketaan kaikkien hypoteesien todennäköisyys annettuna havaintoaineisto D, jolla on arvo d P(h i d = α P(h i Kun haluamme ennustaa tuntemattoman X arvoa, niin P(X d = i P(X d, h i P(h i d = i P(X h i P(h i d Edellä jokaisen hypoteesin h i oletetaan määräävän todennäköisyysjakauman yli X:n Ennustukset ovat siis painotettuja keskiarvoja yli yksittäisten hypoteesien ennusteiden
303 Bayes-oppimisen keskeisiä arvoja ovat hypoteesien prioritodennäköisyydet P(h i ja datan uskottavuus (likelihood annettuna hypoteesi Olkoot makeissäkkien h 1,, h 5 prioritodennäköisyydet [0.1, 0.2, 0.4, 0.2, 0.1] Havaintojen suhteen teemme i.i.d.-oletuksen (independently and identically distributed: kukin havainto on riippumaton muista ja tulee samasta todennäköisyysjakaumasta, joten = j P(d j h i Jos esim. oikea makeissäkkimme on h 5, jossa on vain hedelmäkarkkeja, niin 10:n ensimmäisen havainnon jälkeen P(d h 3 = 0.5 10 0.001 304 Koska h 3 :lla on korkein prioritodennäköisyys, niin se on alun perin todennäköisin hypoteesi Yksi hedelmäkarkin havainnoiminen ei vielä muuta tilannetta, mutta jo kahden peräkkäisen hedelmän jälkeen h 4 muuttuu todennäköisimmäksi hypoteesiksi Kolmesta hedelmästä alkaen on (oikea säkki h 5 kaikkein todennäköisin Täten oikea hypoteesi pääsee lopulta dominoimaan ennustusta Seuraavan makeisen ennustamisen hedelmäksi todennäköisyys kasvaa monotonisesti kohti arvoa 1 sitä mukaa, mitä useampia hedelmäkarkkeja on havaittu
305 Mille tahansa kiinnitetylle priorijakaumalle (joka ei aseta oikean hypoteesin todennäköisyyttä nollaksi pätee, että väärien hypoteesien posterioritodennäköisyys lopulta katoaa Tämä seuraa siitä, että epätyypillisten havaintojen generoiminen jatkuvasti on todennäköisyydeltään katoavan pieni Bayes-ennustaminen on optimaalista: mikä tahansa muu menetelmä on oikeassa harvemmin (annettuna samat hypoteesien priorit Hypoteesiavaruudet ovat käytännössä kuitenkin erittäin suuria, jopa äärettömiä Summaus (integrointi jatkuvassa tapauksessa yli hypoteesiluokan ei välttämättä ole laskettavissa 306 Usein käytetty approksimointitekniikka on ennustaa sen hypoteesin perusteella, joka on todennäköisin, eli maksimoi arvon P(h i d Tämä on maximum a posteriori (MAP hypoteesi h MAP Kun havaintojen määrä kasvaa, niin MAP-hypoteesin ennuste P(X h MAP ja Bayes-ennuste P(X d lähenevät toisiaan, koska muiden hypoteesien todennäköisyys putoaa Summauksen (tai integroinnin sijaan nyt ratkaistavaksi jää optimointiongelma Esimerkissämme kolmen makeisen jälkeen h MAP = h 5 ja neljännen makeisen ennustetaan olevan hedelmäkarkki todennäköisyydellä 1.0, kun oikea Bayes-todennäköisyys olisi 0.8
307 Ylisovittumisen estämiseksi Bayes- ja MAP-oppiminen voivat rankaista monimutkaisia hypoteeseja matalalla prioritn.:llä Jos esim. H sisältää vain deterministisiä hypoteesejä, niin on 1 jos h i on konsistentti ja 0 muuten Tällöin h MAP on Occamin partaveitsen hengessä yksinkertaisin datan kanssa konsistentti looginen teoria Toisaalta h MAP :in valitsemiseksi tehtävä arvon P(h i maksimointi on ekvivalenttia sen kanssa, että minimoidaan arvoa -log 2 - log 2 P(h i Tässä -log 2 P(h i on hypoteesin h i spesifioimiseksi tarvittavien bittien lukumäärä 308 Toisaalta -log 2 on tarvittavien lisäbittien lukumäärä datan määräämiseksi annettuna hypoteesi Esim. kun hypoteesi ennustaa datan oikein ( = 1, niin lisäbittejä ei tarvita (log 2 1 = 0 Täten MAP-oppiminen valitsee hypoteesin, joka tiivistää datan parhaiten (vrt. Rissasen MDL-periaate Jos hypoteeseille valitaan uniformit priorit, niin MAP-oppiminen typistyy datan uskottavuuden maksimoimiseen Maksimaalisen uskottavuuden hypoteesin h ML oppiminen on hyvä approksimaatio Bayes- ja MAP-oppimiselle kun dataa on paljon, muttei toimi pienten aineistojen tapauksessa
309 Parametrien oppiminen Tilastollisen mallin (Bayes-verkko rakenne on kiinnitetty, sen numeeristen parametrien (ehdollisten todennäköisyyksien arvot pyritään määräämään Oletamme havaintojen olevan täydellisiä; s.o., jokaisen datapisteen sisältävän arvot kaikille muuttujille Jos makeissäkkien salmiakki-hedelmä-karkkien osuudet voivat olla mielivaltaisia, niin hypoteeseja onkin jatkumo Salmiakkimakeisten suhteellinen osuus säkissä θ on ainut parametri ja sitä vastaava hypoteesi on h θ Bayes-verkkoon tarvitaan vain yhtä satunnaismuuttujaa (Maku, jolla on mahdolliset arvot salmiakki (tn. θ ja hedelmä (tn. 1 - θ, vastaava solmu 310 Avataan kääreestä n karkkia, joista s kpl on salmiakkia ja h kpl on hedelmää Oletetaan kaikkien sekoitussuhteiden olevan yhtä todennäköisiä a priori maksimiuskottavuuden menetelmä P(d h θ = j=1,,n P(d j h θ = θ s (1 - θ h Samaan maksimaalisen uskottavuuden hypoteesiin päädytään maksimoimalla uskottavuuden logaritmia (log likelihood L(d h θ = log P(d h θ = j=1,,n log P(d j h θ = s log θ + h log(1- θ
311 Näin tulo yli aineiston vaihtuu summaksi, joka yleensä on helpompi maksimoida Derivoimalla L θ:n suhteen ja etsimällä nollakohta saadaan selville θ:n maksimiuskottavuuden arvo dl(d h θ /dθ = s/θ h/(1-θ = 0 θ = s/(s+h = s/n Maksimaalisen uskottavuuden hypoteesi h ML sanoo säkissä olevien salmiakkien osuuden olevan sama kuin mitä avatuista karkeista on havaittu Edellä kuvattua menetelmää voidaan käyttää yleisesti (useammankin parametrin arvojen selvittämiseksi 312 Menetelmän merkittävä ongelma: jos jotain tapahtumaa ei ole havaittu laisinkaan (pienessä havaintoaineistossa, niin h ML antaa sille todennäköisyyden nolla Muutetaan esim. siten, että riippuen karkin mausta se kääritään probabilistisen säännön perusteella joko punaiseen tai vihreään paperiin Maku P(salmiakki θ Maku P(punainen Kääre salmiakki θ 1 hedelmä θ 2
313 Nyt todennäköisyysmallissa on kolme parametria θ, θ 1, ja θ 2 Bayes-verkon standardisemantiikan perusteella voidaan laskea tapahtumien todennäköisyyksiä; esim. P(Maku = salmiakki, Kääre = vihreä h θ,θ1,θ 2 = P(Maku = salmiakki h θ,θ1,θ 2 P(Kääre = vihreä Maku = salmiakki, h θ,θ1,θ 2 = θ(1 - θ 1 Avaamme nyt n makeista, joista s on salmiakkia ja h hedelmää, joiden käärepaperien värien lkm:t ovat p s, v s, p h ja v h Tämän aineiston uskottavuus P(d h θ,θ1,θ 2 on θ s (1 - θ h θ 1 ps (1 - θ 1 vs θ 2 ph (1 - θ 2 vh 314 Otetaan logaritmi edellisestä: L = [s log θ + h log(1 - θ] + [p s log θ 1 + v s log(1 θ 1 ] + [p h log θ 2 + v h log(1 θ 2 ] Parametrien suhteen derivoimalla ja hakemalla nollakohta saadaan L/ θ = s/θ h/(1-θ = 0 θ = s/(s + h L/ θ 1 = p s /θ 1 -v s /(1 - θ 1 = 0 θ 1 = p s /(p s + v s L/ θ 2 = p h /θ 2 v h /(1 - θ 2 = 0 θ 2 = p h /(p h + v h θ:n arvo on kuten ennenkin ja θ 1 :n arvo on punaisen käärepaperin osuus salmiakkikarkkien joukossa (θ 2 vast. Näin oppimisongelma jakaantuu erillisiksi oppimistehtäviksi kullekin parametrille