TILASTOLLINEN OPPIMINEN

Samankaltaiset tiedostot
Yleisesti, kun mahdollisilla vastauksilla v i on todennäköisyydet P(v i ), niin H(P(v 1 ),, P(v n )) = i=1,,n - P(v i ) log 2 P(v i )

Parametrien oppiminen

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Mallipohjainen klusterointi

Maximum likelihood-estimointi Alkeet

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Mat Tilastollisen analyysin perusteet, kevät 2007

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

1. Tilastollinen malli??

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

T Luonnollisten kielten tilastollinen käsittely

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Väliestimointi (jatkoa) Heliövaara 1

Tilastollinen aineisto Luottamusväli

Estimointi. Vilkkumaa / Kuusinen 1

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Muuttujien eliminointi

tilastotieteen kertaus

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastollinen päättely, 10 op, 4 ov

9. laskuharjoituskierros, vko 12-13, ratkaisut

Harjoitus 7: NCSS - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Reikä. Säätila. Hammassärky Osuma

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Tutkimustiedonhallinnan peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Tilastollisia peruskäsitteitä ja Monte Carlo

Uskottavuuden ominaisuuksia

Todennäköisyyden ominaisuuksia

Mat Tilastollisen analyysin perusteet, kevät 2007

1. TILASTOLLINEN HAHMONTUNNISTUS

JOHDATUS TEKOÄLYYN TEEMU ROOS

Approksimatiivinen päättely

Osa 2: Otokset, otosjakaumat ja estimointi

Mat Tilastollisen analyysin perusteet, kevät 2007

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Nollasummapelit ja bayesilaiset pelit

6. laskuharjoitusten vastaukset (viikot 10 11)

Testit järjestysasteikollisille muuttujille

Muuttujien riippumattomuus

Mallintamisesta. Mallintamisesta

JOHDATUS TEKOÄLYYN LUENTO 4.

031021P Tilastomatematiikka (5 op)

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Bayesläiset tilastolliset mallit

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

Sovellettu todennäköisyyslaskenta B

= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Normaalijakaumasta johdettuja jakaumia

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Suodatus ja näytteistys, kertaus

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 8, ti , 8:30-10:00 Tilastolliset yhteydettömät kieliopit, Versio 1.

2. Uskottavuus ja informaatio

Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

Testit laatueroasteikollisille muuttujille

Testejä suhdeasteikollisille muuttujille

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Bayesilainen päätöksenteko / Bayesian decision theory

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

Tilastollisen päättelyn perusteet

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Inversio-ongelmien laskennallinen peruskurssi Luento 7

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Parametrin estimointi ja bootstrap-otanta

Pelaisitko seuraavaa peliä?

Sovellettu todennäköisyyslaskenta B

Harjoitus 2: Matlab - Statistical Toolbox

Transkriptio:

301 TILASTOLLINEN OPPIMINEN Salmiakki- ja hedelmämakeisia on pakattu samanlaisiin käärepapereihin suurissa säkeissä, joissa on seuraavat sekoitussuhteet h 1 : 100% salmiakkia h 2 : 75% salmiakkia + 25% hedelmää h 3 : 50% salmiakkia + 50% hedelmää h 4 : 25% salmiakkia + 75% hedelmää h 5 : 100% hedelmää Satunnaismuuttuja H on säkin tyyppi ja havaintomuuttujia D 1,, D n ovat avattujen makeisten maut Tehtävänä on seuraavan karkin maun ennustaminen 302 Bayes-oppimisessa lasketaan kaikkien hypoteesien todennäköisyys annettuna havaintoaineisto D, jolla on arvo d P(h i d = α P(h i Kun haluamme ennustaa tuntemattoman X arvoa, niin P(X d = i P(X d, h i P(h i d = i P(X h i P(h i d Edellä jokaisen hypoteesin h i oletetaan määräävän todennäköisyysjakauman yli X:n Ennustukset ovat siis painotettuja keskiarvoja yli yksittäisten hypoteesien ennusteiden

303 Bayes-oppimisen keskeisiä arvoja ovat hypoteesien prioritodennäköisyydet P(h i ja datan uskottavuus (likelihood annettuna hypoteesi Olkoot makeissäkkien h 1,, h 5 prioritodennäköisyydet [0.1, 0.2, 0.4, 0.2, 0.1] Havaintojen suhteen teemme i.i.d.-oletuksen (independently and identically distributed: kukin havainto on riippumaton muista ja tulee samasta todennäköisyysjakaumasta, joten = j P(d j h i Jos esim. oikea makeissäkkimme on h 5, jossa on vain hedelmäkarkkeja, niin 10:n ensimmäisen havainnon jälkeen P(d h 3 = 0.5 10 0.001 304 Koska h 3 :lla on korkein prioritodennäköisyys, niin se on alun perin todennäköisin hypoteesi Yksi hedelmäkarkin havainnoiminen ei vielä muuta tilannetta, mutta jo kahden peräkkäisen hedelmän jälkeen h 4 muuttuu todennäköisimmäksi hypoteesiksi Kolmesta hedelmästä alkaen on (oikea säkki h 5 kaikkein todennäköisin Täten oikea hypoteesi pääsee lopulta dominoimaan ennustusta Seuraavan makeisen ennustamisen hedelmäksi todennäköisyys kasvaa monotonisesti kohti arvoa 1 sitä mukaa, mitä useampia hedelmäkarkkeja on havaittu

305 Mille tahansa kiinnitetylle priorijakaumalle (joka ei aseta oikean hypoteesin todennäköisyyttä nollaksi pätee, että väärien hypoteesien posterioritodennäköisyys lopulta katoaa Tämä seuraa siitä, että epätyypillisten havaintojen generoiminen jatkuvasti on todennäköisyydeltään katoavan pieni Bayes-ennustaminen on optimaalista: mikä tahansa muu menetelmä on oikeassa harvemmin (annettuna samat hypoteesien priorit Hypoteesiavaruudet ovat käytännössä kuitenkin erittäin suuria, jopa äärettömiä Summaus (integrointi jatkuvassa tapauksessa yli hypoteesiluokan ei välttämättä ole laskettavissa 306 Usein käytetty approksimointitekniikka on ennustaa sen hypoteesin perusteella, joka on todennäköisin, eli maksimoi arvon P(h i d Tämä on maximum a posteriori (MAP hypoteesi h MAP Kun havaintojen määrä kasvaa, niin MAP-hypoteesin ennuste P(X h MAP ja Bayes-ennuste P(X d lähenevät toisiaan, koska muiden hypoteesien todennäköisyys putoaa Summauksen (tai integroinnin sijaan nyt ratkaistavaksi jää optimointiongelma Esimerkissämme kolmen makeisen jälkeen h MAP = h 5 ja neljännen makeisen ennustetaan olevan hedelmäkarkki todennäköisyydellä 1.0, kun oikea Bayes-todennäköisyys olisi 0.8

307 Ylisovittumisen estämiseksi Bayes- ja MAP-oppiminen voivat rankaista monimutkaisia hypoteeseja matalalla prioritn.:llä Jos esim. H sisältää vain deterministisiä hypoteesejä, niin on 1 jos h i on konsistentti ja 0 muuten Tällöin h MAP on Occamin partaveitsen hengessä yksinkertaisin datan kanssa konsistentti looginen teoria Toisaalta h MAP :in valitsemiseksi tehtävä arvon P(h i maksimointi on ekvivalenttia sen kanssa, että minimoidaan arvoa -log 2 - log 2 P(h i Tässä -log 2 P(h i on hypoteesin h i spesifioimiseksi tarvittavien bittien lukumäärä 308 Toisaalta -log 2 on tarvittavien lisäbittien lukumäärä datan määräämiseksi annettuna hypoteesi Esim. kun hypoteesi ennustaa datan oikein ( = 1, niin lisäbittejä ei tarvita (log 2 1 = 0 Täten MAP-oppiminen valitsee hypoteesin, joka tiivistää datan parhaiten (vrt. Rissasen MDL-periaate Jos hypoteeseille valitaan uniformit priorit, niin MAP-oppiminen typistyy datan uskottavuuden maksimoimiseen Maksimaalisen uskottavuuden hypoteesin h ML oppiminen on hyvä approksimaatio Bayes- ja MAP-oppimiselle kun dataa on paljon, muttei toimi pienten aineistojen tapauksessa

309 Parametrien oppiminen Tilastollisen mallin (Bayes-verkko rakenne on kiinnitetty, sen numeeristen parametrien (ehdollisten todennäköisyyksien arvot pyritään määräämään Oletamme havaintojen olevan täydellisiä; s.o., jokaisen datapisteen sisältävän arvot kaikille muuttujille Jos makeissäkkien salmiakki-hedelmä-karkkien osuudet voivat olla mielivaltaisia, niin hypoteeseja onkin jatkumo Salmiakkimakeisten suhteellinen osuus säkissä θ on ainut parametri ja sitä vastaava hypoteesi on h θ Bayes-verkkoon tarvitaan vain yhtä satunnaismuuttujaa (Maku, jolla on mahdolliset arvot salmiakki (tn. θ ja hedelmä (tn. 1 - θ, vastaava solmu 310 Avataan kääreestä n karkkia, joista s kpl on salmiakkia ja h kpl on hedelmää Oletetaan kaikkien sekoitussuhteiden olevan yhtä todennäköisiä a priori maksimiuskottavuuden menetelmä P(d h θ = j=1,,n P(d j h θ = θ s (1 - θ h Samaan maksimaalisen uskottavuuden hypoteesiin päädytään maksimoimalla uskottavuuden logaritmia (log likelihood L(d h θ = log P(d h θ = j=1,,n log P(d j h θ = s log θ + h log(1- θ

311 Näin tulo yli aineiston vaihtuu summaksi, joka yleensä on helpompi maksimoida Derivoimalla L θ:n suhteen ja etsimällä nollakohta saadaan selville θ:n maksimiuskottavuuden arvo dl(d h θ /dθ = s/θ h/(1-θ = 0 θ = s/(s+h = s/n Maksimaalisen uskottavuuden hypoteesi h ML sanoo säkissä olevien salmiakkien osuuden olevan sama kuin mitä avatuista karkeista on havaittu Edellä kuvattua menetelmää voidaan käyttää yleisesti (useammankin parametrin arvojen selvittämiseksi 312 Menetelmän merkittävä ongelma: jos jotain tapahtumaa ei ole havaittu laisinkaan (pienessä havaintoaineistossa, niin h ML antaa sille todennäköisyyden nolla Muutetaan esim. siten, että riippuen karkin mausta se kääritään probabilistisen säännön perusteella joko punaiseen tai vihreään paperiin Maku P(salmiakki θ Maku P(punainen Kääre salmiakki θ 1 hedelmä θ 2

313 Nyt todennäköisyysmallissa on kolme parametria θ, θ 1, ja θ 2 Bayes-verkon standardisemantiikan perusteella voidaan laskea tapahtumien todennäköisyyksiä; esim. P(Maku = salmiakki, Kääre = vihreä h θ,θ1,θ 2 = P(Maku = salmiakki h θ,θ1,θ 2 P(Kääre = vihreä Maku = salmiakki, h θ,θ1,θ 2 = θ(1 - θ 1 Avaamme nyt n makeista, joista s on salmiakkia ja h hedelmää, joiden käärepaperien värien lkm:t ovat p s, v s, p h ja v h Tämän aineiston uskottavuus P(d h θ,θ1,θ 2 on θ s (1 - θ h θ 1 ps (1 - θ 1 vs θ 2 ph (1 - θ 2 vh 314 Otetaan logaritmi edellisestä: L = [s log θ + h log(1 - θ] + [p s log θ 1 + v s log(1 θ 1 ] + [p h log θ 2 + v h log(1 θ 2 ] Parametrien suhteen derivoimalla ja hakemalla nollakohta saadaan L/ θ = s/θ h/(1-θ = 0 θ = s/(s + h L/ θ 1 = p s /θ 1 -v s /(1 - θ 1 = 0 θ 1 = p s /(p s + v s L/ θ 2 = p h /θ 2 v h /(1 - θ 2 = 0 θ 2 = p h /(p h + v h θ:n arvo on kuten ennenkin ja θ 1 :n arvo on punaisen käärepaperin osuus salmiakkikarkkien joukossa (θ 2 vast. Näin oppimisongelma jakaantuu erillisiksi oppimistehtäviksi kullekin parametrille