Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

Samankaltaiset tiedostot
Luku 5. Estimointiteorian perusteita

Tämän luvun sisältö. Luku 5. Estimointiteorian perusteita. Perusjakaumat 1-ulotteisina (2) Perusjakaumat 1-ulotteisina

Mallipohjainen klusterointi

Maximum likelihood-estimointi Alkeet

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Moniulotteisia todennäköisyysjakaumia

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Todennäköisyyden ominaisuuksia

1. Tilastollinen malli??

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Mat Sovellettu todennäköisyyslasku A

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

2. Uskottavuus ja informaatio

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin (2008) 1/5

Ilkka Mellin Todennäköisyyslaskenta. Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat. Momenttiemäfunktio ja karakteristinen funktio

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

4.2.2 Uskottavuusfunktio f Y (y 0 X = x)

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luku 10. Bayesläiset estimaattorit Bayesläiset piste-estimaatit. Lasse Leskelä Aalto-yliopisto 18. lokakuuta 2017

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Tilastollinen aineisto Luottamusväli

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

x 4 e 2x dx Γ(r) = x r 1 e x dx (1)

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

3.6 Su-estimaattorien asymptotiikka

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

9. laskuharjoituskierros, vko 12-13, ratkaisut

Uskottavuuden ominaisuuksia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Moniulotteiset satunnaismuuttujat ja jakaumat

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Satunnaismuuttujien muunnokset ja niiden jakaumat

Johdatus todennäköisyyslaskentaan Normaalijakaumasta johdettuja jakaumia. TKK (c) Ilkka Mellin (2005) 1

Harjoitus 2: Matlab - Statistical Toolbox

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

4.0.2 Kuinka hyvä ennuste on?

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

η i (θ)t i (x) A(θ) + c(x),

tilastotieteen kertaus

Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat. TKK (c) Ilkka Mellin (2004) 1

BM20A0900, Matematiikka KoTiB3

Normaalijakaumasta johdettuja jakaumia

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

pitkittäisaineistoissa

Johdatus regressioanalyysiin

Satunnaismuuttujat Satunnaismuuttuja kuvaa kokeen tuloksen reaaliakselille Satunnaismuuttuja on siis funktio X(s) joka saa reaalisia arvoja Koe s

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

TILASTOLLINEN OPPIMINEN

Jatkuvat satunnaismuuttujat

Bayesläiset tilastolliset mallit

Sovellettu todennäköisyyslaskenta B

Regressioanalyysi. Vilkkumaa / Kuusinen 1

riippumattomia ja noudattavat samaa jakaumaa.

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

Sovellettu todennäköisyyslaskenta B

Tilastollisen päättelyn perusteet

12. Hessen matriisi. Ääriarvoteoriaa

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Väliestimointi (jatkoa) Heliövaara 1

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

031021P Tilastomatematiikka (5 op) viikko 4

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Testejä suhdeasteikollisille muuttujille

Transkriptio:

5. ESTIMOINTITEORIAN PERUSTEITA 5.1. Perusjakaumat 1-ulotteisina Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) Siksi tarvitaan todennäköisyyslaskentaa Peruskäsite siellä on todennäköisyysjakauma (kertymäfunktio) skalaariarvoiselle satunnaismuuttujalle x: antaa todennnäköisyyden sille että x x 0. F(x 0 ) = P(x x 0 ) (1) Funktio F(x 0 ) on ei-vähenevä, jatkuva ja 0 F(x 0 ) 1. TKK, Informaatiotekniikan laboratorio 1

Tiheysfunktio x:lle pisteessä x = x 0 p(x 0 ) = df(x) dx on funktion F(x) derivaatta pisteessä x = x 0 Vastaavasti tietenkin F(x 0 ) = x0 (2) x=x0 p(x)dx. Tiheysfunktiolla on seuraavat ominaisuudet: p(x)dx = 1 xp(x)dx = µ = E{x} (x µ) 2 p(x)dx = σ 2 = var{x}. TKK, Informaatiotekniikan laboratorio 2

Tässä µ ja σ ovat x:n odotusarvo ja keskihajonta. Oletan tunnetuiksi jotkut yleisimmät tiheysfunktiot, kuten normaalijakauma (eli Gaussin jakauma) eksponentiaalinen jakauma p(x) = 1 2πσ e (x µ)2 2σ 2, p(x) = λe λx ja tasainen jakauma (esim. välillä [-1,1]) p(x) = 1/2, kun x [ 1, 1], 0 muuten. TKK, Informaatiotekniikan laboratorio 3

5.2. Yleistys vektoridatalle, d:n muuttujan normaalijakauma Kun puhutaan vektoridatasta, on pakko yleistää yo. jakaumat moniulotteisiksi: olkoon taas datavektori x = (x 1, x 2,...,x d ) T Sen todennäköisyysjakauma (kertymäfunktio) on missä relaatio ymmärretään alkioittain F(x 0 ) = P(x x 0 ) (3) Vastaava moniulotteinen tiheysfunktio p(x) on tämän osittaisderivaatta kaikkien vektorialkioiden suhteen: p(x 0 ) =... F(x) x 1 x 2 x d (4) x=x0 Käytännössä tiheysfunktio on tärkeämpi. TKK, Informaatiotekniikan laboratorio 4

Kuva esittää 2-ulotteista (d = 2) normaalijakaumaa p(x) = 1 (x 1 µ 1 ) 2 +(x 2 µ 2 ) 2 2πσ 2 e 2σ 2 missä jakauman odotusarvo (keskipiste) on piste (µ 1, µ 2 ) ja tässä tapauksessa keskihajonta joka suuntaan on sama σ. Keskihajonta / varianssi on 2-ulotteisessa tapauksessa monimutkaisempi kuin 1-ulotteisessa tapauksessa: varianssin σ 2 = E{(x µ) 2 } korvaa kovarianssimatriisi E{(x C = 1 µ 1 ) 2 } E{(x 1 µ 1 )(x 2 µ 2 )} E{(x 1 µ 1 )(x 2 µ 2 )} E{(x 2 µ 2 ) 2 } Yleistys d:hen dimensioon suoraviivainen: matriisialkiot ovat C ij = E{(x i µ i )(x j µ j )} = cov(x i, x j ) Silloin d-ulotteisen normaalijakauman tiheysfunktio voidaan TKK, Informaatiotekniikan laboratorio 5

kirjoittaa vektori - matriisimuotoon: ( p(x) = K exp 1 ) 2 (x m)t C 1 (x m) (5) missä m = (µ 1...µ d ) T on keskiarvovektori (jakauman keskipiste, huippukohta) ja K on normalisoiva termi K = 1 (2π) n/2 det(c) 1/2 Termi K tarvitaan vain, jotta p(x):n integraali d-ulotteisen avaruuden yli olisi 1 Voidaan integroimalla johtaa että E{x} = m = E{(x m)(x m) T } = C R xp(x)dx TKK, Informaatiotekniikan laboratorio 6

Vektorin x alkiot ovat korreloimattomat jos niiden kovarianssit ovat nollia eli E{(x i µ i )(x j µ j )} = 0 Vektorin x alkiot ovat riippumattomat jos niiden tiheysjakauma voidaan lausua marginaalijakaumien tulona: p(x) = p 1 (x 1 )p 2 (x 2 )...p d (x d ) Osoitetaan että jos normaalijakautuneen vektorin alkiot ovat korreloimattomat, niin ne ovat myös riippumattomat: katsotaan termiä (x m) T C 1 (x m) tapauksessa missä E{(x i µ i )(x j µ j )} = 0 (korreloimattomuus). Mutta silloin C on lävistäjämatriisi ja (x m) T C 1 (x m) = d (C ii ) 1 (x i µ i ) 2 i=1 TKK, Informaatiotekniikan laboratorio 7

Kun otetaan tästä eksponenttifunktio kuten kaavassa (5) saadaan ( p(x) = K exp 1 ) 2 (x m)t C 1 (x m) = K exp ( 1 2 ) d (C ii ) 1 (x i µ i ) 2 i=1 = K exp( 1 2 C 1 11 (x 1 µ 1 ) 2 )... exp( 1 2 C 1 dd (x d µ d ) 2 ) joten p(x) hajaantuu marginaalijakaumien tuloksi, eli alkiot x i ovat riippumattomia. TKK, Informaatiotekniikan laboratorio 8

5.3. Suurimman uskottavuuden periaate Edellä esiteltiin teoriassa vektorimuuttujan jakauma, etenkin normaalijakauma. Jos on kuitenkin annettuna vain vektorijoukko datamatriisin X muodossa, mistä tiedämme sen jakauman? Jakauma olisi erittäin hyödyllinen, koska sen avulla voidaan esim. vastata seuraavaan kysymykseen: kun on annettuna uusi vektori x, millä todennäköisyydellä se kuuluu samaan joukkoon kuin datajoukko X (tai jokin sen osajoukko). Etenkin luokittelu perustuu usein jakaumien estimointiin. Eräs mahdollisuus on d-ulotteinen histogrammi: mutta dimensionaalisuuden kirous tekee tästä hyvin hankalan jos d vähänkin suuri Parempi menetelmä on yleensä parametrinen tiheysestimointi joka TKK, Informaatiotekniikan laboratorio 9

tarkoittaa, että oletetaan tiheysfunktiolle p(x) jokin muoto (esim. normaalijakauma) ja pyritään estimoimaan datajoukosta vain sen parametrit normaalijakaumalle siis keskiarvovektori m = (µ 1...µ d ) T ja kovarianssimatriisi C = (C ij ) Tämä tekee yhteensä vain d + d(d + 1)/2 parametria, koska C on symmetrinen matriisi Vertaa histogrammiin, jossa lokeroiden määrä kasvaa eksponentiaalisesti l d. Merkitään tuntemattomien parametrien muodostamaa järjestettyä joukkoa vektorilla θ ja tiheysjakaumaa p(x θ) Tarkoittaa: funktion varsinainen argumentti ovat vektorialkiot x 1,..., x d mutta funktio riippuu myös parametreista (θ:n alkioista) aivan niinkuin vaikkapa normaalijakauman muoto muuttuu kun kovarianssimatriisi muuttuu TKK, Informaatiotekniikan laboratorio 10

Funktion yleinen muoto oletetaan siis tunnetuksi (parametreja vaille) ja parametrivektorin θ alkiot ovat vakioita mutta tuntemattomia. Miten ne sitten ratkaistaan? Suurimman uskottavuuden menetelmässä (maximum likelihood) valitaan se parametrivektori θ joka maksimoi datavektorijoukon yhteisen tiheysfunktion, ns. uskottavuusfunktion p(x θ) = p(x(1),x(2),...,x(n) θ) (6) Tässä X on siis koko datamatriisi ja x(1),...,x(n) ovat sen sarakkeet Ajatus: valitaan sellaiset arvot parametreille, että havaittu datajoukko on todennäköisin mahdollinen Huomaa että kun numeerinen datamatriisi X sijoitetaan tähän funktioon, se ei olekaan enää x:n funktio vaan ainoastaan θ:n. TKK, Informaatiotekniikan laboratorio 11

Siten parametrit saadaan maksimoimalla: p(x θ) θ = 0 (7) θ=ˆθ ML Yleensä aina ajatellaan että datavektorit (X:n sarakkeet) ovat riippumattomia jolloin uskottavuusfunktio hajoaa tuloksi: n p(x θ) = p(x(j) θ) (8) Usein otetaan vielä logaritmi koska silloin tulo muuttuu summaksi. j=1 Esimerkki: otetaan 1-ulotteinen (skalaari)data, eli datamatriisissa on vain skalaarilukuja x(1),...,x(n) Oletetaan että ne ovat normaalijakautuneita, mutta emme tiedä niiden odotusarvoa µ emmekä varianssia σ 2. Lasketaan nämä suurimman uskottavuuden menetelmällä. TKK, Informaatiotekniikan laboratorio 12

Uskottavuusfunktio: p(x µ, σ 2 ) = (2πσ 2 ) n/2 exp 1 2σ 2 n [x(j) µ] 2 (9) j=1 Otetaan logaritmi: lnp(x µ, σ 2 ) = n 2 ln(2πσ2 ) 1 2σ 2 n [x(j) µ] 2 (10) j=1 Yhtälö odotusarvolle µ on µ lnp(x µ, σ2 ) = 1 σ 2 n [x(j) µ] = 0 (11) j=1 TKK, Informaatiotekniikan laboratorio 13

Ratkaistaan tämä µ:n suhteen, saadaan otoksen keskiarvo µ = ˆµ ML = 1 n n x(j) (12) j=1 Vastaava yhtälö varianssille σ 2 on σ 2 ln p(x µ, σ2 ) = 0 (13) josta tulee ML-estimaattina otoksen varianssi ˆσ 2 ML = 1 n n [x(j) ˆµ ML ] 2. (14) j=1 TKK, Informaatiotekniikan laboratorio 14

5.4. Bayes-estimointi Bayes-estimointi on periaatteeltaan erilainen kuin ML-estimointi Oletamme että tuntematon parametrijoukko (vektori) θ ei olekaan kiinteä vaan silläkin on jokin oma jakaumansa p(θ) Kun saadaan mittauksia / havaintoja, niiden avulla θ:n jakauma tarkentuu (esim. sen varianssi pienenee). Käytännössä Bayes-estimointi ei välttämättä ole paljonkaan ML-menetelmää raskaampi mutta antaa parempia tuloksia Muistetaan todennäköisyyslaskennasta ehdollisen todennäköisyyden kaava: P(A B) = P(A, B)/P(B) missä A ja B ovat joitakin tapahtumia (ajattele vaikka nopanheittoa) Tätä voi hyödyntää ajattelemalla datajoukkoa ja sitä mallia TKK, Informaatiotekniikan laboratorio 15

(todennäköisyysjakauman parametreja) josta datajoukko on tullut: P(malli, data) = P(malli data)p(data) = P(data, malli) = P(data malli)p(malli) jossa vain on kirjoitettu datan ja mallin yhteisjakauma kahdella eri tavalla Mutta tästä seuraa ns. Bayesin kaava P(malli data) = P(data malli)p(malli) P(data) Ajatus on että meillä on jokin käsitys mallin todennäköisyydestä ennen kuin mitään dataa on olemassa: P(malli), ns. prioritodennäköisyys Kun dataa sitten saadaan, tämä tarkentuu todennäköisyydeksi P(malli data), ns. posterioritodennäköisyys (15) TKK, Informaatiotekniikan laboratorio 16

Bayesin kaava kertoo kuinka tämä tarkentuminen lasketaan. Jos meillä on taas datamatriisi X ja tuntematon parametrivektori θ, niin Bayes antaa p(θ X) = p(x θ)p(θ) p(x) (HUOM matemaattinen merkintätapa: kaikkia todennäköisyysjakaumia (tiheysfunktioita) merkitään vain p:llä, ja argumentti kertoo mistä p:stä on kysymys. Tämä on tietysti matemaattisesti väärin mutta yleisesti käytetty tapa.) Yo. kaavassa nähdään että priorijakauma kerrotaan uskottavuusfunktiolla ja jaetaan datan jakaumalla, jotta saataisiin posteriorijakauma. Bayes-analyysissä keksitään priorijakauma ja pyritään muodostamaan posteriorijakauma TKK, Informaatiotekniikan laboratorio 17

Usein kuitenkin tyydytään etsimään posteriorin maksimikohta θ:n suhteen: Maksimi-posteriori eli MAP-estimointi Tällä on selkeä yhteys ML-estimointiin: nimittäin Bayesin kaava antaa lnp(θ X) = ln p(x θ) + ln p(θ) lnp(x) ja etsittäessä maksimikohtaa θ:n suhteen tulee gradienttiyhtälö θ ln p(x θ) + θ lnp(θ) = 0 (16) Huomataan että ML-menetelmään verrattuna tulee ylimääräinen termi (lnp(θ))/ θ. Siitä on joskus suurta hyötyä, kuten seuraavassa kohdassa nähdään. TKK, Informaatiotekniikan laboratorio 18

5.5. Regressiosovitus Regressio eroaa tähänastisista ohjaamattoman oppimisen menetelmistä (PCA, DSS, todennäköisyysjakaumien estimointi) siinä, että kuhunkin datavektoriin x(i) liittyy jokin lähtösuure y(i) jonka arvellaan noudattavan mallia y(i) = f(x(i), θ) + ǫ(i) Tässä f on jokin funktio, ns. regressiofunktio, ja ǫ(i) on virhe Funktiolla f on tunnettu (tai oletettu) muoto mutta tuntematon parametrivektori θ Esim. lineaarinen regressio: y(i) = θ 0 + d θ j x j (i) + ǫ(i) j=1 TKK, Informaatiotekniikan laboratorio 19

Tunnettu tapa ratkaista parametrit on pienimmän neliösumman keino: minimoi θ:n suhteen 1 n [y(i) f(x(i), θ)] 2 n i=1 Itse asiassa tämä on ML-estimaatti tietyllä ehdolla: jos regressiovirhe ǫ(i) (kaikille arvoille i) on riippumaton x(i):n arvosta ja normaalijakautunut odotusarvolla 0 ja hajonnalla σ. (Hyvin luonnollinen oletus!) Silloin ML-estimaatti parametrille θ saadaan uskottavuusfunktiosta p(x,y θ) = p(x)p(y X, θ) = p(x)π n i=1p(y(i) X, θ) jossa on vain käytetty ehdollisen todennäköisyyden kaavaa, huomattu että X ei riipu regressiomallin parametreistä ja oletettu eri mittapisteissä olevat y(i):t riippumattomiksi (kuten TKK, Informaatiotekniikan laboratorio 20

ML-estimoinnissa yleensä oletetaan) Otetaan logaritmi: lnp(x,y θ) = lnp(x) + n ln p(y(i) X, θ) i=1 Mutta jos X eli sen sarakkeet x(i) ovat kiinteitä niinkuin ehdollisessa todennäköisyydessä ajatellaan, on y(i):n jakauma sama kuin ǫ(i):n mutta keskiarvo on siirtynyt kohtaan f(x(i), θ) - siis normaalijakauma: p(y(i) X, θ) = vakio exp( 1 2σ 2 [y(i) f(x(i), θ)]2 ) Vihdoin saadaan uskottavuusfunktion logaritmiksi: lnp(x,y θ) = ln p(x) 1 n 2σ 2 [y(i) f(x(i), θ)] 2 + n ln(vakio) i=1 TKK, Informaatiotekniikan laboratorio 21

Tämän maksimointi on täsmälleen sama kuin pienimmän neliösumman minimointi! (Koska p(x) on datamatriisin jakauma eikä riipu mistään mallista) Mitä Bayes voi antaa tähän lisää? Muistetaan: silloin ML-uskottavuuden lnp(x,y θ) lisäksi on maksimoitavassa funktiossa priorijakaumasta tuleva termi ln p(θ) ja maksimoitava funktio on 1 2σ 2 n [y(i) f(x(i), θ)] 2 + lnp(θ) i=1 Tästä näkee, että jos kohinan ǫ(i) varianssi σ 2 on hyvin suuri, niin 1. termi on pieni ja θ:n priorijakauma määrää pitkälle sen arvon. Päinvastoin jos σ 2 on pieni, 1. termi dominoi ja priorijakaumalla on hyvin vähän vaikutusta lopputulokseen TKK, Informaatiotekniikan laboratorio 22

Tämä tuntuu hyvin luonnolliselta ja hyödylliseltä! Esim. jos on syytä olettaa että kaikki parametrit ovat (0,1)-normaalijakautuneita, on p(θ) = vakio exp( 1/2 lnp(θ) = ln(vakio) 1/2 K θk), 2 k=1 K θk, 2 k=1 ja prioritermin maksimointi johtaa pieniin arvoihin parametreille. Tällöin regressiomalli yleensä käyttäytyy paremmin kuin jos parametreilla on hyvin suuria arvoja. TKK, Informaatiotekniikan laboratorio 23

Katsotaan esimerkkinä lineaarista regressiota (kuva) Oletetaan että datasta tiedetään seuraavaa: yhteys on joko 1. asteen (lineaarinen) tai ehkä toisen asteen polynomi, joka kulkee hyvin luultavasti origon kautta. Mallin virhe (mitattujen y(i)- arvojen poikkeama mallin antamista arvoista) on normaalijakautunut hajonnalla σ. Malli on silloin y(i) = a + bx(i) + cx(i) 2 + ǫ(i) Käytetään Bayes-estimointia. Priorit valitaan normaalijakautuneiksi siten että a:n keskiarvo on 0 hajonta on 0.1, b:n keskiarvo on 1 ja hajonta 0.5 ja c:n keskiarvo on 0 ja hajonta 1. Näiden tiheydet ovat siis vakio e 50a2, vakio e 2(b 1)2, vakio e 0.5c2 ja TKK, Informaatiotekniikan laboratorio 24

maksimoitava funktio on (kun vakiot tiputetaan pois) 1 2σ 2 [y(i) a bx(i) cx(i) 2 ] 2 50a 2 2(b 1) 2 0.5c 2 Derivoimalla a:n suhteen ja ratkaisemalla saadaan a = 1 n + 100σ 2 [y(i) bx(i) cx(i) 2 ] ja vastaavat yhtälöt b:lle ja c:lle, joista ne kaikki voidaan ratkaista (lineaarinen yhtälöryhmä kolmelle muuuttujalle). Ilman Bayesia yo. kaavasta putoaa kokonaan pois termi 100σ 2, joten Bayes pakottaa a:n aina pienempään arvoon. Ainoastaan kun mallin virhevarianssi σ 2 on hyvin pieni, Bayesin vaikutus menee vähäiseksi (silloin data on hyvin luotettavaa ja etukäteistiedon merkitys vähenee). TKK, Informaatiotekniikan laboratorio 25

5.6. Esimerkki regressiosta: neuroverkko Neuroverkko on oheisen kuvan esittämä laskentamalli, joka laskee kohtalaisen monimutkaisen funktion tulosuureistaan (inputeistaan) Malli koostuu neuroneista jotka laskevat funktioita tulosuureistaan Ensimmäisen kerroksen, ns. piilokerroksen neuronit laskevat kukin funktion z i = f(x,w i ) tulosuureista jotka ovat syötteenä olevan vektorin x alkiot Funktio on epälineaarinen ja w i on i:nnen neuronin parametrivektori Toisen kerroksen neuroni laskee vain painotetun summan piilokerroksen lähtösuureista z i Toisessa kerroksessa voi olla myös useampia rinnakkaisia neuroneita, jolloin verkko laskee regressiofunktion vektoreista x vektoreihin y; monessa sovelluksessa tämä on hyödyllistä TKK, Informaatiotekniikan laboratorio 26

Neuroverkoista on tullut tavattoman suosittuja hyvin monilla aloilla, koska ne laskevat hyvin isoja regressiomalleja, ovat osoittautuneet suhteellisen tarkoiksi ja tehokkaiksi, ja parametrien laskemiseksi isoissakin malleissa (satoja tai tuhansia neuroneita) on hyvin tehokkaita koneoppimisalgoritmeja ja helppokäyttöisiä ohjelmistopaketteja Raportoituja sovelluksia on satoja ellei tuhansia Joitakin esimerkkejä WWW:stä (vaikkapa BrainMaker: http://www.calsci.com/) Enemmän infolabran kurssissa T-61.5130 Machine Learning and Neural Networks. TKK, Informaatiotekniikan laboratorio 27