Tämän luvun sisältö. Luku 5. Estimointiteorian perusteita. Perusjakaumat 1-ulotteisina (2) Perusjakaumat 1-ulotteisina

Tämän luvun sisältö Luku 5. T-6. Datasta tietoon, syksy professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto.. Luku käydään läpi kahdella luennolla. Perusjakaumat -ulotteisina Yleistys vektoridatalle, d:n muuttujan normaalijakauma Suurimman uskottavuuden periaate Bayes-estimointi Regressiosovitus Esimerkki regressiosta: neuroverkko / 6 / 6 Perusjakaumat -ulotteisina Perusjakaumat -ulotteisina () Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely,...) esimerkki regressiosta esimerkki luokittelusta esimerkki ryhmittelystä Siksi tarvitaan todennäköisyyslaskentaa Peruskäsite siellä on todennäköisyysjakauma (kertymäfunktio) skalaariarvoiselle satunnaismuuttujalle : F( ) = P( ) () antaa todennnäköisyyden sille että. Funktio F( ) on ei-vähenevä, jatkuva ja F( ). Tiheysfunktio :lle pisteessä = df () p( ) = d () = on funktion F() derivaatta pisteessä = Vastaavasti tietenkin F( ) = p()d / 6 4 / 6

Perusjakaumat -ulotteisina () Perusjakaumat -ulotteisina Esimerkkejä Tiheysfunktiolla on seuraavat ominaisuudet: p()d = p()d = µ = E{} ( µ) p()d = σ = Var{}. Tässä µ ja σ ovat :n odotusarvo ja keskihajonta. Oletan tunnetuiksi jotkut yleisimmät tiheysfunktiot, kuten normaalijakauma (eli Gaussin jakauma) eksponentiaalinen jakauma p() = e ( µ) σ π σ p() = λe λ ja tasainen jakauma (välillä [a,b]) p() = /(b a), kun [a, b], muuten 5 / 6 6 / 6 Perusjakaumat -ulotteisina Normaalijakauman tiheysfunktio p() Parametrit µ (keskiarvo) ja σ (keskihajonta, σ varianssi) p() = e ( µ) σ πσ Perusjakaumat -ulotteisina Eksponentiaalijakauman tiheysfunktio p() Parametri λ (/µ, jossa µ keskiarvo) p() = λe λ p( µ) = [ / µ] ep( /µ).9.8 p( µ, σ) = [ / (σ ( π) / )] ep( ( µ) /( σ )) σ =., µ= σ =, µ= σ = 5, µ=.8.6 µ=.5 µ= µ=.5.7.4 p().6.5.4 p()..8.6..4... 6 4 4 6 Kuva: Normaalijakauma kolmella eri σ:n arvolla.5.5.5.5 4 4.5 Kuva: Eksponenttijakauma kolmella eri λ:n arvolla 7 / 6 8 / 6

Perusjakaumat -ulotteisina Tasainen jakauman tiheysfunktio p() Yleistys vektoridatalle Tasainen välillä [a, b] p() = b a, kun [a, b], muuten Kun puhutaan vektoridatasta, on pakko yleistää yo. jakaumat moniulotteisiksi: olkoon taas datavektori = (,,..., d ) T Sen todennäköisyysjakauma (kertymäfunktio) on.7 p( a,b) = [ / (b a)] I a,b a=, b= F( ) = P( ) () p().6.5.4....5.5 Kuva: Tasajakauma missä relaatio ymmärretään alkioittain Vastaava moniulotteinen tiheysfunktio p() on tämän osittaisderivaatta kaikkien vektorialkioiden suhteen: p( ) =... F() (4) d = Käytännössä tiheysfunktio on tärkeämpi. 9 / 6 / 6 Yleistys vektoridatalle Kahden muuttujan normaalijakauma, symmetrinen, d = Symmetrinen -ulotteinen (d = ) normaalijakauma on p() = ( µ ) +( µ ) πσ e σ missä jakauman odotusarvo (keskipiste) on piste m = [µ, µ ] ja keskihajonta joka suuntaan on sama σ. p(,y µ, Σ)..5..5 y Kuva: Symmetrinen D-normaalijakauma Yleistys vektoridatalle Kahden muuttujan normaalijakauma, d = Yllä oleva -ulotteinen normaalijakauma voidaan yleisemmin kirjoittaa muotoon ( p() = K ep ) ( m)t C ( m) jossa skaalaustermi K (d = ) K = (π) d/ det(c) / = π det(c) / ja C (toisinaan Σ) on ( )-kokoinen kovarianssimatriisi ja m = [µ µ ] T keskiarvovektori (huippukohta) / 6 / 6

Yleistys vektoridatalle () Kahden muuttujan normaalijakauma, d = Keskihajonta / varianssi on -ulotteisessa tapauksessa monimutkaisempi kuin -ulotteisessa tapauksessa: varianssin σ = E{( µ) } korvaa kovarianssimatriisi [ E{( C = µ ) ] } E{( µ )( µ )} E{( µ )( µ )} E{( µ ) } Esimerkkejä -ulotteisen normaalijakauman tiheysfunktioista µ =, µ =, symmetrinen diagonaalinen C, jossa lisäksi σ = σ µ =, µ =, symmetrinen diagonaalinen C, jossa σ σ µ =, µ =, symmetrinen ei-diagonaalinen C Yleistys vektoridatalle d:n muuttujan normaalijakauma Yleistys d:hen dimensioon suoraviivainen: matriisialkiot ovat C ij = E{( i µ i )( j µ j )} = Cov( i, j ) Kovarianssimatriisi C on siis symmetrinen neliömatriisi kokoa (d d) Silloin d-ulotteisen normaalijakauman tiheysfunktio voidaan kirjoittaa vektori-matriisimuotoon: ( p() = K ep ) ( m)t C ( m) missä m = [µ,..., µ d ] T on keskiarvovektori (jakauman keskipiste, huippukohta) ja K on normalisoiva termi (5) K = / 6 (π) d/ det(c) / 4 / 6 Yleistys vektoridatalle () d:n muuttujan normaalijakauma Yleistys vektoridatalle Korreloimattomuus ja riippumattomuus Termi K tarvitaan vain, jotta p():n integraali d-ulotteisen avaruuden yli olisi Voidaan integroimalla johtaa että E{} = m = p()d R E{( m)( m) T } = C Huomaathan, että vaikka d >, niin p() R eli tiheysfunktion arvo on skalaari, sillä matriisikertolaskut eksponenttifunktiossa ( d)(d d)(d ) = ( ) Vektorin alkiot ovat korreloimattomat jos niiden kovarianssit ovat nollia eli E{( i µ i )( j µ j )} =. Toisin sanoen, kovarianssimatriisi C on diagonaalinen σ... σ... C =..... σd Vektorin alkiot ovat riippumattomat jos niiden yhteistiheysjakauma voidaan lausua marginaalijakaumien tulona: p() = p ( )p ( )...p d ( d ) 5 / 6 6 / 6

Yleistys vektoridatalle () Korreloimattomuus ja riippumattomuus Yleistys vektoridatalle () Korreloimattomuus ja riippumattomuus Riippumattomuus tuottaa aina korreloimattomuuden, mutta ei välttämättä toisinpäin Osoitetaan että jos normaalijakautuneen vektorin alkiot ovat korreloimattomat, niin ne ovat myös riippumattomat: katsotaan termiä ( m) T C ( m) tapauksessa missä E{( i µ i )( j µ j )} = (korreloimattomuus). Mutta silloin C on lävistäjämatriisi ja ( m) T C ( m) = d (C ii ) ( i µ i ) i= Kun otetaan tästä eksponenttifunktio kuten kaavassa (5) saadaan ( p() = K ep ) ( m)t C ( m) = K ep ( ) d (C ii ) ( i µ i ) i= = K ep( C ( µ ) )... ep( C dd ( d µ d ) ) joten p() hajaantuu marginaalijakaumien tuloksi, eli alkiot i ovat riippumattomia. 7 / 6 8 / 6 Suurimman uskottavuuden periaate Parametrisen tiheysfunktion estimointi Edellä esiteltiin teoriassa vektorimuuttujan jakauma, etenkin normaalijakauma. Jos on kuitenkin annettuna vain vektorijoukko datamatriisin X muodossa, mistä tiedämme sen jakauman? Data X ja eräs mahdollinen p() Jakauma olisi erittäin hyödyllinen, koska sen avulla voidaan esim. vastata seuraavaan kysymykseen: kun on annettuna uusi vektori, millä todennäköisyydellä se kuuluu samaan joukkoon kuin datajoukko X (tai jokin sen osajoukko). Suurimman uskottavuuden periaate () Parametrisen tiheysfunktion estimointi Etenkin luokittelu perustuu usein jakaumien estimointiin p( ω i ) new B p( ω A ) p( ω B ) p( ω A )=p( ω B ) 5 6 7 8 9 Kuva: Esimerkki luokittelusta. Olkoon data X A naisten ja X B miesten pituuksia (cm), ja niistä estimoidut normaalijakaumat p A () p( ω A ) ja p B () p( ω B ). Jakaumia voidaan käyttää luokittelemaan uusi datapiste p( new ω B ) > p( new ω A ). Havainto new luokiteltaisiin naiseksi. 9 / 6 / 6

Suurimman uskottavuuden periaate () Parametrisen tiheysfunktion estimointi Eräs mahdollisuus on d-ulotteinen histogrammi: mutta dimensionaalisuuden kirous tekee tästä hyvin hankalan jos d vähänkin suuri Parempi menetelmä on yleensä parametrinen tiheysestimointi, joka tarkoittaa, että oletetaan tiheysfunktiolle p() jokin muoto (esim. normaalijakauma) ja pyritään estimoimaan datajoukosta vain sen parametrit normaalijakaumalle siis keskiarvovektori m = [µ... µ d ] T ja kovarianssimatriisi C = (C ij ) Tämä tekee yhteensä vain d + d(d + )/ parametria, koska C on symmetrinen matriisi kokoa (d d) Vertaa histogrammiin, jossa lokeroiden määrä kasvaa eksponentiaalisesti l d. Suurimman uskottavuuden periaate (4) Parametrisen tiheysfunktion estimointi Merkitään tuntemattomien parametrien muodostamaa järjestettyä joukkoa vektorilla θ ja tiheysjakaumaa p( θ) Tarkoittaa: funktion varsinainen argumentti ovat vektorialkiot,..., d mutta funktio riippuu myös parametreista (θ:n alkioista) aivan niinkuin vaikkapa normaalijakauman muoto muuttuu kun kovarianssimatriisi muuttuu Funktion yleinen muoto oletetaan siis tunnetuksi (parametreja vaille) ja parametrivektorin θ alkiot ovat vakioita mutta tuntemattomia. Miten estimaatit ˆθ sitten ratkaistaan? / 6 / 6 Suurimman uskottavuuden periaate Suurimman uskottavuuden menetelmässä (maimum likelihood) Milton: ML method valitaan se parametrivektori θ joka maksimoi datavektorijoukon yhteisen tiheysfunktion, ns. uskottavuusfunktion L(θ) L(θ) = p(x θ) = p((), (),..., (n) θ) (6) Tässä X on siis koko datamatriisi ja (),..., (n) ovat sen sarakkeet Ajatus: valitaan sellaiset arvot parametreille, että havaittu datajoukko on todennäköisin mahdollinen Esimerkki Huomaa että kun numeerinen datamatriisi X sijoitetaan tähän funktioon, se ei olekaan enää :n funktio vaan ainoastaan θ:n. Suurimman uskottavuuden periaate () Siten parametrit saadaan maksimoimalla ( derivaatan nollakohta ) p(x θ) θ = (7) θ= ˆθ ML Yleensä aina ajatellaan että datavektorit (X:n sarakkeet) ovat riippumattomia, jolloin uskottavuusfunktio hajoaa tuloksi: n L(θ) = p(x θ) = p((j) θ) (8) Useimmiten uskottavuusfunktiosta L(θ) otetaan vielä logaritmi ln L(θ), koska silloin (a) laskenta muuttuu yleensä helpommaksi (useimpien tiheysfunktioiden tulo muuttuu summaksi) ja (b) sekä L(θ):n että ln L(θ):n ääriarvo (maksimi) on samassa pisteessä. j= / 6 4 / 6

Suurimman uskottavuuden periaate Esimerkki -ulotteiselle normaalijakaumalle Suurimman uskottavuuden periaate () Esimerkki -ulotteiselle normaalijakaumalle Esimerkki: otetaan -ulotteinen (skalaari)data, eli datamatriisissa on vain skalaarilukuja (),..., (n). Oletetaan että näytteet ovat riippumattomia toisistaan. Oletetaan että ne ovat normaalijakautuneita, mutta emme tiedä niiden odotusarvoa µ emmekä varianssia σ. Lasketaan nämä suurimman uskottavuuden menetelmällä. Uskottavuusfunktio ensimmäiselle datapisteelle : [ p(() µ, σ ) = (πσ ) / ep ] [() µ] σ Uskottavuusfunktio L(θ) koko datasetille: p(x µ, σ ) = (πσ ) n/ ep Otetaan logaritmi ln L(θ): σ ln p(x µ, σ ) = n ln(πσ ) σ [(j) µ] (9) j= [(j) µ] () j= 5 / 6 6 / 6 Suurimman uskottavuuden periaate () Esimerkki -ulotteiselle normaalijakaumalle Suurimman uskottavuuden periaate (4) Esimerkki -ulotteiselle normaalijakaumalle Etsitään ääriarvo asettamalla derivaatta nollaksi ja saadaan yhtälö odotusarvolle µ µ ln p(x µ, σ ) = σ [(j) µ] = () Ratkaistaan tämä µ:n suhteen, saadaan otoksen keskiarvo µ = ˆµ ML = n j= (j) () j= Vastaava yhtälö varianssille σ on σ ln p(x µ, σ ) = () josta tulee ML-estimaattina otoksen varianssi ˆσ ML = n [(j) ˆµ ML ]. (4) j= 7 / 6 8 / 6

Bayes-estimointi Bayes-estimointi () Bayes-estimointi on periaatteeltaan erilainen kuin ML-estimointi Oletamme että tuntematon parametrijoukko (vektori) θ ei olekaan kiinteä vaan silläkin on jokin oma jakaumansa p(θ) Kun saadaan mittauksia / havaintoja, niiden avulla θ:n jakauma tarkentuu (esim. sen varianssi pienenee). Käytännössä Bayes-estimointi ei välttämättä ole paljonkaan ML-menetelmää raskaampi mutta antaa parempia tuloksia Muistetaan todennäköisyyslaskennasta ehdollisen todennäköisyyden kaava: P(A B) = P(A, B)/P(B) missä A ja B ovat joitakin tapahtumia (ajattele vaikka nopanheittoa) Tätä voi hyödyntää ajattelemalla datajoukkoa ja sitä mallia (todennäköisyysjakauman parametreja) josta datajoukko on tullut: P(malli, data) = P(malli data)p(data) = P(data, malli) = P(data malli)p(malli) jossa vain on kirjoitettu datan ja mallin yhteisjakauma kahdella eri tavalla Mutta tästä seuraa ns. Bayesin kaava P(malli data) = P(data malli)p(malli) P(data) (5) 9 / 6 / 6 Bayes-estimointi () Bayes-estimointi (4) Ajatus on että meillä on jokin käsitys mallin todennäköisyydestä ennen kuin mitään dataa on olemassa: P(malli), ns. prioritodennäköisyys Kun dataa sitten saadaan, tämä tarkentuu todennäköisyydeksi P(malli data), ns. posterioritodennäköisyys Kuva: Bayesiläinen laskenta: Priori p(θ) ja posteriori p(θ X), kun havaittu dataa X. Posteriorista laskettu piste-estimaatti θ MAP. Bayesin kaava kertoo kuinka tämä tarkentuminen lasketaan. Jos meillä on taas datamatriisi X ja tuntematon parametrivektori θ, niin Bayes antaa p(θ X) = p(x θ)p(θ) p(x) (HUOM matemaattinen merkintätapa: kaikkia todennäköisyysjakaumia (tiheysfunktioita) merkitään vain p:llä, ja argumentti kertoo mistä p:stä on kysymys. Tämä on tietysti matemaattisesti väärin mutta yleisesti käytetty tapa.) / 6 / 6

Bayes-estimointi (5) Bayes-estimointi (6) Yo. kaavassa nähdään että priorijakauma kerrotaan uskottavuusfunktiolla ja jaetaan datan jakaumalla, jotta saataisiin posteriorijakauma. Bayes-analyysissä keksitään priorijakauma ja pyritään muodostamaan posteriorijakauma Usein kuitenkin tyydytään etsimään posteriorin maksimikohta θ:n suhteen: Maksimi-posteriori eli MAP-estimointi Tällä on selkeä yhteys ML-estimointiin: nimittäin Bayesin kaava antaa ja etsittäessä maksimikohtaa θ:n suhteen tulee gradienttiyhtälö ln p(x θ) + ln p(θ) = (6) θ θ Huomataan että ML-menetelmään verrattuna tulee ylimääräinen termi (ln p(θ))/ θ. Siitä on joskus suurta hyötyä, kuten seuraavassa kohdassa nähdään. ln p(θ X) = ln p(x θ) + ln p(θ) ln p(x) / 6 4 / 6 Regressiosovitus Regressiosovitus ML-estimointi lineaarisessa regressiossa Regressio eroaa tähänastisista ohjaamattoman oppimisen menetelmistä (PCA, DSS, todennäköisyysjakaumien estimointi) siinä, että kuhunkin datavektoriin (i) liittyy jokin lähtösuure y(i), jonka arvellaan noudattavan mallia y(i) = f ((i), θ) + ɛ(i) Tässä f on jokin funktio, ns. regressiofunktio, ja ɛ(i) on virhe (y-akselin suunnassa) Funktiolla f on tunnettu (tai oletettu) muoto mutta tuntematon parametrivektori θ Yleinen esimerkki polynomisesta sovituksesta Esimerkkinä lineaarinen regressio: y(i) = θ + d θ j j (i) + ɛ(i) = θ + θ T (i) + ɛ(i) j= Tunnettu tapa ratkaista parametrit ˆθ on pienimmän neliösumman keino: minimoi θ:n suhteen n [y(i) f ((i), θ)] i= 5 / 6 6 / 6

Regressiosovitus () ML-estimointi lineaarisessa regressiossa Itse asiassa tämä on ML-estimaatti tietyllä ehdolla: jos regressiovirhe ɛ(i) (kaikille arvoille i) on riippumaton (i):n arvosta ja normaalijakautunut odotusarvolla ja hajonnalla σ. (Hyvin luonnollinen oletus!) Silloin ML-estimaatti parametrille θ saadaan uskottavuusfunktiosta (Y = (y(i)) i ) p(x, Y θ) = p(x)p(y X, θ) = p(x) n p(y(i) X, θ) i= jossa on vain käytetty ehdollisen todennäköisyyden kaavaa, huomattu että X ei riipu regressiomallin parametreistä ja oletettu eri mittapisteissä olevat y(i):t riippumattomiksi (kuten ML-estimoinnissa yleensä oletetaan) 7 / 6 Regressiosovitus () ML-estimointi lineaarisessa regressiossa Otetaan logaritmi ln p(x, Y θ) = ln p(x) + ln p(y(i) X, θ) i= Mutta jos X eli sen sarakkeet (i) ovat kiinteitä niinkuin ehdollisessa todennäköisyydessä ajatellaan, on y(i):n jakauma sama kuin ɛ(i):n mutta keskiarvo on siirtynyt kohtaan f ((i), θ) - siis normaalijakauma: p(y(i) X, θ) = vakio ep( σ [y(i) f ((i), θ)] ) 8 / 6 Regressiosovitus (4) ML-estimointi lineaarisessa regressiossa Regressiosovitus Bayesin priorijakauman hyväksikäyttö lineaarisessa regressiossa Vihdoin saadaan uskottavuusfunktion logaritmiksi: ln p(x, Y θ) = ln p(x) σ [y(i) f ((i), θ)] +n ln(vakio) i= Maksimoinnissa (derivointi θ:n suhteen) θ:sta riippumattomat termit katoavat Täten maksimointi on täsmälleen sama kuin pienimmän neliösumman minimointi! (Koska p(x) on datamatriisin jakauma eikä riipu mistään mallista) Mitä Bayes voi antaa tähän lisää? ML:ssä maksimoitiin p(x, Y θ). Bayes-estimoinnissa maksimoidaan p(θ X, Y ) p(x, Y θ) p(θ), joka logaritmin jälkeen on ln p(x, Y θ) + ln p(θ) Eli maksimoitavassa funktiossa on priorijakaumasta tuleva termi ln p(θ) ja maksimoitava funktio on σ [y(i) f ((i), θ)] + ln p(θ) i= Tästä näkee, että jos kohinan ɛ(i) varianssi σ on hyvin suuri, niin. termi on pieni ja θ:n priorijakauma määrää pitkälle sen arvon. 9 / 6 4 / 6

Regressiosovitus () Bayesin priorijakauman hyväksikäyttö lineaarisessa regressiossa Päinvastoin jos σ on pieni,. termi dominoi ja priorijakaumalla on hyvin vähän vaikutusta lopputulokseen Tämä tuntuu hyvin luonnolliselta ja hyödylliseltä! Esimerkiksi jos on syytä olettaa että kaikki parametrit ovat (,)-normaalijakautuneita, on p(θ) = vakio ep( / K θk ), k= Regressiosovitus () Bayesin priorijakauman hyväksikäyttö lineaarisessa regressiossa Tällöin regressiomalli yleensä käyttäytyy paremmin kuin jos parametreilla on hyvin suuria arvoja. ln p(θ) = ln(vakio) / K θk, k= ja prioritermin maksimointi johtaa pieniin arvoihin parametreille. 4 / 6 4 / 6 Esimerkki lineaarisesta regressiosta Esimerkki lineaarisesta regressiosta () Katsotaan esimerkkinä lineaarista regressiota Nyt oletetaan että datasta tiedetään seuraavaa: yhteys on joko. asteen (lineaarinen) tai ehkä toisen asteen polynomi, joka kulkee hyvin luultavasti origon kautta. Mallin virhe (mitattujen y(i)- arvojen poikkeama mallin antamista arvoista) on normaalijakautunut hajonnalla σ. Malli on silloin y(i) = a + b(i) + c(i) + ɛ(i) Käytetään Bayes-estimointia. Priorit valitaan normaalijakautuneiksi siten että a:n keskiarvo on hajonta on., b:n keskiarvo on ja hajonta.5 ja c:n keskiarvo on ja hajonta. Näiden tiheydet ovat siis vakio e 5a, vakio e (b ), vakio e.5c ja maksimoitava funktio on (kun vakiot tiputetaan pois) σ [y(i) a b(i) c(i) ] 5a (b ).5c Derivoimalla a:n suhteen ja ratkaisemalla saadaan a = n + σ [y(i) b(i) c(i) ] ja vastaavat yhtälöt b:lle ja c:lle, joista ne kaikki voidaan ratkaista (lineaarinen yhtälöryhmä kolmelle muuuttujalle). 4 / 6 44 / 6

Esimerkki lineaarisesta regressiosta () Esimerkki regressiosta: neuroverkko Neuroverkko on oheisen kuvan esittämä laskentamalli, joka laskee kohtalaisen monimutkaisen funktion tulosuureistaan (inputeistaan) Ilman Bayesia yo. kaavasta putoaa kokonaan pois termi σ, joten Bayes pakottaa a:n aina pienempään arvoon. Ainoastaan kun mallin virhevarianssi σ on hyvin pieni, Bayesin vaikutus menee vähäiseksi (silloin data on hyvin luotettavaa ja etukäteistiedon merkitys vähenee). Kuva: Monikerrosperseptroniverkko (MLP) yhdellä ulostulolla. 45 / 6 46 / 6 Esimerkki regressiosta: neuroverkko () Malli koostuu neuroneista jotka laskevat funktioita tulosuureistaan Ensimmäisen kerroksen, ns. piilokerroksen neuronit laskevat kukin funktion z i = f (, w i ) tulosuureista jotka ovat syötteenä olevan vektorin alkiot Funktio on epälineaarinen ja w i on i:nnen neuronin parametrivektori (jossa alkioita yhtä monta kuin :ssä) Toisen kerroksen neuroni laskee vain painotetun summan piilokerroksen lähtösuureista z i : y = i v iz i Esimerkki regressiosta: neuroverkko () Toisessa kerroksessa voi olla myös useampia rinnakkaisia neuroneita, jolloin verkko laskee regressiofunktion vektoreista vektoreihin y; Kuva: Yleinen monikerrosperseptroniverkko (MLP). 47 / 6 48 / 6

Esimerkki regressiosta: neuroverkko (4) MLP-verkon sovelluksena vaikkapa numerontunnistus Kuva: Esimerkki neuroverkon käytöstä käsinkirjoitettujen merkkien tunnistamisessa. Neuroverkko oppii aineistosta kunkin numeron ja antaa suurimman vasteen kyseiselle ulostuloneuronille. Esimerkki regressiosta: neuroverkko (5) Neuroverkoista on tullut tavattoman suosittuja hyvin monilla aloilla, koska ne laskevat hyvin isoja regressiomalleja, ovat osoittautuneet suhteellisen tarkoiksi ja tehokkaiksi, ja parametrien laskemiseksi isoissakin malleissa (satoja tai tuhansia neuroneita) on hyvin tehokkaita koneoppimisalgoritmeja ja helppokäyttöisiä ohjelmistopaketteja Raportoituja sovelluksia on satoja ellei tuhansia Enemmän kurssissa T-6.5 Machine Learning and Neural Networks. 49 / 6 5 / 6 Yhteenveto Esimerkki yksinkertaisesta lineaarisesta regressiosta Tässä luvussa tutustuttiin tiheysfunktioihin esiteltiin suurimman uskottavuuden menetelmä parametrien estimointiin liitettiin etukäteistieto (a priori) parametrien estimointiin Bayesin teoreemaa käyttäen laskettiin regressiota eri menetelmillä (ML, Bayes, neuroverkko) y 6 5.5 5 4.5 4.5.5 4 5 6 7 y 6 5.5 5 4.5 4.5.5 f () =.64 +.4 f ML () =.64 +.9 f () =.7 +.8 4 5 6 7 y 6 5.5 5 4.5 4.5.5 y new = 4.456 f ML () =.64 +.9 new = 5.5 4 5 6 7 Kuva: Vasen kuva: datapisteitä ( i, y i ). Tavoite selittää y :n avulla käyttämällä funktiota f (, θ) = k + b. Keskikuva: Kolme eri parametrisovitusta θ ML, θ, θ. Parametrit estimoidaan pienimmän neliösumman kriteerin mukaisesti ja f ML () =.64 +.9 antaa parhaimman sovituksen. Oikea kuva: opittua funktiota f voidaan käyttää arvioimaan uudelle new :lle sopiva y new. Takaisin kalvoihin 5 / 6 5 / 6

y y Esimerkki yksinkertaisesta luokittelusta Esimerkki ryhmittelystä 9 Luokka A Luokka B 8 9 8 Luokka A Luokka B 7 7 6 6 9 9 Ryhma A 5 5 new A 8 8 4 4 7 7 Ryhma B 4 5 6 4 5 6 Kuva: Vasemmalla -ulotteinen data-aineisto, jossa lisänä luokkainformaatio jokaisesta datapisteestä joko A (pallo) tai B (neliö). Datasta on opittu luokittelija (luokkaraja). Oikealla luokittelijaa käytetään antamaan "sopiva" luokka-arvo uudelle datapisteelle new. Tässä esimerkissä luokittelija voi tuntua antavan "väärän" tuloksen. Takaisin kalvoihin 6 5 4 4 5 6 6 5 4 Ryhma C 4 5 6 Kuva: Vasemmalla -ulotteista dataa ilman luokkainformaatiota. Oikealla näytteet ryhmitelty kolmeen ryppääseen, joita aletaan kutsua ryhmiksi A, B, C. Takaisin kalvoihin 5 / 6 54 / 6 Esimerkki -ulotteisesta normaalijakaumasta µ =, µ =, symmetrinen diagonaalinen C, jossa lisäksi σ = σ Esimerkki -ulotteisesta normaalijakaumasta µ =, µ =, symmetrinen diagonaalinen C, jossa σ σ.4.5 p(,y µ, Σ)..5..5...8.6 p(,y µ, Σ).4....45.4.5..5. y.4. y.5..5 Kuva: Esimerkki -ulotteisesta normaalijakaumasta: µ = [, ] µ =, symmetrinen diagonaalinen C, jossa lisäksi σ = σ : µ =, [ ] C =. Tässä esim. p( [ ] T ).59 ja p( [ ] T ).. toinen esimerkki kolmas esimerkki Takaisin kalvoihin 55 / 6 Kuva: Esimerkki -ulotteisesta normaalijakaumasta: [ µ ] =, [ µ =, ] symmetrinen diagonaalinen C, jossa σ σ : µ =, C =.. Tässä esim. p( [ ] T ).5 ja p( [. ] T ).95. ensimmäinen esimerkki kolmas esimerkki Takaisin kalvoihin 56 / 6

y Esimerkki -ulotteisesta normaalijakaumasta µ =, µ =, symmetrinen ei-diagonaalinen C Data X ja siitä eräs tiheysfunktio p().4.5.4.. p(,y µ, Σ)...5..5 y..5 5 6 7 8 9 5 6 7 8 9 Kuva: Esimerkki -ulotteisesta normaalijakaumasta: [ [ µ = ], µ =,.5 symmetrinen ei-diagonaalinen C: µ =, C =. Tässä ].5.4 esim. p( [ ] T ).4 ja p( [ ] T ).8. ensimmäinen esimerkki toinen esimerkki Takaisin kalvoihin Kuva: Vasemmalla -ulotteinen datamatriisi X, jossa 5 näytettä, esimerkiksi ihmisten pituuksia (cm). Oikealla siihen sovitettu tiheysfunktio p(), joka tällä kertaa normaalijakauma. Normaalijakauman parametrit ˆµ ja ˆσ on estimoitu datasta. Silmämääräisesti ˆµ 79 ja ˆσ 9. Takaisin kalvoihin 57 / 6 58 / 6 Suurimman uskottavuuden menetelmä Maimum likelihood method by Milton and Arnold Obtain a random sample (), (),..., (n) from the distribution of a random variable X with density p and associated parameter θ Define a likelihood function L(θ) by n L(θ) = p((i)) i= Find the epression for θ that maimizes the likelihood function. This can be done directly or by maimizing ln L(θ) 4 Replace θ by ˆθ to obtain an epression for ML estimator for θ 5 Find the observed value of this estimator for a given sample p.. Milton, Arnold: Introduction to probability and statistics. Third edition. McGraw-Hill, 995. Takaisin kalvoihin 59 / 6 ML:n perusajatus Valitaan todennäköisimmin datan generoinut jakauma.8.7.6.5.4.... µ = 69, σ = 7 4 5 6 7 8 9.8.7.6.5.4.... µ = 58, σ = 5 4 5 6 7 8 9.8.7.6.5.4.... µ = 74, σ = 8 4 5 6 7 8 9 Kuva: Annettuna datajoukko (),..., (9) R palloina ja kolme gaussista tiheysfunktiota eri parametriyhdistelmillä θ = {µ = 69, σ = 7}, θ = {µ = 58, σ = 5} ja θ = {µ = 74, σ = 8}. Lasketaan uskottavuusfunktio L(θ) = p(() θ) p(() θ)... p((9) θ). Ensimmäinen tuottaa selvästi suurimman L(θ):n arvon annetulla datasetillä: L(θ ) =.9.4....5 > L(θ ) > L(θ ). Valitaan siten θ = {µ = 69, σ = 7} (näistä kolmesta vaihtoehdosta!), koska θ on todennäköisimmin generoinut datan X. Takaisin kalvoihin 6 / 6

Esimerkki lineaarisesta regressiosta ja ylioppimisesta Polynomisovitus asteilla p= ja p=5 pieneen datamäärään N=5 f():n asteluku = f():n asteluku = 5 9 y new, p= y() 8 7 6 5 4 y new, p=5 new.5.5 4 4.5 5 5.5 6 Kuva: Regressiosovitus y(i) = f ((i), θ) + ɛ(i). Tunnetaan viisi havaintoa {(i), y(i)} i (mustat pallot). Asteluvun p = polynomifunktio f p= (.) (sininen katkoviiva) sovittuu melko hyvin (pienehköt virheet (y(i) f ((i), θ )) ). Sen sijaan polynomisovitus f p=5 (.) asteluvulla p = 5 vie neliövirheen nollaan, mutta on ylioppinut tunnettuun dataan ja siten huono uusille havainnoille (esim. new ). Takaisin kalvoihin 6 / 6