Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi



Samankaltaiset tiedostot
Viikko 1: Johdantoa Matti Kääriäinen

805306A Johdatus monimuuttujamenetelmiin, 5 op

Harha mallin arvioinnissa

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

3.6 Su-estimaattorien asymptotiikka

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Johdatus tn-laskentaan perjantai

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Testejä suhdeasteikollisille muuttujille

Mallipohjainen klusterointi

Laskennallinen data-analyysi II

1. TILASTOLLINEN HAHMONTUNNISTUS

Tutkimustiedonhallinnan peruskurssi

Osa 2: Otokset, otosjakaumat ja estimointi

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

FUNKTIONAALIANALYYSIN PERUSKURSSI Johdanto

Parametrin estimointi ja bootstrap-otanta

1. Tilastollinen malli??

805306A Johdatus monimuuttujamenetelmiin, 5 op

Jatkuvat satunnaismuuttujat

T Luonnollisten kielten tilastollinen käsittely

Viikko 3: Lineaarista regressiota ja luokittelua Matti Kääriäinen

Maximum likelihood-estimointi Alkeet

Todennäköisyyden ominaisuuksia

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Numeeriset menetelmät TIEA381. Luento 6. Kirsi Valjus. Jyväskylän yliopisto. Luento 6 () Numeeriset menetelmät / 33

TILASTOLLINEN OPPIMINEN

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Dynaamiset regressiomallit

Numeeriset menetelmät

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 4: Ketjusäännöt ja lineaarinen approksimointi

Hypoteesin testaus Alkeet

Identifiointiprosessi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Diskreetit todennäköisyysjakaumat. Kertymäfunktio Odotusarvo Binomijakauma Poisson-jakauma

Sovellettu todennäköisyyslaskenta B

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

Estimointi. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

tilastotieteen kertaus

Osa 1: Todennäköisyys ja sen laskusäännöt. Klassinen todennäköisyys ja kombinatoriikka

Tilastollinen aineisto Luottamusväli

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

4. laskuharjoituskierros, vko 7, ratkaisut

Regressioanalyysi. Kuusinen/Heliövaara 1

Topologia Syksy 2010 Harjoitus 9

Bayesilainen päätöksenteko / Bayesian decision theory

Luento 2: Liikkeen kuvausta

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

6. laskuharjoitusten vastaukset (viikot 10 11)

2. Uskottavuus ja informaatio

Teema 8: Parametrien estimointi ja luottamusvälit

Sovellettu todennäköisyyslaskenta B

Geenikartoitusmenetelmät. Kytkentäanalyysin teoriaa. Suurimman uskottavuuden menetelmä ML (maximum likelihood) Uskottavuusfunktio: koko aineisto

y x1 σ t 1 = c y x 1 σ t 1 = y x 2 σ t 2 y x 2 x 1 y = σ(t 2 t 1 ) x 2 x 1 y t 2 t 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luento 5: Suurten lineaaristen yhtälöryhmien ratkaiseminen iteratiivisilla menetelmillä

Lisätehtäviä ratkaisuineen luentomonisteen lukuihin 2-4 liittyen

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti

pitkittäisaineistoissa

Avainsanojen poimiminen Eeva Ahonen

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Suodatus ja näytteistys, kertaus

=p(x) + p(y), joten ehto (N1) on voimassa. Jos lisäksi λ on skalaari, niin

Tilastolliset mallit hakkuukoneen katkonnan ohjauksessa. Tapio Nummi Tampereen yliopisto

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Pelaisitko seuraavaa peliä?

2. Viikko. CDH: luvut (s ). Matematiikka on fysiikan kieli ja differentiaaliyhtälöt sen yleisin murre.

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Otoskoko 107 kpl. a) 27 b) 2654

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

H7 Malliratkaisut - Tehtävä 1

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. LINEAARISET LUOKITTIMET

The Metropolis-Hastings Algorithm

Analyysi III. Jari Taskinen. 28. syyskuuta Luku 1

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Mat Tilastollisen analyysin perusteet, kevät 2007

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2010 Harjoitus 4

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

IV. TASAINEN SUPPENEMINEN. f(x) = lim. jokaista ε > 0 ja x A kohti n ε,x N s.e. n n

4.0.2 Kuinka hyvä ennuste on?

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

4 Kysyntä, tarjonta ja markkinatasapaino (Mankiw & Taylor, 2 nd ed., chs 4-5)

pitkittäisaineistoissa

Sovellettu todennäköisyyslaskenta B

Transkriptio:

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1

Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu ja regressio) Naive Bayes (luokittelu) 2

Koneoppimisesta Kertausta: Koneoppijan tehtävänä on tulostaa ennustaja, jonka odotusarvoinen tappio on mahdollisimman pieni Parasta ennustajaa ei voi suoraan laskea opetusdatasta, koska jakaumaa D ei tunneta Miten löytää hyvä ennustaja? 3

Generatiivinen lähestymistapa Perusidea: Opitaan approksimaatio D jakaumalle D Valitaan ennustajaksi f(x) = arg min y Y E y DY X=x [L(y, y )]. Siis ennustajaksi valitaan paras ennustaja jakaumalle D Intuitio: Jos jakauma D on hyvä approksimaatio oikeasta jakaumasta D, ennustaja f on hyvä approksimaatio oikeasti parhaasta ennustajasta f. 4

Ehdollinenlähestymistapa Opitaan approksimaatio D Y X ehdolliselle jakaumalle D Y X Valitaan ennustajaksi f(x) = arg min y Y E y DY X=x [L(y, y )], Siis ennustajaksi valitaan paras ennustaja ehdolliselle jakaumalle D Y X syötteiden jakauma ei vaikuta parhaaseen ennustajaan. Motivaatio: Koska paras ennustaja riippuu vain ehdollisesta jakaumasta D Y X, ei kannata turhaan vaivautua oppimaan ennustamisen kannalta turhaa approksimaatiota koko jakaumalle D. Vakiintumatonnimitys,toisinaantätäkinlähestymistapaasanotaandiskriminatiiviseksi. 5

Diskriminatiivinen lähestymistapa Diskriminatiivisessa koneoppimisessa yritetään oppia ennustaja suoraan oppimatta ensin approksimoimaan jakaumaa D tai D Y X. Motivaatio: Ratkaistaan vain niin monimutkainen ongelma kuin on pakko Diskriminatiivisia koneoppimisstrategioita on lukuisia, joista vain joitakin käsitellään tällä kurssilla Tärkeän diskriminatiivisen oppimisen strategiaperheen muodostavat seuraavassa esiteltävän empiirisen riskin minimoinnin variaatiot 6

Generatiivinen vs. diskriminatiivinen? Generatiivisen (ja ehdollisen) lähestymistavan puolesta puhuu käsitteellinen selkeys ja yksinkertaisuus Jakauman D (tai D Y X ) oppiminen on kuitenkin periaatteessa vaikeampi tehtävä kuin pelkän hyvän ennustajan löytäminen, mikä puolestaan puhuu diskriminatiivisen lähestymistavan puolesta Molemmat lähestymistavat käytännössä tärkeitä, lopulta ratkaistavana oleva ennustustehtävä määrää kumpaa käytetään 7

Empiirisen riskin minimointi Ennustajan f opetusvirhe (empiirinen riski) on 1 n n L(y i, f(x i )), i=1 missä {(x i, y i ) i = 1,...,n} on opetusdatan joukko. Opetusvirhe on siis f:n ennusteiden tappion keskiarvo opetusdatalla. Empiirisen riskin minimointi: Valitse ennustaja f, jonka opetusvirhe on mahdollisimman pieni. Idea: Jos opetusvirhe on pieni, voidaan toivoa, että myös odotusarvoinen tappio on pieni tulevathan opetus- ja testidata samasta jakaumasta. Vaarana kuitenkin ylisovittaminen. 8

Ylisovittaminen Jos f on riippumaton opetusdatasta, pätee f:n opetusvirheen odotusarvo = f:n odotusarvoinen tappio. Tämä seuraa siitä, että opetus- ja testidata tulevat samasta jakaumasta. Jos f riippuu opetusdatasta, ylläoleva ei yleensä pidä paikkaansa Erityisesti jos f on valittu empiirisen riskin minimoinnilla, f:n opetusvirhe on yleensä pienempi kuin f:n odotusarvoinen tappio Ylisovittaminen tarkoittaa tilannetta, jossa opetusdatasta opitun (liian monimutkaisen) ennustajan opetusvirhe on pieni, mutta odotusarvoinen tappio on suuri. 9

Ensimmäinen koneoppimismenetelmä Vanha viisaus: Entities should not be multiplied unnecessarily. William Ockham (1285 1349) Tässä yhteydessä: Ennen monimutkaisia menetelmiä kannattaa kokeilla, pärjätäänkö yksinkertaisemmilla menetelmillä Mikä olisi yksinkertaisin mahdollinen järkevä koneoppimismenetelmä? 10

Taulukointi Perusidea: (X ja Y mielivaltaisia, Y = Y) Tallennetaan opetusdata taulukkoon Tulostetaan ennustaja f, joka syötteellä x toimii seuraavasti: Jos x = x i jollakin i, ennustetaan y i. Mikäli x = x i usealla i, ennustetaan näiden y i joukossa useimmin esiintyvä y (luokittelu) tai näiden y i keskiarvo (regressio). Jos x x i kaikilla i, tulostetaan oletusennuste, esim. koko opetusdatassa useimmin esiintyvä y (luokittelu) tai kaikkien y i keskiarvo (regressio). Näin määräytyvä f on selkeästi kuvaus X Y, siis kelvollinen ennustaja. 11

Onko taulukointi hyvä lähestymistapa? Strategia on suoraviivainen toteutus empiirisen riskin minimoinnista: kaikki opetusdata opitaan ulkoa, mutta ei pahemmin yritetä yleistää muille syötteille. Taulukointi saattaa toimia hyvinkin, jos opetusesimerkkien joukko kattaa (todennäköisyysmassaltaan) valtaosan syötteiden joukosta X. Muuten taulukointi on ongelmissa, sillä ennuste kaikille ennennäkemättömille x X on sama oletusennuste. Taulukoinnin tuottaman ennustajan opetusvirhe on kuitenkin molemmissa tapauksissa (yleensä) pieni ylisovittamisen vaara on siis ilmeinen! 12

Kohti yleistystä Taulukointi on menetelmänä sokea syötteiden samankaltaisuudelle: Syötteiden vertailussa käytetään vain mustavalkoista yhtäsuuruutta Usein kuitenkin syötteiden yhtäsuuruuden lisäksi voidaan mitata syötteiden välisiä etäisyyksiä Seuraavaksi käsitellään lähin naapuri -menetelmiä, jotka voidaan nähdä taulukoinnin etäisyydet huomioon ottavina yleistyksinä 13

Etäisyysfunktiot Etäisyyksiä mitataan etäisyysfunktiolla d: X X R +, jolle d(x, x ) on sitä pienempi mitä lähempänä syöte x on syötettä x. Esimerkkejä etäisyysfunktioista: X = R d, d(x, x ) = d j=1 (xj x j ) 2 (euklidinen etäisyys) X = R d, d(x, x ) = d j=1 xj x j (Manhattan-etäisyys) X = X 1 X d, d(x, x ) = niiden j lkm, joille x j x j (Hamming etäisyys) X mielivaltainen, d(x, x ) = 0, jos x = x, muuten 1 (diskreetti etäisyys) Syötteen x komponenttiesitys siis x = (x 1,...,x d ). Etäisyysfunktioneitarvitseollametriikka,vaikkauseinonkin. 14

Etäisyyspohjaiset koneoppimismenetelmät Oletus: Etäisyysfunktion d ja tuntemattoman jakauman D välillä on seuraava yhteys: Jos d(x, x ) on pieni, niin D Y X=x ja D Y X=x ovat lähellä toisiaan (sopivin adjektiivien pieni ja lähellä tulkinnoin) Idea: Jos oletus pitää paikkaansa ja d(x, x ) on pieni, syötteellä x on järkevää ennustaa suurinpiirtein samoin kuin syötteellä x. 15

Etäisyyspohjaisten menetelmien perusidea Syötteen x X ennuste lasketaan niiden opetusesimerkkien (x i, y i ) S perusteella, joiden x i on etäisyysfunktion d suhteen lähellä x:ää Mitä tarkoittaa lähellä? Luonnollisia valintoja ovat mm.: Kiinteä säde δ > 0: x i on lähellä x:ää, jos d(x, x i ) δ k lähintä naapuria: x i lähellä x:ää, jos sitä lähempänä on alle k muuta opetusesimerkkiä Liukumo: ei jaeta esimerkkejä lähellä ja kaukana oleviin, annetaan kaikkien x i :den vaikuttaa x:lle annettavaan ennusteeseen sitä enemmän mitä lähempänä ovat Seuraavassa tarkastellaan vain lähimmät naapurit -menetelmiä. 16

k lähintä naapuria-luokittelija Parametrit: etäisyysfunktio d: X X R +, k > 0. 1. Pistä muistiin kaikki opetusesimerkit (x 1, y 1 ),...,(x n, y n ) 2. Tulosta ennustaja, joka syötteellä x X (a) Etsii muistista ne opetusesimerkit (x i, y i ), joille d(x, x i ) on k:n pienimmän joukossa. Merkitään näiden joukkoa symbolilla N x. (b) Tulostaa joukon N x yleisimmän luokan y Y 17

Miten d valitaan? Toiveena, että oletus d:n ja D:n välisestä yhteydestä pätee Koska D:tä ei tunneta, oletusta ei tietenkään suoraan voi testata Usein d:hen yritetään koodata taustatietämystä, tai jos sellaista ei ole, valitaan esim. joku edellä esitetyistä standardivaihtoehdoista. 18

Miten k valitaan? Jos k ja siten N x on liian pieni, ennusteet riippuvat vain muutamasta opetusesimerkistä, ja voivat siten olla epäluotettavia. (ylisovittaminen) Jos k on liian suuri, voi olla, että N x sisältää paljon sellaisia (x i, y i ), joille d(x, x i ) ei ole pieni. Tällaiset (x i, y i ) voivat antaa väärää tietoa jakaumasta D Y X=x. (alisovittaminen) Sekä d:n että k:n valinnassa kyse mallinvalinnasta, josta lisää myöhemmin... 19

k lähintä naapuria-regressio Parametrit: etäisyysfunktio d: X X R +, k > 0. 1. Pistä muistiin kaikki opetusesimerkit (x 1, y 1 ),...,(x n, y n ) 2. Tulosta ennustaja, joka syötteellä x X (a) Etsii muistista ne opetusesimerkit (x i, y i ), joille d(x, x i ) on k:n pienimmän joukossa. Merkitään näiden joukkoa symbolilla N x. (b) Tulostaa f(x) = (x i,y i ) N x y i. N x Ennuste f(x) on siis x:n lähimpien naapurien keskiarvo. 20

Painotettu k lähintä naapuria Edellä joukon N x kaikkia alkioita käsiteltiin samalla tavalla muodostettaessa ennustetta f(x) Intuitiivisesti kuitenkin tuntuisi, että (x i, y i ) N x on x:ään liittyvän ennusteen kannalta sitä tärkeämpi, mitä pienempi d(x, x i ) on Siksi ennustetta muodostettaessa esimerkit usein painotetaan etäisyydet huomioivin painoin. Esim. regressiossa voi käyttää vaikkapa painotettua keskiarvoa (x f(x) = i,y i ) N x e αd(x,xi) y i (x i,y i ) N x e αd(x,x i) ja luokittelussa vastaavasti painotettua äänestystä. Parametri α > 0 määrää, kuinka paljon etäisyys painoon vaikuttaa. 21

Lähin naapuri-luokittelijoiden(teoreettisia) ominaisuuksia Kysymys: Kuinka hyviä luokittelijoita lähin naapuri -menetelmät tuottavat, jos opetusdatan määrä n on hyvin suuri (n )? Seuraavassa oletetaan, että X = R d varustettuna euklidisella etäisyydellä, Y on kaksialkioinen, ja tappiona on 0/1-tappio. 22

1 lähin naapuri-luokittelija Asymptotiikkaa: Voidaan osoittaa, että 1 lähin naapuri -ennustajan odotusarvoisen tappion odotusarvo on asymptoottisesti korkeintaan kaksi kertaa niin suuri kuin Bayes-luokittelijan f odotusarvoinen tappio Siis jos opetusdataa on todella paljon, 1 lähin naapuri -menetelmä on vakiokerrointa 2 vaille paras mahdollinen kaikilla jakumilla D! 23

k lähintä naapuria-menetelmän ominaisuuksia Voidaan osoittaa, että jos k pidetään kiinteänä opetusdatan joukon koon n kasvaessa, isomman k:n valitsemisesta ei ole asymptoottisesti ainakaan haittaa Parhaan asymptoottisen tuloksen saamiseksi k:ta pitää kasvattaa n:n kasvaessa siten, että 1. k 2. k/n 0 Tällöin k lähintä naapuria -luokittelijan odotusarvoisen tappion odotusarvo on asymptoottisesti Bayes-luokittelijan odotusarvoinen tappio jälleen kaikilla jakaumilla D. 24

Asymptoottisten tulosten tulkinnasta Käytännössä opetusdatan koko voi olla suuri, mutta ei koskaan kasva rajatta Asymptoottiset tulokset eivät suoraan kerro mitään siitä, miten menetelmät toimivat suurillakaan opetusdatan joukoilla Silti asymptoottiset tulokset kertovat menetelmien konsistenssista vaikka asymptoottiset tulokset eivät takaakaan käytännössä mitään, olisi vielä ikävämpää, jos menetelmät eivät toimisi hyvin edes hypoteettisessa äärettömän suuren opetusdatan tapauksessa. 25

k lähintä naapuria-menetelmien aikavaativuudesta Suoraviivainen toteutus: Opetusvaiheessa opetusdata tallennetaan taulukkoon. Laskettaessa ennustetta syötteelle x muodostetaan naapurien joukko N x laskemalla x:n etäisyydet kaikkiin opetusesimerkkeihin Jokaiseen ennusteen laskeminen edellyttää siis n etäisyyden laskemisen, eli ennusteen antamiseen kuluva aika kasvaa lineaarisesti opetusdatan koon suhteen. Menetelmiä voidaan tehostaa tallentamalla opetusdata hienostuneempiin syöteavaruuden geometriaa hyödyntäviin tietorakenteisiin, joista lähimmät naapurit löytyvät nopeammin. 26

Naive Bayes Seuraavaksi jotain ihan muuta: Johdatus generatiiviseen lähestymistapaan Esimerkkinä Naive Bayes -luokittelija 27

Kertaus: Generatiivinen lähestymistapa Palautetaan mieliin, että generatiivisen lähestymistavan perusidea on 1. Oppia opetusdatan perusteella approksimaatio D jakaumalle D 2. Ennustaa kuten D olisi datan generoiva jakauma Jos opittu D on hyvä approksimaatio jakaumasta D, tällä tavalla löydetään hyvä ennustaja ja hyvällä onnella muutenkin... 28

Generatiivinen lähestymistapa Rajoitutaan tarkastelemaan luokittelua 0/1-tappiolla tapauksessa, jossa syötteiden joukko X = X 1 X d on diskreetti. Miten jakauman D voisi yrittää oppia opetusdatasta? Suora lähestymistapa: Lasketaan opetusdatasta estimaatit P(X = x, Y = y) kaikille todennäköisyyksille P(X = x, Y = y), esim. suurimman uskottavuuden estimaattorilla P(X = x, Y = y) = {(x i, y i ) S x i = x, y i = y}. S Nämä yhdessä määrittävät jakauman D. Ongelma: periaatteessa mahdollista, mutta estimoitavia todennäköisyyksiä X Y = ( X 1 X d ) Y kappaletta! 29

Vaihtoehdoinen strategia jakauman D estimoimiseksi Muotoillaan estimointiongelma ennustuksen kannalta edullisempaan muotoon Bayesin kaavan avulla Tehdään estimoinnin helpottamiseksi lisäoletuksia (Naive Bayes -oletus) Toivotaan, että lisäoletukset ovat niin lähellä totuutta, että niiden varaan rakennettu approksimaatio D johtaa D:n suhteen hyvään ennustajaan 30

Bayesin kaava Palautetaan mieliin Bayesin kaava: Sanallisesti: P(Y = y X = x) = posteriori = P(X = x Y = y)p(y = y) P(X = x) uskottavuus priori normalisointivakio Jakaumia P(X = x Y = y) on siis yksi jokaiselle y Y. Ne kertovat, miten kunkin luokan y syötteet ovat jakautuneet. Jakauma P(Y = y) on luokkapriori, joka kertoo, kuinka todennäköinen mikäkin luokka y on ennen syötteen x näkemistä. Nimittäjä P(X = x) on kullakin x vakio, joten se voidaan ennustamisen kannalta unohtaa. 31

Mitä Bayesin kaavalla voitetaan? Bayesin kaavan avulla alkuperäinen kysymys mikä on todennäköisin luokka syötteelle x saatiin käännettyä ympäri ja paloiteltua: Mikä on todennäköisyys nähdä x, jos luokka on y? Mikä on todennäköisyys nähdä luokka y? Toiveena on, että nämä jakaumat P(X Y ) ja P(Y ) ovat rakenteeltaan estimoinnin kannalta yksinkertaisempia kuin P(Y X) Pyörittely ei kuitenkaan yksin ratkaise estimointiongelmaa: Jakaumat P(X = x Y = y) ja P(Y = y) ovat tuntemattomia, ja niiden suoraviivainen estimointi edellyttäisi yhteensä X Y + Y todennäköisyyden estimoinnin datasta! 32

Naive Bayes-oletus Tehdään (estimointiongelman helpottamiseksi) Naive Bayes -oletuksena tunnettu riippumattomuusoletus: P(X = x Y = y) = d j=1 P(X j = x j Y = y) Sanallisesti: Syötteen komponentit x j ovat toisistaan riippumattomia, kun luokka y tunnetaan. Koska yleensä on naiivia olettaa tuntemattoman jakauman D toteuttavan Naive Bayes -oletuksen, käytännössä yleensä vain pragmaattisesti approksimoidaan D:tä kuten se toteuttaisi oletuksen (vaikka tiedetäänkin ettei oletus pidä paikkaansa) 33

Mitä lopulta pitää estimoida? Yhdistämällä Bayesin kaava ja Naive Bayes -oletus nähdään, että riittää laskea estimaatit seuraaville todennäköisyyksille: P(X j = x j Y = y): ( X 1 + + X d ) Y estimoitavaa todennäköisyyttä P(Y = y): Y estimoitavaa todennäköisyyttä Yhteensä estimoitavia todennäköisyyksiä siis ( X 1 + + X d ) Y + Y Tämä on yleensä paljon vähemmän kuin X Y = ( X 1 X d ) Y! 34

Miten jakaumat estimoidaan? Jakaumille P(X j = x j Y = y) voidaan käyttää esim. suurimman uskottavuuden estimaattia P(X j = x j Y = y) = {(x i, y i ) S x j i = xj, y i = y} {(x i, y i ) S y i = y} Myös jakaumalle P(Y = y) voidaan käyttää suurimman uskottavuuden estimaattia P(Y = y) = {(x i, y i ) S y i = y}. S Vaihtoehtoisesti voidaan datasta riippumatta olettaa, että (esim.) kaikki luokat ovat yhtä todennäköisiä, ja estimoinnin sijasta käyttää datasta riippumatonta tasaista luokkaprioria P(Y = y) = 1/ Y. 35

Estimaattien tasoittaminen Suurimman uskottavuuden estimaatit saattavat kärsiä ylisovittamisesta opetusdatalle annettavat todennäköisyydet ovat suurempia kuin pitäisi Tätä voidaan korjata kayttämällä tasoitettuja estimaatteja, esim. P(X j = x j Y = y) = {(x i, y i ) S x j i = xj, y i = y} + 1 {(x i, y i ) S y i = y} + X j Seurauksena on erityisesti, että myös ennennäkemättömät tapahtumat saavat nollasta poikkeavan todennäköisyyden 36

Naive Bayes-luokittelijalla ennustaminen Ennustusvaiheessa syötteellä x ennustetaan sitä y Y, jolle on suurin P(Y = y X = x) d i=1 P(X i = x i Y = y) P(Y = y) Yhtäpitävästi: Ennustetaan sitä y Y, jolle d log P(X i = x i Y = y) + log P(Y = y) i=1 on suurin. Tämä muoto on käytännössä numeerisen tarkkuuden kannalta parempi. 37

Naive Bayes: yhteenveto Naive Bayes on generatiivinen menetelmä Menetelmän ytimessä on yksinkertaistava riippumattomuusoletus: Jakaumaa D approksimoidaan jakaumalla D, jossa syötteiden x komponentit x j ovat toisistaan riippumattomia ehdolla y. Oletus on naiivi eikä yleensä ole käytännön sovelluksissa perusteltavissa. Silti käytäntö on osoittanut, että Naive Bayes toimii usein hyvin myös silloin, kun riippumattomuusoletus on kaukana totuudesta. 38