Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi



Samankaltaiset tiedostot
Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Johdatus tekoälyyn. Luento : Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Johdatus tn-laskentaan perjantai

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Tutkimustiedonhallinnan peruskurssi

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Sallitut apuvälineet: MAOL-taulukot, kirjoitusvälineet, laskin sekä itse laadittu, A4-kokoinen lunttilappu. f(x, y) = k x y, kun 0 < y < x < 1,

Todennäköisyyden ominaisuuksia

FUNKTIONAALIANALYYSIN PERUSKURSSI Johdanto

4.0.2 Kuinka hyvä ennuste on?

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. Luentokuulustelujen esimerkkivastauksia. Pertti Palo. 30.

Testejä suhdeasteikollisille muuttujille

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

1. TILASTOLLINEN HAHMONTUNNISTUS

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harha mallin arvioinnissa

Testit järjestysasteikollisille muuttujille

Oppijan saama palaute määrää oppimisen tyypin

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Väliestimointi (jatkoa) Heliövaara 1

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

Dynaamiset regressiomallit

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Avainsanojen poimiminen Eeva Ahonen

Älykäs datan tuonti kuljetusongelman optimoinnissa. Antoine Kalmbach

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

9. Tila-avaruusmallit

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

30A02000 Tilastotieteen perusteet

Luento 9: Yhtälörajoitukset optimoinnissa

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

Jatkuvat satunnaismuuttujat

Laskennallinen data-analyysi II

Mat Tilastollisen analyysin perusteet, kevät 2007

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

3.7 Todennäköisyysjakaumia

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MS-C2128 Ennustaminen ja Aikasarja-analyysi, 5 op Esittely

4.2.2 Uskottavuusfunktio f Y (y 0 X = x)

MS-A0202 Differentiaali- ja integraalilaskenta 2 (SCI) Luento 4: Ketjusäännöt ja lineaarinen approksimointi

Ilkka Mellin (2008) 1/5

Oppimistavoitematriisi

Sovellettu todennäköisyyslaskenta B

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Moniulotteiset satunnaismuuttujat ja jakaumat

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

Dynaamiset regressiomallit

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

2. Viikko. CDH: luvut (s ). Matematiikka on fysiikan kieli ja differentiaaliyhtälöt sen yleisin murre.

1. Tilastollinen malli??

Vapaus. Määritelmä. Vektorijono ( v 1, v 2,..., v k ) on vapaa eli lineaarisesti riippumaton, jos seuraava ehto pätee:

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

4. laskuharjoituskierros, vko 7, ratkaisut

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Reaalifunktioista 1 / 17. Reaalifunktioista

Osakesalkun optimointi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Osakesalkun optimointi. Anni Halkola Turun yliopisto 2016

1 2 x2 + 1 dx. (2p) x + 2dx. Kummankin integraalin laskeminen oikein (vastaukset 12 ja 20 ) antaa erikseen (2p) (integraalifunktiot

Sovellettu todennäköisyyslaskenta B

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

Tilastollisen analyysin perusteet Luento 3: Epäparametriset tilastolliset testit

OPETUSSUUNNITELMALOMAKE

Yleistetyistä lineaarisista malleista

OPETUSSUUNNITELMALOMAKE

Moniulotteisia todennäköisyysjakaumia

Ratkaisuehdotukset LH 7 / vko 47

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

Matematiikan tukikurssi

Johdatus todennäköisyyslaskentaan Satunnaismuuttujien muunnokset ja niiden jakaumat. TKK (c) Ilkka Mellin (2004) 1

Harjoitus 2: Matlab - Statistical Toolbox

Matemaattinen tilastotiede. Erkki Liski Matematiikan, Tilastotieteen ja Filosofian Laitos Tampereen Yliopisto

Matematiikan tukikurssi

Otanta ilman takaisinpanoa

ABHELSINKI UNIVERSITY OF TECHNOLOGY

k S P[ X µ kσ] 1 k 2.

Johdatus tn-laskentaan torstai

(b) Onko hyvä idea laske pinta-alan odotusarvo lähetmällä oletuksesta, että keppi katkeaa katkaisukohdan odotusarvon kohdalla?

Aalto-yliopiston perustieteiden korkeakoulu Matematiikan ja systeemianalyysin laitos

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

Matematiikan kotitehtävä 2, MAA 10 Todennäköisyys ja tilastot

SGN-2500: Johdatus hahmontunnistukseen. Jussi Tohka Tampereen teknillinen yliopisto Signaalinkäsittelyn laitos

} {{ } kertaa jotain

Transkriptio:

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 29-31.10.2008. 1

Tällä viikolla 1. Käytännön järjestelyistä 2. Kurssin sisällöstä ja aikataulusta 3. Johdantoa Mitä koneoppiminen on? Ohjatun oppimisen tehtävistä ja oppimisen mallintamisesta 2

Käytännön järjestelyistä Kurssi koostuu Luennoista Laskuharjoituksista (1/3 kokonaispisteistä) Kurssikokeesta (2/3 kokonaispisteistä) Kurssilla ei ole oppikirjaa, kurssimateriaalina on Luennot Laskuharjoitukset Luentokalvot Kurssin verkkosivulla http://www.cs.helsinki.fi/group/joko/ mainittu muu materiaali (jos sellaista ilmaantuu) 3

Viikkoaikataulu Luennot salissa C222, ke 12-14 ja pe 12-14 Laskuharjoitukset salissa C221, ke 10-12 (Mika Urtela) Ensimmäiset harjoitukset pakolliset, poikkeuksellisesti mikroluokassa B221 Viikkoaikataulutavoite: Tehtävät verkkosivulla harjoituksia edeltävän viikon perjantai-iltaan mennessä Viikon luentokalvot verkossa viimeistään samaan aikaan harjoitustehtävien kanssa 4

Kurssin sisällöstä 1. Ohjattu oppiminen (Matti) Johdanto-osuus: Minkälaisista ongelmista ohjatussa oppimisessa ollaan kiinnostuneita Miten oppimistehtävä voidaan määritellä täsmällisesti Esimerkkejä koneoppimismenetelmistä joilla oppimistehtäviä voidaan ratkaista k-nn, Naive Bayes, lineaariset menetelmät, päätös- ja regressiopuut Miten valita oikea menetelmä: testaus ja ristiinvalidointi 2. Ohjaamaton oppiminen (Marko) Ryvästystä (eli klusterointia) 5

Esitiedoista ja-taidoista Matematiikka: Perustietoja todennäköisyyslaskennasta (ja tilastotieteestä), lineaarialgebrasta, ja analyysistä. Tietojenkäsittelytiede: Pitää osata kirjoittaa yksinkertaisia ohjelmia ja käyttää laitoksen tietotekniikkaympäristöä. Matlabia opetellaan alusta lähtien, ei esitaitovaatimuksia. Ensimmäisten viikkojen harjoituksissa palautellaan mieliin matematiikkaa Matlabin opettelun yhteydessä 6

Laskennallinen data-analyysi Laaja alue, missä rajat? hahmontunnistus, koneoppiminen, tilastotiede, signaalinkäsittely, merkkijonomenetelmät, tiedon tiivistäminen,... Tällä kurssilla rajaudutaan käsittelemään koneoppimista, erityisesti ohjatun ja ohjaamattoman oppimisen perusteita. Kurssin lähestymistapa on vahvasti tilastollinen, muut lähestymistavat (esim. online-oppiminen, palauteoppiminen,... ) jäävät muille kursseille 7

Ohjattu oppiminen Tavoitteena oppia ennustamaan datan perusteella. ennustaa esittää (taikuuteen perustuva t. järkiperäinen) arvio tulevaisuudesta, laatia ennuste, povata. (MOT Kielitoimiston sanakirja 1.0) predict (engl.) latinankielisistä sanoista præ=ennen, dicere=sanoa Tällä kurssilla ennustamisella tarkoitetaan jonkin (kalliin, työlään, hitaan,... ) vaihtoehtoisen menetelmän tuottaman oikean tuloksen ennustamista, ei yleensä tulevaisuuden ennustamista. 8

Esimerkki 1: merkkien tunnistaminen Syöte: Merkin kuva (esim. n n harmaasävykuva) Ennuste: Merkin symboliesitys (esim. ASCII-koodi) Tappiofunktio: 0/1-tappio: tappio on 0, jos ennuste on sama kuin totuus, muuten 1. Tyypillinen esimerkki luokitteluongelmasta: Tavoitteena ennustaa, mihin annetuista luokista syötteenä saatu tapaus kuuluu. 9

Esimerkki 2: asunnon hinnan ennustaminen Syöte: asuntoa kuvaavia tietoja (pinta-ala, huoneiden lukumäärä, kunto, osoite,... ) Ennuste: asunnon euromääräinen hinta Tappiofunktio: neliövirhe: tappio on ennusteen ja toteutuneen hinnan erotuksen neliö (?) Tyypillinen esimerkki regressio-ongelmasta: Tavoitteena ennustaa syötteeseen liittyvä (jatkuva-arvoinen) luku 10

Esimerkki 3: luonnollisen kielen kääntäminen Syöte: pätkä tekstiä espanjaksi Ennuste: syötetekstin käännös englanniksi Tappiofunktio: mitta, joka kuvaa sitä kuinka paljon ennustettu käännös poikkeaa ammattikääntäjän tuottamasta käännöksestä Esimerkki rakenteisesta oppimisesta: Tavoitteena ennustaa syötteeseen liittyvä rakenne (tässä sanajono) 11

Kohti ennustusongelman formalisointia Ennustusongelma sisältää seuraavat komponentit: Syötteen tyyppi: miten ennustusongelman tapaukset kuvataan Ennusteen tyyppi: minkälaisia ennusteita ennustaja saa tuottaa Tappiofunktio: funktio, joka annettuna ennuste ja totuus kertoo, kuinka paljon ennuste meni pieleen. Ennustaja on ohjelma, joka tuottaa syötteen perusteella ennusteen. Tappiofunktio on ennustusongelman olennainen komponentti: Sen avulla voidaan mitata ennusteen hyvyyttä, kun ennustajaa sovelletaan syötteeseen johon liittyvä oikea tulos tunnetaan. 12

Ennustaminen datasta Mistä ennustaja tulee? Käsin ohjelmointi voi olla mahdollista, mutta usein hankalaa ja työlästä. Ohjelmointivaivaa voidaan toisinaan vähentää ja/tai ennustustarkkuutta parantaa oppimalla ennustaja datasta. Koneoppimisparadigma (ennustajien oppimisessa): Ennustajan sijaan suunnitellaan koneoppimismenetelmä eli ohjelma, joka tuottaa datasta ennustajan. 13

Koneoppimisprosessi Idealisoitu versio ennustajan oppimisesta: Muotoillaan tosimaailman ongelma ennustusongelmaksi (syöte, ennusteen tyyppi, tappiofunktio) Kerätään ennustusongelmaan liittyvää dataa, joka ohjatussa oppimisessa koostuu (syöte, oikea ennuste )-pareista Valitaan/suunnitellaan ennustusongelmaan ja dataan sopiva koneoppimismenetelmä Annetaan koneoppimismenetelmän tuottaa datasta ennustaja. Testataan ennustajaa (käytännössä) HUOM: Ylläoleva on vain koneoppimisen vesiputousmalli ts. rankka yksinkertaistus todellisuudesta. 14

Esimerkki 1: merkkien tunnistaminen Data: Kerätään edustava joukko dokumentteja, joissa esiintyvät merkit haluttaisiin tunnistaa automaattisesti. Valitaan dokumenteista satunnaisesti otos merkkejä, ja tunnistutetaan ne ihmisillä. Muunnetaan merkkien kuvat ja ihmisten antamat luokitukset (harmaasävykuva vektorina, merkin ASCII-koodi)-formaattiin. 15

Esimerkki 2: asunnon hinnan ennustaminen Data: Tietoja (lähiaikoina) toteutuneista asuntokaupoista (esim. kiinteistönvälittäjien tietokannoista) Muunnetaan tiedot (asuntoa kuvaava piirrevektori, toteutunut kauppahinta) -pareiksi. Sopivia piirteitä esim. asunnon pinta-ala, sijainti, rakennusvuosi, huoneiden lukumäärä, kunto, onko putkiremontti tehty,... 16

Esimerkki 3: luonnollisen kielen kääntäminen Data: Kaksikielinen korpus, joka koostuu espanjankielisistä lauseista ja niiden englanninkielisistä käännöksistä Eristetään datasta piirteitä, joiden avulla se voidaan luontevasti kuvata: Piirteet esim. bifraaseja eli (fraasi, fraasin käännös)-pareja Piirrekuvaus: luetellaan, mitkä bifraasit lauseparissa esiintyy Käytännössä lisäksi käytetään yksikielistä kohdekielen korpusta, josta pyritään oppimaan tuottamaan sujuvaa kohdekieltä 17

Ohjattu vs. ohjaamaton oppiminen Ohjatussa oppimisessa opetusdata koostuu (syöte, oikea ennuste )-pareista. Ennustajien oppiminen on yleensä ainakin osin ohjattua, tällä kurssilla kokonaan. Tällä kurssilla: lähinnä luokittelua ja regressiota, muut ohjatun oppimisen tehtävät (rakenteinen oppiminen,... ) jäävät muille kursseille Ohjaamattomassa oppimisessa data koostuu tyypillisesti pelkistä syötteistä, ja tavoitteena on yleensä jokin muu kuin ennustaminen. Tällä kurssilla: lähinnä ryvästystä Ohjaamattomaan oppimiseen palataan kurssin lopulla, seuraavassa ohjattua. 18

Kertausta ja notaatiota Toistaiseksi on opittu intuitiivisella tasolla mistä ennustamisessa on kyse Seuraavaksi täsmennetään jo opittua, ja esitellään jatkossa käytettävää notaatiota 19

Syötteet Merkitään joukkoa josta syötteet tulevat symbolilla X. Esimerkkejä: X = R d (jatkuva tapaus) X koostuu piirrevektoreista, joissa on d jatkuva-arvoista komponenttia. X = D 1 D d, missä D i :t ovat äärellisiä joukkoja (diskreetti tapaus) X koostuu piirrevektoreista, joissa on d diskreettiä komponenttia. X = X 1 X d, missä kukin X i = R tai äärellinen (jatkuvan ja diskreetin sekoitus) Tällä kurssilla koneoppimismenetelmät käsittelevät aina piirrevektorimuotoista dataa. 20

Syrjähyppy: Datan esiprosessointi Kuten esimerkeistä 1-3 jo nähtiin, yleensä syötteet eivät ole valmiiksi koneoppimiseen soveltuvassa piirrevektorimuodossa. Siksi syötteet pitää esiprosessoida: Valitaan syötteitä kuvaavia piirteitä, jotka on helppo laskea (tai muuten mitata) Normalisoidaan piirteet sopivasti oppimisen helpottamiseksi Yritetään valita piirrevektoriin vain oppimisen kannalta olennaisia piirteitä,... Datan esiprosessointi on monimutkainen taiteenlaji ja käytännössä tärkeä koneoppimisen välivaihe, joka sivuutetaan tällä kurssilla syötteiden oletetaan siis olevan valmiiksi piirrevektorimuodossa. 21

Oikeat vastaukset ja ennusteet Merkitään symbolilla Y joukkoa, johon syötteisiin liittyvät oikeat vastaukset kuuluvat. Luokittelussa Y on äärellinen, regressiossa Y = R. Merkitään sallittujen ennusteiden joukkoa symbolilla Y. Yleensä Y = Y, mutta ei aina toisinaan esim. ennustetaan oikean y:n sijaan oikean y:n todennäköisyysjakaumaa. 22

Tappiofunktio Tappiofunktio on kuvaus L: Y Y R +. Esimerkkejä tappiofunktioista (oletetaan Y = Y) Luokittelussa tappiofunktiona on usein 0/1-tappio L 0/1 : L 0/1 (y, y ) = 0, jos y = y, ja 1 muuten Regressiossa tappiofunktiona käytetään usein neliövirhettä L 2 : L 2 (y, y ) = (y y ) 2 23

Data ja ennustaja Ohjatussa oppimisessa opetusdata on joukko missä (x i, y i ) X Y. Ennustaja on kuvaus f : X Y S = {(x i, y i ) i = 1,...,n}, Ennustajan syötteellä x X antaman ennusteen f(x) Y tappio on L(y, f(x)). Ennuste on hyvä, jos sen tappio on pieni. Mutta koska ennustaja on hyvä? 24

Puuttuva linkki Toistaiseksi seuraavat kysymykset on sivuutettu: Mistä koneoppimismenetelmälle annettava opetusdata tulee? Mistä koneoppimismenetelmän tuottamalle ennustajalle annettavat syötteet tulevat? Miten nämä liittyvät toisiinsa? Oikeat vastaukset tietysti riippuvat ratkaistavana olevasta oppimisongelmasta. Kysymykset on sivuutettu, koska niihin on vaikea vastata yleispätevää oikeaa vastausta tuskin on olemassa Seuraavassa esitettävä tilastollinen koneoppimisen malli tarjoaa kuitenkin useisiin tilanteisiin tyydyttävästi sopivan vastauksen 25

Oppimisen malli Mallinnetaan opittavaa ilmiötä joukon X Y todennäköisyysjakaumalla D (jota ei tunneta). Koneoppimismenetelmälle annettava opetusdata S = {(x i, y i ) i = 1,...,n} on otos jakaumasta D: (x i, y i ) D, (x i, y i ) riippumattomia Opetusesimerkit ovat siis riippumattomia realisaatioita satunnaismuuttujasta (X, Y ) D. Opitulle ennustajalle annettavat syötteet (ja niihin liittyvät oikeat vastaukset ) tulevat samasta jakaumasta D nekin ovat riippumattomia realisaatioita satunnaismuutujasta (X, Y ) D Näitä mallinnusoletuksia yhdessä kutsutaan iid-oletukseksi (independent and identically distributed). 26

Nappi-intuitio oppimismallille Jakauma D on läpinäkymättömässä laatikossa, jossa on nappi. Kun nappia painaa, laatikko sylkee ulos D:n mukaan jakautuneen (syöte, oikea vastaus )-parin (x, y) X Y. Riippumattomuus tarkoittaa, että napin painallukset eivät vaikuta toisiinsa. Opetusdata generoidaan painamalla nappia n kertaa. Data annetaan koneoppimismenetelmälle, joka tulostaa ennustajan f. Ennustajaa f testattaessa painellaan samaa nappia, mutta ennustajalle näytetään laatikon sylkäisemästä (x, y):stä vain x. Ennustaja antaa ennusteen f(x), ja kärsii tappion L(y, f(x)). 27

Pohdintaa oppimismallista Opetusdatan ja testiesimerkkien taustalla olevaa ilmiötä mallinnetaan samalla todennäköisyysjakaumalla D maailma ei siis muutu oppimisen ja testaamisen välissä/aikana Koska opetusdata on otos D:stä, koneoppija saa sen kautta tietoa D:n ominaisuuksista ja sitä kautta mahdollisuuden ennustaa hyvin testivaiheessa, koska iid-oletuksen nojalla myös testidata on otos D:stä Taustatieto opittavasta ilmiöstä tai ilmiöstä tehdyt lisäoletukset voidaan sisällyttää malliin oletuksina jakaumasta D 28

Jakauman D esittäminen paloissa Olkoon D joukon X Y jakauma, ja (X, Y ) sen mukaan jakautunut satunnaismuuttuja. Marginaalijakaumat: D X : pelkän X:n jakauma D Y : pelkän Y :n jakauma Ehdolliset jakaumat: D Y X=x : Y :n jakauma, kun X = x D X Y =y : X:n jakauma, kun Y = y Yhteisjakauma voidaan ajatella näiden tuloksi/sekoitteeksi: D X,Y = D X Y D Y tai symmetrisesti D X,Y = D Y X D X 29

Jakauman D palojen tulkinta Marginaalijakauma D X : pelkkien syötteiden x X jakauma, josta opitun ennustajan syötteet tulevat Marginaalijakauma D Y : pelkkien oikeiden vastausten y Y jakauma Ehdollinen jakauma D Y X=x : kun tiedetään syötteen olevan x, miten oikea vastaus y on jakautunut? Ehdollinen jakauma D X Y =y : niiden syötteiden jakauma, joille oikea vastaus on y. 30

Konkreettinen esimerkki jakaumasta D Tarkastellaan tilannetta, jossa X = [0, 3] [0, 3], Y = {punainen, sininen} Kyseessä siis luokittelutehtävä Seuraavien sivujen kuvat esittävät joukon X Y todennäköisyysjakaumaa D ensin yhteisjakaumana, ja sitten paloiteltuna 31

Yhteisjakauma D Koko jakauma D. Kuvaajan korkeus kuvaa sitä, kuinka tyypillinen syöte on. Väri kuvaa todennäköisyyttä kuulua punaiseen luokkaan. Tiheys syötteiden joukossa X 0.9 0.8 0.7 0.6 0.5 0.4 0.3 3 2 1 1 2 3 0.2 0.1 x1 0 0 x2 32

Syötteidenjakauma D X Syötteiden jakauma joukossa X = [0, 3] [0, 3]. Jakauma kuvaa sitä minkälaiset syötteet ovat tyypillisiä sekä opetusdatassa että ennustajan tulevissa syötteissä. Jakauman D X tiheys 3 2 1 1 2 3 x1 0 0 x2 33

Luokkienehdollinenjakauma D Y X Todennäköisyys, että luokka on punainen kussakin syöteavaruuden pisteessä (muuten luokka on sininen ). Tässä jakaumassa ei ole lainkaan tietoa syötteiden jakaumasta joukossa X. P(Y=punainen X) 1 0.8 0.6 0.4 0.2 0 3 2.5 2 1.5 x1 1 0.5 0 0 1 x2 2 3 34

Jakauma D X Y =sininen Syötteiden jakauma luokalle sininen. Jakauman D X Y=sininen tiheys 3 2 1 1 2 3 x1 0 0 x2 35

Jakauma D X Y =punainen Syötteiden jakauma luokalle punainen. Jakauman D X Y=punainen tiheys 3 2 1 1 2 3 x1 0 0 x2 36

Ennustajan oppimistehtävä Koneoppimismenetelmän tehtävä voidaan nyt määritellä: Tulosta opetusdatan avulla ennustaja f, jonka odotusarvoinen tappio E (x,y) D [L(y, f(x))] on (suurella todennäköisyydellä) pieni. Idea: Jos iid-oletus pitää paikkaansa, ennustajan f todellisen tappion odotusarvo testiesimerkeillä on E (x,y) D [L(y, f(x)]. Määritelmän mukaan tavoitteena on siis pieni tappio testiesimerkeillä eli juuri se mitä halutaankin! 37

Pohdintaa oppimistehtävästä Koneoppija voi yrittää oppia opetusdatan avulla approksimaation koko jakaumasta D (generatiivinen oppiminen) tai vain ennustamaan hyvin (diskriminatiivinen oppiminen). Koska jakaumaa D ei tunneta, koneoppija ei voi laskea ennustajien odotusarvoista tappiota suoraan. Koneoppiminen ei siis ole vain odotusarvoisen tappion minimointia. Pieni odotusarvoinen tappio on jossain mielessä armelias hyvyysmitta koneoppijalle hyvien ennusteiden antaminen epätodennäköisille x X on vaikeaa, mutta näiden vaikutus otusarvoiseen tappioon on pieni. Oppimistehtävässä voi onnistua parhaimmillaankin voin suurella todennäköisyydellä, sillä opetusdata on satunnaisotos. 38

Parasennustaja Jos jakauma D tunnetaan, paras ennustaja f voidaan ainakin periaatteessa ratkaista suoraan kaavalla f (x) = arg min y Y E y DY X=x [L(y, y )]. Mutta koska jakaumaa D ei tunneta, koneoppija ei voi suoraan soveltaa yo kaavaa ennustajan löytämäseen. Tämänjakahdenseuraavankalvonkaavojaeitarvitsemuistaaulkoa,pelkästään ymmärtää. 39

Paras ennustaja: Luokittelu Luokittelutapauksessa parasta ennustajaa f sanotaan Bayes-luokittelijaksi. Ennustaja f määräytyy kaavasta f (x) = arg max y Y P y DY X=x (y = y). Paras ennustaja f ennustaa siis kullekin x X sille todennäköisintä luokkaa. 40

Paras ennustaja: Regressio Regressiotapauksessa (tappiofunktiolla L 2 ) paras ennustaja f määräytyy kaavasta f (x) = E y DY X=x [y]. Paras ennustaja ennustaa siis kullekin x X siihen liittyvän y:n odotusarvoa, so. jakauman D Y X=x odotusarvoa. Parasta ennustajaa kutsutaankin y:n ehdolliseksi odotusarvoksi ehdolla x. 41

Väistämätön tappio Parhaankaan ennustajan tappio ei välttämättä ole pieni Esimerkiksi luokittelutapauksessa on mahdollista, että D Y X=x on tasainen jakauma joukossa Y kaikilla x X Tällöin parhaankin luokittelijan (Bayes-luokittelijan) odotusarvoinen 0/1-tappio on 1 1/ Y Yleensä tietysti ollaan kiinnostuneita tapauksista, joissa D Y X=x keskittyy (useimmiten) vain pieneen Y:n osajoukkoon, ja pienen odotusarvon saavuttaminen on ainakin periaatteessa mahdollista 42