Luokittelumenetelmät (6)

Koko: px
Aloita esitys sivulta:

Download "Luokittelumenetelmät (6)"

Transkriptio

1 Luokittelumenetelmät (6) Luokittelu /päätöspuut ja satunnaismetsämenetelmä ovat erittäin suosittuja, sillä ovat helposti ymmärrettävissä ja luokittelupuut myös visualisoitavissa, toimivat luokka ja numeerisella datalla ja suurilla datamassoilla ja vieläpä nopeasti, mutta luokittelupuut kärsivät ylisovittumisesta opetusmateriaaliin: luokitin voidaan rakentaa toimimaan virheettömästi opetusdatalle (generoimalla uusi haara kunnes jokaisessa lehtisolmussa on enää yksi näyte) eivätkä yleensä saavuta parasta tarkkuutta johtuen vaikeudesta optimoida päätökset taso kerrallaan kokonaisuuden sijaan Satunnaismetsämenetelmä nauttii isosta osasta luokittelupuiden eduista, eikä kärsi haitoista, mutta oppimisen tulokset ovat haasteellisia ymmärtää vs. yksittäinen luokittelupuu ja opettaminen on ns. eräajo opetusdatalle = ei sovellu opetettavaksi Luokittelupuu käytön aikana laajenevalla 100 < 0.18 näytemateriaalilla kärsii epäbalansoidusta x 2 x opetusdatasta 2 <60.2 x 2 < Luokittelumenetelmät (7) Ns. naivi Bayes luokittelija on yksinkertainen, mutta silti monipuolinen ratkaisu sopii käytettäväksi, kun piirteitä paljon = ongelman dimensionaalisuus suuri ohjatun oppimisen menetelmä = opetetaan näytteillä, joiden luokat tunnettuja Alla esimerkki 45 opetusnäytteestä piirreavaruudessa, 15 punaista, 30 keltaista opettamisen jälkeen luokittelijan tehtävänä on ratkaista kategoriat uusille näytteille x 2 Toteamme, että keltaisen luokan opetusnäytteitä on kaksinkertaisesti punaiseen luokkaa verrattuna voidaan olettaa, että tämä pätee myös uusille luokiteltaviksi tuleville näytteille punaisten priori todennäköisyys on puolet keltaisten priori todennäköisyydestä priori todennäköisyys = ennakko arvio siitä, mitä tulee tapahtumaan, ennen kuin on uutta havaintoa on saatu priori tn punainen = 15/45 =0.33 priori tn keltainen = 30/45 =0.67

2 Luokittelumenetelmät (8) Havaitsemme opetusnäytteiden olevan klusteroituneita, joten toteamme uudet näytteet voitavan kategorisoida lähinaapurustonsa mukaan otetaan uuden näytteen naapurustosta n=5 (olisi voitu valita jotain muutakin) opetusnäytettä ja lasketaan niistä punaiset ja keltaiset kummallekin luokkavaihtoehdolle saadaan uskottavuudet (likelihood) näytteen uskottavuus olla punainen = naapuruston punaisten lukumäärä/punaisten kokonaismäärä = 2/15 näytteen uskottavuus olla keltainen = naapuruston keltaisten lukumäärä/keltaisten kokonaismäärä = 3/30 x 2 Toisin sanoen uskottavuudella 2/15 näyte on punainen ja uskottavuudella 1/10 se on keltainen naapurusto uusi näyte huom: klusteroitumisen laatu riippuu valituista piirteistä, jotka taas riippuvat käytetystä sovellustiedosta... Luokittelumenetelmät (9) Siis vaikka priori todennäköisyyksien perusteella uuden näytteen olisi voinut luokitella keltaiseksi, niin lähinaapureihin pohjautuva uskottavuus indikoi sen olevan punainen Nyt viimeinen askel: Bayesin teoreema yhdistää sekä uskottavuuden että prioritodennäköisyyden, antaen luokitusongelmallemme tuloksen näytteen posteriori tn olla punainen = uskottavuus olla punainen * priori tn olla punainen = 2/15 * 15/45 = 2/45 näytteen posteriori tn olla keltainen = uskottavuus olla keltainen * priori tn olla keltainen = 1/10 * 30/45 = 3/45 joten posteriori todennäköisyyksien perusteella kategorisoimme keltaiseksi x 2 Seuraavan näytteen tapauksessa n=5 naapurustosta löytyy kolme punaista ja kaksi keltaista opetusnäytettä niinpä posteriori tn olla punainen = 3/15 * 15/45 = 3/45 ja posteriori tn olla keltainen = 2/30 * 30/45 = 2/45 naapurusto uusi näyte [ P(luokka=A piirrevektori=x) = P(luokka=A)*P(piirrevektori=X luokka=a) ]

3 Luokittelumenetelmät (10) Naivia Bayesin luokitinta voidaan soveltaa usean kategorian ja erittäin suurien riippumattomien piirteiden tapauksiin Tarkastellaan käsin kirjoitettujen numeroiden tunnistamista tilanteessa, joissa jokainen näyte on 28x28 pikselin binäärinen kuva, esim. 784 elementtiä pitkä piirrevektori X = [ ], johon pikselit on poimittu vaikkapa riveittäin, tai missä tahansa muussa vakiojärjestyksessä. Merkitään position i pikseliä x i, i=0,1, Naivi Bayes luokitin tarvitsee todennäköisyydet kullekin piirteelle x i saada kukin mahdollinen arvonsa tiettyä numeroa esittävissä näytteissä: nämä saadaan opetusnäytteistä opetusnäyteluokkien priori todennäköisyydet tunnetaan, sillä ne ovat ihmisen kategorisoima joukko, yksinkertaisuuden vuoksi valitaan nyt balansoitu opetusnäytteistö (huom: balansoimattoman tilanteen käsittelyssä on omat ei triviaalit haasteensa) Luokittelumenetelmät (11) Hieman formaalimmin esitettynä posteriori todennäköisyys on binääripiirteiden tapauksessa balansoidulla opetusnäytejoukolla vaikkapa luokan 5 kohdalla, kun piirrevektori X=[x 0... x 783 ] P(luokka=5 piirrevektori=x) = P(luokka=5)* P(piirrevektori=X luokka=5), missä P(piirrevektori=X luokka=5) =P(piirre x 0 luokka=5)* * P(piirre x i luokka=5)*...* P(piirre x 783 luokka=5) Uskottavuudet P(piirre x 0 luokka=5)... P(piirre x 783 luokka=5) saadaan helposti määritettyä opetusnäytteistä koko uskottavuusavaruus olisi katettava, siis jokaisen piirteen todennäköisyys kun luokka on annettu Vastaava laskenta suoritetaan tuntemattoman uuden näytteen piirrevektori X:n tapauksessa jokaiselle luokalle lopuksi luokiteltavan näytteen luokaksi valitaan se, jonka posteriori todennäköisyys on suurin

4 Luokittelumenetelmät (12) Äärimmäisen yksinkertainen naivi Bayes luokittelun esimerkki: alla opetusnäytteet, jotka edustavat kahta luokkaa Y ja A, valkea ruutu edustaa binääriarvoa 1 ja musta ruutu arvoa 0. Piirteet ovat binäärisiä ja niiden positiot piirrevektorissa x 0,, x 2, x 3 Y Y Y A A A P(x 0 =0 Y) = 1/3, P(x 0 =1 Y) = 2/3 P( =0 Y) = 1/3, P( =1 Y) = 2/3 P(x 2 =0 Y) = 3/3, P(x 2 =1 Y) = 0/3 P(x 3 =0 Y) = 3/3, P(x 3 =1 Y) = 0/3 P(x 0 =0 A) = 3/3, P(x 0 =1 A) = 0/3 P( =0 A) = 3/3, P( =1 A) = 0/3 Otetaan uusi syöte eli 1100 P(x 2 =0 A) = 1/3, P(x 2 =1 A) = 2/3 P(x 3 =0 A) = 1/3, P(x 3 =1 A) = 2/3 Selvitetään, mihin luokkaan se lähinnä kuuluu: P(luokka= Y X=1100) = P(luokka=Y)[*P(piirre x 0 = 1 luokka=y)* P(piirre = 1 luokka=y)* P(piirre x 2 = 0 luokka=y)* P(piirre x 3 = 0 luokka=y) = 3/6*[2/3*2/3*3/3*3/3] = 4/18 P(luokka= A X=1100) = P(luokka=A)[*P(piirre x 0 = 1 luokka=y)* P(piirre = 1 luokka=a)* P(piirre x 2 = 0 luokka=a)* P(piirre x 3 = 0 luokka=a) = 3/6*[0/3*0/3*1/3*1/3] = 0 toteamme, että näyte luokitellaan luokkaan Y Luokittelumenetelmät (13) Entä jos syöte on eli 1110? Tällöin P(luokka= Y X=1110) = P(luokka=Y)[*P(piirre x 0 = 1 luokka=y)* P(piirre = 1 luokka=y)* P(piirre x 2 = 1 luokka=y)* P(piirre x 3 = 0 luokka=y)] = 3/6*[2/3*2/3*0/3*3/3] = 0 P(luokka= A X=1100) = P(luokka=A)[*P(piirre x 0 = 1 luokka=y)* P(piirre = 1 luokka=a)* P(piirre x 2 = 1 luokka=a)* P(piirre x 3 = 0 luokka=a)] = 3/6*[0/3*0/3*2/3*1/3] = 0 Koska tapausta, jossa x 2 =1 luokan Y tapauksessa ei esiintynyt näytejoukossa niin P(x 2 =1 Y) = 0/3 = 0 (keinoja tilanteen käsittelyyn on olemassa) naivi Bayesin luokittelija tai oikeammin opetusmateriaalin ja todellisen sovelluksen aineistojen ero voi yllättää näin, erityisesti jos opetusnäytejoukko on pieni tässäkin on kehotus varmistaa riittävä opetusmateriaali

5 Luokittelumenetelmät (14) Miksi naivi Bayes muka on naivi??? Naivi Bayes luokittelussa oletetaan, että jokainen piirre on toisistaan riippumaton = jokainen piirre muista riippumatta vaikuttaa todennäköisyyteen luokitella johonkin luokkaan esim. väri, koko, muoto kukin kertovat osuutensa todennäköisyyteen luokitella jokin kappale vaikkapa kurkuksi riippumattomuusoletuksen seurauksena todennäköisyydet voidaan laskea jokaiselle piirteelle erikseen! Yksinkertaisuudestaan huolimatta naivi Bayes toimii monissa ongelmissa erinomaisesti, vaikka piirteet eivät olekaan riippumattomia (huom: regressio ongelmien tapauksessa tilanne on toinen; kiinnostuneille Eibe et al. (2000) Naive Bayes for regression (technical note). Machine Learning, 41(1):5 25, naivi Bayes luokittelija voidaan muovata toimimaan iteratiivisella opetuksella, jolloin se soveltuu myös kasvavaa opetusnäytteistöä vaativiin sovelluksiin...ja eikö koneoppimisen pitäisi kyetä oppimaan jatkuvasti? Luokittelumenetelmät (15) Toinen helposti ymmärrettävä menetelmä on ns. k:n lähimmän naapurin luokitin (k nearest neighbor, knn) lähimmän naapurin luokittelu: haetaan uudelle näytteelle opetusnäytteistä lähimmäksi osuva näyte ja määrätään sen mukainen luokka knn: haetaan k lähintä naapuria ja valitaan luokaksi niissä useimmin esiintyvän luokka. Alla k=5 opetusnäytteet x 2 luokiteltavat näytteet knn luokittelussa haasteena on sopivan etäisyysmitan valinta piirteiden dynamiikka voi vaihdella, joten miten painottaa eri piirteitä? entä jos piirteet merkkijonoja tai tiloja? knn luokittelijaan voidaan lisätä näytemateriaalia jatkuvasti, mutta se ei ole ongelmaton epäbalansoiduilla opetusmateriaaleilla

6 Luokittelumenetelmät (16) Ns. ensemble eli yhdistelmäluokittelijat koostuvat joukosta luokittelijoita satunnaismetsämenetelmä voidaan myös tulkita yhdistelmäluokittelijan erikoistapaukseksi usean oppimisalgoritmin rinnakkaisella käytöllä kyetään saamaan yksittäistä oppijaa parempi tarkkuus huom: opetusdatan näytteistyksellä on huomattava rooli opetusdata näytteistys luokittelija 1 luokittelija luokittelija N 1 luokittelija N testidata tai sovellusdata Käsitteitä: tehostaminen (boosting): yhdistää usean ns. heikon oppijan vahvaksi oppijaksi heikko oppija: parempi kuin arvaus yhdistäminen luokittelutulos bootstrap aggregointi (bagging): otetaan opetusdatasta satunnaisotoksia siten, että valitut datapisteet voidaan valita tulevissakin otoksissa; kullakin otokselle opetetaan luokittelija ja kunkin luokittelijan tuloksesta yhdistetään lopullinen tulos Esimerkki yhdistelmäluokittelijan opetusdatan näytteistyksessä Luokittelumenetelmät (17) Luokittelija 1 opetusdata Luokittelija 2 yhdistelmäluokittelija x 2 Luokittelija 3

7 Balansoimaton data ja luokittelu (1) Ideaalitapauksissa kaikkia opetusluokkia on saman verran, esim. käsinkirjoitetuista numeroista on jokaisesta sama määrä esimerkkejä Monissa tapauksissa opetusnäytteistöä joudutaan täydentämään luokittimen tuotantokäytön aikana, kun esim. laaduntarkastuksessa havaittavista vioista opitaan lisää opetusmateriaali epäbalansoituu luokittimen suorituskyvyn mittarit voivat johtaa harhaa ja luokkarajojen virittäminen vaikeutuu vasemmalla ns. aktiivisen oppimisen ratkaisu, jossa oppiva järjestelmä kysyy ihmiseltä luokkia näytteille, joiden luokitus on sille epävarmaa hyvä tarkoitus, mutta voi ajaa opetusdatan helposti epäbalanssiin Balansoimaton data ja luokittelu (2) Epäbalanssissa olevat opetusnäytteet ovat luokittelun kompastuskivi, erityisesti jos pelkästään tavoitellaan maksimaalista virheettömyyttä (accuracy!) ja oletetaan, että sovelluksen data tulee samasta jakaumasta kuin käytetty opetusdata Virheettömyys sopii monissa tapauksissa lähinnä markkinointikäyttöön virheettömyyden määritelmä: A = (TP+TN)/(TP+TN+TN+FN) Esim. luokittelun virheettömyys voi olla tasoa 95%, mutta jos 95% datasta on samasta luokasta toisin sanoen luokittelijaa ei välttämättä kannata tuunata virheettömyyskriteerillä! tarkkuus (precision) = positive predictive value = PPV =TP/(TP+FP) ja saanti (recall) = true positive rate = TPR = TP/(TP+FN) ovat säännöllisesti paljon parempia kriteerejä todellinen kategoria ennustettu A B kategoria A TP FP B FN TN false negatives true positives true negatives false positives

8 Balansoimaton data ja luokittelu (3) Datan epäbalanssi on iso ongelma, sillä raakadatan saatavuus on helpottunut välttämättä kenelläkään ei ole käsitystä datan todellisesta kategoriajakaumasta Samanaikaisesti monien koneoppimismenetelmien soveltaminen edellyttää balansoitua opetusdataa ja virheellisen luokittelun kustannuksen olevan sama kaikissa tapauksissa Esimerkkejä vääjäämättä epäbalanssissa olevista luokitteluongelmista syöpädiagnoosien tekeminen kudosnäytteistä luottokorttipetosten havaitseminen transaktiovuosta öljyläikkien löytäminen satelliittikuvista tietomurtojen toteaminen asiakaskäyttäytymisen pohjalta tiedon haku tietomassasta, jonne on työnnetty suunnilleen mitä tahansa jne. suuri osa yo. sovellusten datasta on negatiivisia löydöksiä ja false negative virhekustannus voi olla korkea False positive löydöksillä voi myös olla oma hintansa/häpeäpaalunsa: vapaaehtoista luettavaa vuosien takaa ja tältä aamulta Salmon 2009.pdf html balansoitu data: kiinalaisen äänteen tunnistus todellinen kategoria ennustettu kategoria 媽 罵 嗎 媽 罵 嗎 ennustettu kategoria Balansoimaton data ja luokittelu (4) balansoimaton data: teräslevystä detektoidut seikat hilse kuonasulk. todellinen kategoria kuoppa naarmu keskimääräinen tarkkuus luokalle precision tai positive predictive value = PPV =TP/(TP+FP) =(62/96+77/123+83/109+82/116+26/56)/5 = Keskimääräinen saanti recall TPR = TP/(TP+FN) =( )/100/5= virheettömyys = vaaraton raita hilse kuonasulkeuma kuoppa naarmu vaaraton raita keskimääräinen tarkkuus precision tai positive predictive value = PPV = Keskimääräinen saanti recall TPR =0.876 (korkea!) kriittisten virheiden tunnistaminen silti heikkoa, silti kokonaisuudesta virheettömyys = (!)

9 Balansoimaton data ja luokittelu (5) Oletetaan ongelmamme olevan binäärinen luokittelu tyyliin virheellinen vs. virheetön, jossa virheet ovat harvinaisia positiivisia löydöksiä emme yleensä kykene valitsemaan/oppimaan piirteitä siten, että nämä kategoriat täydellisesti erottuisivat toisistaan Monet luokittelijat antavat jatkuva arvoisen tuloksen, joka kynnystetään varsinaiseksi luokkapäätökseksi esim. 1 = pienellä todennäköisyydellä ja 0.99 = suurella todennäköisyydellä tässä luokassa, päätöksen kynnys jotain näiden väliltä siten, että virhekustannus on hyväksyttävissä jokainen kynnystyspäätös tuottaa tuloksenaan joukot TP, FP, TN, ja FN (true positives, false positives, true negatives ja false negatives), joiden suuruus riippuu kynnysarvon valinnasta True negatives False negatives True positives False positives kynnys Balansoimaton data ja luokittelu (6) Balansoimatonta opetusdataa pyritään toisinaan balansoimaan, joko alinäytteistäen tai ylinäytteistäen monesti epäbalanssi on luokkaa esim. 1:100, jolloin balansoinnnissa tähdätään tulokseen 1:10 tms. Alinäytteistyksessä poimitaan satunnaisesti esim 10% opetusmateriaalin enemmistöluokkien näytteistä ongelmana voi olla olennaisen informaation ja tarkkuuden menetys Ylinäytteistyksessä monistetaan satunnaisesti valittuja vähemmistöluokkien näytteitä ongelmana on ylisovittuminen ja yliarvioitu käsitys opitun mallin suorituskyvystä Muita mahdollisia keinoja ovat virheellisten luokitusten kustannusten painottaminen oppimisessa (Bayesin ehdollisen riskin kautta) ja ns. aktiivinen oppiminen

10 Balansoimaton data ja luokittelu (7) True negatives Balansoimattomissa tapauksissa opetuksen seurauksena saadun luokittimen suorituskykyä voidaan mitata mm. tarkkuus [ precision = positive predictive value = PPV =TP/(TP+FP]) ja saanti [ recall = true positive rate TPR = TP/(TP+FN)] kriteereillä, jotka ovat jakaumista riippumattomia ROC graafi (Receiver Operating Characteristics graph) kuvaa tulosta eri kynnysarvojen funktiona (miltä näyttäisi täydellisen luokittelijan ROC?) False negatives kynnys False positives True positives true positive rate ROC kuvaaja: TPR:n ja FPR:n tyypillinen kytkös false positive rate (false alarms rate) saanti [ recall ] = true positive rate = TPR = TP/(TP+FN)] väärät hälytykset = false positive rate = FPR = 1 TN/(TN+FP) Balansoimaton data ja luokittelu (8) Tarkkuus saanti (precision recall) kuvaajat ovat usein ROC kuvaajia helpompia tulkita balansoimattomissa tilanteissa, joissa tunnistettavana harvinaisia tapauksia Esimerkiksi tiedonhakusovelluksissa kiinnostaa, kuinka iso osa tietyn luokittelualgoritmin saamista tuloksista on relevantteja (tarkkuus/precision) ja kuinka iso osa relevantista järjestelmässä olevasta tiedosta sen avulla löydettiin haussa (saanti/recall) (miltä näyttäisi täydellisen luokittelijan precision recall käppyrä?) True negatives False negatives kynnys False positives True positives tarkkuus/ precision tarkkuus [ precision ]= positive predictive value = PPV =TP/(TP+FP) saanti [ recall ] = true positive rate TPR = TP/(TP+FN) precision recall kuvaajat kolmelle hakualgoritmille saanti/recall

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.

Lisätiedot

1. TILASTOLLINEN HAHMONTUNNISTUS

1. TILASTOLLINEN HAHMONTUNNISTUS 1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:

Lisätiedot

Tekstuurintunnistuksen lyhyt oppimäärä. Ts. pari tapaa erottaa tiiliseinä pensaasta.

Tekstuurintunnistuksen lyhyt oppimäärä. Ts. pari tapaa erottaa tiiliseinä pensaasta. Tekstuurintunnistuksen lyhyt oppimäärä Ts. pari tapaa erottaa tiiliseinä pensaasta. Mitä on tekstuuri? Vaikea määritellä, mutta: Pintakuvio Ornamentti tuntu kuviointi Miksi tämän pitäisi kiinnostaa? (Maantienmerkkausrobotti)

Lisätiedot

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu

Lisätiedot

Avainsanojen poimiminen Eeva Ahonen

Avainsanojen poimiminen Eeva Ahonen Avainsanojen poimiminen 5.10.2004 Eeva Ahonen Sisältö Avainsanat Menetelmät C4.5 päätöspuut GenEx algoritmi Bayes malli Testit Tulokset Avainsanat Tiivistä tietoa dokumentin sisällöstä ihmislukijalle hakukoneelle

Lisätiedot

Bayesilainen päätöksenteko / Bayesian decision theory

Bayesilainen päätöksenteko / Bayesian decision theory Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena

Lisätiedot

Ohjattu oppiminen & regressio ja. luokitteluongelma

Ohjattu oppiminen & regressio ja. luokitteluongelma ongelma Ohjattu oppiminen & regressio ja luokitteluongelmat Ongelmanratkaisussa kannattaa yleensä käyttää kaikki tarjolla oleva tieto, jos sitä on vähentää opetusdatan tarvetta, voi johtaa tehokkaisiin

Lisätiedot

1 Bayesin teoreeman käyttö luokittelijana

1 Bayesin teoreeman käyttö luokittelijana 1 Bayesin teoreeman käyttö luokittelijana Bayesin kaavan mukaan merkityksen kontekstille c ehdollistettu todennäkköisyys voidaan määrittää alla olevan yhtälön perusteella: P ( c) = P (c )P ( ) P (c) (1)

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1 T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]

Johdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ] Johdatus tekoälyyn Luento 6.10.2011: Koneoppiminen Patrik Hoyer [ Kysykää ja kommentoikaa luennon aikana! ] Koneoppiminen? Määritelmä: kone = tietokone, tietokoneohjelma oppiminen = ongelmanratkaisukyvyn

Lisätiedot

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi

Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 29-31.10.2008. 1 Tällä viikolla 1. Käytännön järjestelyistä 2. Kurssin sisällöstä ja aikataulusta 3. Johdantoa Mitä koneoppiminen

Lisätiedot

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.

Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0. T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen

Lisätiedot

TILASTOLLINEN OPPIMINEN

TILASTOLLINEN OPPIMINEN 301 TILASTOLLINEN OPPIMINEN Salmiakki- ja hedelmämakeisia on pakattu samanlaisiin käärepapereihin suurissa säkeissä, joissa on seuraavat sekoitussuhteet h 1 : 100% salmiakkia h 2 : 75% salmiakkia + 25%

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti

Lisätiedot

Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia.

Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia. 1 Luokittelijan suorituskyvyn optimointi Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia. A. Piirteen valinnan menetelmiä

Lisätiedot

T Luonnollisten kielten tilastollinen käsittely

T Luonnollisten kielten tilastollinen käsittely T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu 1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy

Lisätiedot

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat

Kaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat 1 Tukivektoriluokittelija Tukivektorikoneeseen (support vector machine) perustuva luoikittelija on tilastollisen koneoppimisen teoriaan perustuva lineaarinen luokittelija. Perusajatus on sovittaa kahden

Lisätiedot

Jatkuvat satunnaismuuttujat

Jatkuvat satunnaismuuttujat Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään

Lisätiedot

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi Historiaa Bayesin kaavan hyödyntäminen BN-ohjelmistoja ollut ennenkin Tanskalaisten Hugin

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto

Lisätiedot

Datatähti 2019 loppu

Datatähti 2019 loppu Datatähti 2019 loppu task type time limit memory limit A Summa standard 1.00 s 512 MB B Bittijono standard 1.00 s 512 MB C Auringonlasku standard 1.00 s 512 MB D Binääripuu standard 1.00 s 512 MB E Funktio

Lisätiedot

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista

Lisätiedot

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Luku 14 - Koneoppiminen ja luokittelu

Luku 14 - Koneoppiminen ja luokittelu Luku 14 - Koneoppiminen ja luokittelu Matti Eskelinen 6.5.2018 Tässä luvussa opimme perusasiat koneoppimisesta ja mallien kouluttamisesta. Opimme mitä tarkoittavat ylioppiminen ja alioppiminen ja miten

Lisätiedot

Osa 2: Otokset, otosjakaumat ja estimointi

Osa 2: Otokset, otosjakaumat ja estimointi Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin

Lisätiedot

Mistä on kyse? Pilvien luokittelu satelliittikuvissa. Sisältö. Satelliittikartoitus. Rami Rautkorpi 25.1.2006. Satelliittikartoitus

Mistä on kyse? Pilvien luokittelu satelliittikuvissa. Sisältö. Satelliittikartoitus. Rami Rautkorpi 25.1.2006. Satelliittikartoitus Pilvien luokittelu satelliittikuvissa Mistä on kyse? Rami Rautkorpi 25.1.2006 25.1.2006 Pilvien luokittelu satelliittikuvissa 2 Sisältö Satelliittikartoitus Satelliittikartoitus Pilvien luokittelu Ensimmäinen

Lisätiedot

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5 SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5 Jussi Tohka jussi.tohka@tut.fi Signaalinkäsittelyn laitos Tampereen teknillinen yliopisto SGN-2500 Johdatus hahmontunnistukseen 2007Luennot 4 ja

Lisätiedot

E. Oja ja H. Mannila Datasta Tietoon: Luku 6

E. Oja ja H. Mannila Datasta Tietoon: Luku 6 6. HAHMONTUNNISTUKSEN PERUSTEITA 6.1. Johdanto Hahmontunnistus on tieteenala, jossa luokitellaan joitakin kohteita niistä tehtyjen havaintojen perusteella luokkiin Esimerkki: käsinkirjoitettujen numeroiden,

Lisätiedot

Älykäs datan tuonti kuljetusongelman optimoinnissa. Antoine Kalmbach

Älykäs datan tuonti kuljetusongelman optimoinnissa. Antoine Kalmbach Älykäs datan tuonti kuljetusongelman optimoinnissa Antoine Kalmbach ane@iki.fi Sisällys Taustaa Kuljetusongelma Datan tuominen vaikeaa Teoriaa Tiedostojen väliset linkit Mikä sarake on mikäkin? Ratkaisutoteutus

Lisätiedot

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI 1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä

Lisätiedot

JOHDATUS TEKOÄLYYN LUENTO 4.

JOHDATUS TEKOÄLYYN LUENTO 4. 2009 CBS INTERACTIVE JOHDATUS TEKOÄLYYN LUENTO 4. TODENNÄKÖISYYSMALLINNUS II: BAYESIN KAAVA TEEMU ROOS Marvin Minsky Father of Artificial Intelligence, 1927 2016 PINGVIINI(tweety) :- true. Wulffmorgenthaler

Lisätiedot

Kognitiivinen mallintaminen. Nelli Salminen

Kognitiivinen mallintaminen. Nelli Salminen Kognitiivinen mallintaminen Neuraalimallinnus 24.11. Nelli Salminen nelli.salminen@tkk.fi Tällä kerralla ohjelmassa vielä perseptronista ja backpropagationista kilpaileva oppiminen, Kohosen verkko oppimissääntöjen

Lisätiedot

Luku 6. Hahmontunnistuksen perusteita

Luku 6. Hahmontunnistuksen perusteita 1 / 54 Luku 6. Hahmontunnistuksen perusteita T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 17.11.2011 2 / 54 Tämän luvun sisältö Tämä luku

Lisätiedot

Tällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö

Tällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö Tällä kerralla ohjelmassa Kognitiivinen mallintaminen Neuraalimallinnus 19.2. Nelli Salminen nelli.salminen@helsinki.fi D433 vielä perseptronista ja backpropagationista kilpaileva oppiminen, Kohosen verkko

Lisätiedot

Laskennallinen data-analyysi II

Laskennallinen data-analyysi II Laskennallinen data-analyysi II Patrik Hoyer Epävarmuuden mallintaminen 16 17.4.2008 LDA II, osa 3: epävarmuuden mallintaminen Luennot (16.4 ja 17.4) - ongelma, menetelmät, esimerkkejä (kalvot verkossa

Lisätiedot

Tutkimustiedonhallinnan peruskurssi

Tutkimustiedonhallinnan peruskurssi Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,

Lisätiedot

pitkittäisaineistoissa

pitkittäisaineistoissa Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf

Lisätiedot

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI

1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä

Lisätiedot

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1

Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1 Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava TKK (c) Ilkka Mellin (2005) 1 Kokonaistodennäköisyys ja Bayesin kaava Kokonaistodennäköisyys ja Bayesin kaava: Johdanto Kokonaistodennäköisyyden

Lisätiedot

031021P Tilastomatematiikka (5 op)

031021P Tilastomatematiikka (5 op) 031021P Tilastomatematiikka (5 op) Jukka Kemppainen Mathematics Division Yleinen todennäköisyys Kertausmateriaalissa esiteltiin koulusta tuttuja todennäköisyysmalleja. Tällä kurssilla todennäköisyys on

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin

Lisätiedot

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018

BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018 BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018 Tehtävä 8 on tällä kertaa pakollinen. Aloittakaapa siitä. 1. Kun tässä tehtävässä sanotaan sopii mahdollisimman hyvin, sillä tarkoitetaan

Lisätiedot

Tekoäly ja koneoppiminen metsävaratiedon apuna

Tekoäly ja koneoppiminen metsävaratiedon apuna Tekoäly ja koneoppiminen metsävaratiedon apuna Arbonaut Oy ja LUT University 26. marraskuuta 2018 Metsätieteen päivä 2018 Koneoppimisen kohteena ovat lukujen sijasta jakaumat Esimerkki 1 Koneoppimisessa

Lisätiedot

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla Sanaluokkajäsennystä rinnakkaisilla transduktoreilla Nykykielten laitos FIN-CLARIN-seminaarissa 4. marraskuuta 2010 Sanaluokkajäsennys Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. Sanaluokkajäsennin

Lisätiedot

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme? TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman

Lisätiedot

Tämän luvun sisältö. Luku 6. Hahmontunnistuksen perusteita. Luokittelu (2) Luokittelu

Tämän luvun sisältö. Luku 6. Hahmontunnistuksen perusteita. Luokittelu (2) Luokittelu Tämän luvun sisältö Luku 6. T-6. Datasta tietoon, syksy professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 7.. Tämä luku käydään kahdella luennolla: ensimmäisellä luokittelu ja toisella

Lisätiedot

Datanäytteiden piirteiden skaalaus/normalisointi (1)

Datanäytteiden piirteiden skaalaus/normalisointi (1) Datanäytteiden piirteiden skaalaus/normalisointi (1) Datamassat, jotka syötetään samankaltaisuuksia useamman kuin yhden piirteen pohjalta hyödyntäviin koneoppimismenetelmiin, voivat tarvita esikäsittelykseen

Lisätiedot

Mallipohjainen klusterointi

Mallipohjainen klusterointi Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio

Lisätiedot

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti

Luku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti Luku 6 Dynaaminen ohjelmointi Dynaamisessa ohjelmoinnissa on ideana jakaa ongelman ratkaisu pienempiin osaongelmiin, jotka voidaan ratkaista toisistaan riippumattomasti. Jokaisen osaongelman ratkaisu tallennetaan

Lisätiedot

30A02000 Tilastotieteen perusteet

30A02000 Tilastotieteen perusteet 30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi

Lisätiedot

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8. HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 8 Harjoitus Ratkaisuehdotuksia Tehtäväsarja I Tehtävät -5 perustuvat monisteen kappaleisiin..7 ja tehtävä 6 kappaleeseen.8..

Lisätiedot

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx. Yhteenveto: Satunnaisvektorit ovat kuvauksia tn-avaruudelta seillaiselle avaruudelle, johon sisältyy satunnaisvektorin kaikki mahdolliset reaalisaatiot. Satunnaisvektorin realisaatio eli otos on jokin

Lisätiedot

luokittelu on mahdollisimman tehokasta Esimerkkejä hahmontunnistussovelluksista: Satelliittikuvien tulkinta Tekstin tunnistus

luokittelu on mahdollisimman tehokasta Esimerkkejä hahmontunnistussovelluksista: Satelliittikuvien tulkinta Tekstin tunnistus 6. HAHMONTUNNISTUKSEN PERUSTEITA 6.1. Johdanto Hahmontunnistus on tieteenala, jossa luokitellaan joitakin kohteita niistä tehtyjen havaintojen perusteella luokkiin Esimerkki: käsinkirjoitettujen numeroiden,

Lisätiedot

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS JOHDATUS TEKOÄLYYN TEEMU ROOS PINGVIINI(tweety) :- true. Wulffmorgenthaler HS 14.9.2012 TODENNÄKÖISYYS (TN) EHDOLLINEN TN: P(B A) B:N TODENNÄKÖISYYS, KUN TIEDETÄÄN, ETTÄ A B:N EHDOLLINEN TN ANNETTUNA A

Lisätiedot

Harjoitus 7: NCSS - Tilastollinen analyysi

Harjoitus 7: NCSS - Tilastollinen analyysi Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen

Lisätiedot

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1 Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen

Lisätiedot

Harha mallin arvioinnissa

Harha mallin arvioinnissa Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö

Lisätiedot

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Otanta Poisson- Jakaumien tunnusluvut Diskreetit jakaumat Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen

Lisätiedot

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi

Lisätiedot

Osa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat

Osa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat Ilkka Mellin Todennäköisyyslaskenta Osa 1: Todennäköisyys ja sen laskusäännöt Kokonaistodennäköisyyden ja Bayesin kaavat TKK (c) Ilkka Mellin (2007) 1 Kokonaistodennäköisyys ja Bayesin kaava >> Kokonaistodennäköisyys

Lisätiedot

Parametrien oppiminen

Parametrien oppiminen 38 Parametrie oppimie Tilastollise malli (Bayes-verkko rakee o kiiitetty, se umeeriste parametrie (ehdolliste todeäköisyyksie arvot pyritää määräämää Oletamme havaitoe oleva täydellisiä; s.o., okaise datapistee

Lisätiedot

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi

Tekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi Tekoäly ja alustatalous Miten voit hyödyntää niitä omassa liiketoiminnassasi AI & Alustatalous AI Digitaalisuudessa on 1 ja 0, kumpia haluamme olla? Alustatalouden kasvuloikka Digitaalisen alustatalouden

Lisätiedot

Diskriminanttianalyysi I

Diskriminanttianalyysi I Diskriminanttianalyysi I 12.4-12.5 Aira Hast 24.11.2010 Sisältö LDA:n kertaus LDA:n yleistäminen FDA FDA:n ja muiden menetelmien vertaaminen Estimaattien laskeminen Johdanto Lineaarinen diskriminanttianalyysi

Lisätiedot

Johdatus tekoälyyn (T. Roos) Kurssikoe

Johdatus tekoälyyn (T. Roos) Kurssikoe 582216 Johdatus tekoälyyn (T. Roos) Kurssikoe 18.10.2013 Kokeessa saa pitää mukana käsinkirjoitettua A4-kokoista kaksipuolista lunttilappua, joka on palautettava koepaperin mukana. Huomaa että jokaisen

Lisätiedot

Kojemeteorologia. Sami Haapanala syksy 2013. Fysiikan laitos, Ilmakehätieteiden osasto

Kojemeteorologia. Sami Haapanala syksy 2013. Fysiikan laitos, Ilmakehätieteiden osasto Kojemeteorologia Sami Haapanala syksy 2013 Fysiikan laitos, Ilmakehätieteiden osasto Mittalaitteiden staattiset ominaisuudet Mittalaitteita kuvaavat tunnusluvut voidaan jakaa kahteen luokkaan Staattisiin

Lisätiedot

1. Universaaleja laskennan malleja

1. Universaaleja laskennan malleja 1. Universaaleja laskennan malleja Laskenta datan käsittely annettuja sääntöjä täsmällisesti seuraamalla kahden kokonaisluvun kertolasku tietokoneella, tai kynällä ja paperilla: selvästi laskentaa entä

Lisätiedot

2. Bayesin päätösteoria

2. Bayesin päätösteoria 13 / 99 2. Bayesin päätösteoria 2.1. Johdanto Bayesin päätösteorian (Bayesian decision theory) avulla on mahdollista johtaa optimaalisia tilastollisia luokittelijoita. Perustuu todennäköisyyslaskentaan

Lisätiedot

6. laskuharjoitusten vastaukset (viikot 10 11)

6. laskuharjoitusten vastaukset (viikot 10 11) 6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287

Lisätiedot

Tiedon louhinnan tulosten arviointi. OUGF syysseminaari 2004 Hannu Toivonen

Tiedon louhinnan tulosten arviointi. OUGF syysseminaari 2004 Hannu Toivonen Tiedon louhinnan tulosten arviointi OUGF syysseminaari 2004 Hannu Toivonen hannu.toivonen@cs.helsinki.fi 1 Kerry voittaa vaalit! Tiedon louhinta on tuottanut seuraavan tuloksen ( ): Jos Washington Redskins

Lisätiedot

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1

T Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1 T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti 24.2.2004, 8:30-0:00 N-grammikielimallit, Versio.. Alla on erään henkilön ja tilaston estimaatit sille, miten todennäköistä on, että

Lisätiedot

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007 Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen

Lisätiedot

Varma tapahtuma, Yhdiste, Yhdistetty tapahtuma, Yhteenlaskusääntö

Varma tapahtuma, Yhdiste, Yhdistetty tapahtuma, Yhteenlaskusääntö Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Unioni, Todennäköisyyslaskennan peruskäsitteet Todennäköisyyslaskennan peruslaskusäännöt Alkeistapahtuma, Ehdollinen todennäköisyys,

Lisätiedot

Laskennan rajoja. TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 10. joulukuuta 2015 TIETOTEKNIIKAN LAITOS.

Laskennan rajoja. TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 10. joulukuuta 2015 TIETOTEKNIIKAN LAITOS. TIEA241 Automaatit ja kieliopit, syksy 2015 Antti-Juhani Kaijanaho TIETOTEKNIIKAN LAITOS 10. joulukuuta 2015 Sisällys TM vs yleiset kieliopit Lause Jokaiselle kielelle A seuraavat ovat yhtäpitävät: 1.

Lisätiedot

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi. Algoritmien DP ja MF vertaileminen tapahtuu suoraviivaisesti kirjoittamalla kummankin leskimääräinen kustannus eksplisiittisesti todennäköisyyksien avulla. Lause T MF ave = 1 + 2 1 i

Lisätiedot

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

r = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit. A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät

Lisätiedot

Oppijan saama palaute määrää oppimisen tyypin

Oppijan saama palaute määrää oppimisen tyypin 281 5. KONEOPPIMINEN Älykäs agentti voi joutua oppimaan mm. seuraavia seikkoja: Kuvaus nykytilan ehdoilta suoraan toiminnolle Maailman relevanttien ominaisuuksien päätteleminen havaintojonoista Maailman

Lisätiedot

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun

Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään

Lisätiedot

Yhteistyötä sisältämätön peliteoria jatkuu

Yhteistyötä sisältämätön peliteoria jatkuu Yhteistyötä sisältämätön peliteoria jatkuu Tommi Lehtonen Optimointiopin seminaari - Syksy 2000 / 1 Bayesilainen tasapaino Täysi informaatio Vajaa informaatio Staattinen Nash Bayes Dynaaminen Täydellinen

Lisätiedot

2. laskuharjoituskierros, vko 5, ratkaisut

2. laskuharjoituskierros, vko 5, ratkaisut 2. laskuharjoituskierros, vko, ratkaisut Aiheet: Klassinen todennäköisyys, kombinatoriikka, kokonaistodennäköisyys ja Bayesin kaava D1. Eräässä maassa autojen rekisterikilpien tunnukset ovat muotoa XXXXNN,

Lisätiedot

SAS -kartat Taloustohtori -verkkopalveluissa

SAS -kartat Taloustohtori -verkkopalveluissa SAS Technical Club. Vuosikokous 20.3.2013 SAS -kartat Taloustohtori -verkkopalveluissa Arto Latukka Maa- ja elintarviketalouden tutkimuskeskus, MTT MTT Taloustutkimus Taloustohtori sivusto (mtt.fi/taloustohtori)

Lisätiedot

Sovellettu todennäköisyyslaskenta B

Sovellettu todennäköisyyslaskenta B Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo

Lisätiedot

11. laskuharjoituskierros, vko 15, ratkaisut

11. laskuharjoituskierros, vko 15, ratkaisut 11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa

Lisätiedot

Martingaalit ja informaatioprosessit

Martingaalit ja informaatioprosessit 4A Martingaalit ja informaatioprosessit Tämän harjoituksen tavoitteena on tutustua satunnaisvektorin informaation suhteen lasketun ehdollisen odotusarvon käsitteeseen sekä oppia tunnistamaan, milloin annettu

Lisätiedot

Johdatus tn-laskentaan perjantai 17.2.2012

Johdatus tn-laskentaan perjantai 17.2.2012 Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;

Lisätiedot

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa? 1 / 14 Luku 2. Datasta tietoon: mitä dataa? mitä tietoa? T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 31.10.2011 2 / 14 Tämän luennon sisältö

Lisätiedot

Tekoäly ja sen soveltaminen yrityksissä. Mika Rantonen

Tekoäly ja sen soveltaminen yrityksissä. Mika Rantonen Tekoäly ja sen soveltaminen yrityksissä Mika Rantonen Tekoäly- paljon puhetta, mistä kyse? Lyhyesti sanottuna: tekoäly on sellaista koneen tekemää toimintaa, joka ihmisen tekemänä olisi älykästä Otetaan

Lisätiedot

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset Todennäköisyyslaskenta IIa, syyslokakuu 019 / Hytönen. laskuharjoitus, ratkaisuehdotukset 1. Kurssilla on 0 opiskelijaa, näiden joukossa Jutta, Jyrki, Ilkka ja Alex. Opettaja aikoo valita umpimähkään opiskelijan

Lisätiedot

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B Tilastollinen päättömyys, kevät 7 Harjoitus 6B Heikki Korpela 8. helmikuuta 7 Tehtävä. Monisteen teht. 6... Olkoot Y,..., Y 5 Nµ, σ, ja merkitään S 5 i Y i Y /4. Näytä, että S/σ on saranasuure eli sen

Lisätiedot

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Mallin arviointi ja valinta Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Sisältö Otoksen ennustevirheen estimointi AIC - Akaiken informaatiokriteeri mallin valintaan Parametrimäärän

Lisätiedot

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2008. Tehtävissä 1, 2, ja 3 tarkastelemme seuraavaa tilannetta:

ORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2008. Tehtävissä 1, 2, ja 3 tarkastelemme seuraavaa tilannetta: RMS22 Päätöksenteko epävarmuuden vallitessa Syksy 28 Harjoitus 8 Ratkaisuehdotuksia Tehtävissä 1, 2, ja 3 tarkastelemme seuraavaa tilannetta: Pankki harkitsee myöntääkö 5. euron lainan asiakkaalle 12%

Lisätiedot

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Inversio-ongelmien laskennallinen peruskurssi Luento 7 Inversio-ongelmien laskennallinen peruskurssi Luento 7 Kevät 2012 1 Tilastolliset inversio-ongelmat Tilastollinen ionversio perustuu seuraaviin periaatteisiin: 1. Kaikki mallissa olevat muuttujat mallinnetaan

Lisätiedot

Pitkän kantaman aktiivinen hyperspektraalinen laserkeilaus

Pitkän kantaman aktiivinen hyperspektraalinen laserkeilaus Pitkän kantaman aktiivinen hyperspektraalinen laserkeilaus MATINE:n Tutkimusseminaari, 18.11.2015 Helsinki Sanna Kaasalainen, Olli Nevalainen, Teemu Hakala Paikkatietokeskus Sisällys Taustaa Multispektraaliset

Lisätiedot