Luokittelumenetelmät (6)
|
|
- Jyrki Myllymäki
- 5 vuotta sitten
- Katselukertoja:
Transkriptio
1 Luokittelumenetelmät (6) Luokittelu /päätöspuut ja satunnaismetsämenetelmä ovat erittäin suosittuja, sillä ovat helposti ymmärrettävissä ja luokittelupuut myös visualisoitavissa, toimivat luokka ja numeerisella datalla ja suurilla datamassoilla ja vieläpä nopeasti, mutta luokittelupuut kärsivät ylisovittumisesta opetusmateriaaliin: luokitin voidaan rakentaa toimimaan virheettömästi opetusdatalle (generoimalla uusi haara kunnes jokaisessa lehtisolmussa on enää yksi näyte) eivätkä yleensä saavuta parasta tarkkuutta johtuen vaikeudesta optimoida päätökset taso kerrallaan kokonaisuuden sijaan Satunnaismetsämenetelmä nauttii isosta osasta luokittelupuiden eduista, eikä kärsi haitoista, mutta oppimisen tulokset ovat haasteellisia ymmärtää vs. yksittäinen luokittelupuu ja opettaminen on ns. eräajo opetusdatalle = ei sovellu opetettavaksi Luokittelupuu käytön aikana laajenevalla 100 < 0.18 näytemateriaalilla kärsii epäbalansoidusta x 2 x opetusdatasta 2 <60.2 x 2 < Luokittelumenetelmät (7) Ns. naivi Bayes luokittelija on yksinkertainen, mutta silti monipuolinen ratkaisu sopii käytettäväksi, kun piirteitä paljon = ongelman dimensionaalisuus suuri ohjatun oppimisen menetelmä = opetetaan näytteillä, joiden luokat tunnettuja Alla esimerkki 45 opetusnäytteestä piirreavaruudessa, 15 punaista, 30 keltaista opettamisen jälkeen luokittelijan tehtävänä on ratkaista kategoriat uusille näytteille x 2 Toteamme, että keltaisen luokan opetusnäytteitä on kaksinkertaisesti punaiseen luokkaa verrattuna voidaan olettaa, että tämä pätee myös uusille luokiteltaviksi tuleville näytteille punaisten priori todennäköisyys on puolet keltaisten priori todennäköisyydestä priori todennäköisyys = ennakko arvio siitä, mitä tulee tapahtumaan, ennen kuin on uutta havaintoa on saatu priori tn punainen = 15/45 =0.33 priori tn keltainen = 30/45 =0.67
2 Luokittelumenetelmät (8) Havaitsemme opetusnäytteiden olevan klusteroituneita, joten toteamme uudet näytteet voitavan kategorisoida lähinaapurustonsa mukaan otetaan uuden näytteen naapurustosta n=5 (olisi voitu valita jotain muutakin) opetusnäytettä ja lasketaan niistä punaiset ja keltaiset kummallekin luokkavaihtoehdolle saadaan uskottavuudet (likelihood) näytteen uskottavuus olla punainen = naapuruston punaisten lukumäärä/punaisten kokonaismäärä = 2/15 näytteen uskottavuus olla keltainen = naapuruston keltaisten lukumäärä/keltaisten kokonaismäärä = 3/30 x 2 Toisin sanoen uskottavuudella 2/15 näyte on punainen ja uskottavuudella 1/10 se on keltainen naapurusto uusi näyte huom: klusteroitumisen laatu riippuu valituista piirteistä, jotka taas riippuvat käytetystä sovellustiedosta... Luokittelumenetelmät (9) Siis vaikka priori todennäköisyyksien perusteella uuden näytteen olisi voinut luokitella keltaiseksi, niin lähinaapureihin pohjautuva uskottavuus indikoi sen olevan punainen Nyt viimeinen askel: Bayesin teoreema yhdistää sekä uskottavuuden että prioritodennäköisyyden, antaen luokitusongelmallemme tuloksen näytteen posteriori tn olla punainen = uskottavuus olla punainen * priori tn olla punainen = 2/15 * 15/45 = 2/45 näytteen posteriori tn olla keltainen = uskottavuus olla keltainen * priori tn olla keltainen = 1/10 * 30/45 = 3/45 joten posteriori todennäköisyyksien perusteella kategorisoimme keltaiseksi x 2 Seuraavan näytteen tapauksessa n=5 naapurustosta löytyy kolme punaista ja kaksi keltaista opetusnäytettä niinpä posteriori tn olla punainen = 3/15 * 15/45 = 3/45 ja posteriori tn olla keltainen = 2/30 * 30/45 = 2/45 naapurusto uusi näyte [ P(luokka=A piirrevektori=x) = P(luokka=A)*P(piirrevektori=X luokka=a) ]
3 Luokittelumenetelmät (10) Naivia Bayesin luokitinta voidaan soveltaa usean kategorian ja erittäin suurien riippumattomien piirteiden tapauksiin Tarkastellaan käsin kirjoitettujen numeroiden tunnistamista tilanteessa, joissa jokainen näyte on 28x28 pikselin binäärinen kuva, esim. 784 elementtiä pitkä piirrevektori X = [ ], johon pikselit on poimittu vaikkapa riveittäin, tai missä tahansa muussa vakiojärjestyksessä. Merkitään position i pikseliä x i, i=0,1, Naivi Bayes luokitin tarvitsee todennäköisyydet kullekin piirteelle x i saada kukin mahdollinen arvonsa tiettyä numeroa esittävissä näytteissä: nämä saadaan opetusnäytteistä opetusnäyteluokkien priori todennäköisyydet tunnetaan, sillä ne ovat ihmisen kategorisoima joukko, yksinkertaisuuden vuoksi valitaan nyt balansoitu opetusnäytteistö (huom: balansoimattoman tilanteen käsittelyssä on omat ei triviaalit haasteensa) Luokittelumenetelmät (11) Hieman formaalimmin esitettynä posteriori todennäköisyys on binääripiirteiden tapauksessa balansoidulla opetusnäytejoukolla vaikkapa luokan 5 kohdalla, kun piirrevektori X=[x 0... x 783 ] P(luokka=5 piirrevektori=x) = P(luokka=5)* P(piirrevektori=X luokka=5), missä P(piirrevektori=X luokka=5) =P(piirre x 0 luokka=5)* * P(piirre x i luokka=5)*...* P(piirre x 783 luokka=5) Uskottavuudet P(piirre x 0 luokka=5)... P(piirre x 783 luokka=5) saadaan helposti määritettyä opetusnäytteistä koko uskottavuusavaruus olisi katettava, siis jokaisen piirteen todennäköisyys kun luokka on annettu Vastaava laskenta suoritetaan tuntemattoman uuden näytteen piirrevektori X:n tapauksessa jokaiselle luokalle lopuksi luokiteltavan näytteen luokaksi valitaan se, jonka posteriori todennäköisyys on suurin
4 Luokittelumenetelmät (12) Äärimmäisen yksinkertainen naivi Bayes luokittelun esimerkki: alla opetusnäytteet, jotka edustavat kahta luokkaa Y ja A, valkea ruutu edustaa binääriarvoa 1 ja musta ruutu arvoa 0. Piirteet ovat binäärisiä ja niiden positiot piirrevektorissa x 0,, x 2, x 3 Y Y Y A A A P(x 0 =0 Y) = 1/3, P(x 0 =1 Y) = 2/3 P( =0 Y) = 1/3, P( =1 Y) = 2/3 P(x 2 =0 Y) = 3/3, P(x 2 =1 Y) = 0/3 P(x 3 =0 Y) = 3/3, P(x 3 =1 Y) = 0/3 P(x 0 =0 A) = 3/3, P(x 0 =1 A) = 0/3 P( =0 A) = 3/3, P( =1 A) = 0/3 Otetaan uusi syöte eli 1100 P(x 2 =0 A) = 1/3, P(x 2 =1 A) = 2/3 P(x 3 =0 A) = 1/3, P(x 3 =1 A) = 2/3 Selvitetään, mihin luokkaan se lähinnä kuuluu: P(luokka= Y X=1100) = P(luokka=Y)[*P(piirre x 0 = 1 luokka=y)* P(piirre = 1 luokka=y)* P(piirre x 2 = 0 luokka=y)* P(piirre x 3 = 0 luokka=y) = 3/6*[2/3*2/3*3/3*3/3] = 4/18 P(luokka= A X=1100) = P(luokka=A)[*P(piirre x 0 = 1 luokka=y)* P(piirre = 1 luokka=a)* P(piirre x 2 = 0 luokka=a)* P(piirre x 3 = 0 luokka=a) = 3/6*[0/3*0/3*1/3*1/3] = 0 toteamme, että näyte luokitellaan luokkaan Y Luokittelumenetelmät (13) Entä jos syöte on eli 1110? Tällöin P(luokka= Y X=1110) = P(luokka=Y)[*P(piirre x 0 = 1 luokka=y)* P(piirre = 1 luokka=y)* P(piirre x 2 = 1 luokka=y)* P(piirre x 3 = 0 luokka=y)] = 3/6*[2/3*2/3*0/3*3/3] = 0 P(luokka= A X=1100) = P(luokka=A)[*P(piirre x 0 = 1 luokka=y)* P(piirre = 1 luokka=a)* P(piirre x 2 = 1 luokka=a)* P(piirre x 3 = 0 luokka=a)] = 3/6*[0/3*0/3*2/3*1/3] = 0 Koska tapausta, jossa x 2 =1 luokan Y tapauksessa ei esiintynyt näytejoukossa niin P(x 2 =1 Y) = 0/3 = 0 (keinoja tilanteen käsittelyyn on olemassa) naivi Bayesin luokittelija tai oikeammin opetusmateriaalin ja todellisen sovelluksen aineistojen ero voi yllättää näin, erityisesti jos opetusnäytejoukko on pieni tässäkin on kehotus varmistaa riittävä opetusmateriaali
5 Luokittelumenetelmät (14) Miksi naivi Bayes muka on naivi??? Naivi Bayes luokittelussa oletetaan, että jokainen piirre on toisistaan riippumaton = jokainen piirre muista riippumatta vaikuttaa todennäköisyyteen luokitella johonkin luokkaan esim. väri, koko, muoto kukin kertovat osuutensa todennäköisyyteen luokitella jokin kappale vaikkapa kurkuksi riippumattomuusoletuksen seurauksena todennäköisyydet voidaan laskea jokaiselle piirteelle erikseen! Yksinkertaisuudestaan huolimatta naivi Bayes toimii monissa ongelmissa erinomaisesti, vaikka piirteet eivät olekaan riippumattomia (huom: regressio ongelmien tapauksessa tilanne on toinen; kiinnostuneille Eibe et al. (2000) Naive Bayes for regression (technical note). Machine Learning, 41(1):5 25, naivi Bayes luokittelija voidaan muovata toimimaan iteratiivisella opetuksella, jolloin se soveltuu myös kasvavaa opetusnäytteistöä vaativiin sovelluksiin...ja eikö koneoppimisen pitäisi kyetä oppimaan jatkuvasti? Luokittelumenetelmät (15) Toinen helposti ymmärrettävä menetelmä on ns. k:n lähimmän naapurin luokitin (k nearest neighbor, knn) lähimmän naapurin luokittelu: haetaan uudelle näytteelle opetusnäytteistä lähimmäksi osuva näyte ja määrätään sen mukainen luokka knn: haetaan k lähintä naapuria ja valitaan luokaksi niissä useimmin esiintyvän luokka. Alla k=5 opetusnäytteet x 2 luokiteltavat näytteet knn luokittelussa haasteena on sopivan etäisyysmitan valinta piirteiden dynamiikka voi vaihdella, joten miten painottaa eri piirteitä? entä jos piirteet merkkijonoja tai tiloja? knn luokittelijaan voidaan lisätä näytemateriaalia jatkuvasti, mutta se ei ole ongelmaton epäbalansoiduilla opetusmateriaaleilla
6 Luokittelumenetelmät (16) Ns. ensemble eli yhdistelmäluokittelijat koostuvat joukosta luokittelijoita satunnaismetsämenetelmä voidaan myös tulkita yhdistelmäluokittelijan erikoistapaukseksi usean oppimisalgoritmin rinnakkaisella käytöllä kyetään saamaan yksittäistä oppijaa parempi tarkkuus huom: opetusdatan näytteistyksellä on huomattava rooli opetusdata näytteistys luokittelija 1 luokittelija luokittelija N 1 luokittelija N testidata tai sovellusdata Käsitteitä: tehostaminen (boosting): yhdistää usean ns. heikon oppijan vahvaksi oppijaksi heikko oppija: parempi kuin arvaus yhdistäminen luokittelutulos bootstrap aggregointi (bagging): otetaan opetusdatasta satunnaisotoksia siten, että valitut datapisteet voidaan valita tulevissakin otoksissa; kullakin otokselle opetetaan luokittelija ja kunkin luokittelijan tuloksesta yhdistetään lopullinen tulos Esimerkki yhdistelmäluokittelijan opetusdatan näytteistyksessä Luokittelumenetelmät (17) Luokittelija 1 opetusdata Luokittelija 2 yhdistelmäluokittelija x 2 Luokittelija 3
7 Balansoimaton data ja luokittelu (1) Ideaalitapauksissa kaikkia opetusluokkia on saman verran, esim. käsinkirjoitetuista numeroista on jokaisesta sama määrä esimerkkejä Monissa tapauksissa opetusnäytteistöä joudutaan täydentämään luokittimen tuotantokäytön aikana, kun esim. laaduntarkastuksessa havaittavista vioista opitaan lisää opetusmateriaali epäbalansoituu luokittimen suorituskyvyn mittarit voivat johtaa harhaa ja luokkarajojen virittäminen vaikeutuu vasemmalla ns. aktiivisen oppimisen ratkaisu, jossa oppiva järjestelmä kysyy ihmiseltä luokkia näytteille, joiden luokitus on sille epävarmaa hyvä tarkoitus, mutta voi ajaa opetusdatan helposti epäbalanssiin Balansoimaton data ja luokittelu (2) Epäbalanssissa olevat opetusnäytteet ovat luokittelun kompastuskivi, erityisesti jos pelkästään tavoitellaan maksimaalista virheettömyyttä (accuracy!) ja oletetaan, että sovelluksen data tulee samasta jakaumasta kuin käytetty opetusdata Virheettömyys sopii monissa tapauksissa lähinnä markkinointikäyttöön virheettömyyden määritelmä: A = (TP+TN)/(TP+TN+TN+FN) Esim. luokittelun virheettömyys voi olla tasoa 95%, mutta jos 95% datasta on samasta luokasta toisin sanoen luokittelijaa ei välttämättä kannata tuunata virheettömyyskriteerillä! tarkkuus (precision) = positive predictive value = PPV =TP/(TP+FP) ja saanti (recall) = true positive rate = TPR = TP/(TP+FN) ovat säännöllisesti paljon parempia kriteerejä todellinen kategoria ennustettu A B kategoria A TP FP B FN TN false negatives true positives true negatives false positives
8 Balansoimaton data ja luokittelu (3) Datan epäbalanssi on iso ongelma, sillä raakadatan saatavuus on helpottunut välttämättä kenelläkään ei ole käsitystä datan todellisesta kategoriajakaumasta Samanaikaisesti monien koneoppimismenetelmien soveltaminen edellyttää balansoitua opetusdataa ja virheellisen luokittelun kustannuksen olevan sama kaikissa tapauksissa Esimerkkejä vääjäämättä epäbalanssissa olevista luokitteluongelmista syöpädiagnoosien tekeminen kudosnäytteistä luottokorttipetosten havaitseminen transaktiovuosta öljyläikkien löytäminen satelliittikuvista tietomurtojen toteaminen asiakaskäyttäytymisen pohjalta tiedon haku tietomassasta, jonne on työnnetty suunnilleen mitä tahansa jne. suuri osa yo. sovellusten datasta on negatiivisia löydöksiä ja false negative virhekustannus voi olla korkea False positive löydöksillä voi myös olla oma hintansa/häpeäpaalunsa: vapaaehtoista luettavaa vuosien takaa ja tältä aamulta Salmon 2009.pdf html balansoitu data: kiinalaisen äänteen tunnistus todellinen kategoria ennustettu kategoria 媽 罵 嗎 媽 罵 嗎 ennustettu kategoria Balansoimaton data ja luokittelu (4) balansoimaton data: teräslevystä detektoidut seikat hilse kuonasulk. todellinen kategoria kuoppa naarmu keskimääräinen tarkkuus luokalle precision tai positive predictive value = PPV =TP/(TP+FP) =(62/96+77/123+83/109+82/116+26/56)/5 = Keskimääräinen saanti recall TPR = TP/(TP+FN) =( )/100/5= virheettömyys = vaaraton raita hilse kuonasulkeuma kuoppa naarmu vaaraton raita keskimääräinen tarkkuus precision tai positive predictive value = PPV = Keskimääräinen saanti recall TPR =0.876 (korkea!) kriittisten virheiden tunnistaminen silti heikkoa, silti kokonaisuudesta virheettömyys = (!)
9 Balansoimaton data ja luokittelu (5) Oletetaan ongelmamme olevan binäärinen luokittelu tyyliin virheellinen vs. virheetön, jossa virheet ovat harvinaisia positiivisia löydöksiä emme yleensä kykene valitsemaan/oppimaan piirteitä siten, että nämä kategoriat täydellisesti erottuisivat toisistaan Monet luokittelijat antavat jatkuva arvoisen tuloksen, joka kynnystetään varsinaiseksi luokkapäätökseksi esim. 1 = pienellä todennäköisyydellä ja 0.99 = suurella todennäköisyydellä tässä luokassa, päätöksen kynnys jotain näiden väliltä siten, että virhekustannus on hyväksyttävissä jokainen kynnystyspäätös tuottaa tuloksenaan joukot TP, FP, TN, ja FN (true positives, false positives, true negatives ja false negatives), joiden suuruus riippuu kynnysarvon valinnasta True negatives False negatives True positives False positives kynnys Balansoimaton data ja luokittelu (6) Balansoimatonta opetusdataa pyritään toisinaan balansoimaan, joko alinäytteistäen tai ylinäytteistäen monesti epäbalanssi on luokkaa esim. 1:100, jolloin balansoinnnissa tähdätään tulokseen 1:10 tms. Alinäytteistyksessä poimitaan satunnaisesti esim 10% opetusmateriaalin enemmistöluokkien näytteistä ongelmana voi olla olennaisen informaation ja tarkkuuden menetys Ylinäytteistyksessä monistetaan satunnaisesti valittuja vähemmistöluokkien näytteitä ongelmana on ylisovittuminen ja yliarvioitu käsitys opitun mallin suorituskyvystä Muita mahdollisia keinoja ovat virheellisten luokitusten kustannusten painottaminen oppimisessa (Bayesin ehdollisen riskin kautta) ja ns. aktiivinen oppiminen
10 Balansoimaton data ja luokittelu (7) True negatives Balansoimattomissa tapauksissa opetuksen seurauksena saadun luokittimen suorituskykyä voidaan mitata mm. tarkkuus [ precision = positive predictive value = PPV =TP/(TP+FP]) ja saanti [ recall = true positive rate TPR = TP/(TP+FN)] kriteereillä, jotka ovat jakaumista riippumattomia ROC graafi (Receiver Operating Characteristics graph) kuvaa tulosta eri kynnysarvojen funktiona (miltä näyttäisi täydellisen luokittelijan ROC?) False negatives kynnys False positives True positives true positive rate ROC kuvaaja: TPR:n ja FPR:n tyypillinen kytkös false positive rate (false alarms rate) saanti [ recall ] = true positive rate = TPR = TP/(TP+FN)] väärät hälytykset = false positive rate = FPR = 1 TN/(TN+FP) Balansoimaton data ja luokittelu (8) Tarkkuus saanti (precision recall) kuvaajat ovat usein ROC kuvaajia helpompia tulkita balansoimattomissa tilanteissa, joissa tunnistettavana harvinaisia tapauksia Esimerkiksi tiedonhakusovelluksissa kiinnostaa, kuinka iso osa tietyn luokittelualgoritmin saamista tuloksista on relevantteja (tarkkuus/precision) ja kuinka iso osa relevantista järjestelmässä olevasta tiedosta sen avulla löydettiin haussa (saanti/recall) (miltä näyttäisi täydellisen luokittelijan precision recall käppyrä?) True negatives False negatives kynnys False positives True positives tarkkuus/ precision tarkkuus [ precision ]= positive predictive value = PPV =TP/(TP+FP) saanti [ recall ] = true positive rate TPR = TP/(TP+FN) precision recall kuvaajat kolmelle hakualgoritmille saanti/recall
TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)
JOHDATUS TEKOÄLYYN TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA) KONEOPPIMISEN LAJIT OHJATTU OPPIMINEN: - ESIMERKIT OVAT PAREJA (X, Y), TAVOITTEENA ON OPPIA ENNUSTAMAAN Y ANNETTUNA X.
Lisätiedot1. TILASTOLLINEN HAHMONTUNNISTUS
1. TILASTOLLINEN HAHMONTUNNISTUS Tilastollisissa hahmontunnistusmenetelmissä piirteitä tarkastellaan tilastollisina muuttujina Luokittelussa käytetään hyväksi seuraavia tietoja: luokkien a priori tn:iä,
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos K:n lähimmän naapurin menetelmä (K-Nearest neighbours) Tarkastellaan aluksi pientä (n = 9) kurjenmiekka-aineistoa, joka on seuraava:
LisätiedotTekstuurintunnistuksen lyhyt oppimäärä. Ts. pari tapaa erottaa tiiliseinä pensaasta.
Tekstuurintunnistuksen lyhyt oppimäärä Ts. pari tapaa erottaa tiiliseinä pensaasta. Mitä on tekstuuri? Vaikea määritellä, mutta: Pintakuvio Ornamentti tuntu kuviointi Miksi tämän pitäisi kiinnostaa? (Maantienmerkkausrobotti)
LisätiedotViikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi
Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 5.-7.11.2008. 1 Tällä viikolla Sisältösuunnitelma: Ennustamisstrategioista Koneoppimismenetelmiä: k-nn (luokittelu
LisätiedotAvainsanojen poimiminen Eeva Ahonen
Avainsanojen poimiminen 5.10.2004 Eeva Ahonen Sisältö Avainsanat Menetelmät C4.5 päätöspuut GenEx algoritmi Bayes malli Testit Tulokset Avainsanat Tiivistä tietoa dokumentin sisällöstä ihmislukijalle hakukoneelle
LisätiedotBayesilainen päätöksenteko / Bayesian decision theory
Bayesilainen päätöksenteko / Bayesian decision theory Todennäköisyysteoria voidaan perustella ilman päätösteoriaa, mutta vasta päätösteorian avulla siitä on oikeasti hyötyä Todennäköisyyteoriassa tavoitteena
LisätiedotOhjattu oppiminen & regressio ja. luokitteluongelma
ongelma Ohjattu oppiminen & regressio ja luokitteluongelmat Ongelmanratkaisussa kannattaa yleensä käyttää kaikki tarjolla oleva tieto, jos sitä on vähentää opetusdatan tarvetta, voi johtaa tehokkaisiin
Lisätiedot1 Bayesin teoreeman käyttö luokittelijana
1 Bayesin teoreeman käyttö luokittelijana Bayesin kaavan mukaan merkityksen kontekstille c ehdollistettu todennäkköisyys voidaan määrittää alla olevan yhtälön perusteella: P ( c) = P (c )P ( ) P (c) (1)
LisätiedotT Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1
T-61.281 Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti 10.2.2004, 8:30-10:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
LisätiedotJohdatus tekoälyyn. Luento 6.10.2011: Koneoppiminen. Patrik Hoyer. [ Kysykää ja kommentoikaa luennon aikana! ]
Johdatus tekoälyyn Luento 6.10.2011: Koneoppiminen Patrik Hoyer [ Kysykää ja kommentoikaa luennon aikana! ] Koneoppiminen? Määritelmä: kone = tietokone, tietokoneohjelma oppiminen = ongelmanratkaisukyvyn
LisätiedotViikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi
Viikko 1: Johdantoa Matti Kääriäinen matti.kaariainen@cs.helsinki.fi Exactum C222, 29-31.10.2008. 1 Tällä viikolla 1. Käytännön järjestelyistä 2. Kurssin sisällöstä ja aikataulusta 3. Johdantoa Mitä koneoppiminen
LisätiedotSeuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu luvut. = 40% = 67% 6 = 0.06% = 99.92% 6+2 = 0.
T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset, ti 7.2.200, 8:30-0:00 Tiedon haku, Versio.0. Muutetaan tehtävässä annettu taulukko sellaiseen muotoon, joka paremmin sopii ensimmäisten mittojen
LisätiedotTILASTOLLINEN OPPIMINEN
301 TILASTOLLINEN OPPIMINEN Salmiakki- ja hedelmämakeisia on pakattu samanlaisiin käärepapereihin suurissa säkeissä, joissa on seuraavat sekoitussuhteet h 1 : 100% salmiakkia h 2 : 75% salmiakkia + 25%
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 16. marraskuuta 2007 Antti Rasila () TodB 16. marraskuuta 2007 1 / 15 1 Epäparametrisia testejä χ 2 -yhteensopivuustesti Homogeenisuuden testaaminen Antti
LisätiedotTässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia.
1 Luokittelijan suorituskyvyn optimointi Tässä luvussa käsitellään optimaalisten piirteiden valintaa, luokittelijan optimointia ja luokittelijan suorituskyvyn arviointia. A. Piirteen valinnan menetelmiä
LisätiedotT Luonnollisten kielten tilastollinen käsittely
T-61.281 Luonnollisten kielten tilastollinen käsittely Vastaukset 3, ti 11.2.2003, 16:15-18:00 Kollokaatiot, Versio 1.1 1. Lasketaan ensin tulokset sanaparille valkoinen, talo käsin: Frekvenssimenetelmä:
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotP(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu
1. Tyhjentävä tunnusluku (sucient statistics ) Olkoon (P(X = x θ) : θ Θ) todennäköisyysmalli havainnolle X. Datan funktio T (X ) on Tyhjentävä tunnusluku jos ehdollinen todennäköisyys (ehdollinen tiheysfunktio)
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon käsittelystä p. 1/18 Puuttuvan tiedon käsittelystä pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto Puuttuvan tiedon
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 4B Bayesläinen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Syksy
LisätiedotKaksiluokkainen tapaus, lineaarinen päätöspinta, lineaarisesti erottuvat luokat
1 Tukivektoriluokittelija Tukivektorikoneeseen (support vector machine) perustuva luoikittelija on tilastollisen koneoppimisen teoriaan perustuva lineaarinen luokittelija. Perusajatus on sovittaa kahden
LisätiedotJatkuvat satunnaismuuttujat
Jatkuvat satunnaismuuttujat Satunnaismuuttuja on jatkuva jos se voi ainakin periaatteessa saada kaikkia mahdollisia reaalilukuarvoja ainakin tietyltä väliltä. Täytyy ymmärtää, että tällä ei ole mitään
LisätiedotDBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi
DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola jtoivola@iki.fi Historiaa Bayesin kaavan hyödyntäminen BN-ohjelmistoja ollut ennenkin Tanskalaisten Hugin
Lisätiedot1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI
1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5B Bayesläiset piste- ja väliestimaatit Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto
LisätiedotDatatähti 2019 loppu
Datatähti 2019 loppu task type time limit memory limit A Summa standard 1.00 s 512 MB B Bittijono standard 1.00 s 512 MB C Auringonlasku standard 1.00 s 512 MB D Binääripuu standard 1.00 s 512 MB E Funktio
Lisätiedot805306A Johdatus monimuuttujamenetelmiin, 5 op
monimuuttujamenetelmiin, 5 op syksy 2018 Matemaattisten tieteiden laitos Lineaarinen erotteluanalyysi (LDA, Linear discriminant analysis) Erotteluanalyysin avulla pyritään muodostamaan selittävistä muuttujista
LisätiedotIlkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2006) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotLuku 14 - Koneoppiminen ja luokittelu
Luku 14 - Koneoppiminen ja luokittelu Matti Eskelinen 6.5.2018 Tässä luvussa opimme perusasiat koneoppimisesta ja mallien kouluttamisesta. Opimme mitä tarkoittavat ylioppiminen ja alioppiminen ja miten
LisätiedotOsa 2: Otokset, otosjakaumat ja estimointi
Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi TKK (c) Ilkka Mellin (2007) 1 Estimointi >> Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin
LisätiedotMistä on kyse? Pilvien luokittelu satelliittikuvissa. Sisältö. Satelliittikartoitus. Rami Rautkorpi 25.1.2006. Satelliittikartoitus
Pilvien luokittelu satelliittikuvissa Mistä on kyse? Rami Rautkorpi 25.1.2006 25.1.2006 Pilvien luokittelu satelliittikuvissa 2 Sisältö Satelliittikartoitus Satelliittikartoitus Pilvien luokittelu Ensimmäinen
LisätiedotSGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5
SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5 Jussi Tohka jussi.tohka@tut.fi Signaalinkäsittelyn laitos Tampereen teknillinen yliopisto SGN-2500 Johdatus hahmontunnistukseen 2007Luennot 4 ja
LisätiedotE. Oja ja H. Mannila Datasta Tietoon: Luku 6
6. HAHMONTUNNISTUKSEN PERUSTEITA 6.1. Johdanto Hahmontunnistus on tieteenala, jossa luokitellaan joitakin kohteita niistä tehtyjen havaintojen perusteella luokkiin Esimerkki: käsinkirjoitettujen numeroiden,
LisätiedotÄlykäs datan tuonti kuljetusongelman optimoinnissa. Antoine Kalmbach
Älykäs datan tuonti kuljetusongelman optimoinnissa Antoine Kalmbach ane@iki.fi Sisällys Taustaa Kuljetusongelma Datan tuominen vaikeaa Teoriaa Tiedostojen väliset linkit Mikä sarake on mikäkin? Ratkaisutoteutus
Lisätiedot1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI
1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI Edellä esitelty Bayesiläinen luokittelusääntö ( Bayes Decision Theory ) on optimaalinen tapa suorittaa luokittelu, kun luokkien tnjakaumat tunnetaan Käytännössä tnjakaumia
Lisätiedot1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
LisätiedotJOHDATUS TEKOÄLYYN LUENTO 4.
2009 CBS INTERACTIVE JOHDATUS TEKOÄLYYN LUENTO 4. TODENNÄKÖISYYSMALLINNUS II: BAYESIN KAAVA TEEMU ROOS Marvin Minsky Father of Artificial Intelligence, 1927 2016 PINGVIINI(tweety) :- true. Wulffmorgenthaler
LisätiedotKognitiivinen mallintaminen. Nelli Salminen
Kognitiivinen mallintaminen Neuraalimallinnus 24.11. Nelli Salminen nelli.salminen@tkk.fi Tällä kerralla ohjelmassa vielä perseptronista ja backpropagationista kilpaileva oppiminen, Kohosen verkko oppimissääntöjen
LisätiedotLuku 6. Hahmontunnistuksen perusteita
1 / 54 Luku 6. Hahmontunnistuksen perusteita T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 17.11.2011 2 / 54 Tämän luvun sisältö Tämä luku
LisätiedotTällä kerralla ohjelmassa. Kognitiivinen mallintaminen Neuraalimallinnus Kertausta: Perseptronin oppimissääntö
Tällä kerralla ohjelmassa Kognitiivinen mallintaminen Neuraalimallinnus 19.2. Nelli Salminen nelli.salminen@helsinki.fi D433 vielä perseptronista ja backpropagationista kilpaileva oppiminen, Kohosen verkko
LisätiedotLaskennallinen data-analyysi II
Laskennallinen data-analyysi II Patrik Hoyer Epävarmuuden mallintaminen 16 17.4.2008 LDA II, osa 3: epävarmuuden mallintaminen Luennot (16.4 ja 17.4) - ongelma, menetelmät, esimerkkejä (kalvot verkossa
LisätiedotTutkimustiedonhallinnan peruskurssi
Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi,
Lisätiedotpitkittäisaineistoissa
Puuttuvan tiedon ongelma p. 1/18 Puuttuvan tiedon ongelma pitkittäisaineistoissa Tapio Nummi tan@uta.fi Matematiikan, tilastotieteen ja filosofian laitos Tampereen yliopisto mtl.uta.fi/tilasto/sekamallit/puupitkit.pdf
Lisätiedot1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI
1. OHJAAMATON OPPIMINEN JA KLUSTEROINTI 1 1.1 Funktion optimointiin perustuvat klusterointialgoritmit Klusteroinnin onnistumista mittaavan funktion J optimointiin perustuvissa klusterointialgoritmeissä
LisätiedotJohdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava. TKK (c) Ilkka Mellin (2005) 1
Johdatus todennäköisyyslaskentaan Kokonaistodennäköisyys ja Bayesin kaava TKK (c) Ilkka Mellin (2005) 1 Kokonaistodennäköisyys ja Bayesin kaava Kokonaistodennäköisyys ja Bayesin kaava: Johdanto Kokonaistodennäköisyyden
Lisätiedot031021P Tilastomatematiikka (5 op)
031021P Tilastomatematiikka (5 op) Jukka Kemppainen Mathematics Division Yleinen todennäköisyys Kertausmateriaalissa esiteltiin koulusta tuttuja todennäköisyysmalleja. Tällä kurssilla todennäköisyys on
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 22. marraskuuta 2007 Antti Rasila () TodB 22. marraskuuta 2007 1 / 17 1 Epäparametrisia testejä (jatkoa) χ 2 -riippumattomuustesti 2 Johdatus regressioanalyysiin
LisätiedotBM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018
BM20A5840 Usean muuttujan funktiot ja sarjat Harjoitus 7, Kevät 2018 Tehtävä 8 on tällä kertaa pakollinen. Aloittakaapa siitä. 1. Kun tässä tehtävässä sanotaan sopii mahdollisimman hyvin, sillä tarkoitetaan
LisätiedotTekoäly ja koneoppiminen metsävaratiedon apuna
Tekoäly ja koneoppiminen metsävaratiedon apuna Arbonaut Oy ja LUT University 26. marraskuuta 2018 Metsätieteen päivä 2018 Koneoppimisen kohteena ovat lukujen sijasta jakaumat Esimerkki 1 Koneoppimisessa
LisätiedotSanaluokkajäsennystä rinnakkaisilla transduktoreilla
Sanaluokkajäsennystä rinnakkaisilla transduktoreilla Nykykielten laitos FIN-CLARIN-seminaarissa 4. marraskuuta 2010 Sanaluokkajäsennys Mr. Gelbert also has fun with language. NNP NNP RB VBZ NN IN NN. Sanaluokkajäsennin
LisätiedotEstimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?
TKK (c) Ilkka Mellin (2004) 1 Johdatus tilastotieteeseen TKK (c) Ilkka Mellin (2004) 2 Mitä opimme? 1/4 Tilastollisen tutkimuksen tavoitteena on tehdä johtopäätöksiä prosesseista, jotka generoivat reaalimaailman
LisätiedotTämän luvun sisältö. Luku 6. Hahmontunnistuksen perusteita. Luokittelu (2) Luokittelu
Tämän luvun sisältö Luku 6. T-6. Datasta tietoon, syksy professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 7.. Tämä luku käydään kahdella luennolla: ensimmäisellä luokittelu ja toisella
LisätiedotDatanäytteiden piirteiden skaalaus/normalisointi (1)
Datanäytteiden piirteiden skaalaus/normalisointi (1) Datamassat, jotka syötetään samankaltaisuuksia useamman kuin yhden piirteen pohjalta hyödyntäviin koneoppimismenetelmiin, voivat tarvita esikäsittelykseen
LisätiedotMallipohjainen klusterointi
Mallipohjainen klusterointi Marko Salmenkivi Johdatus koneoppimiseen, syksy 2008 Luentorunko perjantaille 5.12.2008 Johdattelua mallipohjaiseen klusterointiin, erityisesti gaussisiin sekoitemalleihin Uskottavuusfunktio
LisätiedotLuku 6. Dynaaminen ohjelmointi. 6.1 Funktion muisti
Luku 6 Dynaaminen ohjelmointi Dynaamisessa ohjelmoinnissa on ideana jakaa ongelman ratkaisu pienempiin osaongelmiin, jotka voidaan ratkaista toisistaan riippumattomasti. Jokaisen osaongelman ratkaisu tallennetaan
Lisätiedot30A02000 Tilastotieteen perusteet
30A02000 Tilastotieteen perusteet Kertaus 1. välikokeeseen Lauri Viitasaari Tieto- ja palvelujohtamisen laitos Kauppatieteiden korkeakoulu Aalto-yliopisto Syksy 2019 Periodi I-II Sisältö Välikokeesta Joukko-oppi
LisätiedotTehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.
HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 8 Harjoitus Ratkaisuehdotuksia Tehtäväsarja I Tehtävät -5 perustuvat monisteen kappaleisiin..7 ja tehtävä 6 kappaleeseen.8..
LisätiedotP (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.
Yhteenveto: Satunnaisvektorit ovat kuvauksia tn-avaruudelta seillaiselle avaruudelle, johon sisältyy satunnaisvektorin kaikki mahdolliset reaalisaatiot. Satunnaisvektorin realisaatio eli otos on jokin
Lisätiedotluokittelu on mahdollisimman tehokasta Esimerkkejä hahmontunnistussovelluksista: Satelliittikuvien tulkinta Tekstin tunnistus
6. HAHMONTUNNISTUKSEN PERUSTEITA 6.1. Johdanto Hahmontunnistus on tieteenala, jossa luokitellaan joitakin kohteita niistä tehtyjen havaintojen perusteella luokkiin Esimerkki: käsinkirjoitettujen numeroiden,
LisätiedotJOHDATUS TEKOÄLYYN TEEMU ROOS
JOHDATUS TEKOÄLYYN TEEMU ROOS PINGVIINI(tweety) :- true. Wulffmorgenthaler HS 14.9.2012 TODENNÄKÖISYYS (TN) EHDOLLINEN TN: P(B A) B:N TODENNÄKÖISYYS, KUN TIEDETÄÄN, ETTÄ A B:N EHDOLLINEN TN ANNETTUNA A
LisätiedotHarjoitus 7: NCSS - Tilastollinen analyysi
Harjoitus 7: NCSS - Tilastollinen analyysi Mat-2.2107 Sovelletun matematiikan tietokonetyöt Syksy 2006 Mat-2.2107 Sovelletun matematiikan tietokonetyöt 1 Harjoituksen aiheita Tilastollinen testaus Testaukseen
LisätiedotJohdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1
Johdatus tilastotieteeseen Estimointi TKK (c) Ilkka Mellin (2005) 1 Estimointi Todennäköisyysjakaumien parametrit ja niiden estimointi Hyvän estimaattorin ominaisuudet TKK (c) Ilkka Mellin (2005) 2 Estimointi:
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-2.2104 Tilastollisen analyysin perusteet, kevät 2007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen 1 Jakaumaoletuksien testaamiseen soveltuvat testit χ 2 -yhteensopivuustesti yksi otos otoksen
LisätiedotHarha mallin arvioinnissa
Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010 Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö
Lisätiedot4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on
Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Otanta Poisson- Jakaumien tunnusluvut Diskreetit jakaumat Binomijakauma, Diskreetti tasainen jakauma, Geometrinen jakauma, Hypergeometrinen
LisätiedotMS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi
MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi 5A Bayeslainen tilastollinen päättely Lasse Leskelä Matematiikan ja systeemianalyysin laitos Perustieteiden korkeakoulu Aalto-yliopisto Lukuvuosi
LisätiedotOsa 1: Todennäköisyys ja sen laskusäännöt. Kokonaistodennäköisyyden ja Bayesin kaavat
Ilkka Mellin Todennäköisyyslaskenta Osa 1: Todennäköisyys ja sen laskusäännöt Kokonaistodennäköisyyden ja Bayesin kaavat TKK (c) Ilkka Mellin (2007) 1 Kokonaistodennäköisyys ja Bayesin kaava >> Kokonaistodennäköisyys
LisätiedotParametrien oppiminen
38 Parametrie oppimie Tilastollise malli (Bayes-verkko rakee o kiiitetty, se umeeriste parametrie (ehdolliste todeäköisyyksie arvot pyritää määräämää Oletamme havaitoe oleva täydellisiä; s.o., okaise datapistee
LisätiedotTekoäly ja alustatalous. Miten voit hyödyntää niitä omassa liiketoiminnassasi
Tekoäly ja alustatalous Miten voit hyödyntää niitä omassa liiketoiminnassasi AI & Alustatalous AI Digitaalisuudessa on 1 ja 0, kumpia haluamme olla? Alustatalouden kasvuloikka Digitaalisen alustatalouden
LisätiedotDiskriminanttianalyysi I
Diskriminanttianalyysi I 12.4-12.5 Aira Hast 24.11.2010 Sisältö LDA:n kertaus LDA:n yleistäminen FDA FDA:n ja muiden menetelmien vertaaminen Estimaattien laskeminen Johdanto Lineaarinen diskriminanttianalyysi
LisätiedotJohdatus tekoälyyn (T. Roos) Kurssikoe
582216 Johdatus tekoälyyn (T. Roos) Kurssikoe 18.10.2013 Kokeessa saa pitää mukana käsinkirjoitettua A4-kokoista kaksipuolista lunttilappua, joka on palautettava koepaperin mukana. Huomaa että jokaisen
LisätiedotKojemeteorologia. Sami Haapanala syksy 2013. Fysiikan laitos, Ilmakehätieteiden osasto
Kojemeteorologia Sami Haapanala syksy 2013 Fysiikan laitos, Ilmakehätieteiden osasto Mittalaitteiden staattiset ominaisuudet Mittalaitteita kuvaavat tunnusluvut voidaan jakaa kahteen luokkaan Staattisiin
Lisätiedot1. Universaaleja laskennan malleja
1. Universaaleja laskennan malleja Laskenta datan käsittely annettuja sääntöjä täsmällisesti seuraamalla kahden kokonaisluvun kertolasku tietokoneella, tai kynällä ja paperilla: selvästi laskentaa entä
Lisätiedot2. Bayesin päätösteoria
13 / 99 2. Bayesin päätösteoria 2.1. Johdanto Bayesin päätösteorian (Bayesian decision theory) avulla on mahdollista johtaa optimaalisia tilastollisia luokittelijoita. Perustuu todennäköisyyslaskentaan
Lisätiedot6. laskuharjoitusten vastaukset (viikot 10 11)
6. laskuharjoitusten vastaukset (viikot 10 11) 1. a) Sivun 102 hypergeometrisen jakauman määritelmästä saadaan µ µ 13 39 13! 13 12 11 10 9 µ 0! 8! 1! 2 2! 2 1 0 49 48! 47!! 14440 120 31187200 120 1287
LisätiedotTiedon louhinnan tulosten arviointi. OUGF syysseminaari 2004 Hannu Toivonen
Tiedon louhinnan tulosten arviointi OUGF syysseminaari 2004 Hannu Toivonen hannu.toivonen@cs.helsinki.fi 1 Kerry voittaa vaalit! Tiedon louhinta on tuottanut seuraavan tuloksen ( ): Jos Washington Redskins
LisätiedotT Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti , 8:30-10:00 N-grammikielimallit, Versio 1.1
T-6.28 Luonnollisen kielen tilastollinen käsittely Vastaukset 5, ti 24.2.2004, 8:30-0:00 N-grammikielimallit, Versio.. Alla on erään henkilön ja tilaston estimaatit sille, miten todennäköistä on, että
LisätiedotMat Tilastollisen analyysin perusteet, kevät 2007
Mat-.04 Tilastollisen analyysin perusteet, kevät 007 4. luento: Jakaumaoletuksien testaaminen Kai Virtanen Jakaumaoletuksien testaamiseen soveltuvat testit χ -yhteensopivuustesti yksi otos otoksen vertaaminen
LisätiedotVarma tapahtuma, Yhdiste, Yhdistetty tapahtuma, Yhteenlaskusääntö
Mat-2.090 Sovellettu todennäköisyyslasku A / Ratkaisut Aiheet: Avainsanat: Unioni, Todennäköisyyslaskennan peruskäsitteet Todennäköisyyslaskennan peruslaskusäännöt Alkeistapahtuma, Ehdollinen todennäköisyys,
LisätiedotLaskennan rajoja. TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 10. joulukuuta 2015 TIETOTEKNIIKAN LAITOS.
TIEA241 Automaatit ja kieliopit, syksy 2015 Antti-Juhani Kaijanaho TIETOTEKNIIKAN LAITOS 10. joulukuuta 2015 Sisällys TM vs yleiset kieliopit Lause Jokaiselle kielelle A seuraavat ovat yhtäpitävät: 1.
Lisätiedot1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.
Algoritmien DP ja MF vertaileminen tapahtuu suoraviivaisesti kirjoittamalla kummankin leskimääräinen kustannus eksplisiittisesti todennäköisyyksien avulla. Lause T MF ave = 1 + 2 1 i
Lisätiedotr = 0.221 n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.
A. r = 0. n = Tilastollista testausta varten määritetään aluksi hypoteesit. H 0 : Korrelaatiokerroin on nolla. H : Korrelaatiokerroin on nollasta poikkeava. Tarkastetaan oletukset: - Kirjoittavat väittävät
LisätiedotOppijan saama palaute määrää oppimisen tyypin
281 5. KONEOPPIMINEN Älykäs agentti voi joutua oppimaan mm. seuraavia seikkoja: Kuvaus nykytilan ehdoilta suoraan toiminnolle Maailman relevanttien ominaisuuksien päätteleminen havaintojonoista Maailman
LisätiedotNeuroverkkojen soveltaminen vakuutusdatojen luokitteluun
Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Sami Hokuni 12 Syyskuuta, 2012 1/ 54 Sami Hokuni Neuroverkkojen soveltaminen vakuutusdatojen luokitteluun Turun Yliopisto. Gradu tehty 2012 kevään
LisätiedotYhteistyötä sisältämätön peliteoria jatkuu
Yhteistyötä sisältämätön peliteoria jatkuu Tommi Lehtonen Optimointiopin seminaari - Syksy 2000 / 1 Bayesilainen tasapaino Täysi informaatio Vajaa informaatio Staattinen Nash Bayes Dynaaminen Täydellinen
Lisätiedot2. laskuharjoituskierros, vko 5, ratkaisut
2. laskuharjoituskierros, vko, ratkaisut Aiheet: Klassinen todennäköisyys, kombinatoriikka, kokonaistodennäköisyys ja Bayesin kaava D1. Eräässä maassa autojen rekisterikilpien tunnukset ovat muotoa XXXXNN,
LisätiedotSAS -kartat Taloustohtori -verkkopalveluissa
SAS Technical Club. Vuosikokous 20.3.2013 SAS -kartat Taloustohtori -verkkopalveluissa Arto Latukka Maa- ja elintarviketalouden tutkimuskeskus, MTT MTT Taloustutkimus Taloustohtori sivusto (mtt.fi/taloustohtori)
LisätiedotSovellettu todennäköisyyslaskenta B
Sovellettu todennäköisyyslaskenta B Antti Rasila 30. lokakuuta 2007 Antti Rasila () TodB 30. lokakuuta 2007 1 / 23 1 Otos ja otosjakaumat (jatkoa) Frekvenssi ja suhteellinen frekvenssi Frekvenssien odotusarvo
Lisätiedot11. laskuharjoituskierros, vko 15, ratkaisut
11. laskuharjoituskierros vko 15 ratkaisut D1. Geiger-mittari laskee radioaktiivisen aineen emissioiden lukumääriä. Emissioiden lukumäärä on lyhyellä aikavälillä satunnaismuuttuja jonka voidaan olettaa
LisätiedotMartingaalit ja informaatioprosessit
4A Martingaalit ja informaatioprosessit Tämän harjoituksen tavoitteena on tutustua satunnaisvektorin informaation suhteen lasketun ehdollisen odotusarvon käsitteeseen sekä oppia tunnistamaan, milloin annettu
LisätiedotJohdatus tn-laskentaan perjantai 17.2.2012
Johdatus tn-laskentaan perjantai 17.2.2012 Kahden diskreetin muuttujan yhteisjakauma On olemassa myös monen muuttujan yhteisjakauma, ja jatkuvien muuttujien yhteisjakauma (jota ei käsitellä tällä kurssilla;
LisätiedotLuku 2. Datasta tietoon: mitä dataa? mitä tietoa?
1 / 14 Luku 2. Datasta tietoon: mitä dataa? mitä tietoa? T-61.2010 Datasta tietoon, syksy 2011 professori Erkki Oja Tietojenkäsittelytieteen laitos, Aalto-yliopisto 31.10.2011 2 / 14 Tämän luennon sisältö
LisätiedotTekoäly ja sen soveltaminen yrityksissä. Mika Rantonen
Tekoäly ja sen soveltaminen yrityksissä Mika Rantonen Tekoäly- paljon puhetta, mistä kyse? Lyhyesti sanottuna: tekoäly on sellaista koneen tekemää toimintaa, joka ihmisen tekemänä olisi älykästä Otetaan
LisätiedotTodennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset
Todennäköisyyslaskenta IIa, syyslokakuu 019 / Hytönen. laskuharjoitus, ratkaisuehdotukset 1. Kurssilla on 0 opiskelijaa, näiden joukossa Jutta, Jyrki, Ilkka ja Alex. Opettaja aikoo valita umpimähkään opiskelijan
LisätiedotTilastollinen päättömyys, kevät 2017 Harjoitus 6B
Tilastollinen päättömyys, kevät 7 Harjoitus 6B Heikki Korpela 8. helmikuuta 7 Tehtävä. Monisteen teht. 6... Olkoot Y,..., Y 5 Nµ, σ, ja merkitään S 5 i Y i Y /4. Näytä, että S/σ on saranasuure eli sen
LisätiedotMallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL
Mallin arviointi ja valinta Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL Sisältö Otoksen ennustevirheen estimointi AIC - Akaiken informaatiokriteeri mallin valintaan Parametrimäärän
LisätiedotORMS2020 Päätöksenteko epävarmuuden vallitessa Syksy 2008. Tehtävissä 1, 2, ja 3 tarkastelemme seuraavaa tilannetta:
RMS22 Päätöksenteko epävarmuuden vallitessa Syksy 28 Harjoitus 8 Ratkaisuehdotuksia Tehtävissä 1, 2, ja 3 tarkastelemme seuraavaa tilannetta: Pankki harkitsee myöntääkö 5. euron lainan asiakkaalle 12%
LisätiedotInversio-ongelmien laskennallinen peruskurssi Luento 7
Inversio-ongelmien laskennallinen peruskurssi Luento 7 Kevät 2012 1 Tilastolliset inversio-ongelmat Tilastollinen ionversio perustuu seuraaviin periaatteisiin: 1. Kaikki mallissa olevat muuttujat mallinnetaan
LisätiedotPitkän kantaman aktiivinen hyperspektraalinen laserkeilaus
Pitkän kantaman aktiivinen hyperspektraalinen laserkeilaus MATINE:n Tutkimusseminaari, 18.11.2015 Helsinki Sanna Kaasalainen, Olli Nevalainen, Teemu Hakala Paikkatietokeskus Sisällys Taustaa Multispektraaliset
Lisätiedot