= true C = true) θ i2. = true C = false) Näiden arvot löydetään kuten edellä Kun verkko on opetettu, niin havainto [x 1



Samankaltaiset tiedostot
Parametrien oppiminen

S Laskennallinen systeemibiologia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

8. laskuharjoituskierros, vko 11, ratkaisut

n = 100 x = %:n luottamusväli µ:lle Vastaus:

Osa 2: Otokset, otosjakaumat ja estimointi

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2004) 1

Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia. Normaalijakaumasta johdettuja jakaumia: Mitä opimme?

LIITTEET Liite A Stirlingin kaavan tarkkuudesta...2. Liite B Lagrangen kertoimet...3

Johdatus tilastotieteeseen Yhden selittäjän lineaarinen regressiomalli. TKK (c) Ilkka Mellin (2005) 1

Mat Sovellettu todennäköisyyslasku A. Otos- ja otosjakaumat Estimointi Estimointimenetelmät Väliestimointi. Avainsanat:

Osa 2: Otokset, otosjakaumat ja estimointi

1. (Jatkoa Harjoitus 5A tehtävään 4). Monisteen esimerkin mukaan momenttimenetelmän. n ne(y i Y (n) ) = 2E(Y 1 Y (n) ).

1. Valitaan tilanteeseen sopiva stokastinen malli. 2. Sovitetaan malli havaittuun dataan (estimoidaan mallin parametrit).

Mallipohjainen klusterointi

Tilastolliset menetelmät: Tilastolliset testit

Johdatus tilastotieteeseen Otos ja otosjakaumat. TKK (c) Ilkka Mellin (2005) 1

T Datasta tietoon, syksy 2005 Laskuharjoitus 8.12., ratkaisuja Jouni Seppänen

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Luennot, osa II

Mat Tilastollisen analyysin perusteet, kevät 2007

Kaksiulotteinen normaalijakauma Mitta-asteikot Havaintoaineiston kuvaaminen ja otostunnusluvut

Todennäköisyys, että yhden minuutin aikana saapuu 2 4 autoa.

Markov-ketjun hetkittäinen käyttäytyminen

4.7 Todennäköisyysjakaumia

Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille. Testit suhdeasteikollisille muuttujille: Esitiedot

Mat Sovellettu todennäköisyyslasku A. Diskreetit jakaumat Jatkuvat jakaumat. Avainsanat:

Johdatus tilastotieteeseen Estimointimenetelmät. TKK (c) Ilkka Mellin (2005) 1

Luento 6 Luotettavuus Koherentit järjestelmät

Sisältö. Kvantitatiivinen metodologia verkossa. Monitasomallintaminen. Monitasomallit. Regressiomalli dummy-muuttujilla.

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola

Mat Sovellettu todennäköisyyslasku 9. harjoitukset/ratkaisut. Luottamusvälit

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

Tilastolliset luottamusvälit

Luento 7 Luotettavuus Koherentit järjestelmät

Tilastolliset menetelmät: Varianssianalyysi

Tilastollinen päättely II, kevät 2017 Harjoitus 3B

Solmu 3/ toteutuu kaikilla u,v I ja λ ]0,1[. Se on aidosti konveksi, jos. f ( λu+(1 λ)v ) < λf(u)+(1 λ)f(v) (2)

Yhden selittäjän lineaarinen regressiomalli

Mat Tilastollisen analyysin perusteet. Testit suhdeasteikollisille muuttujille. Avainsanat:

Markov-ketjun hetkittäinen käyttäytyminen

10 Kertolaskusääntö. Kahta tapahtumaa tai satunnaisilmiötä sanotaan riippumattomiksi, jos toisen tulos ei millään tavalla vaikuta toiseen.

Mat Sovellettu todennäköisyyslasku A

Teoria. Tilastotietojen keruu

EX1 EX 2 EX =

Tehtäviä neliöiden ei-negatiivisuudesta

Mat Sovellettu todennäköisyyslaskenta B 9. harjoitukset / Ratkaisut Aiheet: Estimointi Estimointimenetelmät Väliestimointi Avainsanat:

Tilastollinen todennäköisyys

6.1 Riippumattomat satunnaismuuttujat

Mat Sovellettu todennäköisyyslaskenta B 5. harjoitukset / Ratkaisut Aiheet: Jatkuvia jakaumia Avainsanat: Jatkuvia jakaumia

RATKAISUT x 2 3 = x 2 + 2x + 1, eli 2x 2 2x 4 = 0, joka on yhtäpitävä yhtälön x 2 x 2 = 0. Toisen asteen yhtälön ratkaisukaavalla saadaan

Kuluttajahintaindeksi (KHI) Kuluttajahintaindeksi (KHI) Kysymys Miten mitata rahan arvon muutoksia?

Stokastiikan perusteet Harjoitukset 1 (Todennäköisyysavaruus, -mitta ja -funktio)

Mat Tilastollisen analyysin perusteet, kevät 2007

Johdatus regressioanalyysiin. Johdatus regressioanalyysiin. Johdatus regressioanalyysiin: Mitä opimme? 2/3

Ehdollinen todennäköisyys

2-suuntainen vaihtoehtoinen hypoteesi

Tilastollinen päättömyys, kevät 2017 Harjoitus 5b

TILASTOLLINEN OPPIMINEN

Inversio-ongelmien laskennallinen peruskurssi Luento 11 12

Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille. Testit järjestysasteikollisille muuttujille: Esitiedot

811312A Tietorakenteet ja algoritmit, , Harjoitus 4, Ratkaisu

Mat Sovellettu todennäköisyyslasku A

Todennäköisyyslaskenta I. Heikki Ruskeepää

Markov-prosessit (Jatkuva-aikaiset Markov-ketjut)

Todennäköisyyslaskenta sivuaineopiskelijoille. Heikki Ruskeepää

Valvontakortit. Sovelletun Matematiikan Erikoistyö. Pastinen Tommi

Gaussinen vaikutuskaavio Tommi Gustafsson 45434f Tfy IV

Tilastolliset menetelmät

BM20A Integraalimuunnokset Harjoitus 8

Todennäköisyyslaskenta I, kesä 2017 Helsingin yliopisto/avoin yliopisto Harjoitus 3, ratkaisuehdotuksia

Yleinen lineaarinen malli. Yleinen lineaarinen malli. Yleinen lineaarinen malli: Mitä opimme? 2/4. Yleinen lineaarinen malli: Mitä opimme?

805306A Johdatus monimuuttujamenetelmiin, 5 op

2.1. Parametrien estimointi 2.2. Regressiokertoimien estimointi kovariansseista ja korrelaatioista

4.3 Signaalin autokorrelaatio

4 KORKEAMMAN KERTALUVUN LINEAARISET DIFFERENTIAALIYHTÄLÖT. Kertaluvun n lineaarinen differentiaaliyhtälö ns. standardimuodossa on

Approksimatiivinen päättely

Sormenjälkimenetelmät

Epäyhtälöoppia matematiikkaolympialaisten tehtäviin

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Harjoitustehtävien ratkaisuja

2-suuntainen vaihtoehtoinen hypoteesi

3 10 ei ole rationaaliluku.

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kertaa tarvittaessa induktiota ja rekursiota koskevia tietoja.

Todennäköisyyden ominaisuuksia

Tilastollinen päättömyys, kevät 2017 Harjoitus 6A

Talousmatematiikka (3 op) Sisältö. Tero Vedenjuoksu. Yhteystiedot: Tero Vedenjuoksu Työhuone M231

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Mat Sovellettu todennäköisyyslasku. Tilastolliset testit. Avainsanat:

6. Kombinaatio-oppi, todennäköisyys ja tilastot

Harjoitukset 1 : Tilastokertaus

5. Väliestimoi tehtävän 3 tilanteessa tulppien keskimääräinen kestoa.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kirjoitetaan FIR-suotimen differenssiyhtälö (= suodatuksen määrittelevä kaava):

xe y = ye x e y + xe y y = y e x + e x y xe y y y e x = ye x e y y (xe y e x ) = ye x e y y = yex e y xe y e x = x 3 + x 2 16x + 64 = D(x)

Estimaattori, Estimointi, Mediaani, Moodi, Odotusarvo, Parametri, Posteriorijakauma, Tunnusluku

****************************************************************** ****************************************************************** 7 Esim.

pq n s n Kyllä Ei N Jäsenyys 5,4% 94.6 % 1500 Adressi 21,6% 78.4 % 1495 Lahjoitus 23,7% 76.3 % 1495 Mielenosoitus 1,1% 98.9 % 1489

Ellipsoidimenetelmä. Samuli Leppänen Kokonaislukuoptimointi. S ysteemianalyysin Laboratorio

Transkriptio:

35 Naiivi Bayes Luokkamuuttua C o Bayes-verko uuri a attribuutit X i ovat se lehtiä Naiivi oletus o, että attribuutit ovat ehdollisesti riippumattomia toisistaa aettua luokka Ku käytössä o Boole muuttuat, ii parametrit ovat θ = P(C = true) θ i = P(X i = true C = true) θ i = P(X i = true C = false) Näide arvot löydetää kute edellä Ku verkko o opetettu, ii havaito [x,, x ], oka luokkamuuttua C arvo o tutemato, voidaa luokitella P(C x,, x ) = α P(C) i P(x i C) 36 Jatkuva-arvoiset muuttuat Tarkastellaa yhde muuttua Gaussise tiheysfuktio parametrie oppimista Aieisto siis tuottaa ( x μ ) σ P( x) = e πσ Malli parametrit ovat keskiarvo μ a haota σ Olkoot havaitut arvot x,, x Nyt uskottavuude logaritmi o L = = log = ( log e πσ ( x μ ) σ π logσ ) = ( x μ) σ

37 Osittaisderivaattoe ollakohdat: L = μ σ L = 3 σ σ σ = ( x = μ) = 0 ( x μ) = 0 μ = σ = ( x μ) Siis keskiarvo maksimaalise uskottavuude arvo o havaitoe keskiarvo a haoa vastaava arvo o variassi eliöuuri Jällee saatii siis ituitiivisesti oikeat arvot x 38 EM-algoritmi Havaiot eivät käytäössä ole täydellisiä, kute edellä oletettii Se siaa o olemassa piilomuuttuia l. latettea muuttuia, oide arvoa ei ole mukaa havaioissa Lateti muuttua ottamie mukaa Bayes-verkkoo voi vähetää tarvittavie parametrie lukumäärää oleellisesti a site helpottaa verko oppimista Tupakka Dietti Haroitus Tupakka Dietti Haroitus Sydäsairaus 3 3 =54 54 486 Oire Oire 3 6 Oire Oire Oire 3 Oire 6 6 6 6548=78 6546486=708

39 Ku edellisessä esimerkissä kullaki muuttualla o 3 mahdollista arvoa ovat Bayes-verkkoe parametrie lukumäärät 78 a 708 Piilomuuttuat kuiteki hakaloittavat oppimisogelmaa Kuika esim. oppia solmu Sydäsairaus ehdolliset todeäköisyydet aettua se vahemmat, koska muuttua arvoa ei voida havaioida? Sama ogelma koskee oireide todeäköisyysakaumie oppimista EM-algoritmi (expectatio-maximizatio) o yleie algoritmi tämä ogelma ratkaisemiseksi 30 Ohaamato klusteroiti Tapaukset, oita saamme ähtäväksemme, ovat luokittelemattomia Siitä huolimatta usei voidaa tuistaa tapausluokkia Peruslähtökohta luokittelulle o, että havaitoaieisto o tuottaut sekoiteakauma P (mixture distributio), ossa o osaa k akaumaa Tapaukse geeroimiseksi esi valitaa kompoettiakauma a sitte arvotaa satuaie otos valitu akauma mukaa Olkoo C valittua kompoettia vastaava satuaismuuttua, oka mahdolliset arvot ovat,, k

3 Sekoiteakauma o P(x) = i=,,k P(C = i) P(x C = i), missä x o tapaukse attribuuttiarvot Jatkuva-arvoiselle datalle luoteva valita kompoettiakaumiksi o moimuuttuaie (multivariate) ormaaliakauma Sekoiteakauma o siis mixture of Gaussias, oka parametrit ovat kompoettiakaumie paiot w i = P(C = i) sekä kuki kompoeti keskiarvo μ i a kovariassi Σ i Tehtävää o löytää aieisto perusteella sekoitemalli, oka olisi voiut tuottaa havaitoaieisto 3

33 Jos tietäisimme mikä kompoettiakaumista tuotti mikäki pistee, voisimme oudattaa ormaalia Gaussise akauma oppimista Jos toisaalta tietäisimme kompoettiakaumie parametriarvot, ii pisteide (probabilistie) akamie kompoetteihi olisi helppoa Kumpaakaa ei kuitekaa tueta EM-algoritmi toimii kui tutisimme malli parametrie arvot a se perusteella lasketaa todeäköisyydet kaikille pisteille kaikkii kompoetteihi kuulumiselle Se älkee kuki kompoetti sovitetaa uudellee koko aieistoo, pisteet paiotettua ko. kompoettii kuulumise todeäköisyydellä 34 Edellä maiittua askeleita toistetaa kues meetelmä kovergoituu Meetelmä täydetää aieistoa päätelle piilomuuttuie akaumia ykyise malli perusteella Piilomuuttaia tässä tapauksessa ovat pisteide kuulumista kompoettiakaumii idikoivat biääriset satuaismuuttuat Z i : os x : o tuottaut i:s kompoettiakauma Z i = 0 muute Sekoitemalli parametrit alustetaa satuaisesti a se älkee toistetaa seuraavia askeleita

35. E-askel: Laske todeäköisyydet, että havaio x o tuottaut kompoettiakauma i, p i = P(C = i x ) Bayesi kaava perusteella p i = α P(x C = i) P(C = i) Tekiä P(x C = i) o i:e Gaussi akauma todeäköisyys pisteessä x P(C = i) o i:e akauma paioparametri arvo Olkoo p i = p i. M-askel: Päivitä malli parametrit: μ i p i x /p i Σ i p i x x T /p i w i p i 36 E-askel laskee piilomuuttuie Z i odotusarvot p i M-askel puolestaa hakee malli parametreille uudet arvot, otka maksimoivat aieisto log-uskottavuude aettua odotusarvot p i EM-algoritmi parataa aieisto log-uskottavuutta okaisella iteraatiolla Joissai tapauksissa EM: voidaa todistaa saavuttava uskottavuude lokaali maksimi (huom. ilma askelkokoa) Ogelmatilateita: Kompoettiakauma supistuu kattamaa vai yhde havaio, variassi = 0 uskottavuus = Kaksi kompoettia kattavat samat pisteet (iillä o samat keskiarvot a variassit)

37 Bayes-verkossa piilomuuttuat ovatki havaitsemattomie muuttuie arvot kullaki esimerkillä Piilo-Markov-mallissa (hidde Markov model, HMM) piilomuuttuia ovat tilasiirtymätodeäköisyydet EM-algoritmista saadaa eri istatiaatioita erilaisii malleihi Yleisimmässä muodossaa algoritmi typistyy päivityssääöksi θ (i) = arg max θ z P(Z = z x, θ (i) ) L(x, Z = z θ), x o kaikki havaitut arvot, Z o kaikki piilomuuttuat a θ o kaikki parametrit Summaus vastaa E-askelta a maksimoiti M-askelta 38 Yhteeveto Tekoäly o todella laaa tutkimuskettä, myös metodologisesti Merkittävää kehitystä tutkimuksessa tapahtuu päivittäi Probabilistie lähestymie o aaut ohi loogise suutaukse Näyttäviä demostraatioita meetelmie mahdollisuuksista saadaa kiihtyvällä tahdilla Myös vähemmälle ulkisuudelle äävät arkisovellukset lisäätyvät Fyysise ageti iteraktio toimitaympäristösä sekä ihmiste kassa kaipaa vielä edistysaskelia