Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Samankaltaiset tiedostot
805306A Johdatus monimuuttujamenetelmiin, 5 op

Estimointi. Vilkkumaa / Kuusinen 1

Harha mallin arvioinnissa

Sovellettu todennäköisyyslaskenta B

Väliestimointi (jatkoa) Heliövaara 1

Mallipohjainen klusterointi

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Sovellettu todennäköisyyslaskenta B

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

9. laskuharjoituskierros, vko 12-13, ratkaisut

Sovellettu todennäköisyyslaskenta B

η i (θ)t i (x) A(θ) + c(x),

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

tilastotieteen kertaus

4.0.2 Kuinka hyvä ennuste on?

1. Tilastollinen malli??

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

3.6 Su-estimaattorien asymptotiikka

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Luento 2. Yksiparametrisia malleja. Binomi-malli. Posteriorijakauman esittämisestä. Informatiivisista priorijakaumista. Konjugaattipriori.

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Maximum likelihood-estimointi Alkeet

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

6. laskuharjoitusten vastaukset (viikot 10 11)

2. Uskottavuus ja informaatio

Identifiointiprosessi II

2. Uskottavuus ja informaatio

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

805324A (805679S) Aikasarja-analyysi Harjoitus 3 (2016)

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Bayesilainen päätöksenteko / Bayesian decision theory

Tilastollinen aineisto Luottamusväli

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Parametrin estimointi ja bootstrap-otanta

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Identifiointiprosessi

Dynaamisten systeemien identifiointi 1/2

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Osa 2: Otokset, otosjakaumat ja estimointi

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Testejä suhdeasteikollisille muuttujille

Tämän luvun sisältö. Luku 5. Estimointiteorian perusteita. Perusjakaumat 1-ulotteisina (2) Perusjakaumat 1-ulotteisina

Dynaamiset regressiomallit

TILASTOLLINEN OPPIMINEN

Load

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Testit laatueroasteikollisille muuttujille

Sovellettu todennäköisyyslaskenta B

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Viikon 5 harjoituksissa käytämme samoja aikasarjoja kuin viikolla 4. Tiedosto Muuttuja Kuvaus Havaintoväli Aikasarjan pituus

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Aalto-yliopisto, Matematiikan ja systeemianalyysin laitos /Malmivuori MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi,

Tilastollinen päättely II, kevät 2017 Harjoitus 2A

Tilastollinen päättely II, kevät 2017 Harjoitus 1A

Moniulotteisia todennäköisyysjakaumia

11 Raja-arvolauseita ja approksimaatioita

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Tilastollinen päättely, 10 op, 4 ov

Mat Tilastollisen analyysin perusteet, kevät 2007

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

p(y θ, M) p(θ M)dθ p(θ y, M) = p(y M) Luento 10 Marginaaliuskottavuus Bayes-tekijä Mallin odotettu hyöty DIC (Deviance Information Criterion)

805306A Johdatus monimuuttujamenetelmiin, 5 op

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Identifiointiprosessi

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

exp p(y θ) = 1 2πσ θ)2 2σ 2(y y N(θ, σ 2 ) Luento 3 Normaalijakauma (Gaussian) Normaalijakauma tunnetulla varianssilla

Kertausluento. Tilastollinen päättely II - 2. kurssikoe

1. TILASTOLLINEN HAHMONTUNNISTUS

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Sovellettu todennäköisyyslaskenta B

Kun datasta halutaan muodostaa malleja, ne ovat yleensä tilastollisia (esim. regressio, luokittelu, ryhmittely...) F(x 0 ) = P(x x 0 ) (1)

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Diskriminanttianalyysi I

Sovellettu todennäköisyyslaskenta B

Teema 8: Parametrien estimointi ja luottamusvälit

Johdatus regressioanalyysiin. Heliövaara 1

p(θ 1 y) on marginaalijakauma p(θ 1 θ 2, y) on ehdollinen posteriorijakauma Viime kerralla Termejä viime kerralta Marginalisointi Marginaalijakauma

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Todennäköisyyden ominaisuuksia

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

ARMA(p, q)-prosessin tapauksessa maksimikohdan määrääminen on moniulotteinen epälineaarinen optimointiongelma.

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

5.7 Uskottavuusfunktioon perustuvia testejä II

Missä mennään. systeemi. identifiointi. mallikandidaatti. validointi. malli. (fysikaalinen) mallintaminen. mallin mallin käyttötarkoitus, reunaehdot

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Johdatus regressioanalyysiin

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Transkriptio:

Mallin arviointi ja valinta Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Sisältö Otoksen ennustevirheen estimointi AIC - Akaiken informaatiokriteeri mallin valintaan Parametrimäärän tehollinen vapausaste Bayesilainen lähestymistapa ja BIC Minimikuvausperiaate - Minimum description lenght (MDL)

Ennustevirhe Ennustevirhe ei itsenään ole mielenkiintoinen luku mutta se soveltuu hyvin mallien vertailuun ja on tehokas mallinvalintatyökalu. Yleisesti: Err in =err missä ω on keskiarvoinen optimismi. Kun d-parametrinen malli on sovitettu minimoimalla neliövirhettä voidaan kirjoittaa: C p =err 2 d N 2 Tässä σ² on vähäharhaisen mallin kohinan varianssi.

AIC Akaiken informaatiokriteeri vastaa edellistä tulosta kun käytetään logaritmista uskottavuustappiofunktiota (loglikelihood loss function). Sen perustana on: 2 E [log P Y ] 2 N E [loglik ] 2 d N, N P(Y) on tiheyksien joukko Y:lle. Joukko pitää sisällään todellisen tiheyden. θ-hattu on θ:n SU-estimaatti. loglik on maksimoitu log-todennäköisyys. N loglik = i=1 log P y i

AIC jatkuu Esimerkiksi logistiselle regressiomallille, kun käytetään binomista log-todennäköisyyttä, pätee: AIC = 2 N loglik 2 d N Käyttö: Valitaan malli, jonka AIC-arvo on pienin. Kompleksisille ja epälineaarisille malleille tarvitaan d:lle jokin mitta. Puhutaan kohta.

AIC ja testivirheen approksimointi Esimerkki: Tutkitaan mallien joukkoa fα (x) AIC =err 2 d N Valitaan parametrimäärä, jolla AIC minimoituu. 2 Esimerkissä on sovitettu luonnollisia kuutiollisia splinejä. N = 1000 d =d M =M Tulokset eivät päde jos kantafunktiot valitaan mukautuvasti; optimismi ja tehollinen vapausaste ovat suurempia.

Esimerkkikuvaaja

Virheen käyttäytyminen mallin kompleksisuuden funktiona

Parametrien tehollinen määrä Parametrien määrä voidaan yleistää. y=sy,df S =trace S Voidaan osoittaa N i=1 Cov y i, y i =trace S 2 df y = N i =1 Cov y i, y i 2, kun mallin virhetermi on addititiivinen ja virhe normaalinen. pätee täsmälleen.

Bayesilainen lähestymistapa Bayesilainen informaatiokriteeri on sovellettavissa samoin periaattein kuin AIC. Yleisesti BIC on muotoa: BIC = 2 loglik log N d Tunnetaan myös Schwarzin kriteerinä.

BIC perustelu Malliehdokkaisen joukko M ja niitä vastaavat parametrit θ. Mallien posteriori-tn: P M m Z P M P Z M m P M m P Z m, M m P m M m d m Z vastaa opetusdataa. Kahden mallin vertailu: P M m Z P M l Z = P M m P M l P Z M m P Z M l Yleensä mallien priori-tn oletetaan tasajakautuneeksi mallien yli.

BIC perustelu jatkuu Tehdään integraalille nk. Laplace-approksimaatio ja muita yksinkertaistuksia. log P Z M m =log P Z m, M m d m log N O 1 2 Kun tappiofunktio valitaan 2 log P Z m, M m Niin saadaan aiemmin esitetty kaava.

BIC ominaisuuksia Voidaan osoittaa että BIC on kuin AIC, jossa kerroin 2 on korvattu log(n):llä. BIC on kuitenkin muotoutunut erilaisista lähtökohdista. BIC valitsee mallin, jolla on suurin posterioritodennäköisyys. e 1 2 BIC m Mallien suhteellinen vertailu M l =1 e 1 2 BIC l

Vertailua: AIC vs. BIC Molemmat ovat lineaarisia parametriensa suhteen. Toisin kuin seuraavassa esitelmässä. Kun otoskoko lähestyy ääretöntä niin BIC valitsee oikean mallin. AIC valitsee silloin yleensä liian kompleksen mallin. Pienellä otoksella BIC valitsee usein liian yksinkertaisen mallin, koska se rankaisee kompleksisuudesta raskaasti. BIC mahdollistaa mallien suhteellisen vertailun. Vastuu mallin valinnasta on mallintajalla ja molemmat kriteerit ovat päteviä auttajia.

Minimikuvausperiaate Minimikuvausperiaate päätyy samaan lopputulokseen kuin BIC kun sitä sovelletaan mallin valintaan. Lähtökohtana on kuitenkin ollut informaatioteoria ja optimaalisen koodin tuottaminen. Julkaistu 1978, kehittäjä Jorma Rissanen, joka opiskeli TKK:ssa.

MDL - esimerkki Haluamme lähettää viestejä vastaanottajalle. Koodi käyttää äärellistä aakkosta, jonka koko A. Voimme käyttää binäärikoodia {0,1} A = 2. Shannonin teoreema Viesti z 1 z 2 z 3 z 4 Koodi 0 10 110 1110 E viestin pituus P z i log 2 P z i Siirtääksemme satunnaismuuttujan z, jolla on tiheysfunktio P(z), tarvitsemme n. -log(p(z)) verran informaatiota.

Yhteenveto AIC ja BIC ovat mallin valinnan työkaluja. Parametrimäärän yleistys teholliseksi parametrimääräksi. Minimikuvausperiaate (MDL) on informaatioteoreettinen lähestymistapa, joka on yhteneväinen BIC:n kanssa.

Kiitos!

Kotitehtävä