Mallin arviointi ja valinta Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL
Sisältö Otoksen ennustevirheen estimointi AIC - Akaiken informaatiokriteeri mallin valintaan Parametrimäärän tehollinen vapausaste Bayesilainen lähestymistapa ja BIC Minimikuvausperiaate - Minimum description lenght (MDL)
Ennustevirhe Ennustevirhe ei itsenään ole mielenkiintoinen luku mutta se soveltuu hyvin mallien vertailuun ja on tehokas mallinvalintatyökalu. Yleisesti: Err in =err missä ω on keskiarvoinen optimismi. Kun d-parametrinen malli on sovitettu minimoimalla neliövirhettä voidaan kirjoittaa: C p =err 2 d N 2 Tässä σ² on vähäharhaisen mallin kohinan varianssi.
AIC Akaiken informaatiokriteeri vastaa edellistä tulosta kun käytetään logaritmista uskottavuustappiofunktiota (loglikelihood loss function). Sen perustana on: 2 E [log P Y ] 2 N E [loglik ] 2 d N, N P(Y) on tiheyksien joukko Y:lle. Joukko pitää sisällään todellisen tiheyden. θ-hattu on θ:n SU-estimaatti. loglik on maksimoitu log-todennäköisyys. N loglik = i=1 log P y i
AIC jatkuu Esimerkiksi logistiselle regressiomallille, kun käytetään binomista log-todennäköisyyttä, pätee: AIC = 2 N loglik 2 d N Käyttö: Valitaan malli, jonka AIC-arvo on pienin. Kompleksisille ja epälineaarisille malleille tarvitaan d:lle jokin mitta. Puhutaan kohta.
AIC ja testivirheen approksimointi Esimerkki: Tutkitaan mallien joukkoa fα (x) AIC =err 2 d N Valitaan parametrimäärä, jolla AIC minimoituu. 2 Esimerkissä on sovitettu luonnollisia kuutiollisia splinejä. N = 1000 d =d M =M Tulokset eivät päde jos kantafunktiot valitaan mukautuvasti; optimismi ja tehollinen vapausaste ovat suurempia.
Esimerkkikuvaaja
Virheen käyttäytyminen mallin kompleksisuuden funktiona
Parametrien tehollinen määrä Parametrien määrä voidaan yleistää. y=sy,df S =trace S Voidaan osoittaa N i=1 Cov y i, y i =trace S 2 df y = N i =1 Cov y i, y i 2, kun mallin virhetermi on addititiivinen ja virhe normaalinen. pätee täsmälleen.
Bayesilainen lähestymistapa Bayesilainen informaatiokriteeri on sovellettavissa samoin periaattein kuin AIC. Yleisesti BIC on muotoa: BIC = 2 loglik log N d Tunnetaan myös Schwarzin kriteerinä.
BIC perustelu Malliehdokkaisen joukko M ja niitä vastaavat parametrit θ. Mallien posteriori-tn: P M m Z P M P Z M m P M m P Z m, M m P m M m d m Z vastaa opetusdataa. Kahden mallin vertailu: P M m Z P M l Z = P M m P M l P Z M m P Z M l Yleensä mallien priori-tn oletetaan tasajakautuneeksi mallien yli.
BIC perustelu jatkuu Tehdään integraalille nk. Laplace-approksimaatio ja muita yksinkertaistuksia. log P Z M m =log P Z m, M m d m log N O 1 2 Kun tappiofunktio valitaan 2 log P Z m, M m Niin saadaan aiemmin esitetty kaava.
BIC ominaisuuksia Voidaan osoittaa että BIC on kuin AIC, jossa kerroin 2 on korvattu log(n):llä. BIC on kuitenkin muotoutunut erilaisista lähtökohdista. BIC valitsee mallin, jolla on suurin posterioritodennäköisyys. e 1 2 BIC m Mallien suhteellinen vertailu M l =1 e 1 2 BIC l
Vertailua: AIC vs. BIC Molemmat ovat lineaarisia parametriensa suhteen. Toisin kuin seuraavassa esitelmässä. Kun otoskoko lähestyy ääretöntä niin BIC valitsee oikean mallin. AIC valitsee silloin yleensä liian kompleksen mallin. Pienellä otoksella BIC valitsee usein liian yksinkertaisen mallin, koska se rankaisee kompleksisuudesta raskaasti. BIC mahdollistaa mallien suhteellisen vertailun. Vastuu mallin valinnasta on mallintajalla ja molemmat kriteerit ovat päteviä auttajia.
Minimikuvausperiaate Minimikuvausperiaate päätyy samaan lopputulokseen kuin BIC kun sitä sovelletaan mallin valintaan. Lähtökohtana on kuitenkin ollut informaatioteoria ja optimaalisen koodin tuottaminen. Julkaistu 1978, kehittäjä Jorma Rissanen, joka opiskeli TKK:ssa.
MDL - esimerkki Haluamme lähettää viestejä vastaanottajalle. Koodi käyttää äärellistä aakkosta, jonka koko A. Voimme käyttää binäärikoodia {0,1} A = 2. Shannonin teoreema Viesti z 1 z 2 z 3 z 4 Koodi 0 10 110 1110 E viestin pituus P z i log 2 P z i Siirtääksemme satunnaismuuttujan z, jolla on tiheysfunktio P(z), tarvitsemme n. -log(p(z)) verran informaatiota.
Yhteenveto AIC ja BIC ovat mallin valinnan työkaluja. Parametrimäärän yleistys teholliseksi parametrimääräksi. Minimikuvausperiaate (MDL) on informaatioteoreettinen lähestymistapa, joka on yhteneväinen BIC:n kanssa.
Kiitos!
Kotitehtävä