Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010
Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö Johdanto Ennustamisen virhe Harha-varianssi hajotelma Opetusvirheen optimismi Kotitehtävä
Esitelmä 12 Antti Toppila sivu 3/18 Optimointiopin seminaari Syksy 2010 Johdanto Tarvetta kehittää mittareita mallien hyvyyksille tukemaan mallin valintaa, jolloin vaihtoeshtoisten mallien joukosta valitaan paras mallin suorityskyvyn arviointiin, jotta tiedetään ennustuksen tarkkuus ja mallin toimita-alue
Esitelmä 12 Antti Toppila sivu 4/18 Optimointiopin seminaari Syksy 2010 Ennustamisen virhe Kvantitatiivinen data Ennustetaan muuttujaa Y satunnaisella vektorilla X käyttäen mallia Ŷ = ˆf (X ) = ˆf α (X ), missä α on kompleksisuusparametri ja estimointiin käytetty dataa T = {(x 1, y 1 ), (x 2, y 2 ),..., (x N, y N )} missä N havaintojen määrä. Sovitteen hyvyyttä voidaan kuvata neliöllisellä virhefunktiolla tai absoluuttisella virhefunktiolla L(Y, ˆf (X )) = (Y ˆf (X )) 2, L(Y, ˆf (X )) = Y ˆf (X ).
Esitelmä 12 Antti Toppila sivu 5/18 Optimointiopin seminaari Syksy 2010 Ennustamisen virhe Kvalitatiivinen data Kategorian G {1,..., K} todennäköisyysjakauma on p k (X ) = P(G = k X ) ja luokan G estimaattorina on Ĝ = arg max k ˆp k (X ), missä ˆp k on p k :n estimaattori. Sovitteen hyvyyttä voidaan kuvata esim. 0-1 virhefunktiolla L(G, Ĝ(X )) = I (G G(X )) tai 2 log-uskottavuus eli devianssivirhefunktiolla 2 k I (G = k) log ˆp k (X ) = 2 log ˆp G (X ). k=1
Elements of Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2 Ennustamisen virhe Virhetyyppien mittareita (esitetty kvalitatiivisille muuttujille) Testivirhe (myös yleistysvirhe) Err T = E XY (L(Y, ˆf (X )) T ) Odotusarvoinen ennustevirhe Err = E T (Err T ) Opetusvirhe Prediction Error 0.0 0.2 0.4 0.6 0.8 1.0 1.2 High Bias Low Bias Low Variance High Variance err = err T = 1 N 0 5 10 15 20 25 30 35 L(y i, ˆf (x i )) Model Complexity (df) N 1=1 Opetusvirheen odotusarvo E FIGURE 7.1. Behavior of test T [err sample T ] and traini sample error as the model complexity is varied. T light blue curves show the training error err, while t Esitelmä 12 Antti Toppila light sivu red6/18 curves show the Optimointiopin conditional seminaari test Syksy error 2010Err
Esitelmä 12 Antti Toppila sivu 7/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Perusteet Oletetaan että muuttujan Y = f (X ) + ε regressioestimaattori on ˆf (X ), missä E(ε) = 0 ja Var(ε) = σε. 2 Voidaan osoittaa neliöllisellä virheelle että odotusarvoiselle ennustevirheelle pisteessä X = x 0 pätee [ ( ) 2 ] X Err(x 0 ) =E Y ˆf (x 0 ) = x0 ( 2 ] 2 =σε 2 + Eˆf (x 0 ) f (x 0 )) + E [ˆf (x 0 ) Eˆf (x 0 ) =σ 2 ε + Bias 2 (ˆf (x 0 )) + Var(ˆf (x 0 )) =Kohina + Bias 2 + Varianssi
Esitelmä 12 Antti Toppila sivu 8/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma k-lähimmän naapurin regressiohajotelma Olettamalla että opetusdatan x i :t eivät satunnaisia saadaan k-lähimmän naapurin hajotelmaksi [ ( ) 2 ] X Err(x 0 ) =E Y ˆf k (x 0 ) = x0 ( =σε 2 + f (x 0 ) 1 k k l=1 ) 2 σ 2 f (x (l) ) + ε k Tyypillisesti Bias 2 -termi (keskimmäinen) kasvaa k:n kasvaessa
Esitelmä 12 Antti Toppila sivu 9/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Lineaarinen regressiohajotelma 1/2 Lineaarinen malli ˆf p (x) = x T ˆβ, missä ˆβ = ( ˆβ 0, ˆβ 1,..., ˆβ p ) ja x = (1, x 1,..., x N ). Testivirhe pisteessä x 0 on [ ( ) 2 ] X Err(x 0 ) =E Y ˆf p (x 0 ) = x0 ( 2 =σε 2 + f (x 0 ) Eˆf p (x 0 )) + h(x0 ) 2 σε 2 missä h(x 0 ) = X (X T X ) 1 x 0 ja X R N p+1. Vrt. lineaarisen regression estimaatteihin ˆβ = (X T X ) 1 X T y. Lisäksi Var(ˆf p (x 0 )) = h(x 0 ) 2 σ 2 ε.
Esitelmä 12 Antti Toppila sivu 10/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Lineaarinen regressiohajotelma 2/2 Var(ˆf p (x 0 )) riippuu x 0 :sta, mutta keskiarvo 1 N N Var(ˆf p (x i )) = p N σ2 ε i=1 on vakio. Täten otoksen sisäinen (keski)virhe on 1 N N Err(x 0 ) =σε 2 + 1 N i=1 N i=1 ( ) 2 p f (x i ) Eˆf p (x i ) + N σ2 ε
Esitelmä 12 Antti Toppila sivu 11/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Lineaaristen mallien tarkempi hajotelma Funktion f parhaiten kuvaavan lineaarisen mallin parametrit β = arg min β E[f (X ) X T β] 2 ja käytetyn lineaarisen mallin kertoimet ˆβ α missä α mallin kompleksisuusparametri. Tällöin keskimääräinen neliöharha on ] 2 ] 2 E x0 [f (x 0 ) E T ˆf α (x 0 ) =Ex0 [f (x 0 ) x0 T β [ + E x0 x0 T β E T x0 T ˆβ ] 2 α =KA[Malliharha] 2 + KA[Estimointiharha] 2.
Esitelmä 12 Antti Toppila sivu 12/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Esimerkki k-lähimmän naapurin menetelmällä (kirjan s. 226) Elements of Statistical Learning (2nd Ed.) c Hastie, Tibshi k NN Regression Linear M Selittäjät X 1..., X 20 [0, 1]-tasajakumasta ja Y = 0 jos X 1 1 2, muulloin Y = 1. Havintoja (x i, y i ) 80 kpl. Estimoidaan k-lähimmän naapurin regressiolla (neliövirhe) ja luokittelulla (0-1-virhe) ja piirretään kummankin odotusarvoinen ennustevirhe, neliöharha ja estimaattorin varianssi. 0-1 virhe Neliövirhe 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 50 40 30 20 10 0 Number of Neighbors k k NN Classification 50 40 30 20 10 0 Number of Neighbors k 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 5 Linear Mo 5
Esitelmä 12 Antti Toppila sivu 13/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Esimerkki lineaarisella regressiolla (kirjan s. 226) Elements of Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Chap 7 k NN Regression Linear Model Regression Selittäjät X 1..., X 20 [0, 1]-tasajakumasta ja Y = 1 jos 10 j=1 X j > 5, muulloin Y = 0. Havintoja (x i, y i ) 80 kpl. Estimoidaan parhaan osajoukon lineaarisella regressiolla ja luokittelulla kokoa p ja piirretään kummankin odotusarvoinen ennustevirhe, neliöharha ja estimaattorin varianssi. 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 50 40 30 20 10 0 Number of Neighbors k k NN Classification 50 40 30 20 10 0 Number of Neighbors k 0-1 virhe Neliövirhe 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 5 10 15 20 Subset Size p Linear Model Classification 5 10 15 20 Subset Size p
Esitelmä 12 Antti Toppila sivu 14/18 Optimointiopin seminaari Syksy 2010 Opetusvirheen optimismi 1/2 ] Odotusarvoisen ennustevirheen Err = E T [E XY [L(Y, ˆf (X ) T ] estimoiminen opetusvirhellä err = 1 N N 1=1 L(y i, ˆf (x i )) optimistista: Otoksen sisäinen virhe (Err:n estimaattori?) Err in = 1 N N ] E Yi [L(Y i, ˆf (x i )) T i=1 missä Y i (Y X = x i ). Optimismi määritellään suureena op = Err in err ja keskimääräinen optimismi ω = E y [op] missä y = (y 1,..., y N ) noudattaa N i=1 Y i yhteisjakaumaa.
Esitelmä 12 Antti Toppila sivu 15/18 Optimointiopin seminaari Syksy 2010 Opetusvirheen optimismi 2/2 Neliö- sekä 0-1-virheelle voidaan sopivin oletuksin osoittaa ω = 2 N N Cov(ŷ i, y i ) i=1 Kovempi sovitus opetusdataan kasvattaa keskimääräistä optimismia. Lineaarisella mallilla Y = f (X ) + ε voidaan osoittaa N i=1 Cov(ŷ i, y i ) = dσ 2 ε missä d havaintojen määrä, jolloin [ ] ] E y Err in = E y [err + 2 d N σ2 ε. Ts. optimismi kasvaa p:n suhteen mutta pienenee N:n suhteen.
Esitelmä 12 Antti Toppila sivu 16/18 Optimointiopin seminaari Syksy 2010 Loppukevennys Realization Closest fit in population Closest fit Truth Model bias Estimation Bias MODEL SPACE Shrunken fit Estimation Variance RESTRICTED MODEL SPACE
Esitelmä 12 Antti Toppila sivu 17/18 Optimointiopin seminaari Syksy 2010 Kotitehtävä Harhan hajotelma lineaarisessa mallissa Olkoon Y = f (X ) + ε missä ε N(0, 1) ja X = (X 1, X 2 ) noudattaa multinormaalijakaumaa [ ] odotusarvolla 0 ja 1 0 kovarianssimatriisilla Σ =. Käytössä on 10 havaintopistettä 0 1 ja lineaarisen mallin ˆf (X ) = ˆβ 1 X 1 + ˆβ 2 X 2 kertoimet estimoidaan harjannergeressiolla parametrilla λ. Laske pisteessä (1, 0.75) harha-varianssi hajotelma, jossa malli ja estimointiharha kalvon 11 tavoin, kun f (X ) = X 1 + 2X2 2. Käytä λ:n arvoja 0,1,10 ja 100. Mitkä ovat johtopäätöksesi? Apuna voit käyttää Matlab-tiedostoa ex12.m, johon osa tarvittavista laskuista on jo toteutettu.
Esitelmä 12 Antti Toppila sivu 18/18 Optimointiopin seminaari Syksy 2010 Kotitehtävä Vinkit Harjanneregression sovitteen varianssi saadaan kuten lineaariselle regressiolle paitsi että h(x 0 ) lasketaan kaavalla h(x 0 ) = X (X T X + λi ) 1 x 0 (väärin kirjassa s. 224) Simuloi odotusarvoinen harjanneregressiokerroin Parhaan lineaarisen mallin optimaaliset kertoimet β on ratkaistava minimoimalla odotusarvoa. Normaalijakautuneelle { muuttujalle X : E(X µ X ) p 0, jos p pariton = σ p X (p 1)!!, jos p parillinen missä n!! on kaksinkertainen kertoma (kerrotaan joka toinen luku n:stä yhteen).