Muuttujaosajoukon valinta ja pienentämismenetelmät

Esitelmä 5 Antti Tppila sivu 1/20 Optimintipin seminaari Syksy 2010 Muuttujasajukn valinta ja pienentämismenetelmät Antti Tppila 22.9.2010 labratri Aaltylipistn teknillinen krkeakulu

Esitelmä 5 Antti Tppila sivu 2/20 Optimintipin seminaari Syksy 2010 Sisältö Jhdant Muuttujasajukn valinta Pienentämismenetelmät Ktitehtävä labratri Aaltylipistn teknillinen krkeakulu

Esitelmä 5 Antti Tppila sivu 3/20 Optimintipin seminaari Syksy 2010 Jhdant Lineaarinen regressi Y = β 0 + i β i X i missä Y selitettävä muuttuja, X i selittäjät ja β i regressikertimet. Mallin pienimmän neliösumman estimaatit maavat usein vain vähän harhaa mutta suuren varianssin Ennustustarkkuutta vidaan usein parantaa vaihtamalla harhattmuutta varianssiin pikkeavat usein nllasta jllin mallin dimensi ei pienene Esim. halutaan löytää vain merkityksellisimmät muuttujat labratri Aaltylipistn teknillinen krkeakulu

Muuttujasajukn valinta Parhaan muuttujasajukn valinta (Best subset selectin) Valitaan muuttujista X 1,..., X n sajukk X i(1),..., X i(k), k < n selittämään muuttujaa Y. Kuvataan sajukja vastaavien mallien hyvyyttä jäännösneliösummalla Suhteutetaan mallin kmpleksisuuteen Residual Sum f Squares 0 20 40 60 80 100 0 1 2 3 4 5 6 7 8 Subset Size k labratri FIGURE 3.5. All pssible subset mdels fr the Aaltylipistn teknillinenprstate krkeakulu cancer example. At each subset size is shwn the residual sum-f-squares fr each mdel f that size. Esitelmä 5 Antti Tppila sivu 4/20 Optimintipin seminaari Syksy 2010

Esitelmä 5 Antti Tppila sivu 5/20 Optimintipin seminaari Syksy 2010 Muuttujasajukn valinta Muita muuttusajukn valintamenetelmiä Eteen- ja taaksepäin valinta askeleittain Lisätään/vähennetään malliin yksi kerrallaan muuttuja, jka eniten lisää/vähiten vähentää svitteen hyvyyttä. Laskennallisesti tehkas suurillekin muuttujajukille. Pienempi ennustustevirheen varianssi kuin parhaan sajukn valinnassa. labratri Aaltylipistn teknillinen krkeakulu Eteenpäin vaiheittainen regressi Etsitään kussakin vaiheessa residuaalin kanssa eniten krrelitunut muuttuja Lasketaan tälle muuttujalle lineaarinen regressikerrin β ja lisätään se muuttujan senhetkiseen kertimeen β i. Jatketaan kunnes yksikään muuttuja ei krreli residuaalin kanssa. Tehkas kun erittäin paljn dimensita

Muuttujasajukn valinta Valintamenetelmien vertailu Elements f Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 C Estimidun regressikertimen ˆβ dtusarvisen neliövirheen mielessä muut paitsi eteenpäin vaiheittainen valinta vat yhtä hyviä. E ˆβ(k) β 2 0.65 0.70 0.75 0.80 0.85 0.90 0.95 Best Subset Frward Stepwise Backward Stepwise Frward Stagewise 0 5 10 15 20 25 30 Subset Size k FIGURE 3.6. Cmparisn f fur subset-selectin techniques n a simulated linear regressin prblem labratri Y = X T β + ε. There are N = 300 bservatins Aaltylipistn teknillinen krkeakulu n p = 31 standard Gaussian variables, with pair- 6/20 crrelatins all equal Optimintipin t 0.85. Fr seminaari 10 fsyksy the 2010 Esitelmä 5 Antti Tppila sivuwise vari-

Esitelmä 5 Antti Tppila sivu 7/20 Optimintipin seminaari Syksy 2010 Pienentämismenetelmät Harjanneregressi Harjanneregressikertimet ˆβ ridge = arg min (y β i β 0 i j x ij β j ) 2 + λ βj 2 j 0 missä λ 0 pienentämisparametri. Ekvivalentisti ˆβ ridge = arg min (y β i β 0 x ij β j ) 2 i j siten että j 0 β 2 j t (t pienentämisparametri) labratri Aaltylipistn teknillinen krkeakulu

Esitelmä 5 Antti Tppila sivu 8/20 Optimintipin seminaari Syksy 2010 Pienentämismenetelmät Harjanneregressikertimien ratkaiseminen Keskitetään havainnt dtusarvnsa ympärille (x ij x ij x j ) Estimidaan β 0 y:n dtusarvn estimaattrilla ȳ, ja lput minimimalla suuretta RSS(λ) = (y X β) T (y X β) + λβ T β jnka ratkaisuna harjanneregressikertimet saadaan kaavalla missä I n identiteettimatriisi. ˆβ ridge = (X T X + λi ) 1 X T y labratri Aaltylipistn teknillinen krkeakulu

Esitelmä 5 Antti Tppila sivu 9/20 Optimintipin seminaari Syksy 2010 Pienentämismenetelmät Harjanneregressikertimien Bayes tulkinta Olkn y i N(β 0 + xi T β, σ 2 ) missä β N(0, τ 2 ), kaikki tisistaan riippumattmia. Tällöin negatiivinen lg-psteriri tiheys kertimille β n (y i β 0 x ij β j ) 2 + λ βj 2 i j j 0 missä λ = σ2 ja σ 2 ja τ 2 vat tunnettuja. τ 2 Harjanneregressikertimet vat tämän tiheyden mdi ja nrmaalijakaumaletuksesta jhtuen myös jakauman dtusarv. labratri Aaltylipistn teknillinen krkeakulu

labratri Aaltylipistn teknillinen krkeakulu Harjanneregressi Pääkmpnenttitulkinta 1/2 Singulaariarvhajtelma X = UDV T, missä rtgnaaliset U ja V virittävät X :n sarake/riviavaruuden ja diagnaalimatriisin D diagnaalilla X :n singulaariarvt suuruusjärjestyksessä. Pääkmpnettien v j suuntaiset varianssit vidaan laskea kaavalla Var(Xv j ) = d 2 j N missä v j matriisin V j:s sarake ja d j D:n j:s diagnaalialki. Elements f Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedm -4-2 0 2 4-4 -2 0 2 4 Largest Principal Cmpnent Smallest Principal Cmpnent X 1 X2 FIGURE 3.9. Principal cmpnents f sme data pints. The largest principal cmpnent i directin that maximizes the variance f the prj data, and the smallest principal cmpnent minim Esitelmä 5 Antti Tppila sivu 10/20 Optimintipin seminaari Syksy 2010

Esitelmä 5 Antti Tppila sivu 11/20 Optimintipin seminaari Syksy 2010 Harjanneregressi Pääkmpnenttitulkinta 2/2 Harjanneregressiennusteille pätee X ˆβ ridge =X (X T X + λi ) 1 X T y p dj 2 = u j dj 2 + λ ut j y j=1 missä u j vat U:n sarakeet. Pienentämiskerrin u j :tä vastaavaan pääkmpnettisuuntaan n d 2 j d 2 j + λ Pienten varianssien suuntaan pienennetään enemmän labratri Aaltylipistn teknillinen krkeakulu

labratri Aaltylipistn teknillinen krkeakulu Harjanneregressi Tehlliset vapausasteet Tehllinen vapausaste df(λ) = p j=1 d 2 j d 2 j + λ missä p muuttujien määrä Kuvaa λ:n rajittavuutta df(0) = p, df( ) = 0 Eturauhassyöpä esimerkki Elements f Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Cha Cefficients 0 2 4 6 8 0.2 0.0 0.2 0.4 0.6 lcavl lweight age lbph svi lcp gleasn pgg45 df(λ) FIGURE 3.8. Prfiles f ridge cefficients fr the Esitelmä 5 Antti Tppila sivu 12/20 Optimintipin seminaari Syksy 2010

Esitelmä 5 Antti Tppila sivu 13/20 Optimintipin seminaari Syksy 2010 Pienentämismenetelmät Lass-menetelmä Lass estimaatit ˆβ lass = arg min β (y i β 0 i j x ij β j ) 2 + λ β j j 0 missä λ 0 pienentämisparametri. Ekvivalentisti ˆβ lass = arg min (y β i β 0 x ij β j ) 2 i j siten että j 0 β j t (t pienentämisparametri) labratri Aaltylipistn teknillinen krkeakulu

Pienentämismenetelmät Lassn pienentämisparametri Elements f Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Cha Standarditu pienennysparametri s = t/ j 0 β ls j missä βj ls vat tehtävän PNS-estimaatit. Esim. s = 1 2 pienentää parametreja keskimäärin 50 %. labratri Cefficients 0.2 0.0 0.2 0.4 0.6 0.0 0.2 0.4 0.6 0.8 1.0 Shrinkage Factr s Aaltylipistn teknillinen krkeakulu FIGURE 3.10. Prfiles f lass cefficients, as the Esitelmä 5 Antti Tppila sivu 14/20 tuning parameter t is varied. Optimintipin Cefficients seminaariare Syksy plt- 2010 lcavl svi lweight pgg45 lbph gleasn age lcp

Esitelmä 5 Antti Tppila sivu 15/20 Optimintipin seminaari Syksy 2010 Muuttujasajuknvalinta- ja pienentämismenetelmien vertailua Ortnrmaalin datan tapaus Ortnrmaalilla datalla menetelmillä eksplisiittinen ratkaisu Tällöin menetelmät tekevät muunnksen PNS-estimaateille Harjanneregressi: suhteellinen pienennys Lass: vakivähennys aina nllaan asti Osajuknvalinta: asetetaan kertimia nllaksi suuruusjärestyksessä labratri Aaltylipistn teknillinen krkeakulu

Muuttujasajuknvalinta- ja pienentämismenetelmien vertailua Harjanneregressin ja Lassn erista kahden Elements muuttujan f Statistical Learning tapauksessa (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Ch PNS-khdefunktin ptimaalinen ratkaisu n ˆβ Harjanneregressin käypä alue n pall β 2 1 + β2 2 t Lassn käypä alue n timantti β 1 + β 2 t Lassn ptimi löytyy usein terävästä kulmasta jkin parametri nlla β 2. ^ β β 2. FIGURE 3.11. Estimatin picture fr the lass (left) and ridge regressin (right). Shwn are cnturs f the errr and cnstraint functins. The slid blue areas are the cnstraint regins β labratri 1 + β 2 t and β1 2 + β2 2 t 2, Aaltylipistn teknillinen krkeakulu respectively, while the red ellipses are the cnturs f the least squares errr functin. Esitelmä 5 Antti Tppila sivu 16/20 Optimintipin seminaari Syksy 2010 β 1 ^ β β1

Muuttujasajuknvalinta- ja pienentämismenetelmien vertailua Yleistetty sakkfunkti Bayeslaisittain Elements f Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Chap 3 Tulkitaan β j q = t (kuvassa) lg-pririjakaumina kertimille β j. Bayes-estimaatti psteririjakauman mdina β = arg min (y β i β 0 x ij β j ) 2 + λ β j q i j j 0 missä q 0. q = 0 n sajuknvalinta, q = 1 Lass ja q = 2 harjanneregressi (missä estimaatti myös dtusarv). q =4 q =2 q =1 q =0.5 q =0.1 labratri Aaltylipistn FIGUREteknillinen 3.12. krkeakulu P Cnturs f cnstant value f j β j q fr given values f q. Esitelmä 5 Antti Tppila sivu 17/20 Optimintipin seminaari Syksy 2010

Muuttujasajuknvalinta- Elements f Statistical ja pienentämismenetelmien Learning (2nd Ed.) vertailua Elastinen verkk (Elastic net) c Hastie, Tibshirani & F Kun q (1, 2) saadaan kmprmissi harjanneregressin ja Lassn välillä Sakkfunkti λ j 0 β j q Vaihtehtna sakkfunktiksi Elastinen-verkk λ ( ) αβj 2 + (1 α β j ) j 0 q =1.2 α =0.2 differentiituva kun λ > 0. Epätdennäköistä että β j = 0 L q Elastic Net labratri Aaltylipistn teknillinen FIGURE krkeakulu P 3.13. Cnturs f cnstant βj q Esitelmä 5 Antti Tppila sivu fr 18/20 q = 1.2 (left Optimintipin plt), seminaari and Syksythe 2010 e

Esitelmä 5 Antti Tppila sivu 19/20 Optimintipin seminaari Syksy 2010 Ktitehtävä Harjanneregressi Olkn muuttujat X[ 1 ] ja X 2 multinrmaalijakaumasta, [ jnka ] 0 1 ρ dtusarv n µ = ja kvarianssimatriisi Σ =, sekä 0 ρ 1 Y = X 1 β 1 + X 2 β 2 + ε, missä β 1 = 2, β 2 = 1 ja khinatermi ε nudattaa nrmaalijakaumaa N(0, 0.5). Näillä letuksin arvtaan 100 havaintpistettä. Tutki harjanneregressin kertimia tehllisten vapausasteiden funktina kun (a) ρ = 0, (b) ρ = 0.9 ja (c) ρ = 0.9 selittämällä pääkmpnettitulkinnan avulla funktiiden mut. Apuna vi käyttää Matlab-tiedsta ex5.m. labratri Aaltylipistn teknillinen krkeakulu

Esitelmä 5 Antti Tppila sivu 20/20 Optimintipin seminaari Syksy 2010 Ktitehtävä Vinkit Funktiiden mudn selittämisessä kannattanee ajatella että ensin pienennetään 2. pääkmpnenttin suunnassa ja vasta sitten 1. pääkmpnentin suunnassa. Tämä pulestaan impliki jtain harjanneregressikertimille. Myös muuttujien krrelituneisuus vaikuttaa tilanteeseen. labratri Aaltylipistn teknillinen krkeakulu