Muuttujaosajoukon valinta ja pienentämismenetelmät

Samankaltaiset tiedostot
Harha mallin arvioinnissa

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Johdatus regressioanalyysiin. Heliövaara 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Kaksisuuntainen varianssianalyysi. Heliövaara 1

ABHELSINKI UNIVERSITY OF TECHNOLOGY

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Mat Tilastollisen analyysin perusteet, kevät 2007

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Sovellettu todennäköisyyslaskenta B

Todennäköisyyden ominaisuuksia

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

2. Teoriaharjoitukset

ME-C2400 Vuorovaikutustekniikan studio

Korrelaatiokertoinen määrittely 165

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Kuusinen/Heliövaara 1

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

Lohkoasetelmat. Heliövaara 1

Esim Brand lkm keskiarvo keskihajonta A ,28 5,977 B ,06 3,866 C ,95 4,501

pienempää, joten vektoreiden välinen kulma voidaan aina rajoittaa välille o. Erikoisesti on

1. YKSISUUNTAINEN VARIANSSIANALYYSI: AINEISTON ESITYSMUODOT

Kaksisuuntaisen varianssianalyysin tilastollisessa malli voidaan esittää seuraavassa muodossa:

Esimerkki 19. Esimerkissä 16 miniminormiratkaisu on (ˆx 1, ˆx 2 ) = (1, 0).

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Projektin arvon aleneminen

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Inversio-ongelmien laskennallinen peruskurssi Luento 2

E80. Data Uncertainty, Data Fitting, Error Propagation. Jan. 23, 2014 Jon Roberts. Experimental Engineering

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

(0 desimaalia, 2 merkitsevää numeroa).

Lisämateriaalia: tilayhtälön ratkaisu, linearisointi. Matriisimuuttujan eksponenttifunktio:

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

5.7 Uskottavuusfunktioon perustuvia testejä II

Mat Tilastollisen analyysin perusteet. Painotettu PNS-menetelmä. Avainsanat:

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Inversio-ongelmien laskennallinen peruskurssi Luento 7 8

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Menestyminen valintakokeissa ja todennäköisyyslaskussa

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Virhearviointi. Fysiikassa on tärkeää tietää tulosten tarkkuus.

Diskriminanttianalyysi I

Yleinen lineaarinen malli

Ongelma 1: Mistä joihinkin tehtäviin liittyvä epädeterminismi syntyy?

Moniulotteisia todennäköisyysjakaumia

3.2.2 Tikhonovin regularisaatio

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

DATA ENVELOPMENT ANALYSIS

Harjoitusten 5 vastaukset

Harjoitus 3: Regressiomallit (Matlab)

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Ongelma 1: Mistä joihinkin tehtäviin liittyvä epädeterminismi syntyy?

Talousmatematiikan perusteet: Luento 13. Rajoittamaton optimointi Hessen matriisi Ominaisarvot ja vektorit Ääriarvon laadun tarkastelu

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Ominaisarvoon 4 liittyvät ominaisvektorit ovat yhtälön Ax = 4x eli yhtälöryhmän x 1 + 2x 2 + x 3 = 4x 1 3x 2 + x 3 = 4x 2 5x 2 x 3 = 4x 3.

MTTTP5, luento Luottamusväli, määritelmä

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

KURSSIN TILASTOMATEMATIIKKA KAAVOJA

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

1 Johdatus varianssianalyysiin

VARIANSSIANALYYSI ANALYSIS OF VARIANCE

1. Tilastollinen malli??

Mat Tilastollisen analyysin perusteet, kevät 2007

Mat Tilastollisen analyysin perusteet, kevät 2007

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Batch means -menetelmä

3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset. 3.2 Matriisien laskutoimitukset

Excel 2013:n käyttö kirjallisen raportin, esim. työselostuksen tekemisessä

3.1 Lineaarikuvaukset. MS-A0004/A0006 Matriisilaskenta. 3.1 Lineaarikuvaukset. 3.1 Lineaarikuvaukset

Ratkaisuehdotukset LH 8 / vko 47

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

OPTIMAALINEN INVESTOINTIPÄÄTÖS

Talousmatematiikan perusteet: Luento 14. Rajoittamaton optimointi Hessen matriisi Ominaisarvot Ääriarvon laadun tarkastelu

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

ELEMENTTIMENETELMÄN PERUSTEET SESSIO 09: Tasoristikon sauvaelementti, osa 2.

4.0.2 Kuinka hyvä ennuste on?

3. Teoriaharjoitukset

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Fy06 Koe Kuopion Lyseon lukio (KK) 1/6

Dynaamiset regressiomallit

Koska ovat negatiiviset. Keskihajontoja ei pystytä laskemaan mutta pätee ¾.

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

Harjoitus 9: Excel - Tilastollinen analyysi

2. Keskiarvojen vartailua

Matematiikka B2 - TUDI

Ratkaisuehdotukset LH 10 / vko 48

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

763306A JOHDATUS SUHTEELLISUUSTEORIAAN 2 Ratkaisut 1 Kevät y' P. α φ

pisteet Frekvenssi frekvenssi Yhteensä

Transkriptio:

Esitelmä 5 Antti Tppila sivu 1/20 Optimintipin seminaari Syksy 2010 Muuttujasajukn valinta ja pienentämismenetelmät Antti Tppila 22.9.2010 labratri Aaltylipistn teknillinen krkeakulu

Esitelmä 5 Antti Tppila sivu 2/20 Optimintipin seminaari Syksy 2010 Sisältö Jhdant Muuttujasajukn valinta Pienentämismenetelmät Ktitehtävä labratri Aaltylipistn teknillinen krkeakulu

Esitelmä 5 Antti Tppila sivu 3/20 Optimintipin seminaari Syksy 2010 Jhdant Lineaarinen regressi Y = β 0 + i β i X i missä Y selitettävä muuttuja, X i selittäjät ja β i regressikertimet. Mallin pienimmän neliösumman estimaatit maavat usein vain vähän harhaa mutta suuren varianssin Ennustustarkkuutta vidaan usein parantaa vaihtamalla harhattmuutta varianssiin pikkeavat usein nllasta jllin mallin dimensi ei pienene Esim. halutaan löytää vain merkityksellisimmät muuttujat labratri Aaltylipistn teknillinen krkeakulu

Muuttujasajukn valinta Parhaan muuttujasajukn valinta (Best subset selectin) Valitaan muuttujista X 1,..., X n sajukk X i(1),..., X i(k), k < n selittämään muuttujaa Y. Kuvataan sajukja vastaavien mallien hyvyyttä jäännösneliösummalla Suhteutetaan mallin kmpleksisuuteen Residual Sum f Squares 0 20 40 60 80 100 0 1 2 3 4 5 6 7 8 Subset Size k labratri FIGURE 3.5. All pssible subset mdels fr the Aaltylipistn teknillinenprstate krkeakulu cancer example. At each subset size is shwn the residual sum-f-squares fr each mdel f that size. Esitelmä 5 Antti Tppila sivu 4/20 Optimintipin seminaari Syksy 2010

Esitelmä 5 Antti Tppila sivu 5/20 Optimintipin seminaari Syksy 2010 Muuttujasajukn valinta Muita muuttusajukn valintamenetelmiä Eteen- ja taaksepäin valinta askeleittain Lisätään/vähennetään malliin yksi kerrallaan muuttuja, jka eniten lisää/vähiten vähentää svitteen hyvyyttä. Laskennallisesti tehkas suurillekin muuttujajukille. Pienempi ennustustevirheen varianssi kuin parhaan sajukn valinnassa. labratri Aaltylipistn teknillinen krkeakulu Eteenpäin vaiheittainen regressi Etsitään kussakin vaiheessa residuaalin kanssa eniten krrelitunut muuttuja Lasketaan tälle muuttujalle lineaarinen regressikerrin β ja lisätään se muuttujan senhetkiseen kertimeen β i. Jatketaan kunnes yksikään muuttuja ei krreli residuaalin kanssa. Tehkas kun erittäin paljn dimensita

Muuttujasajukn valinta Valintamenetelmien vertailu Elements f Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 C Estimidun regressikertimen ˆβ dtusarvisen neliövirheen mielessä muut paitsi eteenpäin vaiheittainen valinta vat yhtä hyviä. E ˆβ(k) β 2 0.65 0.70 0.75 0.80 0.85 0.90 0.95 Best Subset Frward Stepwise Backward Stepwise Frward Stagewise 0 5 10 15 20 25 30 Subset Size k FIGURE 3.6. Cmparisn f fur subset-selectin techniques n a simulated linear regressin prblem labratri Y = X T β + ε. There are N = 300 bservatins Aaltylipistn teknillinen krkeakulu n p = 31 standard Gaussian variables, with pair- 6/20 crrelatins all equal Optimintipin t 0.85. Fr seminaari 10 fsyksy the 2010 Esitelmä 5 Antti Tppila sivuwise vari-

Esitelmä 5 Antti Tppila sivu 7/20 Optimintipin seminaari Syksy 2010 Pienentämismenetelmät Harjanneregressi Harjanneregressikertimet ˆβ ridge = arg min (y β i β 0 i j x ij β j ) 2 + λ βj 2 j 0 missä λ 0 pienentämisparametri. Ekvivalentisti ˆβ ridge = arg min (y β i β 0 x ij β j ) 2 i j siten että j 0 β 2 j t (t pienentämisparametri) labratri Aaltylipistn teknillinen krkeakulu

Esitelmä 5 Antti Tppila sivu 8/20 Optimintipin seminaari Syksy 2010 Pienentämismenetelmät Harjanneregressikertimien ratkaiseminen Keskitetään havainnt dtusarvnsa ympärille (x ij x ij x j ) Estimidaan β 0 y:n dtusarvn estimaattrilla ȳ, ja lput minimimalla suuretta RSS(λ) = (y X β) T (y X β) + λβ T β jnka ratkaisuna harjanneregressikertimet saadaan kaavalla missä I n identiteettimatriisi. ˆβ ridge = (X T X + λi ) 1 X T y labratri Aaltylipistn teknillinen krkeakulu

Esitelmä 5 Antti Tppila sivu 9/20 Optimintipin seminaari Syksy 2010 Pienentämismenetelmät Harjanneregressikertimien Bayes tulkinta Olkn y i N(β 0 + xi T β, σ 2 ) missä β N(0, τ 2 ), kaikki tisistaan riippumattmia. Tällöin negatiivinen lg-psteriri tiheys kertimille β n (y i β 0 x ij β j ) 2 + λ βj 2 i j j 0 missä λ = σ2 ja σ 2 ja τ 2 vat tunnettuja. τ 2 Harjanneregressikertimet vat tämän tiheyden mdi ja nrmaalijakaumaletuksesta jhtuen myös jakauman dtusarv. labratri Aaltylipistn teknillinen krkeakulu

labratri Aaltylipistn teknillinen krkeakulu Harjanneregressi Pääkmpnenttitulkinta 1/2 Singulaariarvhajtelma X = UDV T, missä rtgnaaliset U ja V virittävät X :n sarake/riviavaruuden ja diagnaalimatriisin D diagnaalilla X :n singulaariarvt suuruusjärjestyksessä. Pääkmpnettien v j suuntaiset varianssit vidaan laskea kaavalla Var(Xv j ) = d 2 j N missä v j matriisin V j:s sarake ja d j D:n j:s diagnaalialki. Elements f Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedm -4-2 0 2 4-4 -2 0 2 4 Largest Principal Cmpnent Smallest Principal Cmpnent X 1 X2 FIGURE 3.9. Principal cmpnents f sme data pints. The largest principal cmpnent i directin that maximizes the variance f the prj data, and the smallest principal cmpnent minim Esitelmä 5 Antti Tppila sivu 10/20 Optimintipin seminaari Syksy 2010

Esitelmä 5 Antti Tppila sivu 11/20 Optimintipin seminaari Syksy 2010 Harjanneregressi Pääkmpnenttitulkinta 2/2 Harjanneregressiennusteille pätee X ˆβ ridge =X (X T X + λi ) 1 X T y p dj 2 = u j dj 2 + λ ut j y j=1 missä u j vat U:n sarakeet. Pienentämiskerrin u j :tä vastaavaan pääkmpnettisuuntaan n d 2 j d 2 j + λ Pienten varianssien suuntaan pienennetään enemmän labratri Aaltylipistn teknillinen krkeakulu

labratri Aaltylipistn teknillinen krkeakulu Harjanneregressi Tehlliset vapausasteet Tehllinen vapausaste df(λ) = p j=1 d 2 j d 2 j + λ missä p muuttujien määrä Kuvaa λ:n rajittavuutta df(0) = p, df( ) = 0 Eturauhassyöpä esimerkki Elements f Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Cha Cefficients 0 2 4 6 8 0.2 0.0 0.2 0.4 0.6 lcavl lweight age lbph svi lcp gleasn pgg45 df(λ) FIGURE 3.8. Prfiles f ridge cefficients fr the Esitelmä 5 Antti Tppila sivu 12/20 Optimintipin seminaari Syksy 2010

Esitelmä 5 Antti Tppila sivu 13/20 Optimintipin seminaari Syksy 2010 Pienentämismenetelmät Lass-menetelmä Lass estimaatit ˆβ lass = arg min β (y i β 0 i j x ij β j ) 2 + λ β j j 0 missä λ 0 pienentämisparametri. Ekvivalentisti ˆβ lass = arg min (y β i β 0 x ij β j ) 2 i j siten että j 0 β j t (t pienentämisparametri) labratri Aaltylipistn teknillinen krkeakulu

Pienentämismenetelmät Lassn pienentämisparametri Elements f Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Cha Standarditu pienennysparametri s = t/ j 0 β ls j missä βj ls vat tehtävän PNS-estimaatit. Esim. s = 1 2 pienentää parametreja keskimäärin 50 %. labratri Cefficients 0.2 0.0 0.2 0.4 0.6 0.0 0.2 0.4 0.6 0.8 1.0 Shrinkage Factr s Aaltylipistn teknillinen krkeakulu FIGURE 3.10. Prfiles f lass cefficients, as the Esitelmä 5 Antti Tppila sivu 14/20 tuning parameter t is varied. Optimintipin Cefficients seminaariare Syksy plt- 2010 lcavl svi lweight pgg45 lbph gleasn age lcp

Esitelmä 5 Antti Tppila sivu 15/20 Optimintipin seminaari Syksy 2010 Muuttujasajuknvalinta- ja pienentämismenetelmien vertailua Ortnrmaalin datan tapaus Ortnrmaalilla datalla menetelmillä eksplisiittinen ratkaisu Tällöin menetelmät tekevät muunnksen PNS-estimaateille Harjanneregressi: suhteellinen pienennys Lass: vakivähennys aina nllaan asti Osajuknvalinta: asetetaan kertimia nllaksi suuruusjärestyksessä labratri Aaltylipistn teknillinen krkeakulu

Muuttujasajuknvalinta- ja pienentämismenetelmien vertailua Harjanneregressin ja Lassn erista kahden Elements muuttujan f Statistical Learning tapauksessa (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Ch PNS-khdefunktin ptimaalinen ratkaisu n ˆβ Harjanneregressin käypä alue n pall β 2 1 + β2 2 t Lassn käypä alue n timantti β 1 + β 2 t Lassn ptimi löytyy usein terävästä kulmasta jkin parametri nlla β 2. ^ β β 2. FIGURE 3.11. Estimatin picture fr the lass (left) and ridge regressin (right). Shwn are cnturs f the errr and cnstraint functins. The slid blue areas are the cnstraint regins β labratri 1 + β 2 t and β1 2 + β2 2 t 2, Aaltylipistn teknillinen krkeakulu respectively, while the red ellipses are the cnturs f the least squares errr functin. Esitelmä 5 Antti Tppila sivu 16/20 Optimintipin seminaari Syksy 2010 β 1 ^ β β1

Muuttujasajuknvalinta- ja pienentämismenetelmien vertailua Yleistetty sakkfunkti Bayeslaisittain Elements f Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Chap 3 Tulkitaan β j q = t (kuvassa) lg-pririjakaumina kertimille β j. Bayes-estimaatti psteririjakauman mdina β = arg min (y β i β 0 x ij β j ) 2 + λ β j q i j j 0 missä q 0. q = 0 n sajuknvalinta, q = 1 Lass ja q = 2 harjanneregressi (missä estimaatti myös dtusarv). q =4 q =2 q =1 q =0.5 q =0.1 labratri Aaltylipistn FIGUREteknillinen 3.12. krkeakulu P Cnturs f cnstant value f j β j q fr given values f q. Esitelmä 5 Antti Tppila sivu 17/20 Optimintipin seminaari Syksy 2010

Muuttujasajuknvalinta- Elements f Statistical ja pienentämismenetelmien Learning (2nd Ed.) vertailua Elastinen verkk (Elastic net) c Hastie, Tibshirani & F Kun q (1, 2) saadaan kmprmissi harjanneregressin ja Lassn välillä Sakkfunkti λ j 0 β j q Vaihtehtna sakkfunktiksi Elastinen-verkk λ ( ) αβj 2 + (1 α β j ) j 0 q =1.2 α =0.2 differentiituva kun λ > 0. Epätdennäköistä että β j = 0 L q Elastic Net labratri Aaltylipistn teknillinen FIGURE krkeakulu P 3.13. Cnturs f cnstant βj q Esitelmä 5 Antti Tppila sivu fr 18/20 q = 1.2 (left Optimintipin plt), seminaari and Syksythe 2010 e

Esitelmä 5 Antti Tppila sivu 19/20 Optimintipin seminaari Syksy 2010 Ktitehtävä Harjanneregressi Olkn muuttujat X[ 1 ] ja X 2 multinrmaalijakaumasta, [ jnka ] 0 1 ρ dtusarv n µ = ja kvarianssimatriisi Σ =, sekä 0 ρ 1 Y = X 1 β 1 + X 2 β 2 + ε, missä β 1 = 2, β 2 = 1 ja khinatermi ε nudattaa nrmaalijakaumaa N(0, 0.5). Näillä letuksin arvtaan 100 havaintpistettä. Tutki harjanneregressin kertimia tehllisten vapausasteiden funktina kun (a) ρ = 0, (b) ρ = 0.9 ja (c) ρ = 0.9 selittämällä pääkmpnettitulkinnan avulla funktiiden mut. Apuna vi käyttää Matlab-tiedsta ex5.m. labratri Aaltylipistn teknillinen krkeakulu

Esitelmä 5 Antti Tppila sivu 20/20 Optimintipin seminaari Syksy 2010 Ktitehtävä Vinkit Funktiiden mudn selittämisessä kannattanee ajatella että ensin pienennetään 2. pääkmpnenttin suunnassa ja vasta sitten 1. pääkmpnentin suunnassa. Tämä pulestaan impliki jtain harjanneregressikertimille. Myös muuttujien krrelituneisuus vaikuttaa tilanteeseen. labratri Aaltylipistn teknillinen krkeakulu