Harha mallin arvioinnissa

Samankaltaiset tiedostot
Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

4.0.2 Kuinka hyvä ennuste on?

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Muuttujaosajoukon valinta ja pienentämismenetelmät

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Sovellettu todennäköisyyslaskenta B

Todennäköisyyden ominaisuuksia

2. Teoriaharjoitukset

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Johdatus regressioanalyysiin. Heliövaara 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

Diskriminanttianalyysi I

Estimointi. Vilkkumaa / Kuusinen 1

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Osa 2: Otokset, otosjakaumat ja estimointi

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Mat Tilastollisen analyysin perusteet, kevät 2007

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Kaksisuuntainen varianssianalyysi. Heliövaara 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Johdatus regressioanalyysiin

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

pitkittäisaineistoissa

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

1. Tilastollinen malli??

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

tilastotieteen kertaus

Harjoitus 2: Matlab - Statistical Toolbox

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Johdatus tilastotieteeseen Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2004) 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

Lause 4.2. Lineearinen pienimmän keskineliövirheen estimaattoi on lineaarinen projektio.

Väliestimointi (jatkoa) Heliövaara 1

2. Uskottavuus ja informaatio

Harjoitus 3: Regressiomallit (Matlab)

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

3. Teoriaharjoitukset

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

1. LINEAARISET LUOKITTIMET

pitkittäisaineistoissa

Projektin arvon aleneminen

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Johdatus regressioanalyysiin. TKK (c) Ilkka Mellin (2005) 1

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Harjoitus 9: Excel - Tilastollinen analyysi

Sovellettu todennäköisyyslaskenta B

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Erityiskysymyksiä yleisen lineaarisen mallin soveltamisessa

Kaksisuuntainen varianssianalyysi. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

1. Tutkitaan tavallista kahden selittäjän regressiomallia

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

9. laskuharjoituskierros, vko 12-13, ratkaisut

3 Yleistä estimointiteoriaa. Olemme perehtuneet jo piste-estimointiin su-estimoinnin kautta Tässä luvussa tarkastellaan piste-estimointiin yleisemmin

Tilastollinen aineisto Luottamusväli

OPTIMAALINEN INVESTOINTIPÄÄTÖS

Moniulotteisia todennäköisyysjakaumia

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Vastepintamenetelmä. Vilkkumaa / Kuusinen 1

Sovellettu todennäköisyyslaskenta B

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Identifiointiprosessi

Harjoitus 3: Regressiomallit (Matlab)

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Puumenetelmät. Topi Sikanen. S ysteemianalyysin. Laboratorio Aalto-yliopiston teknillinen korkeakoulu

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Harjoitus 7: NCSS - Tilastollinen analyysi

805306A Johdatus monimuuttujamenetelmiin, 5 op

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Dynaamiset regressiomallit

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Korrelaatiokertoinen määrittely 165

(0 desimaalia, 2 merkitsevää numeroa).

Lohkoasetelmat. Vilkkumaa / Kuusinen 1

1. Jatketaan luentojen esimerkkiä 8.3. Oletetaan kuten esimerkissä X Y Bin(Y, θ) Y Poi(λ) λ y. f X (x) (λθ)x

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

5.7 Uskottavuusfunktioon perustuvia testejä II

, tuottoprosentti r = X 1 X 0

Transkriptio:

Esitelmä 12 Antti Toppila sivu 1/18 Optimointiopin seminaari Syksy 2010 Harha mallin arvioinnissa Antti Toppila 13.10.2010

Esitelmä 12 Antti Toppila sivu 2/18 Optimointiopin seminaari Syksy 2010 Sisältö Johdanto Ennustamisen virhe Harha-varianssi hajotelma Opetusvirheen optimismi Kotitehtävä

Esitelmä 12 Antti Toppila sivu 3/18 Optimointiopin seminaari Syksy 2010 Johdanto Tarvetta kehittää mittareita mallien hyvyyksille tukemaan mallin valintaa, jolloin vaihtoeshtoisten mallien joukosta valitaan paras mallin suorityskyvyn arviointiin, jotta tiedetään ennustuksen tarkkuus ja mallin toimita-alue

Esitelmä 12 Antti Toppila sivu 4/18 Optimointiopin seminaari Syksy 2010 Ennustamisen virhe Kvantitatiivinen data Ennustetaan muuttujaa Y satunnaisella vektorilla X käyttäen mallia Ŷ = ˆf (X ) = ˆf α (X ), missä α on kompleksisuusparametri ja estimointiin käytetty dataa T = {(x 1, y 1 ), (x 2, y 2 ),..., (x N, y N )} missä N havaintojen määrä. Sovitteen hyvyyttä voidaan kuvata neliöllisellä virhefunktiolla tai absoluuttisella virhefunktiolla L(Y, ˆf (X )) = (Y ˆf (X )) 2, L(Y, ˆf (X )) = Y ˆf (X ).

Esitelmä 12 Antti Toppila sivu 5/18 Optimointiopin seminaari Syksy 2010 Ennustamisen virhe Kvalitatiivinen data Kategorian G {1,..., K} todennäköisyysjakauma on p k (X ) = P(G = k X ) ja luokan G estimaattorina on Ĝ = arg max k ˆp k (X ), missä ˆp k on p k :n estimaattori. Sovitteen hyvyyttä voidaan kuvata esim. 0-1 virhefunktiolla L(G, Ĝ(X )) = I (G G(X )) tai 2 log-uskottavuus eli devianssivirhefunktiolla 2 k I (G = k) log ˆp k (X ) = 2 log ˆp G (X ). k=1

Elements of Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2 Ennustamisen virhe Virhetyyppien mittareita (esitetty kvalitatiivisille muuttujille) Testivirhe (myös yleistysvirhe) Err T = E XY (L(Y, ˆf (X )) T ) Odotusarvoinen ennustevirhe Err = E T (Err T ) Opetusvirhe Prediction Error 0.0 0.2 0.4 0.6 0.8 1.0 1.2 High Bias Low Bias Low Variance High Variance err = err T = 1 N 0 5 10 15 20 25 30 35 L(y i, ˆf (x i )) Model Complexity (df) N 1=1 Opetusvirheen odotusarvo E FIGURE 7.1. Behavior of test T [err sample T ] and traini sample error as the model complexity is varied. T light blue curves show the training error err, while t Esitelmä 12 Antti Toppila light sivu red6/18 curves show the Optimointiopin conditional seminaari test Syksy error 2010Err

Esitelmä 12 Antti Toppila sivu 7/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Perusteet Oletetaan että muuttujan Y = f (X ) + ε regressioestimaattori on ˆf (X ), missä E(ε) = 0 ja Var(ε) = σε. 2 Voidaan osoittaa neliöllisellä virheelle että odotusarvoiselle ennustevirheelle pisteessä X = x 0 pätee [ ( ) 2 ] X Err(x 0 ) =E Y ˆf (x 0 ) = x0 ( 2 ] 2 =σε 2 + Eˆf (x 0 ) f (x 0 )) + E [ˆf (x 0 ) Eˆf (x 0 ) =σ 2 ε + Bias 2 (ˆf (x 0 )) + Var(ˆf (x 0 )) =Kohina + Bias 2 + Varianssi

Esitelmä 12 Antti Toppila sivu 8/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma k-lähimmän naapurin regressiohajotelma Olettamalla että opetusdatan x i :t eivät satunnaisia saadaan k-lähimmän naapurin hajotelmaksi [ ( ) 2 ] X Err(x 0 ) =E Y ˆf k (x 0 ) = x0 ( =σε 2 + f (x 0 ) 1 k k l=1 ) 2 σ 2 f (x (l) ) + ε k Tyypillisesti Bias 2 -termi (keskimmäinen) kasvaa k:n kasvaessa

Esitelmä 12 Antti Toppila sivu 9/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Lineaarinen regressiohajotelma 1/2 Lineaarinen malli ˆf p (x) = x T ˆβ, missä ˆβ = ( ˆβ 0, ˆβ 1,..., ˆβ p ) ja x = (1, x 1,..., x N ). Testivirhe pisteessä x 0 on [ ( ) 2 ] X Err(x 0 ) =E Y ˆf p (x 0 ) = x0 ( 2 =σε 2 + f (x 0 ) Eˆf p (x 0 )) + h(x0 ) 2 σε 2 missä h(x 0 ) = X (X T X ) 1 x 0 ja X R N p+1. Vrt. lineaarisen regression estimaatteihin ˆβ = (X T X ) 1 X T y. Lisäksi Var(ˆf p (x 0 )) = h(x 0 ) 2 σ 2 ε.

Esitelmä 12 Antti Toppila sivu 10/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Lineaarinen regressiohajotelma 2/2 Var(ˆf p (x 0 )) riippuu x 0 :sta, mutta keskiarvo 1 N N Var(ˆf p (x i )) = p N σ2 ε i=1 on vakio. Täten otoksen sisäinen (keski)virhe on 1 N N Err(x 0 ) =σε 2 + 1 N i=1 N i=1 ( ) 2 p f (x i ) Eˆf p (x i ) + N σ2 ε

Esitelmä 12 Antti Toppila sivu 11/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Lineaaristen mallien tarkempi hajotelma Funktion f parhaiten kuvaavan lineaarisen mallin parametrit β = arg min β E[f (X ) X T β] 2 ja käytetyn lineaarisen mallin kertoimet ˆβ α missä α mallin kompleksisuusparametri. Tällöin keskimääräinen neliöharha on ] 2 ] 2 E x0 [f (x 0 ) E T ˆf α (x 0 ) =Ex0 [f (x 0 ) x0 T β [ + E x0 x0 T β E T x0 T ˆβ ] 2 α =KA[Malliharha] 2 + KA[Estimointiharha] 2.

Esitelmä 12 Antti Toppila sivu 12/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Esimerkki k-lähimmän naapurin menetelmällä (kirjan s. 226) Elements of Statistical Learning (2nd Ed.) c Hastie, Tibshi k NN Regression Linear M Selittäjät X 1..., X 20 [0, 1]-tasajakumasta ja Y = 0 jos X 1 1 2, muulloin Y = 1. Havintoja (x i, y i ) 80 kpl. Estimoidaan k-lähimmän naapurin regressiolla (neliövirhe) ja luokittelulla (0-1-virhe) ja piirretään kummankin odotusarvoinen ennustevirhe, neliöharha ja estimaattorin varianssi. 0-1 virhe Neliövirhe 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 50 40 30 20 10 0 Number of Neighbors k k NN Classification 50 40 30 20 10 0 Number of Neighbors k 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 5 Linear Mo 5

Esitelmä 12 Antti Toppila sivu 13/18 Optimointiopin seminaari Syksy 2010 Harha-varianssi hajotelma Esimerkki lineaarisella regressiolla (kirjan s. 226) Elements of Statistical Learning (2nd Ed.) c Hastie, Tibshirani & Friedman 2009 Chap 7 k NN Regression Linear Model Regression Selittäjät X 1..., X 20 [0, 1]-tasajakumasta ja Y = 1 jos 10 j=1 X j > 5, muulloin Y = 0. Havintoja (x i, y i ) 80 kpl. Estimoidaan parhaan osajoukon lineaarisella regressiolla ja luokittelulla kokoa p ja piirretään kummankin odotusarvoinen ennustevirhe, neliöharha ja estimaattorin varianssi. 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 50 40 30 20 10 0 Number of Neighbors k k NN Classification 50 40 30 20 10 0 Number of Neighbors k 0-1 virhe Neliövirhe 0.0 0.1 0.2 0.3 0.4 0.0 0.1 0.2 0.3 0.4 5 10 15 20 Subset Size p Linear Model Classification 5 10 15 20 Subset Size p

Esitelmä 12 Antti Toppila sivu 14/18 Optimointiopin seminaari Syksy 2010 Opetusvirheen optimismi 1/2 ] Odotusarvoisen ennustevirheen Err = E T [E XY [L(Y, ˆf (X ) T ] estimoiminen opetusvirhellä err = 1 N N 1=1 L(y i, ˆf (x i )) optimistista: Otoksen sisäinen virhe (Err:n estimaattori?) Err in = 1 N N ] E Yi [L(Y i, ˆf (x i )) T i=1 missä Y i (Y X = x i ). Optimismi määritellään suureena op = Err in err ja keskimääräinen optimismi ω = E y [op] missä y = (y 1,..., y N ) noudattaa N i=1 Y i yhteisjakaumaa.

Esitelmä 12 Antti Toppila sivu 15/18 Optimointiopin seminaari Syksy 2010 Opetusvirheen optimismi 2/2 Neliö- sekä 0-1-virheelle voidaan sopivin oletuksin osoittaa ω = 2 N N Cov(ŷ i, y i ) i=1 Kovempi sovitus opetusdataan kasvattaa keskimääräistä optimismia. Lineaarisella mallilla Y = f (X ) + ε voidaan osoittaa N i=1 Cov(ŷ i, y i ) = dσ 2 ε missä d havaintojen määrä, jolloin [ ] ] E y Err in = E y [err + 2 d N σ2 ε. Ts. optimismi kasvaa p:n suhteen mutta pienenee N:n suhteen.

Esitelmä 12 Antti Toppila sivu 16/18 Optimointiopin seminaari Syksy 2010 Loppukevennys Realization Closest fit in population Closest fit Truth Model bias Estimation Bias MODEL SPACE Shrunken fit Estimation Variance RESTRICTED MODEL SPACE

Esitelmä 12 Antti Toppila sivu 17/18 Optimointiopin seminaari Syksy 2010 Kotitehtävä Harhan hajotelma lineaarisessa mallissa Olkoon Y = f (X ) + ε missä ε N(0, 1) ja X = (X 1, X 2 ) noudattaa multinormaalijakaumaa [ ] odotusarvolla 0 ja 1 0 kovarianssimatriisilla Σ =. Käytössä on 10 havaintopistettä 0 1 ja lineaarisen mallin ˆf (X ) = ˆβ 1 X 1 + ˆβ 2 X 2 kertoimet estimoidaan harjannergeressiolla parametrilla λ. Laske pisteessä (1, 0.75) harha-varianssi hajotelma, jossa malli ja estimointiharha kalvon 11 tavoin, kun f (X ) = X 1 + 2X2 2. Käytä λ:n arvoja 0,1,10 ja 100. Mitkä ovat johtopäätöksesi? Apuna voit käyttää Matlab-tiedostoa ex12.m, johon osa tarvittavista laskuista on jo toteutettu.

Esitelmä 12 Antti Toppila sivu 18/18 Optimointiopin seminaari Syksy 2010 Kotitehtävä Vinkit Harjanneregression sovitteen varianssi saadaan kuten lineaariselle regressiolle paitsi että h(x 0 ) lasketaan kaavalla h(x 0 ) = X (X T X + λi ) 1 x 0 (väärin kirjassa s. 224) Simuloi odotusarvoinen harjanneregressiokerroin Parhaan lineaarisen mallin optimaaliset kertoimet β on ratkaistava minimoimalla odotusarvoa. Normaalijakautuneelle { muuttujalle X : E(X µ X ) p 0, jos p pariton = σ p X (p 1)!!, jos p parillinen missä n!! on kaksinkertainen kertoma (kerrotaan joka toinen luku n:stä yhteen).