BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

Samankaltaiset tiedostot
Epävarmuuden hallinta bootstrap-menetelmillä

Sovellettu todennäköisyyslaskenta B

Estimointi. Vilkkumaa / Kuusinen 1

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

1. Tilastollinen malli??

Väliestimointi (jatkoa) Heliövaara 1

tilastotieteen kertaus

Tilastollinen aineisto Luottamusväli

Parametrin estimointi ja bootstrap-otanta

Uskottavuusperusteisten luottamusvälien korjaaminen bootstrap-menetelmällä Pro gradu -esitelmä

pitkittäisaineistoissa

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

3.6 Su-estimaattorien asymptotiikka

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

pitkittäisaineistoissa

Sovellettu todennäköisyyslaskenta B

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Osa 2: Otokset, otosjakaumat ja estimointi

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Harjoitus 7: NCSS - Tilastollinen analyysi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Testit laatueroasteikollisille muuttujille

9. laskuharjoituskierros, vko 12-13, ratkaisut

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

Johdatus tilastotieteeseen Väliestimointi. TKK (c) Ilkka Mellin (2005) 1

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

Mat Tilastollisen analyysin perusteet, kevät 2007

7 Osa 7: Pidempiä esimerkkejä R:n käytöstä

Yleinen lineaarinen malli

Mat Tilastollisen analyysin perusteet. Tilastollisten aineistojen kerääminen ja mittaaminen Tilastollisten aineistojen kuvaaminen Väliestimointi

Sovellettu todennäköisyyslaskenta B

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Luottamusvälit. Normaalijakauma johnkin kohtaan

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Monitasomallit koulututkimuksessa

Batch means -menetelmä

Tilastollinen päättely, 10 op, 4 ov

Todennäköisyyden ominaisuuksia

Tilastotieteen aihehakemisto

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Matemaatikot ja tilastotieteilijät

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

HAVAITUT JA ODOTETUT FREKVENSSIT

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Mallipohjainen klusterointi

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Testejä suhdeasteikollisille muuttujille

Oletetaan, että virhetermit eivät korreloi toistensa eikä faktorin f kanssa. Toisin sanoen

Sovellettu todennäköisyyslaskenta B

031021P Tilastomatematiikka (5 op) viikko 4

Regressioanalyysi. Vilkkumaa / Kuusinen 1

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Tutkimustiedonhallinnan peruskurssi

Tilastolliset menetelmät. Osa 1: Johdanto. Johdanto tilastotieteeseen KE (2014) 1

4.0.2 Kuinka hyvä ennuste on?

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

Mat Tilastollisen analyysin perusteet, kevät 2007

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Parametrittomat ja robustit menetelmät. Jukka Nyblom Jyväskylän yliopisto 2009

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

Testit järjestysasteikollisille muuttujille

Johdatus regressioanalyysiin. Heliövaara 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

dx=5&uilang=fi&lang=fi&lvv=2014

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

11 Raja-arvolauseita ja approksimaatioita

Sovellettu todennäköisyyslaskenta B

Dynaamiset regressiomallit

H 0 : R = b; jossa R (q dim ()) ja b (q 1) ovat tunnettuja ja r (R) = q. 2 J () =

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

pisteet Frekvenssi frekvenssi Yhteensä

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MTTTP1 Tilastotieteen johdantokurssi Luento JOHDANTO

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Korrelaatiokertoinen määrittely 165

805324A (805679S) Aikasarja-analyysi Harjoitus 3 (2016)

Transkriptio:

BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto Metodifestivaali 28.5.2009 1

1 Mitä ihmettä on bootstrap? Webster: 1. a loop of leather or cloth sewn at the top rear, or sometimes on each side of a boot to facilitate pulling it on. 2. pull oneself up by one s (own) bootstraps, to help oneself without the aid of others ; use one s own resources. 2

Tilastotiede on silkkaa bootstrappingia: Paitsi, että voidaan antaa arvio, että Puolueen kannatus on mittauksessa 25%, voidaan sanoa myös, että virhemarginaali on ±2%. Bootstrap liittyy sellaisiin käsitteisiin kuin estimaatin keskivirhe ja luottamusvälit. 3

2 Bootstrap ja keskivirhe Tavanomainen aineiston tiivistys: estimaatti θ ja sen keskivirhe s.e.( θ). Matemaattinen tilastotiede antaa keinoja keskivirheen laskemiseksi. 4

Keskivirhe bootstrapilla: 1. Satunnaisotos x 1,...,x n. Estimaatti θ = θ(x 1,x 2,...,x n ). 2. Satunnaisotos x 1,x 2,...,x n palauttaen {x 1,x 2,...,x n } :stä. Lasketaan θ = θ(x 1,x 2,...,x n). 3. Toistetaan kohta (2) B kertaa; saadaan θ 1,..., θ B. 5

4. Bootstrap keskivirhe on s boot = [ 1 B 1 ] 1 2 B ( θ j θ ) 2 j=1, θ = 1 B B j=1 θ j. 6

Esimerkki. Korrelaatiokerroin Satunnaisotos (x 1,y i ),...,(x n,y n ). Tunnusluku = korrelatiokerroin r. Populaation korrelaatiokerroin ρ. Halutaan r:n keskivirhe. Jos otos on 2-ulotteisesta normaalijakaumasta, pätee likimäärin s.e.(r) 1 r2. n 7

Aineisto = law school. 15 amerikkalaista lakikoulua v. 1973 kustakin sisäänpäässeiden keskiarvot muuttujista LSAT = pistemäärä kansallisesta law testistä GPA = undergraduate pistemäärä otoksesta r =0.776 Normaaliteorian keskivirhe 0.103. Bootstrap keskivirhe s boot =0.132, B = 1000 Bootstrap-arvojen keskiarvo on 0.770 (käytännöllisesti katsoen harhaton). 8

Law school aineisto Frekvenssi 0 50 100 150 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Korrelaatiokerroin bootstrap otoksessa 9

Jotkin tapaukset tulevat bootstrap-otokseen useamman kerran jotkin eivät kertaakaan. Tn, että tietty tapaus ei ole bootstrap-otoksessa on ( 1 n) 1 n e 1 0.36. Kuinka suuri B tarvitaan keskivirheen laskemiseksi? Efron: B =200riittää lähes aina. 10

Mihin keskivirhettä käytetään? Kun oletetaan estimaatin likimääräinen normaalisuus, niin estimaatti ± keskivirhe 67 %:n luottamusväli estimaatti ± 2 keskivirhe 95 %:n luottamusväli estimaatti ± 3 keskivirhe 99,7 %:n luottamusväli Voiko Bootstrapilla laske luottamusvälejä suoraan (kiertamättä keskivirheen kautta)? Vastaus: Kyllä! 11

3 Bootstrap ja luottamusvälit Parametri θ Estimaatti θ Bootstrap-arvot θ j, j =1,...,B Järjestä θ (1) θ (2) θ (B) Laske k = Bα Luottamusväli [ θ (k), θ ] (B k+1), luottamuskerroin 1 2α 12

Esimerkki. Law school -aineisto (jatkoa). 95%:n luottamusväli, α =0.025, B =1000, k = B α =25. Tavallinen normaaliapproksimaatio 0.776 ± 1.96 (1 0.776 2 )/ 15 = [0.575, 0.977] Normaaliapprokksimaatio + Bootstrap-keskivirhe 0.776 ± 1.96 0.132 = [0.517, 1.036] Prosenttipistemenetelmä [r(25),r (976)]=[0.458, 0.961]. 13

Esimerkki. Score-aineisto. (Efron & Tibshirani, 1993, alk. Mardia, Kent & Bibby, 1979). 88 opiskelijaa 5 tenttitulosta: mekaniikka, vektorit, algebra, analyysi, tilastotiede Pääkomponenttianalyysi: Kovarianssimatriisin ominaisarvot: 687.0 202.1 103.8 84.6 32.2 1. pääkomponentin selitysaste: 678/(678 + 202.1+ +32.2) = 0.619 Bootstrap 14

B = 5000, keskivirhe s boot =0.0475 95%:n luottamusväli 0.619 ± 1.96 0.0475 = [0.526, 0.712] Prosenttipistemenetelmä [ θ 125, θ 4876] =[0.523, 0.709]. 15

Score aineisto Frekvenssi 0 200 400 600 800 0.4 0.5 0.6 0.7 Selitysaste bootstrap otoksessa 16

1. Pääkomponentti mec vec alg ana sta 0.505 0.368 0.346 0.451 0.535 Siis PC1 on suunnilleen sama kuin testien summa tai keskiarvo. Poikkevatko painot merkitsevästi toisistaan? 17

Lataukset 1.0 0.5 0.0 0.5 1.0 Ensimmäinen pääkomponentti 1 2 3 4 5 Testit 18

Lataukset 0.0 0.2 0.4 0.6 0.8 1.0 PC1, luottamusväli ja keskiarvo 1 2 3 4 5 Testit 19

4 Kysymyksiä bootstrapista Efron & Tibshirani (1993) Mitä hyötyä on bootstrapista? Voidaan arvioida monimutkaisten tilastollisten menetelmien tarkkuutta. Vältetään monimutkainen ja vaikea matemaattinen analyysi. 20

Saadaan ratkaisu silloinkin kun matemaattinen analyysi on mahdotonta. Voidaan välttää rajoittavia jakaumaolettamuksia (usein olettamus normaalijakaumasta). 21

Onko bootstrap eräänlaista simulointia? Kyllä, bootstrap yleensä edellyttää simulointia: otantaa palauttaen aineistosta (epäparametrinen bootstrap) tai estimoidusta mallista (parametrinen bootstrap). Ei tutkita menetelmien ominaisuuksia yleensä vaan käsillä olevan aineiston suhteen. 22

Milloin bootstrap on sopiva menetelmä ja milloin muut menetelmät sen sijasta? Vaikea kysymys, riippuu monista tekijöistä. Perustuu frekventistiseen todennäköisyysteoriaan (ei niinkään bayes-teoriaan). Sopiva menetelmä, kun ei haluta tai voida tehdä laajaa mallitustyötä. Suurissa otoksissa epäparametrinen bootstrap on tehokas. 23

Bootstrap ei ole eksakti toisin kuin permutaatiotestit äärellisissä otoksissa. Voi tehdä traditionaalisen analyysin ja bootstrap-analyysin samasta aineistosta ja verrata tuloksia. Bootstrap ja havaintojen riippuvuus (esim. aikasarjat) Parametrisessa bootstrapissa ei periaattelisia ongelmia. 24

Epäparametrinen bootstrap edellyttää riippumattomiahavaintoja. Käytetään mallin jäännöksiä. Liukuvien blokkien tekniikka. 25

Viitteet Davison, A.C. and Hinkley, D.V. (1997). Bootstrap Methods and Their Applications. Cambridge University Press, Cambridge. Efron, B. and Tibshirani, R.J. (1993). An Introduction to the Bootstrap. Chapman & Hall, New York. R packages: boot, bootstrap. 26