Epävarmuuden hallinta bootstrap-menetelmillä

Samankaltaiset tiedostot
BOOTSTRAPPING? Jukka Nyblom Jyväskylän yliopisto. Metodifestivaali

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Tilastotieteen aihehakemisto

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Parametrin estimointi ja bootstrap-otanta

Regressioanalyysi. Kuusinen/Heliövaara 1

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MTTTP1, luento KERTAUSTA

Osa 2: Otokset, otosjakaumat ja estimointi

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

1. Tutkitaan tavallista kahden selittäjän regressiomallia

Uskottavuusperusteisten luottamusvälien korjaaminen bootstrap-menetelmällä Pro gradu -esitelmä

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

MTTTP1, luento KERTAUSTA

Korvausvastuun ennustejakauma bootstrap-menetelmän avulla

Teema 8: Parametrien estimointi ja luottamusvälit

Sovellettu todennäköisyyslaskenta B

pitkittäisaineistoissa

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 9. luento. Pertti Palo

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

Harjoitus 7: NCSS - Tilastollinen analyysi

1. Tilastollinen malli??

MTTTP1, luento KERTAUSTA JA TÄYDENNYSTÄ. Tunnusluvut. 1) Sijainnin tunnuslukuja. Keskilukuja moodi (Mo) mediaani (Md) keskiarvo, kaava (1)

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Testejä suhdeasteikollisille muuttujille

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

TA7, Ekonometrian johdantokurssi HARJOITUS 4 1 RATKAISUEHDOTUKSET

Tilastollisia peruskäsitteitä ja Monte Carlo

Johdatus regressioanalyysiin. Heliövaara 1

Harjoitus 9: Excel - Tilastollinen analyysi

tilastotieteen kertaus

Sovellettu todennäköisyyslaskenta B

2 k -faktorikokeet. Vilkkumaa / Kuusinen 1

Estimointi. Vilkkumaa / Kuusinen 1

Väliestimointi (jatkoa) Heliövaara 1

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Matemaatikot ja tilastotieteilijät

pitkittäisaineistoissa

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Otantajakauman käyttö päättelyssä

9. laskuharjoituskierros, vko 12-13, ratkaisut

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

MTTTP1, luento KERTAUSTA

Mat Tilastollisen analyysin perusteet, kevät 2007

/1. MTTTP1, luento Normaalijakauma (kertausta) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

JY / METODIFESTIVAALI 2013 PRE-KURSSI: KYSELYTUTKIMUS DEMOT

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Sovellettu todennäköisyyslaskenta B

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

7.4 Normaalijakauma (kertausta ja täydennystä) Taulukosta P(Z 1,6449) = 0,05, P(Z -1,6449) = 0,05 P(Z 1,96) = 0,025, P(Z -1,96) = 0,025

Tutkimustiedonhallinnan peruskurssi

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Dynaamiset regressiomallit

1. Tutkitaan regressiomallia Y i = β 0 + β 1 X i + u i ja oletetaan, että tavanomaiset

Pienet ännät tutkimuksessa Tilastollisen analyysin työpaja. Jari Westerholm Niilo Mäki instituutti Jyväskylän yliopisto

Luottamisvälin avulla voidaan arvioida populaation tuntematonta parametria.

Estimointi. Otantajakauma

Monitasomallit koulututkimuksessa

54. Tehdään yhden selittäjän lineaarinen regressioanalyysi, kun selittäjänä on määrällinen muuttuja (ja selitettävä myös):

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

805306A Johdatus monimuuttujamenetelmiin, 5 op

2. TILASTOLLINEN TESTAAMINEN...

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

Puuttuvan tiedon ongelmat pitkittäistutkimuksissa

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Testit järjestysasteikollisille muuttujille

Tilastollisen analyysin perusteet Luento 11: Epäparametrinen vastine ANOVAlle

Gaussiset prosessit derivaattahavainnoilla regressio-ongelmassa (valmiin työn esittely)

HY, MTO / Matemaattisten tieteiden kandiohjelma Tilastollinen päättely II, kevät 2018 Harjoitus 8B Ratkaisuehdotuksia.

TILASTOLLISTEN MENETELMIEN KIRJO JA KÄYTTÖ LÄÄKETIETEEN TUTKIMUSJULKAISUISSA. Pentti Nieminen

Sovellettu todennäköisyyslaskenta B

Harjoitukset 3 : Monimuuttujaregressio 2 (Palautus )

TUTKIMUSAINEISTON KVANTITATIIVINEN ANALYYSI LTKY012. Timo Törmäkangas

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Heikki Seppälä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Kaavakokoelma, testikaaviot ja jakaumataulukot liitteinä. Ei omia taulukoita! Laskin sallittu.

Luottamusvälit. Normaalijakauma johnkin kohtaan

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-C2103 Koesuunnittelu ja tilastolliset mallit (5 op)

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Harjoitus 2: Matlab - Statistical Toolbox

Kvantitatiiviset tutkimusmenetelmät maantieteessä

TUTKIMUSAINEISTON ANALYYSI. LTKY012 Timo Törmäkangas

Sovellettu todennäköisyyslaskenta B

Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Tilastollisten menetelmien käyttö Kelan tutkimustoiminnassa

031021P Tilastomatematiikka (5 op) kertausta 2. vk:een

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Kertaus. MS-C2128 Ennustaminen ja Aikasarja-analyysi, Lauri Viitasaari

Transkriptio:

1/17 Epävarmuuden hallinta bootstrap-menetelmillä Esimerkkinä taloudellinen arviointi Jaakko Nevalainen Tampereen yliopisto Metodifestivaalit 2015

2/17 Sisältö 1 Johdanto 2 Tavanomainen bootstrap Bootstrap-menettelyn perusteet Inkrementaalisen kustannus-vaikuttavuussuhteen tarkkuuden arviointi 3 Mitä muuta on hyvä tietää bootstrap'n mahdollisuuksista 4 Yhteenveto

3/17 Johdanto I Aineistosta tapahtuvaan päättelyyn liittyy lähes aina epävarmuutta. Tunnuslukuihin kuten keskiarvot, keskiarvojen erotukset korrelaatiokertoimet, autokorrelaatio regressiokertoimet jakauman kvantiilit liittyvää epävarmuutta voidaan arvioida keskivirheiden ja luottamusvälien avulla. Koska kokeita tai aineistoja ei yleensä kerätä toistetusti, joudutaan arvio tekemään vain yhden aineiston perusteella.

4/17 Johdanto II Päättelyn taustalla on useimmiten tilastollinen malli, esimerkiksi aikasarjamalli lineaarinen sekamalli (esim. monitasomallit, satunnaiskertoimien regressio, splinit) yleistetty lineaarinen malli, GEE-mallit... joiden avulla voidaan analyyttisesti estimoida mallin parametrit ja niihin liittyvä epävarmuus nojautuen ns. uskottavuuden ja uskottavuusfunktion käyttöön.

5/17 Johdanto III Milloin siis ylipäätään tarvitaan jotain muuta menettelyä? 1 Realistisen tilastollisen mallin muotoilu on vaikeaa tai mahdotonta. 2 Tunnuslukujen tarkka otantajakauma on hankala, eikä voida määrittää analyyttisesti. Esim. suhdeluvut. 3 Malliin pohjautuvat keskivirheet nojautuvat usein suurten otosten teoriaan, samoin ns. delta-menetelmä. Pienillä otoksilla on hyödyllistä varmistaa, että arvioitu keskivirhe tai luottamusväli on oikein.

6/17 Johdanto IV Esimerkki Yhdysvaltain väkiluku n = 49 kaupungissa vuosina 1920 (U) ja 1930 (X ). Lukujen suhde X /U mahdollistaa Yhdysvaltain kokonaisväkiluvun arvioinnin vuonna 1930 vuoden 1920 tietojen pohjalta. Selkeän tilastollisen mallin puuttuessa suhde voidaan arvioida havaittujen keskiarvojen suhteena X /Ū. On kiinnostavaa tietää kuinka tarkan arvion kokonaisväkiluvusta tämä tunnusluku antaa. Lähde: Davison & Hinkley: Bootstrap Methods and Their Application. Cambridge University Press, 1997.

7/17 Johdanto V Figure: Väkiluku (tuhansina) 49 Yhdysvaltain kaupungissa vuosina 1920 ja 1930 (Davison & Hinkley, 1997).

8/17 Tavanomainen (epäparametrinen) bootstrap I Tarinan mukaan paroni von Münchhausen nosti itsensä järven pohjasta vetämällä saappaansa remmeistä (bootstraps). Bootstrap-menettelyn idea on samankaltainen; suoritetaan toistettua uudelleenotantaa aineistosta itsestään. Argumentti: Parhaan kuvan todellisesta kohdepopulaation jakaumasta antaa juuri tämä havaittu aineisto kokoa n.

9/17 Tavanomainen (epäparametrinen) bootstrap II Bootstrap-menettely: Uudelleenotanta palauttaen (sampling with replacement) havaitusta aineistosta. Antaa samaa kokoa olevat simuloidut aineistot. Sama havainto voi esiintyä useita kertoja simuloiduissa aineistoissa, tai ei lainkaan. Lasketaan halutun tunnusluvun arvo jokaiselle bootstrap-otokselle erikseen. Kun menettelyä toistetaan lukuisia kertoja, saadaan käsitys tunnusluvun otantajakaumasta. Lasketaan harha, varianssi ja sen avulla keskivirhe.

10/17 Yhdysvaltain väkiluvun arviointi I Figure: Yhdeksän bootstrap-otosta Yhdysvaltain kaupungit -aineistosta (Davison & Hinkley, 1997).

11/17 Yhdysvaltain väkiluvun arviointi II Harha on varsinaisesta aineistosta lasketun tunnusluvun ja bootstrap otosten keskiarvon erotus, tässä b = 1.582 1.520 = 0.062. Tunnusluvun varianssi saadaan laskemalla vaihtelu bootstrap-otoksesta toiseen, tässä 0.03907, ja sen perusteella arvion keskivirhe on ŜE( X /Ū) = 0.03907 = 0.1977. Epävarmuuden arviointitarkkuutta voidaan parantaa simuloimalla yhä uusia bootstrap-otoksia. Tuhat otosta on yleinen valinta ja tässä sillä saadaan b = 0.0552, ŜE( X /Ū) = 0.2349.

12/17 Valohoidon kustannus-vaikuttavuussuhde ja siihen liittyvä epävarmuus I Data set with 10000 observations and 9 variables simnum costsgr1 effectgr1 costsgr2 effectgr2 incr_eff incr_costs 1 136.0292 0.4347888 127.8955 0.6911555-0.2563667 8.133776 2 150.1545 0.4304923 140.0956 0.6864915-0.2559992 10.058875 3 143.6007 0.4285520 132.6252 0.6810537-0.2525017 10.975559 4 137.6703 0.4306892 118.7215 0.6890834-0.2583942 18.948784 5 138.0855 0.4342924 136.4868 0.6824924-0.2482001 1.598688 6 137.1430 0.4031001 133.9452 0.6832359-0.2801358 3.197750 7 147.6359 0.4205428 143.0714 0.6846644-0.2641216 4.564493 8 140.3473 0.4355415 132.0288 0.6850723-0.2495308 8.318509 9 139.7213 0.4378659 123.6537 0.6899112-0.2520453 16.067583 10 156.5594 0.4300533 137.9879 0.6879055-0.2578522 18.571480...

13/17 Valohoidon kustannus-vaikuttavuussuhde ja siihen liittyvä epävarmuus II Histogram of ICER Frequency 0 200 400 600 800 0 200 400 600 ICER

14/17 Valohoidon kustannus-vaikuttavuussuhde ja siihen liittyvä epävarmuus III In R, > # ICER = (C koe - C kontr)/(e koe - E kontr). > icer_nom <- (md1$costsgr1 - md1$costsgr2) > icer_denom <-(md1$effectgr1 - md1$effectgr2) > ICER<- icer_nom/icer_denom > > mean(icer) [1] 140.2616 > # keskivirhe > sd(icer) [1] 93.91801

15/17 Valohoidon kustannus-vaikuttavuussuhde ja siihen liittyvä epävarmuus IV > # 95% luottamusväli > # poimitaan otantajakauman vastaavat kvantiilit > quantile(icer,probs=c(0.025,0.975)) 2.5% 97.5% -16.6394 348.0306 Huomaa, että koska otantajakauma on lievää vinoutta lukuun ottamatta normaalia muistuttava, saadaan tavanomaisella kaavalla 140.2616 ± 1.96 93.918 samankaltainen vastaus: 43.818, 324.34.

16/17 Bootstrap'n mahdollisuuksia Bootstrap-menettelyä voidaan käyttää myös tilastollisen testin rakentamiseen, mutta se vaatii nollahypoteesin mukaisen validin uudelleenotantakehikon (ei välttämättä helppoa). Regressio-bootstrap'ssa otos palauttaen selittäjistä, joista satunnaisesti poimittujen jäännösten avulla luodaan tulosmuuttujien bootstrap-arvot lasketaan regressiokertoimet otoksesta toiseen Aikasarjoissa ja/tai pitkittäisaineistoissa toimitaan kuten regressiossa ja/tai voidaan suorittaa uudelleenotantaa lohkoissa (pre-whitening + post-blackening). Cluster bootstrap ryvästyneille aineistoille (Field & Welsh, 2007).

17/17 Yhteenveto Bootstrap on laskennallisesti intensiivinen tapa laskea keskivirheitä ja luottamusvälejä. Yleiskäyttöinen, mutta rakenteeltaan vaativissa aineistoissa tavanomainen bootstrap vaatii säätöä. Hyvin saatavilla eri ohjelmistoissa tutkijan käyttöön. Esimerkiksi R:n boot()-paketti on helppokäyttöinen. SAS/SURVEYSELECT työläämpi, mutta osaava pärjää.