Tutkimustiedonhallinnan peruskurssi

Samankaltaiset tiedostot
Parametrin estimointi ja bootstrap-otanta

Tilastollisia peruskäsitteitä ja Monte Carlo

Tutkimustiedonhallinnan peruskurssi

Tilastollinen aineisto Luottamusväli

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Väliestimointi (jatkoa) Heliövaara 1

Sovellettu todennäköisyyslaskenta B

MTTTP5, luento Otossuureita ja niiden jakaumia (jatkuu)

Sovellettu todennäköisyyslaskenta B

ABHELSINKI UNIVERSITY OF TECHNOLOGY

Mat Tilastollisen analyysin perusteet, kevät 2007

Harjoitus 7: NCSS - Tilastollinen analyysi

tilastotieteen kertaus

Osa 2: Otokset, otosjakaumat ja estimointi

Tilastotieteen kertaus. Kuusinen/Heliövaara 1

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Estimointi populaation tuntemattoman parametrin arviointia otossuureen avulla Otossuure satunnaisotoksen avulla määritelty funktio

Estimointi. Vilkkumaa / Kuusinen 1

Luottamusvälit. Normaalijakauma johnkin kohtaan

Johdatus tilastotieteeseen Testit laatueroasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Testejä suhdeasteikollisille muuttujille

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2004) 1

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Testit laatueroasteikollisille muuttujille

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

MTTTA1 Tilastomenetelmien perusteet 5 op Luento , osa 1. 1 Kokonaisuudet johon opintojakso kuuluu

Sovellettu todennäköisyyslaskenta B

MTTTA1 Tilastomenetelmien perusteet 5 op Luento Kokonaisuudet johon opintojakso kuuluu

Tilastollisen analyysin perusteet Luento 6: Korrelaatio ja riippuvuus tilastotieteessä

806109P TILASTOTIETEEN PERUSMENETELMÄT I Hanna Heikkinen Esimerkkejä estimoinnista ja merkitsevyystestauksesta, syksy (1 α) = 99 1 α = 0.

POPULAATIO. Oikeastaan arvot, joista ollaan kiinnostuneita (mitatut numeeriset suureet, luokittelut).

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Johdatus tilastotieteeseen Testit suhdeasteikollisille muuttujille. TKK (c) Ilkka Mellin (2005) 1

Tilastollisen analyysin perusteet Luento 10: Johdatus varianssianalyysiin

Tilastollisen analyysin perusteet Luento 2: Tilastolliset testit

3.6 Su-estimaattorien asymptotiikka

Sovellettu todennäköisyyslaskenta B

Tutkimusongelmia ja tilastollisia hypoteeseja: Perunalastupussien keskimääräinen paino? Nollahypoteesi Vaihtoehtoinen hypoteesi (yksisuuntainen)

Sovellettu todennäköisyyslaskenta B

031021P Tilastomatematiikka (5 op) viikko 5

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Yksisuuntainen varianssianalyysi (jatkoa) Heliövaara 1

Odotusarvoparien vertailu. Vilkkumaa / Kuusinen 1

edellyttää valintaa takaisinpanolla Aritmeettinen keskiarvo Jos, ½ Ò muodostavat satunnaisotoksen :n jakaumasta niin Otosvarianssi Ë ¾

Yksisuuntainen varianssianalyysi (jatkoa) Kuusinen/Heliövaara 1

1. Tilastollinen malli??

VALTIOTIETEELLINEN TIEDEKUNTA TILASTOTIETEEN VALINTAKOE Ratkaisut ja arvostelu < X 170

Teema 8: Parametrien estimointi ja luottamusvälit

Tilastollisen analyysin perusteet Luento 1: Lokaatio ja hajonta

Tilastotieteen kertaus. Vilkkumaa / Kuusinen 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi. Viikko 5

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Harjoitus 2: Matlab - Statistical Toolbox

Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus KE (2014) 1

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Luentokalvoja tilastollisesta päättelystä. Kalvot laatinut Aki Taanila Päivitetty

Sovellettu todennäköisyyslaskenta B

Otoskoko 107 kpl. a) 27 b) 2654

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Satunnaislukujen generointi

9. laskuharjoituskierros, vko 12-13, ratkaisut

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Tilastollisen analyysin perusteet Luento 4: Testi suhteelliselle osuudelle

Ilkka Mellin Tilastolliset menetelmät. Osa 3: Tilastolliset testit. Tilastollinen testaus. TKK (c) Ilkka Mellin (2007) 1

¼ ¼ joten tulokset ovat muuttuneet ja nimenomaan huontontuneet eivätkä tulleet paremmiksi.

r = n = 121 Tilastollista testausta varten määritetään aluksi hypoteesit.

Mat Tilastollisen analyysin perusteet, kevät 2007

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Batch means -menetelmä

Tilastollinen testaaminen tai Tilastollinen päättely. Geneettinen analyysi

5.7 Uskottavuusfunktioon perustuvia testejä II

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Mat Tilastollisen analyysin perusteet, kevät 2007

Sovellettu todennäköisyyslaskenta B

riippumattomia ja noudattavat samaa jakaumaa.

/1. MTTTP1, luento Normaalijakauma (jatkoa) Olkoon Z ~ N(0, 1). Määritellään z siten, että P(Z > z ) =, graafisesti:

Satunnaismuuttujien mittausasteikot 93

Johdatus tilastotieteeseen Tilastolliset testit. TKK (c) Ilkka Mellin (2005) 1

Johdatus varianssianalyysiin. Vilkkumaa / Kuusinen 1

Todennäköisyyden ominaisuuksia

10. laskuharjoituskierros, vko 14, ratkaisut

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Otoskeskiarvo on otossuure, jonka todennäköisyysjakauma tiedetään. Se on normaalijakauma, havainnollistaminen simuloiden

pisteet Frekvenssi frekvenssi Yhteensä

Estimointi. Luottamusvälin laskeminen keskiarvolle α/2 α/2 0.1

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Sovellettu todennäköisyyslaskenta B

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

/1. MTTTP5, luento Normaalijakauma (jatkuu) Binomijakaumaa voidaan approksimoida normaalijakaumalla

Jos nollahypoteesi pitää paikkansa on F-testisuuren jakautunut Fisherin F-jakauman mukaan

Lisätehtäviä ratkaisuineen luentomonisteen lukuun 6 liittyen., jos otoskeskiarvo on suurempi kuin 13,96. Mikä on testissä käytetty α:n arvo?

dx=5&uilang=fi&lang=fi&lvv=2014

Tilastollinen päättömyys, kevät 2017 Harjoitus 6B

Tilastolliset testit. Tilastolliset testit. Tilastolliset testit: Mitä opimme? 2/5. Tilastolliset testit: Mitä opimme? 1/5

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

805306A Johdatus monimuuttujamenetelmiin, 5 op

Valitaan testisuure, jonka jakauma tunnetaan H 0 :n ollessa tosi.

Transkriptio:

Tutkimustiedonhallinnan peruskurssi Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo hannu.toivonen, marko.salmenkivi, inkeri.verkamo@cs.helsinki.fi Helsingin yliopisto Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi 1/177 Kevät 2004

Satunnaistamistestaus Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 133/177 Kevät 2004

Satunnaistamistestaus: sisältö hypoteesin testauksen perusteet p-arvon arvioiminen satunnaistamalla kahden joukon vertaaminen parittainen testaus riippumattomuuden testaaminen Lähde: Cohen, luvut 4.2, 4.3, 5.3 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 134/177 Kevät 2004

Hypoteesin testaus tarkastellaan aiempaa shakkiesimerkkiä shakkiohjelma A voitti B:n 10 ottelussa 15:stä eli osuuden f = 0.67 onko A parempi kuin B? f on otoksen tunnusluku; olkoon π populaation parametri, joka kuvaa A:n todennäköisyyden voittaa satunnainen ottelu jos A ja B ovat yhtä hyviä niin π = 0.5 tämä on nollahypoteesi vaihtoehtoinen hypoteesi: A on parempi kuin B Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 135/177 Kevät 2004

Otosjakauma ja hypoteesin testaus nollahypoteesin vallitessa tunnusluku f noudattaa jotain tiettyä otosjakaumaa (binomijakauma, mutta sillä ei tässä ole merkitystä) f:n otosjakauma määrää, millä todennäköisyydellä 15 pelin otoksessa havaitaan f 0.67 jos todennäköisyys P (f 0.67) on suuri, niin havaittu A:n kannalta suotuisa tulos voidaan saada sattumalta ei voida päätellä luotettavasti että A on parempi kuin B Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 136/177 Kevät 2004

jos todennäköisyys P (f 0.67) on pieni, on epätodennäköistä että A:n kannalta niin suotuisa tulos on saatu sattumalta hylätään nollahypoteesi π = 0.5 p = P (f 0.67) on tuloksen p-arvo mitä pienempi p-arvo, sitä tilastollisesti merkitsevämpi tulos jos p 0.05, niin A on parempi kuin B merkitsevyystasolla α = 0.05 tyypillisiä merkitsevyystasoja (raja-arvoja merkitsevyydelle): 0.05, 0.01, 0.001 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 137/177 Kevät 2004

Satunnaistamistestaus nollahypoteesin mukainen tunnusluvun otosjakauma on usein tuntematon p-arvon laskeminen analyyttisesti voi olla vaikeaa tai mahdotonta otosjakaumaa voidaan yleensä estimoida helposti Monte Carlo -menetelmin esimerkissä 15 ottelun turnausten simulointi arvojen jakauma on estimaatti otosjakaumalle Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 138/177 Kevät 2004

Nollahypoteesi Valinta, esim. kahden joukon tai otoksen vertaaminen nollahypoteesi: joukot ovat samasta jakaumasta riippuvuus tai korrelaatio asioiden välillä nollahypoteesi: yhteydet ovat satunnaisia Testaaminen sekoitetaan data nollahypoteesin mukaisesti = permutation test = (re)randomization test generoidaan monta permutaatiota saadaan nollahypoteesin mukainen jakauma Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 139/177 Kevät 2004

Esimerkki Sovellus: opiskelijavalinta opiskelijavalintaperusteita muutettiin käytössä myös erillinen, samana pysynyt testi osalle opiskelijoista hajonta testin pisteissä näyttää kasvaneen hajonnan mittana kvartiilivälin pituus: IQR = 0.75-fraktiili 0.25-fraktiili testattava muuttuiko tulos merkittävästi käytettävissä 25 opiskelijan tulokset viime vuodelta 20 opiskelijan tulokset tältä vuodelta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 140/177 Kevät 2004

Esimerkki viime vuonna IQR = 6, tänä vuonna IQR = 8.5 erotus d = 6 8.5 = 2.5 millä todennäköisyydellä erotus d = 2.5 saatiin sattumalta? nollahypoteesi: vaihtelu ei tänä vuonna ole viime vuotta suurempaa, vaan opiskelijat ovat samasta (tuntemattomasta) populaatiojakaumasta kuka tahansa opiskelijoista voisi olla kummassa ryhmässä tahansa nollahypoteesin mukainen tilanne saadaan sijoittamalla opiskelijat ryhmiin satunnaisesti Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 141/177 Kevät 2004

Kahden joukon vertaaminen Algoritmi: Olkoon S A ja S B kaksi otosta, joiden koot ovat N A ja N B. Olkoon θ = f(s A, S B ) otoksista laskettu tunnusluku. Toista K kertaa (i = 1,..., K) sekoita joukkoyhdisteen S A+B = S A S B alkiot sijoita N A ensimmäistä pseudo-otokseen A i ja loput N B alkiota Bi :hin laske θi = f(a i, Bi ) Käytä θi :n jakaumaa sen testaamiseen, mikä on θ:n todennäköisyys nollahypoteesin vallitessa Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 142/177 Kevät 2004

p-arvon arvioiminen oletetaan, että vaihtoehtoinen hypoteesi on muotoa θ on suurempi kuin voisi odottaa sattumalta p = P (θ i θ nollahypoteesi on voimassa) {θ i θ 1 i K} K ts. p max i {(K i)/k θ (i) θ} vastaavasti ilmeisin muutoksin jos vaihtoehtoinen hypoteesi on, että θ on satunnaista pienempi nämä ovat yksihäntäisiä testejä jos hypoteesi on muotoa θ poikkeaa sattumanvaraisesta, käytetään kaksihäntäistä testiä: jos θ θ i :n mediaani: p 2 {θ i θ 1 i K} K jos θ θ i :n mediaani: p 2 {θ i θ 1 i K} K Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 143/177 Kevät 2004

Merkitsevyystasot usein käytetään (ennalta asetettuja) kynnysarvoja tilastollisen merkitsevyyden kriteereinä testi on merkitsevä tasolla α jos p α merkitsevyystasoa α vastaavat testisuureen kynnysarvot ovat satunnaistamistestin järjestettyjen tulosten θ (1),..., θ (K) α-fraktiili ja (1 α)-fraktiili (yksihäntäiset testit) (1 α)-fraktiiliväli (kaksihäntainen testi) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 144/177 Kevät 2004

Satunnaistamistestien tulkinta Satunnaistamistestien tulkinta aina mahdollisimman konservatiivinen Esim. θ(1) = 3, θ (2) = 4,..., θ (7) = 4, θ (8) = 10,..., θ (K) = 231 p = P (θi 4) 7/10 p = P (θi 1) 0! p < 1/K Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 145/177 Kevät 2004

Parittainen testi kaksi robottia osallistuu robottien 10-otteluun A saa tehtävistä keskimäärin enemmän pisteitä kuin B onko A merkitsevästi parempi kuin B? nollahypoteesi: robotit ovat yhtä hyviä kunkin ottelun tulos olisi voinut yhtä hyvin olla toisin päin satunnaistaminen: vaihda satunnaisesti tehtävien sisällä robottien tuloksia keskenään huom: kukin pistemäärä liittyy tiettyyn tehtävään, pisteiden vaihto tehtävien kesken ei perusteltua Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 146/177 Kevät 2004

Riippumattomuustesti tarkastellaan esim. kahta aineiston attribuuttia onko niillä merkitsevää tilastollista riippuvuutta? Algoritmi: Olkoot S A muuttujan A saamien arvojen jono ja S B muuttujan B saamien arvojen jono. Olkoon θ = f(s A, S B ) jonoista laskettu tunnusluku (esim. korrelaatio) Toista K kertaa (i = 1,..., K): sekoita S B :n järjestys satunnaiseksi laske θ i = f(s A, S B ) Käytä θ i :n jakaumaa sen testaamiseen, mikä on θ:n todennäköisyys nollahypoteesin vallitessa Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 147/177 Kevät 2004

Satunnaistamistesti ei tarvitse oletuksia jakaumista ja niiden parametreista ei estimoi populaation parametreja käyttää vain saatavilla olevaa dataa tarvitsee tyypillisesti kaksi aineistoa tai kaksi muuttujaa, joita vertaillaan tuottaa likimääräisen p-arvon täydellinen permutointi tuottaisi tarkan arvon, mutta harvoin mahdollinen voi olla laskennallisesti vaativaa Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 148/177 Kevät 2004

Esimerkki sovellus: geenikartoitus eli tietylle perinnölliselle sairaudelle altistavan geenin paikantaminen aineisto koostuu sairaista ja terveistä ihmisistä lisäksi tietoja kunkin ihmisen perimän mutaatioista (geenimerkeistä) kartoitusmenetelmän ensimmäisessä vaiheessa muodostetaa kullekin mutaatiolle malli, joka ennustaa mutaation perusteella onko henkilö sairas vai terve taudille altistavaa mutaatiota käyttävä malli erottelee sairaat hyvin terveistä mutta hyvä malli voi löytyä sattumalta, jos testattavia mutaatioita on paljon Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 149/177 Kevät 2004

Esimerkki (2) mallin hyvyyden arviointi satunnaistamistestillä riippumattomuustesti: sairas/terve-luokittelu ei riipu perimästä satunnaistetaan luokat kuinka hyviä malleja menetelmä onnistuu löytämään nollahypoteesin vallitessa? geenin ennustetaan sisältävän sen mutaation, joka saa parhaan p-arvon Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 150/177 Kevät 2004

Hypoteesin testaus: yhteenveto mitä testattava hypoteesi koskee? usein eroavuus (kahden otoksen/aineiston välillä) tai tilastollinen riippuvuus (kahden muuttujan välillä) usein jokin rakenteellinen asia: kahden joukon suhde, kahden muuttujan suhde, asioiden järjestykseen liittyvä asia nollahypoteesia vastaa yleensä rakenteen satunnainen sekoittaminen vaihtoehtoinen ja nollahypoteesi ovat yksinkertaisia hypoteesissa, että A:n todennäköisyys voittaa B on 0.67, on itse asiassa kyse parametrin estimoinnista, josta puhutaan erikseen Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 151/177 Kevät 2004

hypoteesin testaaminen satunnaistamalla toista satunnainen sekoittaminen monta kertaa p-arvo on niitten satunnaistamisten osuus, jotka ovat vähintään yhtä hyviä saatu p-arvo on likimääräinen karkea nyrkkisääntö: kohtuullinen tarkkuus K = 50/α satunnaistamisella, missä α on merkitsevyystaso (tai p-arvo) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 152/177 Kevät 2004

Hypoteesin testaus: kertausta hypoteesin testaus: nollahypoteesi, vaihtoehtoinen hypoteesi p-arvo: todennäköisyys saada havaittu tai voimakkaampi tunnusluku nollahypoteesin vallitessa pieni p-arvo tilastollisesti merkitsevä tulos p-arvo perustuu tunnusluvun otosjakauman tarkasteluun otosjakaumaa voidaan estimoida satunnaistamalla miten valitaan nollahypoteesi? millaisella satunnaistamisella mallitetaan nollahypoteesin mukaista tunnusluvun jakaumaa? Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Satunnaistamistestaus 153/177 Kevät 2004

Parametrin estimointi ja bootstrap-otanta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 154/177 Kevät 2004

Bootstrap: sisältö satunnaistaminen vs. bootstrap bootstrap-algoritmi parametrin estimointi luottamusvälit lähde: Cohen, luvut 4.6, 5.2, 5.4 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 155/177 Kevät 2004

Kertaus: satunnaistaminen satunnaistamismenetelmillä voidaan testata otosta koskevia hypoteeseja perusjoukko josta otantaa tehdään, ei ole populaatio vaan käytettävissä olevan otoksen permutaatiot approksoimoitava otosjakauma ei ole tunnusluvun jakauma populaatiossa, vaan otoksen kaikissa mahdollisissa permutaatioissa entä jos haluttaisiin tehdä päätelmiä koko populaatiosta, mutta ei tunneta populaatiojakaumaa? Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 156/177 Kevät 2004

Bootstrap-menetelmät tunnusluvun otosjakaumaa ei tunneta, vain otos mitään oletuksia populaatiosta ei tarvitse tehdä idea: kuvitellaan että otos on koko populaatio ja tehdään otantaa otoksesta! jos otos on edustava, näin voidaan approksimoida minkä tahansa tunnusluvun otosjakaumaa engl. bootstrap = saappaan hihna ; viittaa itsensä nostamiseen kiskomalla omasta saappaasta eli bootstrap-otannan intuitiiviseen mahdottomuuteen (ensikatsomalta) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 157/177 Kevät 2004

Bootstrap vs. satunnaistaminen bootstrap- ja satunnaistamisalgoritmit ovat hyvin samantapaisia satunnaistaminen matkii nollahypoteesin mukaista tilannetta, bootstrap ei pyri muuttamaan/tekemään oletuksia satunnaistamisessa otanta otoksesta (tai kahdesta) tehdään ilman takaisinpanoa bootstrapissa otanta otoksesta tehdään takaisinpanolla alkuperäisen otoksen alkio voi tulla valituksi useita kertoja samaan pseudo-otokseen otanta takaisinpanolla simuloi tilannetta, että otantaa tehdään koko populaatiosta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 158/177 Kevät 2004

Bootstrap-algoritmi Olkoon S otos, jonka koko on N Toista K kertaa (i = 1,..., K) muodosta N:n alkion pseudo-otos S i otoksesta S seuraavasti: toista N kertaa: valitse (takaisinpanolla) satunnainen alkio S:stä ja lisää se otokseen S i laske pseudo-tunnusluvun θ i arvo S i :stä pseudo-tunnusluvun θ i jakauma on tunnusluvun θ bootstrap-otosjakauma Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 159/177 Kevät 2004

Bootstrapin intuitio otoksen arvojen jakauma on paras arvio sille, millaisia arvoja populaatiossa on ja kuinka ne ovat jakautuneet bootstrap ei ole taikatemppu, joka toimii aina tuottaa huonon tuloksen, jos otos on huono tai harvinainen toisaalta tällöin on vaikea tehdä mitään järkevää (paitsi kerätä lisää/uutta dataa) vrt. nollahypoteesin hylkäämisen virhemahdollisuus eli p-arvo joskus menee pieleen Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 160/177 Kevät 2004

Mihin bootstrap soveltuu bootstrapia voi käyttää lukuisiin erityyppisiin tehtäviin hypoteesin testaus tilanteissa joissa populaatiojakaumaa ei tunneta parametrin estimaatin luottamusvälin arvioiminen Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 161/177 Kevät 2004

Tunnusluku vs. parametri populaatiojakauman tunnuslukuja kutsutaan usein parametreiksi, tällöin tunnusluvun arvo on otoksen funktio esim. otoskeskiarvo x, otoskeskihajonta σ x parametrin arvo on koko populaation funktio ( todellinen tunnusluku) esim. satunnaismuuttujan odotusarvo EX = µ X ja keskihajonta V X = σ X käsitteellisesti siis kaksi eri asiaa, vaikkakin lähella toisiaan Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 162/177 Kevät 2004

Jakaumien parametreja muuttujan odotusarvo EX on sen keskimääräinen arvo: EX = xp (X = x) tai xf(x)dx x x varianssi σ 2 X kuvaa jakauman leveyttä: σ 2 X = E(X EX) 2 hajonta eli standardipoikkeama: σ = σx 2 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 163/177 Kevät 2004

Parametrin estimointi arvioi parametrin arvoa, kun tunnetaan otos arvioinnin eli estimoinnin tulos on arvio eli estimaatti termi estimaattori viittaa estimointimenetelmään hyvä estimaattori tuottaa estimaatteja, jotka ovat mahdollisimman usein mahdollisimman lähellä estimoitavan parametrin todellista arvoa luottamusväli (confidence interval) on tapa ilmaista arvion tarkkuutta Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 164/177 Kevät 2004

Otostunnusluvut estimaattoreina yksinkertaisin tapa estimoida parametrien arvoja on käyttää otoksesta laskettuja tunnuslukuja käytetään odotusarvon arviona otoskeskiarvoa, varianssin arviona otosvarianssia, korrelaation arviona otoskorrelaatiokerrointa jne. muitakin menetelmiä on (ei käsitellä tällä kurssilla) populaatiojakaumasta saattaa olla lisätietoa, jota voidaan hyödyntää esim. ns. suurimman uskottavuuden (maximum likelihood) menetelmällä Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 165/177 Kevät 2004

Esimerkki oletetaan, että populaatiojakauman odotusarvoa µ ei tunneta kerätään otos ja lasketaan otoskeskiarvo x = 10.0 käytetään otoskeskiarvoa estimoimaan todellista µ:n arvoa 10.0 saattaa olla tarkka, oikea µ:n arvo luultavasti kuitenkin µ on jossakin lähellä arvoa 10.0, eli µ = x ± ε jos ε on pieni, x on hyvä estimaatti µ:lle Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 166/177 Kevät 2004

Otostunnusluvut estimaattoreina harhattomia ja tarkentuvia estimaattoreita harhattomalle (unbiased) estimaattorille E ˆθ = θ ˆθ on parametrin θ estimaatti tuottaa keskimäärin oikean tuloksen tarkentuvalle (consistent) estimaattorille lim n P { ˆθ θ > ε} = 0 otoksen kokoa kasvattamalla päästään mielivaltaisen lähelle parametrin todellista arvoa Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 167/177 Kevät 2004

Arvion tarkkuus: luottamusväli jos otoksen koko on kiinnitetty, kuinka lähellä todellista arvoa estimaatti sitten on? luottamusväli todennäköisyys sille, että todellinen arvo on tietyllä välillä (johon estimaatti sisältyy) esim. 95 %:n luottamusväli ei tarkoita sitä, että tiedämme 95 %:n varmuudella mikä todellinen arvo on Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 168/177 Kevät 2004

Esimerkki, jatkoa kuinka todennäköistä on, että todellinen populaation keskiarvo µ sisältyy välille x ± ε, kun ε on jokin kiinnitetty arvo? oletetaan että tunnemme populaation odotusarvon, olkoon se µ = 9.75 kerätään 10 uutta otosta asetetaan ensin ε = ε 1 = 0.1, sitten ε = ε 2 = 0.6 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 169/177 Kevät 2004

Luottamusväli, esimerkki todellinen arvo todellinen arvo 8 9 10 11 12 8 9 10 11 12 ε = ε 1 = 0.1 vain yhdessä tapauksessa arvio on välillä [µ ε, µ + ε] µ ± ε on noin 10 %:n luottamusväli ε = ε 2 = 0.6 yhdeksässä tapauksessa arvio on välillä [µ ε, µ + ε] µ ± ε on noin 90 %:n luottamusväli Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 170/177 Kevät 2004

Luottamusväli bootstrapilla Olkoon S otos ja ˆθ otostunnusluku, jota käytetään estimaattina parametrille θ 1. muodosta K kappaletta bootstrap-otoksia S:stä ja laske niistä pseudo-tunnusluku θ i, 1 i K 2. X prosentin luottamusväli on θ(i) :n X%-fraktiili, eli lajittele pseudo-tunnusluvut X = 100(1 2α)-prosentin luottamusvälin approksimaation alaraja on lajiteltujen pseudo-tunnuslukujen Kα:s arvo θ (Kα) K(1 α):s arvo θ K(1 α) ja yläraja Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 171/177 Kevät 2004

Esimerkki alla alkuperäinen otos (korrelaatiokerroin -0.552), sen alla yksi bootstrap-otos (-0.545) x 5 1.75 0.8 5 1.75 5 1.75 1 5 1.75 y 27.8 20.82 44.12 29.41 31.19 28.68 29.53 34.62 20 41.54 id 1 2 3 4 5 6 7 8 9 10 id 1 2 7 1 8 6 3 5 9 1 x 5 1.75 1.75 5 1 5 0.8 1.75 5 5 y 27.8 20.82 29.53 27.8 34.62 28.68 44.12 31.19 20 27.8 Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 172/177 Kevät 2004

Luottamusvälien muodostaminen luottamusvälien muodostaminen ilman bootstrapia perustuu keskeiseen raja-arvolauseeseen tarkastellaan keskiarvon otosjakaumaa otoksen koon N funktiona otoksen koon kasvaessa otosjakauma muistuttaa enemmän ja enemmän normaalijakaumaa jos populaatiojakauman odotusarvo on µ ja keskihajonta σ,normaalijakauman odotusarvo on µ ja keskihajonta σ/ N tuloksen merkittävyys: pätee kaikille mahdollisille populaatioille Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 173/177 Kevät 2004

Esimerkki, jatkoa otoskeskiarvo x = 10.0 = ˆµ jos otoskoko N on suuri, arvo 10.0 on peräisin jakaumasta, joka on likimäärin normaalijakauma odotusarvona µ x = µ ± 1.96σ/ N 95 %:n varmuudella 95 %:n luottamusväli siis kyseisen normaalijakauman 95%-fraktiiliväli σ ei välttämättä ole tunnettu joudutaan käyttämään otoskeskihajontaa Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 174/177 Kevät 2004

Estimaatin luottamusväli riippuu siitä, kuinka suuri varmuus halutaan otoksen koosta N otosjakauman varianssista estimaattorista esim. bootsrap-luottamusväli vs. normaaliusoletus vs.... Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 175/177 Kevät 2004

Luottamusvälit voidaan muodostaa perinteisin menetelmin otostunnusluvuille, joiden otosjakauma on (asymptoottisesti) normaalijakauma ehto ei kuitenkaan päde edes kaikille tavallisimmille tunnusluvuille esim.korrelaatiokertoimen otosjakauma ei ole asymptoottisesti normaali bootstrapilla luottamusväli voidaan muodostaa otoskorrelaatiokertoimelle (todellisen korrelaation estimaatille) Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 176/177 Kevät 2004

Yhteenveto bootstrap perustuu otantaan otoksesta takaisinpanolla simuloi otantaa koko populaatiosta bootstrap-otosjakauma approksimoi tunnusluvun otosjakaumaa koko populaatiossa ei oletuksia populaatiosta ja jakaumista otoksen täytyy vain olla edustava bootstrapia voidaan käyttää parametrin estimoinnissa luottamusvälien arvioimiseen Hannu Toivonen, Marko Salmenkivi, Inkeri Verkamo Tutkimustiedonhallinnan peruskurssi Parametrin estimointi ja bootstrap-otanta 177/177 Kevät 2004